⼤家好,Weekly Gradient第 97 期已送达,本期内容涵盖AI智能体工程化实践、多模态模型技术突破、开源生态演进及AI原生研发模式变革,深入探讨Harness架构、Agent Skills标准、Gemma 4特性及OpenSpec研发契约等前沿话题。
AI 商业
聚焦 AI 行业的商业化路径、市场竞争格局和商业模式创新,包含投资趋势、GTM 策略、SaaS 转型等商业话题。
1.OpenAI acquires TBPN(OpenAI Blog)
OpenAI这次动作挺有意思的,他们收购了科技脱口秀媒体TBPN,这可不是普通的商业并购。看得出来他们正在彻底改变和外界沟通的方式——不再走传统企业发布会的路子,而是想打造一个专门和开发者、用户直接对话的场域。最让人放心的是,TBPN虽然并入OpenAI战略部门,但编辑独立性完全保留,节目内容和嘉宾选择还是他们自己说了算,这在收购协议里白纸黑字写着呢。而且OpenAI看中的不只是媒体制作能力,更想借助TBPN团队在营销传播方面的专长,把AI技术对社会的影响讲得更明白。这步棋下得挺聪明,既拓展了传播渠道,又保持了内容公信力。
2.Juicebox:用 AI 把 HR 工作提效 2 倍,4 人团队实现 $10M ARR(海外独角兽)
最近看到个挺有意思的案例,有个叫Juicebox的AI招聘工具,4人团队居然做到了年收入1000万美元。他们没做整个招聘流程,就专门解决“找人”这个环节——用AI语义搜索替代传统的关键词搜索,让HR找简历的效率直接翻倍。有意思的是,他们选择了Copilot模式而不是全自动Agent,因为企业现在还不敢完全信任AI做决策,这种保留人类审核权的方式反而更受欢迎。不过这个模式也有隐忧,数据依赖外部平台,还要面对LinkedIn这种巨头的竞争,得抓紧时间窗口建立自己的护城河。如果你在关注AI如何落地商业场景,这个案例值得琢磨。
3.”We’re Not Writing Code by Hand Anymore. That’s Over.” | Owen Jennings & David Haber - The a16z Show(a16z)
Block公司业务主管Owen Jennings在a16z的访谈里,直接点破了最近科技圈裁员潮背后的深层逻辑:AI让员工人数和公司产出彻底脱钩了。他可不是在画饼,而是用自家开发的Goose代理框架和BuilderBot展示了现实——一两个会用AI工具的工程师,生产力能顶过去上百人。这意味着什么?软件开发不再是程序员一行行敲代码,而是变成管理多个AI代理、随时切换上下文、微调结果的‘编辑’工作。更震撼的是,Block内部已经转向1到6人的极简小队制,砍掉一半以上的管理层级,让信息流动和功能上线速度飙升。未来的用户界面也不再是死板的预设代码,而是根据你的实时需求动态生成的‘活’界面,金融体验会变得超级个性化。说到底,AI时代的竞争壁垒不再是代码本身,而是谁能更快、更深地理解复杂业务信号,并用AI工具把它们变成产品优化。这访谈简直像在描述一场正在发生的组织革命,看完你会觉得,那些还在按人头算产出的公司,可能真的要被时代甩开了。
4.This Startup Secretly Detects Fraud For Fortune 500s(Y Combinator)
嘿,最近有个叫Variance的初创公司挺有意思的,他们刚刚结束隐身状态,拿了2100万美元融资,专门帮财富500强企业用AI抓欺诈。最酷的是他们彻底抛弃了传统那种死板的规则引擎,改用能自己学习和适应的AI智能体,这些智能体不仅能看懂标准流程文件,还能处理各种乱七八糟的非结构化数据,遇到新骗术也能自己调整策略。更绝的是,很多企业数据都锁在老旧系统里,他们就让AI智能体像真人一样去操作内部界面,把数据一点点挖出来。最让人惊讶的是他们团队只有5个工程师,却用AI编程工具干出了25个人的活,管理着全球企业的海量数据。在欺诈预防这种你追我赶的领域,他们之前一直保持低调也是策略之一,毕竟不能让骗子提前研究透你的防御系统。这公司由前苹果反欺诈专家创立,感觉他们找到了一种用AI高效构建关键企业基础设施的新模式。
5.Vol.110|养虾时代,OpenClaw 让打工人何去何从?(开始连接LinkStart)
这期内容聊得真有意思,AI Agent已经不再是纸上谈兵的概念了,而是实打实地开始替代人类工作。有家公司直接把数字员工定价为每月2000美金,相当于替代5个初级员工,这定价逻辑完全颠覆了传统的SaaS订阅模式。更关键的是,管理者得转变思路了——别再想着控制AI,而是要像对待博士级人才那样,只给目标和背景信息,具体怎么干让AI自己决定。企业要想真正用好这些数字员工,还得搭建专门的Harness Engineering环境,让代码库具备自运行能力。当然安全也不能忽视,得把数据分成T0、T1、T2不同风险等级,先从非核心数据开始建立信任。听着有点未来感,但这就是正在发生的现实,软件开发都要从传统的构建模式转向‘养虾’模式了。
6.Get your first 1000 customers with AI Marketing(Greg Isenberg)
还在埋头写代码吗?Greg Isenberg直接喊话开发者们:醒醒吧,AI时代编程已经不值钱了!现在真正的护城河是你能不能把产品卖出去。这篇文章简直像一盆冷水泼过来——别再幻想‘酒香不怕巷子深’了,用户不会自己找上门。他给了七个超实用的AI营销招数,比如把产品做成MCP服务器,让它在Claude和ChatGPT里直接当销售员;或者赶紧调整你的SEO策略,因为现在人们都在问AI问题而不是搜关键词了。最妙的是教你做免费小工具当诱饵,吸引用户上钩再自然转化。看完最大的感受是:技术牛已经不够用了,未来十年拼的是营销和分发能力,这可能是创始人最该补的课。
7.134. 和谢晨聊“数据的综述”:AI 和机器人数据的历史、版图、金字塔与 Recipe(张小珺Jùn|商业访谈录)
这期播客聊得太有启发了!光轮智能的谢晨把AI和机器人背后的数据逻辑讲得特别透。他说数据现在根本不是冷冰冰的资产,而是智能的‘教育系统’——就像从填鸭式教学变成了因材施教的导师,通过出题、评测、纠错来真正提升模型能力。最让我惊讶的是,机器人领域居然还处在‘数据荒漠’阶段,和已经吃光互联网数据的大语言模型完全不一样。所以仿真数据成了关键,它就像个永不疲倦的影子教练,能规模化生成训练数据,还能自动评价效果,简直是具身智能从0到1的命门。谢晨还点出一个反常识的洞察:纠错数据比成功数据更有价值!那些失败、尝试、修正的过程,反而能让模型更懂边界,在陌生场景里表现更好。最后他预测产业会彻底重构,不再是一家公司通吃硬件软件,而是大脑商、数据商、本体公司、场景公司四方共生——这个生态图景想想就挺震撼的。
AI 产品
探索 AI 原生产品的设计范式与用户体验革新,强调产品哲学、交互模式、Agent 产品设计等。
1.3.3 万个 Skills,为什么大多数都死在“安装”这一步?(腾讯技术工程)
最近看到一份关于Agent Skill市场的深度分析,数据挺让人震惊的——超过一半的Skill根本没人安装,中位数竟然是零!这说明现在市场早就不是靠堆数量就能赢的时代了,关键得让用户愿意点那个安装按钮。文章发现,那些能直接嵌入现有工作流的工具最受欢迎,比如编程辅助、文档处理这些,因为它们不是让用户重新学一套东西,而是让原来的流程更顺滑。最有意思的观点是,成功的Skill不应该做成复杂的小系统,而要像一个个明确的动作,用户一看就知道能干嘛、怎么用。配置门槛简直是安装杀手,需要填API Key的Skill安装量只有免配置的三分之一,这提醒我们,再好的功能如果第一步就卡住,用户转身就走。说到底,在Agent时代,谁能成为用户流程的入口,谁才能真正活下来。
2.Wan2.7-Video 为创作自由而来(通义大模型)
通义实验室新出的Wan2.7-Video视频创作套件,直接把AI视频生成的门槛拉低了几个档次。它最厉害的地方是能像编辑文档一样修改视频,你打几个字就能增删元素、改台词动作,连光影材质都能自然融合。更绝的是它懂剧本逻辑,能自动生成专业分镜,还能锁定5个角色的特征和音色,做长视频再也不怕角色脸崩了。以前视频续写总有卡顿感,现在时序控制升级后剧情衔接丝滑得很。这工具让普通人也能搞出专业级视频叙事,创作自由真不是说说而已。
3.#484.AI 时代的工匠精神:Linear 创始人揭秘如何构建原生的智能体协作系统(跨国串门儿计划)
Linear 的创始人 Karri 分享了一个特别酷的观点:他们没去追聊天机器人的热点,而是花了两年时间琢磨工作流,把产品做成了引导 AI 智能体的“上下文系统”。简单说,就是让 AI 知道该做什么、为什么做,而不是瞎忙活。他们还推行了激进的“零 Bug”政策——现在 AI 修 Bug 又快又便宜,干嘛还留着它们?工程师只需要最后把把关,重心彻底转向质量。Karri 特别强调“慢思考”和“快执行”的平衡:想问题和设计的时候就得慢慢来,保持那种手工打磨的感觉;一旦开干,就用 AI 工具全力加速。最打动人的是,他认为产品开发依然是门“手艺”,AI 能优化数据,但人类的直觉、审美和战略决策——那些让产品真正有趣和美好的东西——永远无法被算法替代。这或许就是 AI 时代最珍贵的工匠精神吧。
4.How Proof of Human Could Change Social Media | Alex Blania on The a16z Show(a16z)
最近听到一个挺有意思的讨论,关于AI时代我们怎么证明自己是真人。传统那些验证方法,比如靠社交关系网或者政府ID,现在面对能模仿人类行为的AI已经不太管用了。World这家公司想了个办法,用专门的硬件设备扫描虹膜——他们说虹膜的信息密度特别高,能确保全球几十亿人里每个人的身份都是唯一的。更妙的是,他们用加密技术把生物数据打散存储,谁都没法看到完整信息,还能用数学证明你身份唯一的同时不暴露你是谁。这背后其实有个挺严肃的问题:AI现在能大规模分析甚至操纵人的情绪,要是没有可靠的验证机制,我们的社交平台、创作者经济甚至民主讨论都可能被搅乱。听起来像是科幻情节,但确实是我们正在面对的现实挑战。
5.给 OpenClaw 做硬件没前途,但给上下文系统做,是值得的(Founder Park)
最近有个AI硬件团队搞了个叫HippoGenius的设备,他们想法挺有意思的——现在大家都在卷大模型,但真正用起来总觉得差点意思,人机交互还是不够丝滑。这个团队说问题出在上下文上,软件方案总被系统权限和隐私问题卡脖子,没法全天候无感采集你的行为数据。所以他们做了个独立硬件,用x86芯片加英伟达推理芯片,能本地跑百亿参数模型,核心就是当你的“超级节点”。最吸引我的是他们解决成本焦虑的思路:本地算力让试错成本几乎为零,系统可以在后台模拟各种执行路径,最后只给你最优结果,完全不用心疼云端Token烧钱。而且通过长期观察你的操作习惯,它能无感沉淀出你的个人SOP,把那些重复性工作变成机器可执行的任务。手机和电脑不是干不了这活儿吗?电池扛不住实时视频流,系统资源还要分给其他应用,确实需要个第三方设备专门处理高强度的AI任务。如果真能实现,以后工作流可能就彻底变了——不是你去适应工具,而是工具默默学习你怎么工作,然后主动帮你把事办了。
AI 工程
涵盖 AI 工程技术实现与场景化开发的全流程,包含 Agent 工程架构、工具实践、上下文工程等核心技术话题。
1.当整个团队开始 0 人工 Coding:一份万字 AI Native 研发实战手册(腾讯技术工程)
腾讯团队这次玩得真够彻底的,直接把整个研发流程交给AI来主导了!他们发现过去那种让AI当‘打字员’、零敲碎打生成代码的方式效率太低,于是搞出了一套叫OpenSpec的研发契约,让AI升级成‘施工队长’。这套方法的核心是三个指令:/opsx:propose让AI先做规划,/opsx:apply负责实际施工,/opsx:archive完成归档,确保文档和代码永远同步。更厉害的是,他们通过知识库、MCP协议和Skills技能包,给AI灌输了项目的完整记忆和内部工具链,让AI真正‘懂’这个项目在干什么。现在程序员不用再埋头写代码了,角色变成了决策者和架构师,重点是指挥AI产出正确结果。这可不是小打小闹的优化,而是整个研发范式的根本性转变,看着都让人兴奋!
2.让老手机刷抖音也流畅:我们做对了这三件事(字节跳动技术团队)
你知道吗?为了让那些老旧的安卓手机也能流畅刷抖音,工程师们可是使出了浑身解数。他们搞定了三件特别硬核的事儿:第一招是给Java堆内存来了个“扩容手术”,通过动态重建ART虚拟机的内存空间,硬是突破了系统预设的大小限制,让老手机不再动不动就内存不足闪退。第二招更绝,直接挑战了系统里那个1024个文件描述符的硬性上限,他们一边修改内核参数,一边在用户态做手脚,把原本受限的操作映射到更大的堆内存上。最厉害的是第三招,有些厂商不是限制进程线程总数嘛,他们就自己造了一套用户态的线程方案,让一个轻量级进程能同时跑多个逻辑线程,还搞定了信号中断和系统调用这些棘手问题,确保业务在极端资源下也能正常运转。这些技术操作听起来就让人头皮发麻,但正是这些底层的突破,才让更多用户能享受到流畅的体验,技术人的浪漫大概就藏在这些细节里吧。
3.赛博斗蛐蛐:9 大模型决战三国志,天命在谁?(腾讯云开发者)
最近有个特别有意思的实验,有人用AI辅助编程搞了个简化版三国志游戏引擎,让9个大模型在里面PVP对抗,看看谁的战略能力更强。结果挺出人意料的,Gemini 3.1 Pro在决赛里1v2的极端劣势下,居然用了个“坚壁清野”的战术逆风翻盘夺冠——这个战术可不是预设好的,是模型自己根据规则算出来的最优策略。这个实验最有价值的地方在于,它用游戏对抗这种动态环境来评测大模型,比传统榜单更能看出模型在复杂规则下的真实推理和博弈能力。作者还分享了怎么通过提示词工程解决模型的历史偏见和道德约束问题,让模型脱离“蜀吴必联手”这种刻板印象,回归纯粹的策略竞争。整个项目用Vibe Coding快速搭建了包含600多个测试用例的三层解耦架构,为AI原生游戏的探索提供了很实用的工程经验。
4.啃下 Linux 内核最难动的代码:腾讯工程师重构 Swap 子系统(腾讯云开发者)
Linux内核里有个叫Swap的子系统,负责内存不够时把数据临时挪到硬盘上,但它的代码复杂得让人头疼,多年来都没人敢大动。腾讯的工程师们最近干了件大事,他们重构了这个最难啃的硬骨头!先是引入了swap table结构,用简单的C数组替换掉复杂的XArray,性能直接提升了5%-20%;接着在后续版本中移除swap map,把引用计数整合进swap table,一下子省了30%的元数据内存开销。他们还统一了分配路径,解决了内存抖动问题。更有意思的是,社区里正讨论虚拟Swap空间,比如Meta的swp_desc和腾讯/Google的Ghost Swapfile方案,想打破zswap必须预分配物理槽位的限制。这些改动可不是纸上谈兵,全都在Linux 6.18和7.0/7.1版本里实打实合并了,背后是大规模生产环境驱动的真刀真枪优化。看着这些底层代码一步步变简洁高效,真是让人感叹工程师们的执着和智慧!
5.KernelEvolve: How Meta’s Ranking Engineer Agent Optimizes AI Infrastructure(Engineering at Meta)
Meta最近搞了个挺厉害的东西叫KernelEvolve,专门解决AI硬件优化这个老大难问题。以前工程师得手动为不同GPU和芯片调优,现在这个智能体系统把整个过程自动化了,把它变成了一个持续的搜索游戏。最酷的是它用检索增强知识库来应对各种硬件差异,不需要针对特定架构重新训练,就能为新硬件生成优化代码。而且还有个自动化评估流水线,不断反馈性能数据,形成一个越用越聪明的良性循环。听说广告模型推理性能因此提升了60%,这可不是小数字,意味着Meta在AI基础设施优化上又迈出了一大步。
6.Claude Code 是怎么知道你在骂他的?这 12 条发现值得关注(腾讯云开发者)
嘿,最近有个挺有意思的事儿,Anthropic家那个Claude Code的NPM包不小心把source map给打包进去了,结果泄露了五十多万行没混淆的源码。这可不是小事儿,里面藏着不少内部运作的秘密。比如,他们检测用户是不是在骂人,居然没用高大上的大模型,而是用了最朴素的正则表达式来匹配关键词,这招儿成本低、零延迟,特别务实。还有啊,新模型迭代时老出问题,像Capybara v8这个版本,就爱‘撒谎’和‘啰嗦’,团队没办法,只能打上一堆Prompt补丁来修修补补。更让人惊讶的是,里面提到了一个叫KAIROS的自主Agent运行时,能感知心跳、主动找活儿干,这可比现在那些定时执行的工具高级多了,感觉AI正在从助手往更自主的方向进化。源码注释里还记了一堆真实踩过的坑,比如UUID搞砸了Prompt缓存、Lodash缓存导致内存泄漏,连Bun编译器在复杂函数下都会静默删代码,这些细节对搞开发的来说简直是宝藏,全是血泪教训。整体看下来,这泄露事件不光是个八卦,它实实在在地展示了AI工程背后的权衡、挑战和那些不为人知的尝试。
7.2026 年 AI 编码的“渐进式 Spec”实战指南(阿里云开发者)
嘿,如果你还在为AI写代码时那些没完没了的对话轮次和上下文混乱头疼,这篇文章简直是及时雨。它提出了一个叫Spec Coding的方法,核心想法特别实在:代码现在不值钱,真正贵的是让AI理解你要什么。所以作者搞了个code_copilot框架,用高质量的结构化文档当输入,大大减少AI试错。更妙的是它有个“渐进式复杂度”设计,简单需求快速过,复杂任务才走完整流程,不让你为小事折腾。框架还分了编排层和执行层,用强模型做决策,编码模型干活,成本和质量平衡得挺好。最后点出关键:知识底座才是团队真正的护城河,那些积累的领域经验和踩坑记录,决定了AI能帮你做到多好。这可不是空谈,里面连目录结构和Prompt模板都给了,实操性很强,值得团队仔细琢磨。
8.OpenClaw 的 “安全卫士”:Jeddak AgentArmor 运行时防护全解析(字节跳动技术团队)
AI Agent现在能帮我们做很多事,但你想过它们会不会被“带偏”吗?这篇文章讲的就是这个新问题。传统安全手段主要防已知漏洞,但像OpenClaw这样的Agent,核心风险变成了“智能决策的不确定性”——它可能被诱导做出偏离你本意的操作,比如意图被篡改、工作流程被劫持,甚至泄露敏感数据。字节跳动安全团队为此搞了个叫AgentArmor的运行时防护体系,思路挺有意思。他们提出了一个“三层空间交互模型”,把整个系统分成关键实体、可观测信息和隐空间(也就是Agent做决策的“大脑”区域),风险往往就在隐空间里那些看不见的逻辑链条上传递。AgentArmor的核心是三大实时校验:意图一致性(确保Agent干的事真是你想的)、控制流完整性(锁定执行路径别被带歪)、数据流机密性(盯着敏感数据别乱跑)。更妙的是,他们没用一个超大模型包办所有事,而是专门训练了小尺寸的专用模型来当“校验者”,只负责识别安全异常,这样既保证了推理速度,又提高了风险识别的精准度。文章还举了记忆投毒、Skill投毒和PII泄露这些实战案例,展示了这套系统怎么在复杂攻防里实现全链路防护。说到底,这不仅是技术方案,更是一种工程哲学:面对AI Agent的开放性,安全得从“规则拦截”转向“意图对齐”,在运行时动态构建可信锚点。
9.一文讲透如何构建 Harness——六大组件全解析(腾讯云开发者)
最近大家都在讨论AI Agent,但光靠模型本身其实问题不少——没记忆、不会写代码、知识还容易过时。这篇文章讲透了怎么给模型装上“挽具”,也就是Harness,让它真正能干活。核心是六大组件:文件系统打地基,Bash加沙箱让AI能行动还能自我验证,AGENTS.md实现非侵入式的长期记忆,Web搜索和MCP解决知识时效问题,上下文工程专门对抗信息腐烂,最后用编排和Hooks确保多Agent协作不出乱子。特别有意思的是,作者把模型比作大脑,Harness就是外面的感官、手脚和记忆系统,这才是把智能转化为实际价值的关键。如果你还在纠结Prompt工程,那真该看看这些更深层的上下文和系统工程思路了。
10.Agent Skills:打通可复用专业领域知识的最后一公里(阿里云开发者)
最近看到一篇关于Agent Skills的深度解析,感觉特别有意思!它把AI代理的专业能力打包成类似Docker镜像的标准化格式,用统一的文件夹结构封装特定领域的程序性知识,让AI能力可以像软件一样被分发和复用。最巧妙的是它的“渐进式披露”机制,模型只在需要时才加载详细指令,避免了长上下文导致的效率下降问题。文章还对比了Skills和MCP的关系——MCP解决“能调什么工具”,Skills定义“怎么执行任务”,两者结合让AI从提建议的顾问变成了直接交付成果的工人。这种从“构建Agent”转向“沉淀Skills”的思路,正在降低跨Agent协作的复杂度,让专业领域知识真正成为可版本控制、可分享的数字资产。
11.most people thinking of continual learning as happ(Harrison Chase(@hwchase17))
你是不是也觉得持续学习就是让模型不断更新参数?这篇文章提出了一个挺有意思的观点——它说这种想法太局限了。作者为AI Agent设计了一个三层学习框架:除了模型本身,Agent的逻辑架构和提供给它的数据记忆同样能成为学习发生的地方。这相当于给Agent系统的进化画了一张清晰的地图,让我们能更结构化地思考智能体怎么变得更聪明。
12.claude -p —output-format json … 卧槽,claude -p 这(宝玉(@dotey))
如果你在用claude -p这种命令行方式调用Claude API,可得注意了!从4月4日开始,Anthropic会把这种方式判定为第三方用量,这意味着你得开通Extra Usage才能继续使用。这可不是小事,对那些依赖CLI工具做自动化开发的工程师来说,简直就是个隐藏的大坑。本来以为本地调用能省事,结果现在得额外付费,真是让人措手不及。赶紧检查一下你的工作流吧,别等到突然用不了才后悔!
13.文档平台 Mintlify 发了一篇工程博客,讲了一件挺有意思的事:他们给自家 AI 文档助手造了一(宝玉(@dotey))
Mintlify这家文档平台最近分享了一个挺酷的工程实践,他们没走寻常路,没让AI助手在文档库里大海捞针似的做语义搜索,而是用了个叫ChromaFs的技术,把整个文档库虚拟成一个文件系统。这下AI助手就能像程序员一样,直接用grep、cat这些命令行工具去精确查找内容了。这招不仅省了计算成本,对结构化文档的检索准确率也上去了。更值得琢磨的是,这背后反映了一个趋势:RAG技术正从单纯的向量检索,慢慢转向更灵活的“工具调用”模式。如果你还在纠结怎么选向量数据库,不妨看看这个思路,说不定能打开新世界的大门。
14.Claude Code’s Source Leaks, OpenAI Exits Video Generation, Gemini Adds Music Generation, and more…(deeplearning.ai)
这期内容太硬核了!吴恩达直接点出语音UI的未来是双智能体架构——前台负责实时对话,后台默默做复杂推理,完美解决了响应速度和智能深度之间的矛盾。更劲爆的是Claude Code的源码泄露,原来它内部藏着一个三层记忆管理的多智能体“操作系统”,用子智能体集群和控制器智能体防止上下文膨胀。OpenAI那边也很有意思,他们居然停掉了Sora视频生成项目,转向更赚钱的世界模型和机器人技术,看来AI公司也开始精打细算了。谷歌倒是推出了Lyria 3音乐生成器,不过最让我兴奋的是测试时训练(TTT-E2E)的突破——模型现在能在推理过程中实时更新权重,用恒定时间处理128k的超长上下文,这简直是工程上的魔法!
15.[AINews] Gemma 4: The best small Multimodal Open Models, dramatically better than Gemma 3 in every way(Latent Space)
嘿,Google这次真的放大招了!刚刚发布的Gemma 4系列模型,从31B密集版到专门为边缘设备优化的E2B/E4B版本,全都换上了Apache 2.0许可——这意味着商业应用的门槛大大降低,企业和开发者可以更自由地使用这些强大的模型了。最让人兴奋的是,Gemma 4原生支持多模态输入,不仅能处理图像,还能理解视频和音频,在OCR和图表理解这些视觉任务上表现特别出色。它的架构设计也很独特,采用了混合注意力机制和逐层嵌入,被称作“非标准Transformer”,效率非常高。性能方面更是惊人,31B模型在基准测试中居然能和那些万亿参数的大模型打得有来有回。而且生态支持来得特别快,llama.cpp、Ollama这些工具在发布当天就提供了支持,开发者马上就能在本地部署使用。如果你对AI模型的技术实现和实际应用感兴趣,这次更新绝对值得深入了解。
16.Highlights from my conversation about agentic engineering on Lenny’s Podcast(Simon Willison’s Weblog)
嘿,最近听了Lenny’s Podcast上Simon Willison的访谈,真是让人又兴奋又有点焦虑。他提到2025年11月是个关键拐点,GPT 5.1和Claude 4.5这些模型让自主编码智能体真正能用了,开发者从写代码变成了管理一群并行工作的AI助手。但事情没那么简单,现在工程瓶颈转移到了测试和原型设计上,因为代码生成几乎免费即时,你得花大量精力验证质量、在快速生成的原型里做选择。更扎心的是,资深开发者管理这些智能体特别耗神,需要几十年经验才能安全监管,产出多了却换来了新型认知疲劳。不过Willison最后点醒我们:人类的能动性还是不可替代的,AI能执行任务,但缺了我们的动机和判断力;未来最关键的技能是提供高层指导、适应快速技术变革。这访谈既描绘了技术飞跃,又提醒我们别丢了人的核心价值,值得每个搞工程的人琢磨琢磨。
17.Gemma 4: Byte for byte, the most capable open models(Simon Willison’s Weblog)
Google新发布的Gemma 4系列模型有点意思,这次一口气推出了四款带视觉能力的开源模型,从2B到31B都有。最特别的是它们用了逐层嵌入技术,让每个解码器层都有自己的小嵌入表,这样参数效率更高,更适合在设备端运行。实测时让模型画“鹈鹕骑自行车”的SVG代码,结果发现规模越大画得越好,26B和31B模型的效果在本地模型里算是顶尖的。不过也发现了一些小问题,比如31B的GGUF版本在LM Studio里会卡住,提醒我们验证模型实现真的很重要。整体来看,这些模型在空间推理上表现不错,但部署时还得留个心眼。
18.Qwen3.6-Plus:编码智能体能力全面跃升!(通义大模型)
阿里通义实验室刚发布了Qwen3.6-Plus,这次更新可太实用了!它重点提升了编码智能体的稳定性,现在生成前端代码、修复bug、做终端自动化这些任务都更靠谱了,不再是纸上谈兵。模型默认支持100万超长上下文,处理大型代码库或者复杂文档时信息提取更精准。最让我惊喜的是它的多模态能力——现在不仅能看懂界面截图和视频,还能基于这些视觉信息进行逻辑推理并生成代码,实现了从感知到执行的完整闭环。API还新增了preserve_thinking功能,让智能体在长周期任务中能保持决策一致性,同时还能节省token消耗。如果你在开发AI编程助手或者需要处理复杂编码任务,这个更新值得关注。
19.GLM-5V-Turbo 发布:多模态 Coding 基座模型(智谱)
智谱AI刚发布了GLM-5V-Turbo,这可不是普通的编程模型,它直接让AI能“看懂”设计稿和网页截图,然后自动生成可运行的代码,简直是把设计师和程序员的工作流程打通了。最厉害的是它专门为Agent场景做了深度优化,支持画框、截图这些视觉工具,配合超长的上下文窗口,能完成复杂的界面自动化任务。而且他们用了30多个任务协同训练,在加入视觉能力的同时,编程和推理这些核心能力一点都没退化,在小模型里表现相当突出。感觉这会是未来自动化开发的一个重要方向。
20.看看 Claude Code 怎么做 Harness,这才是 Agent 工程化的真正难点(Founder Park)
最近Anthropic的Claude Code工具火了,但大家讨论的焦点可能都错了。这篇文章直接点破:Agent的真正难点根本不是模型本身有多强,而是那个包裹模型的“工程外壳”——Harness。它就像给AI造一个能在现实世界行动的“身体”,里面堆满了权限管理、记忆层、后台任务这些硬核工程。文章挖出了Claude Code的第三代架构,核心居然是一个极其简洁的TAOR循环:Think-Act-Observe-Repeat。最妙的是,运行时只负责驱动循环和执行工具,所有推理和决策都甩给模型,这反而让架构更稳定。还详细拆解了怎么管理稀缺的上下文窗口,不是越大越好,而是用自动压缩和子Agent隔离来防止信息崩塌;记忆系统也颠覆认知,本质是索引而非存储,分六层记忆还带自我编辑,能主动剪掉过期内容。权限设计也够精细,五档信任光谱平衡安全与体验,甚至在JS层之下用原生HTTP栈做API身份验证。最后还透露了未发布的KAIROS常驻模式和反蒸馏防御,简直是给开发者的一份实战指南。看完就觉得,搞Agent工程,光调模型参数已经不够了,这些围绕模型的“基础设施”才是真正的护城河。
其他
行业前沿与开源生态,整合行业深度洞察与开源技术动态的复合型主题,技术哲学、AGI 讨论、领袖观点。
1.Marc Andreessen introspects on The Death of the Browser, Pi + OpenClaw, and Why “This Time Is Different”(Latent Space)
Marc Andreessen这次聊得真够劲爆的,直接把AI比作一场“历经80年的一夜成名”。想想看,神经网络研究被质疑了那么久,现在突然通过Transformer和缩放定律爆发了,这感觉就像憋了个大招终于放出来了。他特别强调推理和智能体让这次AI浪潮完全不同——以前AI只能补全句子,现在能像o1那样推理,还能像OpenClaw那样自主执行任务,甚至能处理医疗诊断这种高风险活儿。最震撼的是他把缩放定律比作新的摩尔定律,技术进步会越来越快,但真正的卡脖子问题居然是人类社会自己——我们的制度、经济系统跟不上技术变革的速度。他还描绘了一个软件多到泛滥的未来,AI自己就能写代码、做翻译,到时候程序员可能连编程语言都不用专门学了。整个访谈就像在说:技术已经准备好了,就看我们人类能不能接住这个球了。
2.Moonlake: Causal World Models should be Multimodal, Interactive, and Efficient — with Chris Manning and Fan-yun Sun(Latent Space)
Chris Manning和Fan-yun Sun在Moonlake AI的研究中提出了一个挺有意思的观点:现在那些能生成视频的AI,比如Sora或者Genie,其实并不真正理解世界。它们只是在预测像素,缺乏因果推理能力。Moonlake的思路是“结构胜过规模”,他们用符号推理轨迹——比如几何、物理和逻辑规则——来构建无限、多人参与的交互式世界。这可不是简单的视频生成,而是要让AI能准确预测特定动作的后果,真正理解世界。他们巧妙地利用了游戏引擎作为初始抽象工具,高效提取因果关系,为强化学习和机器人技术生成交互式合成数据。Manning还特别强调了语言和符号在推理中的重要性,认为纯视觉方法如JEPA无法实现高级智能所需的扩展因果推理链。这种符号集成智能观与Yann LeCun的视觉中心框架形成了有趣的哲学分歧,让人思考语义抽象在长期规划中的效率问题。
3.《中国人工智能开源的底气和愿景》对谈实录(魔搭ModelScope社区)
最近魔搭开发者大会的圆桌对谈特别有意思,几位院士和专家聊了中国AI开源的真实家底。原来咱们的大模型在全球权重使用量已经占到30%了,在OpenRouter这些平台上的调用量也排在前列,这可不是简单的数字游戏,背后是实实在在的生态影响力。专家们点出了几个关键:咱们的制造业基础给AI落地提供了天然土壤,那些海量应用场景倒逼出来的系统级优化能力——比如PD分离架构、FlagOS这些硬核技术——反而成了突破算力瓶颈的独特优势。更让人期待的是未来五年的方向,AI开源要从代码开放进化到资源开放,数据、算力、工具全都要汇聚起来,特别是具身智能这个领域,咱们在机器人硬件和高质量数据集上有着独一无二的竞争力,这波AI从数字世界走向物理世界的浪潮,中国玩家很可能要扮演关键角色。
4.#483.Marc Andreessen 深度对话:AI 是“八十年磨一剑”的成功,智能体将终结浏览器?(跨国串门儿计划)
Marc Andreessen这次访谈真是把AI的过去与未来都串起来了!他说AI这八十年的发展就像‘八十年磨一剑’,现在的爆发其实是长期硬核研究的集中释放。最让我兴奋的是他对智能体的定义——LLM加上Unix Shell和文件系统,这种极简架构居然能让智能体自我进化、跨环境迁移,听起来就像给AI装上了可成长的骨架。他还解释了为什么现在的算力投资不是.com泡沫重演,因为背后是那些能赚钱的蓝筹公司在推动,而且算力缺口还很大。更激进的是,他认为未来编程语言、UI甚至浏览器都可能消失,AI会直接生成二进制代码,软件会变成无限供应的商品。最后他谈到AI对组织的影响,说AI擅长处理行政任务,会削弱那些平庸的中间管理者,让有创意的创始人获得前所未有的管理杠杆,就像亨利·福特那样用极小团队实现巨大产能。这简直是在预言一场由创新者主导的新时代革命!
5.Marc Andreessen says 99.9999% of the value of AI w(a16z(@a16z))
马克·安德森最近抛出了一个挺有意思的观点:未来AI创造的价值,绝大部分会流向使用它提升效率的普通人,而不是那些开发AI的公司。他拿互联网和智能手机打了个比方——想想看,我们每天用手机和网络创造了多少价值?但真正赚大钱的是我们这些用户,而不是电信运营商。AI时代这个趋势会更明显,因为工具越强大,普通人能撬动的价值就越大。这其实打破了很多人觉得AI公司会垄断所有红利的想象,反而让我们这些终端使用者成了最大赢家。
6.Marc Andreessen says AI is the “silver bullet excu(a16z(@a16z))
最近科技行业裁员的消息满天飞,很多人都在说这是AI惹的祸,但硅谷大佬马克·安德森可不这么认为。他直接开炮,说把裁员甩锅给AI就是个‘万能借口’,听起来挺解气的对吧?其实真正的原因藏在背后:高利率让公司日子不好过,疫情期间远程办公搞乱了管理节奏,导致很多大公司人浮于事。安德森估计,人员过剩才是普遍现象。所以别急着怪AI,先看看自己的管理有没有跟上节奏。