跳转到正文
莫尔索随笔
返回

Vol.108 BestBlogs精选周刊百期特刊:六大主题回顾两年AI关键变化

预计 68 分钟
AI 周刊 编辑此页

⼤家好,Weekly Gradient第 108 期已送达,本期内容为BestBlogs精选周刊第100期特刊,从6400多篇内容中精选100篇,按模型层、AI Coding、工程范式、Agent、产品与商业、领袖与思想六个主题回顾两年AI发展脉络,核心观点是答案变得便宜,提对问题、做对判断、为结果负责更重要。

AI 商业

聚焦 AI 行业的商业化路径、市场竞争格局和商业模式创新,包含投资趋势、GTM 策略、SaaS 转型等商业话题。

1.满血版 o1 深夜震撼上线,奥特曼怼脸演示超强推理!终极 Pro 版每月 1450 元(新智元)

OpenAI 深夜突然上线了满血版 o1,数学、编程和多模态推理能力直接超过 GPT-4o 甚至人类专家,还甩出一份 49 页的论文细说了技术细节。Sam Altman 亲自演示了 o1 的推理,它在多语言和多种 Agent 任务上把 GPT-4o 和 Claude 3.5 Sonnet 都压了一头,安全性也会按预设策略硬抗恶意提示。最炸裂的是,他们同步推出了每月 200 美元(约 1450 元人民币)的 ChatGPT Pro 订阅,能无限用 o1、GPT-4o 和高级语音。这定价明显瞄准重度用户,对普通用户来说有点贵,但想体验最强推理能力的人估计会买单。

2.DeepSeek-R1 发布,性能对标 OpenAI o1 正式版(DeepSeek)

DeepSeek-R1 来了,而且直接把推理能力的开源门槛砸到地板价——数学、代码和自然语言推理上硬刚 OpenAI o1 正式版,背后靠的是后训练阶段大规模强化学习硬怼出来的推理能力。模型权重和训练技术全部开源,开发者调个 model='deepseek-reasoner' 就能拿到思维链输出。更香的是,蒸馏出来的 32B、70B 小模型在多项能力上也能媲美 o1-mini。许可上统一用 MIT License,明确允许蒸馏,对开源生态简直不要太友好。API 定价也很有竞争力:百万输入 token 缓存命中 1 元、未命中 4 元,百万输出 token 16 元。如果你们团队想可控成本接入一线推理能力,又看重开放许可,这篇真绕不过去。

3.当阿里入局全球 AI Coding,战场里的 60 天 | 对话叔同:Qoder 创始人(十字路口Crossing)

阿里又下场了,这次是AI写代码的战场。Qoder的创始人叔同把AI编程工具分成了三类,但他选了一条最难的路:不碰新项目生成,专攻开发者95%时间都在对付的「真实软件」存量代码。上线60天冲了50万用户,背后两招值得细品:一是用需求文档+上下文工程让Agent自己啃复杂任务,二是Repo Wiki靠AI把祖传代码变成活的文档——这才是真壁垒。叔同对程序员的判断也很实际:AI不会替代你,但复合能力会成为新分水岭。如果你在被遗留代码折磨,或者自己做编程智能体,这篇对话能让你看清楚差异化打法到底该往哪押注。

4.#204. Perplexity CEO 揭秘智能体浏览器 Comet 如何重塑未来(跨国串门儿计划)

Perplexity CEO 这回把 Comet 的底牌全亮出来了:不是造个更快更炫的浏览器,而是直接想当 AI 时代的操作系统,让一个助手替你跑通所有网页应用——改机票、填报销,跨平台自动搞定。他把‘上下文’捧上神坛,觉得谁拿到浏览器里那堆用户数据谁就赢了。商业上死磕订阅,认定用户会为省时间的高价值工具掏大钱,甚至放话千亿营收不用靠广告。当然坑也不少,模型翻车、隐私账、iOS 铁壁、基建复杂,他都没躲,还拿特斯拉自动驾驶类比,说数字劳动力终将‘全自动’。对关心 Agent 怎么赚钱、浏览器会怎么变的人来说,这篇访谈值得反复读。

5.OpenAI 第三期播客上线:从 ChatGPT 到智能体,AI 如何重新定义职场与科研(腾讯科技)

OpenAI最新一期播客请来了COO和首席经济学家,两人聊透了ChatGPT从一个小功能长成明星产品的历程,归结起来对话界面才是AI走进大众的催化剂。他们的经济预判更带劲:AI会大幅拉高软件和科研的效率,给小公司和新兴市场打开机会窗口。但真正让人眼前一亮的是,他们强调未来最缺的不是技术,而是情商、批判思维和主动性这些人类独有的软技能,教育得跟着改。至于智能体,被当作应对复杂任务的理想伙伴。整篇落地感很强,说白了AI就是要把‘想法到成果’的障碍打到最低,让每个人都能放大自己。

6.消费级 AI 应用百强榜 | a16z Show(a16z)

a16z的最新报告显示,AI应用正在从简单的文本框进化为复杂的智能体和桌面生态。ChatGPT依然遥遥领先,但Claude和Gemini在专业和创意领域各有所长。值得注意的是,智能体开始进入消费市场,AI专属浏览器成为新的入口争夺点,而‘个人记忆’正在成为未来竞争的核心护城河。这份榜单值得所有关注AI产品的人仔细品读。

7.Gamma 创始人最新分享:30 人即可服务 5000 万用户,AI 时代如何重构新的团队范式?(深思圈)

30 个人怎么服务 5000 万用户?Gamma 联合创始人 Grant Lee 用自家活生生的例子给出了答案,还拆解了三招:招人别要专才,要能跨界学习和教别人的通才;管理者别光坐办公室,得下场当球员教练;扩张别靠堆人头,靠投资品牌和打造紧密的小部落。文章还教你怎么用「深入五层」追问挖出高主动性人才,以及提前布局实验和基础设施。对纠结要不要疯狂招人的管理者来说,这是比理论香得多的实战干货。

8.Token 成本下降,订阅费却飞涨,AI 公司怎么了? | 机器之心(机器之心)

AI 公司一边喊着训练成本下降,一边猛涨订阅费,这账怎么算的?机器之心这篇把背后的囚徒困境拆得明明白白:无限订阅亏本,按量计费用户跑路,根源在于大家都只认最强模型,而最强模型 token 消耗爆炸式增长。文章拿 Anthropic 翻车案例说话,给出三条路——要么咬死按量计费(但消费者难受),要么用超强转换成本锁死企业客户(像 Devin),要么干脆把 AI 当获客工具靠其他服务赚钱(比如 Replit)。最扎心的是,指望未来模型降价来救场纯属误区。做 AI 商业设计的团队,这本账必须算清楚。

9.DeepSeek 复盘:128 天后,为什么用户流量一直在下跌?(Founder Park)

DeepSeek发布128天后,官方流量一路下滑,第三方托管却暴涨,这反常现象背后藏着AI公司的算力博弈。原来AI服务的价格远不只是钱的问题,而是延迟、吞吐量、上下文窗口三者的权衡。DeepSeek为了把算力留给内部研发,主动牺牲了用户体验,用极低价格和开源策略换取全球影响力;Anthropic同样算力紧张,但选择提升智能密度,用更少token给出完整答案,还向亚马逊、Google借算力。看一家AI公司的产品体验前,先看看它把稀缺算力押在了哪里。

10.一年成爆款,狂斩 49.1k Star、200 万下载:Cline 不是开源 Cursor,却更胜一筹?!(InfoQ 中文)

当大多数AI编程工具还在靠风投补贴烧钱时,Cline另辟蹊径:软件免费,用户自己带LLM API密钥,公司不赚推理差价,靠企业团队管理、安全和技术支持收费。一年内拿下49.1k Star和200万下载,它首创的「计划+行动」范式提升了智能体协作效率,坚持做VS Code扩展而非分叉,并深度押注MCP生态。文章通过联合创始人访谈,拆解了这套可持续的商业模式,对思考AI工具如何盈利的人很有启发。

11.比女皇报告还炸裂!67 页 AI 深度调研刷屏,全球 LLM 大决战真正开始(新智元)

新智元拆了份硅谷财富巨头Iconiq Capital的67页《2025年AI现状报告》,这家管理扎克伯格等大佬800亿美元资产的公司访谈了300家AI公司高管,把AI落地的真问题全摆出来了。报告说AI从概念炒作转向实战,数据存储处理成了最大支出,90%高增长公司部署了智能体,33%代码是AI生成,47%原生公司验证了市场匹配度。还有扎心数字:AI工程师招聘周期超70天,37%公司重构定价模式。创业者别光看趋势,这组真实经营数据才是对标硬货。

12.复盘 2024,大模型的商业化主线是什么?(人人都是产品经理)

2024年大模型商业化的关键词是「智价比」——一边是用户愿意为AI付费,另一边模型厂商收入承压,冰火两重天。GPT-5的缺席和DeepSeek的崛起让API市场的焦点从「最强模型」转向了性价比;订阅用户不再死磕一个头部模型,而是开始组合使用;企业引入AI时也开始精打细算成本和收益。有人把2024年称为「智价比元年」,AI商业化的本质正在从「交付大模型」转向「交付智能」。对做AI产品的人来说,这是一条清晰的价值判断主线。

13.Block 如何成为全球领先的人工智能驱动型企业 | Dhanji R. Prasanna(Lenny’s Podcast)

Block 的 CTO Dhanji Prasanna 在 Lenny’s Podcast 分享了他们如何从一家传统公司变成 AI 原生企业。转折点是他给 Jack Dorsey 写了一份「AI 宣言」,然后大刀阔斧改革组织架构,从总经理制变成职能型,确立技术优先。他们开源的通用 Agent「Goose」基于 Anthropic 的 MCP,让工程团队每周省下 8-10 小时,整个公司节省 20-25% 的时间,连非技术人员都能自己搭工具。Prasanna 还抛出几个反直觉的观点:代码质量不决定产品成功(比如 YouTube),要容忍「受控的混乱」,人的判断力才是防止 AI 跑偏的关键。如果你正推动公司 AI 转型,这期内容就是真实样本。

14.红杉 AI 峰会闭门 6 小时,150 位创始人共识浮现:AI 不再卖工具,而是卖收益(Founder Park)

红杉AI峰会闭门6小时,150位创始人达成共识:AI正在从卖工具转向卖成果。未来的AI应用不再只是帮你提高效率,而是像操作系统一样主动调度、跑完整任务、直接创造价值。评判一个AI产品是不是「成果型」,就看三点:能不能跑完完整任务流程、结果能不能归因、过程中能不能持续学习。这意味着,核心问题不再是模型强不强,而是AI能不能嵌入一个能交换价值的系统网络。智能体经济依赖协同而非指令,企业组织也得跟着变。对正在思考AI产品下一形态的创始人,这是一份提纲挈领的共识地图。

15.Sam、Jakub 和 Wojciech 谈 OpenAI 的未来,附观众问答(OpenAI)

OpenAI的这场对谈,Sam Altman三人把未来十年路线图说得明明白白。研究上,2025年推出AI研究实习生,2028年全自主AI研究员,还用思维链忠实性做安全对齐。产品上,他们要搞AI云平台,强调用户自由和隐私,还提出AI特权概念——把成年人当负责任个体。最震撼的是基础设施:30吉瓦算力、1.4万亿美元,每周建1吉瓦的工厂,星际之门是样板。如果你想知道OpenAI怎么砸钱、怎么造AI、怎么定义产品,这场对谈给出了罕见的量化坐标,值得细看。

16.汤道生姚顺雨对谈:腾讯 AI 的下半场(腾讯科技)

腾讯AI进入下半场,核心不再是拼方法论,而是拼谁更会定义问题。汤道生和首席科学家姚顺雨这场对谈,透露出腾讯的底气:海量场景和数据就是护城河。他们重点讲了模型和产品怎么一起设计(Co-Design),还有智能体技术怎么进化。看完会理解为什么腾讯觉得AI是长跑,以及他们押注的方向。

AI 产品

探索 AI 原生产品的设计范式与用户体验革新,强调产品哲学、交互模式、Agent 产品设计等。

1.Claude 4:AI 模型的全新突破(Anthropic News)

Anthropic 一口气端出 Claude Opus 4 和 Sonnet 4 两个新模型,摆明了要在编码和长任务上硬刚。Opus 4 在 SWE-bench 上冲到 72.5%,Terminal-bench 也有 43.2%,自称目前最强的编码模型,而且能扛住几小时的长任务不拉胯。两个模型都支持联网的“扩展思考”、同时调多个工具,还有“内存文件”让长对话不丢上下文。配套的 Claude Code 也全面上线了,VS Code、JetBrains 扩展、GitHub 集成 SDK 全给到,再加上执行代码、MCP 连接器、文件 API 和提示缓存这些新能力。如果你正琢磨怎么把模型塞进实际开发流程、搭 Agent,这篇官方发布就是判断它能干啥不能干啥的第一手资料。

2.Claude Sonnet 4.5 正式推出(Anthropic News)

Anthropic 终于放出了 Sonnet 4.5,这次直接瞄着编码、复杂 Agent 和计算机操作赛道。OSWorld 基准上 61.4% 的成绩确实亮眼,SWE-bench Verified 也稳居前列,说明它在真正“用电脑”的任务上下了狠功夫。同步推出的还有 Claude Code 的检查点、VS Code 扩展,以及一个能让开发者直接套用 Anthropic 底层 Agent 能力的 SDK——对想自己做电脑操作 Agent 的团队来说,迁移成本可能比想象中低。更值得关注的是它自称“迄今最对齐”的前沿模型,减少了乱来行为、增加了对提示注入的防御,并且运行在 AI Safety Level 3 之下,价格却和 Sonnet 4 一样。如果你在找既能写代码又能操作电脑的模型,不妨拿它来评估一下。

3.Claude Fable 5 与 Claude Mythos 5(Anthropic News)

Anthropic 一口气推出两款重磅模型:面向大众的 Claude Fable 5 和专供网络安全伙伴的 Claude Mythos 5。Fable 5 在各基准测试上全面领先,价格却不到 Mythos Preview 的一半——每百万 token 只要 10 美元(输入)/50 美元(输出),卷到离谱。最震撼的是它一天就帮 Stripe 迁移了 5000 万行 Ruby 代码,换人干得两个多月。另一边,Mythos 5 通过 Project Glasswing 开放给受信任的安全研究员,内置新分类器,遇到生化、网安等敏感问题会自动切换保守策略,安全上更克制。两个模型各有绝活,值得关注。

4.GPT-5.5 发布(OpenAI News)

OpenAI 发布了 GPT-5.5,这次升级不只是聊天更聪明,而是让模型真正能像智能体一样自主执行任务,比如编程、操控电脑甚至搞科研。响应速度没变慢,但推理和效率大大提高,在几个复杂基准测试里都破了纪录。更令人放心的是,OpenAI 加强了安全机制,推出了“网络安全信任访问”计划,让高风险场景下的使用也更可靠。如果你对 AI 能做什么、边界在哪感兴趣,这篇值得细读。

5.Gemini 3.5:具备行动能力的前沿智能(Google DeepMind News)

DeepMind 这次扔出了 Gemini 3.5 Flash,不光是速度更快、成本更低,更重要的是它真的能动手干活了——在代理任务和编码上表现特别亮眼。你可以把它想成一个既能思考又能行动的 AI 助手,复杂长期任务交给它,它不会中途掉链子。现在个人助手和企业方案都已经在用了,这可能是智能代理迈向真正实用的一大步。

6.AIME’25 满分炸场!Qwen 一波七连发,全家桶大更新(量子位)

云栖大会上,通义千问一口气甩出七款模型,旗舰Qwen3-Max思考版直接拿下AIME25和HMMT数学榜单满分,这是国产模型第一次做到,硬核又争气。指令版在编程和Agent调用上也不含糊,开源视觉模型Qwen3-VL更是多项评测压过Gemini 2.5 Pro,能看图推理、生成HTML/CSS甚至理解视频。还有端到端全模态Qwen3-Omni、同传能力超过GPT-4o的Qwen3-LiveTranslate,以及主打效率的新架构Qwen3-Next,训练成本压下来,推理吞吐提上去。想快速摸清这波全家桶到底哪里强、补了什么短板,这篇就是最清晰的索引。

7.GLM-4.5 发布:面向推理、代码与智能体的开源 SOTA 模型(智谱)

智谱新发布的GLM-4.5系列直接瞄准智能体应用,用MoE架构把参数效率拉满。推理、代码和智能体综合能力在开源模型里做到了顶配,真实代码智能体的人工评测也是国内最强。价格低到离谱,输入只要0.8元/百万tokens,生成速度飙到100 tokens/秒,还开放了API、开源仓库和在线体验。全栈开发、Artifacts生成、PPT制作这些真实场景都演示了落地效果。要找自托管或低成本智能体底座的团队,这波性能、成本和可用性三连击,值得细看。

8.GLM-5.1 开源:支持 8 小时独立工作的长程任务模型(智谱)

GLM-5.1 这次开源直接给了个大惊喜——模型能连续工作8小时不用管,自己搞定从写代码到调优的全流程。在SWE-Bench Pro这类硬核代码测试里拿了全球第一,说明它不仅能从零搭系统,还能深入内核去优化性能。这感觉AI真的不再是工具了,更像一个有工程判断力的队友。

9.自主性就是你需要的一切——米歇尔·卡塔斯塔,Replit(AI Engineer)

Replit 的副总裁米歇尔·卡塔斯塔在分享中提出了一个犀利观点:给非技术人员用的编码智能体,应该像 Waymo 那样完全自主,而不是特斯拉那种要人类时刻盯着。他拆解了实现自主性的三大支柱:模型够强、自主验证要严格、子智能体编排得高效。最反直觉的是验证——那些看似能用但实际无效的功能被他称为“画出来的门”,只有靠自主测试才能真正堵住漏洞,赢得用户信任。他还建议用“最小必要工作量”来衡量智能体的表现,而不是单纯看它跑了多久。未来指望核心智能体循环自动编排并行任务,减少合并冲突。想从演示走向可靠产品,这些思路值得认真琢磨。

10.这篇超有用!手把手教你搭建 AI 产品 Evals(Founder Park)

把AI产品评估比作上线前的驾照考试,这篇实操指南从数据收集到生产监控全流程拆解。作者断言AI产品下半场Evals比模型训练更关键,甚至超越Prompt优化。文章清晰区分了人工、代码和LLM三种评估方法,并力推可扩展的「LLM-as-judge」。更实用的是给出了四步闭环迭代法,附带幻觉、恶意语气、正确性等通用标准,还提醒了常见坑。如果你正愁不知道怎么判断AI产品好坏,照着这套流程就能搭出第一版评估体系。

11.LangChain CEO 再聊 Agent:chat 模式只是起点,Ambient Agents 才是未来(Founder Park)

LangChain CEO和Dust CEO最近聊了Agent的下一步,先把Agent和Workflow分得很清楚:能不能清晰描述任务,是分界线。他们觉得聊天只是过渡,真正的Agent应该是常驻后台的环境化模式,或者像指挥中心一样异步运转。还狠狠否定了万能Agent,强调未来是多Agent协作,而且记忆和场景理解让定制Agent成为必须。创业方面,护城河还是执行力、速度和坚定信念。想看清Agent产品未来的人,这份来自一线CEO的判断值得看。

12.Notion CEO Ivan Zhao:好的 AI 产品,做到 7.5 分就够了(Founder Park)

Notion CEO Ivan Zhao 提出一个反直觉的观点:做 AI 产品,做到 7.5 分就够了。他用酿啤酒比喻 AI 开发——充满不确定性,不像造桥那样可以完全控制。追求 10 分完美反而会迷失,7.5 分才是实用性、商业价值和工艺美感的最佳平衡点。他还认为 AI 是一种新计算媒介,正在打破程序员和使用者之间的壁垒;真正的 AI Agent 还没出现,而 Notion 靠数据库这块“乐高积木”整合上下文和工具,卡在有利位置。对做 AI 产品的人来说,这套方法论指明了该在哪里收手。

13.AI Agent 的「GPT 时刻」,Manus 炸醒整个 AI 圈!(极客公园)

Monica.im 搞了个大新闻,推出的 Manus 被称为全球首款 AI Agent,和那些只会聊天的大模型完全不是一个物种。它直接给你交付结果,比如旅行规划、股票分析、做课程、比保险条款,自己就能调工具跑任务,像请了个数字实习生。这背后是多年浏览器插件的技术积累,现在终于爆发了。想看看 Agent 的 GPT 时刻长啥样?这篇值得一读。

14.iPod 与 iPhone 之父 Tony Fadell:AI 时代如何建立品味、判断力与创造力(Lenny’s Podcast)

Tony Fadell,那个造出 iPod、iPhone 和 Nest 的男人,出来讲怎么在 AI 时代做产品了。他不是在说代码怎么写更快,而是戳中了一个关键:现在生成式 AI 让原型开发快得像开了挂,但真正稀缺的是你知不知道砍掉什么、为什么这么设计、以及用户到底疼在哪里。他把从 0 到 1 的功夫拆成了品味、判断力和长期迭代三件事——品味是你对“好”的直觉,判断力是在一堆噪音里选方向,迭代则是把前两者变成现实。对于每天跟 AI 打交道的产品经理和创业者,这篇不是教你用工具,而是教你成为那个“知道该做什么”的人。

AI 工程

涵盖 AI 工程技术实现与场景化开发的全流程,包含 Agent 工程架构、工具实践、上下文工程等核心技术话题。

1.GPT-5:主要特性、定价和模型卡(Simon Willison’s Weblog)

Simon Willison 花了两周时间深度体验了 GPT-5 整个模型系列,他的视角非常工程向,冷静且务实,完全不是那种营销吹捧。他拆解了 ChatGPT 里的混合形态和三种 API 变体(常规、mini、nano),关键规格是输入 272k token、输出 128k token,还支持多模态输入。文章里附了和 Claude、Gemini 的详细对比表,明显看出 GPT-5 定价很有竞争力。系统卡显示,在减少幻觉、提升指令遵循和降低谄媚方面改进明显,还引入了“safe-completions”来细分安全响应。不过他也直接点出,提示注入依然是未解决的关键安全挑战,虽然 GPT-5 抵抗力更强了。对于要给应用挑默认模型、又在意成本和边界的开发者,这是一篇很难得的平衡评测。

2.Gemini 2.5 Flash:应用构建新起点(Google Developers Blog)

Google 把 Gemini 2.5 Flash 做成了首个混合推理模型,最妙的是加了个「思考预算」开关——开发者能按需开启或关闭思考,还能设定预算,在质量、成本和延迟之间自己找平衡。它在 2.0 Flash 基础上推理能力明显提升,同时保住了速度和成本优势,现在已经在 AI Studio 和 Vertex AI 上开放体验,文章还贴了 API 示例和文档链接触达。对做应用的人来说,这种把推理深度变成可调参数的设计,比单纯堆性能更贴合真实工程中那种需要按场景动态权衡「要不要让模型多想一会儿」的纠结,值得据此设计调用策略。

3.DeepSeek-V3 正式发布(DeepSeek)

DeepSeek-V3 来了,这次直接把开源大模型的性价比天花板又往上顶了一截。671B 参数、37B 激活的 MoE 架构,在 14.8T token 上练过,评测上干翻了 Qwen2.5-72B 和 Llama-3.1-405B,跟 GPT-4o、Claude-3.5-Sonnet 这些闭源顶尖也能掰掰手腕。更狠的是,生成速度从 20 TPS 飙到 60 TPS,翻了 3 倍,体验丝滑了不少。API 调价后还给 45 天优惠期,摆明了让你低成本试水。原生 FP8 权重直接开源,主流推理框架都支持,社区拿来就能用。如果你好奇开源模型到底能不能追上闭源,或者想用更少的钱部署更强的模型,这篇发布说明把性能和落地路径都摆出来了。

4.Qwen3 重磅开源!(通义实验室)

Qwen3 开源了,带来一个能自己切换「思考模式」和「非思考模式」的混合推理模型。复杂问题深度推理,日常聊天快速响应,一个模型搞定多种场景。它用 MoE 架构控制成本,评测上跟上一代超大密集模型有得一拼,还支持 119 种语言。文章手把手教你怎么用 transformers 和 ModelScope 调用,还给了 SGLang、vLLM、ollama 三套部署方案,加上 Qwen-Agent 工具调用。如果你正在考虑落地国产开源模型,又需要灵活的推理开关,这篇从评测到部署的指南很实在。

5.Qwen3-Coder:480B 参数的超强“代码特工”(通义实验室)

通义开源的 Qwen3-Coder 把开源代码模型的天花板捅穿了。旗舰版 480B 参数、35B 有效参数的 MoE,在 SWE-Bench Verified 上成绩亮眼,代理编程和浏览器操作能力也领先开源。背后功夫很硬:用 7.5T 高质量代码做预训练,原生 256K 上下文、最高 1M 支持仓库级代码理解,加上两种强化学习让模型自己学会像 Agent 一样多轮解决问题。搭配 Qwen Code 命令行工具和 API,上手就能试。想搞能跨仓库自主写代码的 Agent?这篇值得细看。

6.MiniMax M3:前沿 Coding 能力、1M 上下文、原生多模态,一个模型全给你(MiniMax 稀宇科技)

MiniMax M3 一口气把 Coding、1M 超长上下文和原生多模态塞进了一个开源模型里,野心不小。文章里详细拆了 MSA 稀疏注意力架构怎么让长上下文成本降下来,还拿论文复现、CUDA 优化和长程 Agent 任务来验证,这模型在真实研发场景里是真的能自己迭代升级。对搞工程的人来说,这不仅是技术秀肌肉,更是实实在在的利器。

7.Claude Code 究竟牛在哪里?(以及如何在你的 AI 智能体中复刻它的魔法!)(宝玉的分享)

想把Claude Code那套好用的逻辑扒下来自己搭个编程智能体?这篇干货来自深度拆解Claude Code日志,核心就一句话:少整花活,简单直接最管用。作者反着多智能体和复杂RAG的潮流来,从主循环、提示词、工具调用到行为引导,每一步都给实际代码和配置。比如主循环保持单一、消息历史扁平,省成本就丢给Claude 3.5 Haiku处理次要任务;提示词写得跟说明书一样详尽,还配大量示例,偏好放claude.md里;搜索不搞RAG,直接让模型读代码库,工具按频率混着用高低层;最后用语气指南和“重要”这类词微调行为。想自己手搓一个顺手的编程助手,这篇是少见的从实现倒推方法论的硬核指南。

8.Boris Cherny:我们如何打造 Claude Code(Y Combinator)

你知道吗?Claude Code 的诞生其实是个偶然原型,但它的创作者 Boris Cherny 从一开始就笃定一个哲学:别为今天的模型设计,要为六个月后的模型设计。现在他坦言,自从 Opus 4.5 之后就没再手写过一行代码。在这场对话里,他聊透了从单智能体到多智能体的演进、ClaudeMD 的正确打开方式,还特别提醒工程师——在模型能力狂飙的时代,最该培养的不是技术深度,而是初学者心态和科学思维。想了解工具如何改变工程范式?这篇访谈能给你不少启发。

9.Claude Code 自动模式:一种更安全的跳过权限确认方式(Anthropic Engineering)

Claude Code 搞了个新玩法——自动模式,专治智能体频繁要权限的审批疲劳。它用双层防御:输入层扫描提示词注入,输出层用 Sonnet 4.6 的分类器评估操作风险,而且分类器只盯着操作载荷,不看推理过程,这叫推理盲视,能拦住那些过度积极或误操作。这套方案在自主性和安全性之间找到了务实平衡,做智能体系统的开发者值得参考。

10.2 万行 App 代码,Claude 写了 95%!老开发者:每月只花 200 美元,就像一天多出 5 小时,IDE 要“变天”了!(CSDN)

一位有经验的开发者用Claude Code写了款2万行的macOS应用,其中95%的代码都是AI干的。关键不在提示词怎么编,而是怎么给AI喂好上下文。他每天花200美元,相当于多出5小时产能,重拾做业余项目的劲头。文章还预测,IDE将来会从编辑器变成上下文和反馈循环的设计工具。想看看AI编程在真实项目里能走多远,这份一手数据值得细读。

11.刚刚,OpenAI 发布 GPT-5-Codex:可独立工作超 7 小时,还能审查、重构大型项目 | 机器之心(机器之心)

OpenAI 刚发布了专门为智能体编程优化的 GPT-5-Codex,这家伙能在交互会话里快速响应,也能一个人扛下长达 7 小时的复杂任务,从构建、开发、测试、调试到大规模重构全包了。最亮眼的是代码审查能力,能主动揪出关键漏洞,OpenAI 内部已经用它审了绝大多数 PR;在 SWE-bench Verified 和重构任务上表现都比 GPT-5 好,而且会根据任务复杂度动态调整思考时间。配套还升级了开源的 Codex CLI、VS Code 等 IDE 插件,跟 GitHub 深度集成,默认沙箱加权限机制保障安全。想看看智能体编程怎么从“补全”进化到“自主交付”,这篇是必读的一手材料。

12.Codex 与人工智能驱动的编程未来 — OpenAI 播客 Ep. 6(OpenAI)

OpenAI 的 Greg Brockman 和 Thibault Sottiaux 在播客里回顾了编程 AI 的进化史,从 GPT-3 的代码尝试到 GPT-5 Codex 能搞定七小时的重构任务。他们反复强调一个概念叫“工具链”——模型再聪明,也得搭配好基础设施和工具才能成为真正的智能体,这层工程和原始智能同等重要。聊到了 GitHub Copilot 踩过的坑、怎么平衡智能和响应速度、内部用的“10x”效率工具,还有 AI 代码审查的突破。最刺激的是他们描绘的未来:人类监督下的“智能体软件工程师”。两人很坚定地说,现在学编程依然是最好的时机,因为 AI 反而加速了学习曲线。想了解 2030 年软件开发的走向,这集干货超多。

13.下一场革命:Vibe Engineering|OpenAI 内部分享(赛博禅心)

OpenAI 内部揭露了 Codex 的真实使用数据:92% 的技术人员都在用它,用了之后 PR 产出比不用的人多 70%。文章还记录了俩震撼案例:7 小时 200 轮迭代写出 500 行高质量代码,以及 12 小时从空目录完成 Kotlin 到 Rust 的重写。更关键的是,工程师的角色正在从写代码变成管理 AI 代理,甚至管理子代理。Simon Willison 提出的「Vibe Engineering」和「Vibe Coding」完全不同:后者是让模型乱写然后祈祷测试过,前者是高级工程师对每行代码负责,同时充分利用代理。这绝对是关注 AI 编程工具发展的开发者不容错过的一手实践参考。

14.OpenAI 内部揭秘:我们如何使用 Codex(宝玉的分享)

OpenAI 把自己工程师日常怎么用 Codex 的秘诀全抖出来了,从安全审查到基础设施优化一网打尽。文章总结了七个实战场景:加速理解遗留代码、重构迁移、揪出性能瓶颈、提高测试覆盖率、加快开发节奏、在碎片任务中保持专注,还有辅助脑暴探索。更值钱的是六条实操建议,比如用提问模式开场、提示要像写 GitHub Issue 一样清晰、反复调教 Codex 的运行环境、善用 Top K 选择功能等等。坦白说,Codex 已经彻底改变了 OpenAI 内部的开发方式。如果你想让 AI 真正成为编程搭档,而不是玩具,这份内部指南值得直接抄作业。

15.Cursor 如何将编程智能体推向生产环境(ByteByteGo Newsletter)

Cursor 2.0 编程智能体可不是简单的模型升级,而是一整套系统工程。它用轨迹训练解决了Diff编辑精度问题,用MoE和投机采样把迭代延迟降下来,还用高性能隔离沙盒保证代码执行安全。说白了,好的编程智能体背后是软硬件深度整合的硬功夫,别再只盯着模型大小了。

16.动态上下文发现 (Dynamic Context Discovery)(宝玉的分享)

Cursor搞了个新思路,叫「动态上下文发现」:让AI Agent通过文件系统跟任务交互,按需读文件,而不是一股脑塞进所有上下文。这招在对付长日志、MCP工具定义这类场景时,Token消耗能砍掉将近一半(实测省了46.9%),还避免了无关信息干扰模型。文章里给了五个工程实例,手把手教你搭更高效、更专注的编程智能体。

17.与 Cursor 结对编程的四个月,我大彻大悟了!(腾讯技术工程)

一位腾讯工程师用 Cursor 写了四个月代码后,总结了一套和 AI 结对编程的方法论。核心心得是:AI 好不好用,关键不在你会不会问,而在你需求清不清楚、规划到不到位。他搞了一套 rules 来约束 AI 的回复方式,避免鸡同鸭讲和误改代码;还实测了几个 MCP 工具——mcp-feedback-enhanced 做闭环反馈、sequential-thinking 帮你结构化思路、mcp_better_tapd_server 自动记录任务。最后用一个理解陌生项目的真实案例串起全部。他最让我意外的一个结论是:AI 工具的最大价值不是帮你提速,而是倒逼你自己把思路理得更清楚。如果你正想把 AI 从随手问两句升级成稳定的协作流程,这份带工具清单的实战分享值得一看。

18.遇见全新的 Cursor · Cursor(Cursor Blog)

Cursor 3 来了,这可能是目前最能体现 AI 编程下一阶段的工具。它直接跳出了传统 IDE 的框框,主打一个以智能体为核心的协作工作区。你可以同时操作多个仓库,本地或云端智能体无缝切换,甚至内置了浏览器和 MCP 插件生态。说白了,就是让你从一行行手写代码的繁琐里抽身,把精力放在架构设计和任务调度上。对于持续关注 AI 编程工具怎么演进、怎么落地的开发者,这篇文章值得一看。

19.GitHub Copilot:日处理 4 亿代码补全请求的技术解析(InfoQ)

GitHub Copilot 每天要处理 4 亿次代码补全请求,还要把响应压在 200 毫秒以内,这背后是一系列的工程硬仗。从早期用户自己带 OpenAI 密钥,到后来自建 Copilot-proxy 做统一认证;从 HTTP/1 频繁建连浪费资源,到改用 HTTP/2 多路复用解决请求取消问题;再借助基于 HAProxy 的 GLB 做细粒度负载均衡——每一步都是对延迟、网络和并发能力的极致压榨。想给 LLM 在线服务降延迟、提吞吐的工程师,这篇把工程取舍掰开揉碎的文章很值得看。

20.Devin 教你做 Agent:把 AI 当做需要指导的初级开发者(Founder Park)

Cognition 团队从 Devin 的实际构建中总结了一套把编程 Agent 当作刚入行的初级开发者来带的实战心法。核心就是:Agent 能力很强,但像新人一样需要清晰的指令和边界。实操上强调沟通基本功——指令要具体到变量名或文件路径、指明起点、做防御性提示避免跑偏、建强反馈闭环,人类监督不能松。对于日常小任务,可以随手丢给 Agent 处理;中大任务则先让它出第一版草稿,一起定方案,设多个检查点排查。文章也不避讳短板:调试能力和视觉还原依然拉胯,要及时止损和限制权限。最后的结论很清醒——工程师自己的技术功底和对代码库的理解,才是最不可替代的资产。

21.当整个团队开始 0 人工 Coding:一份万字 AI Native 研发实战手册(腾讯技术工程)

你一定遇到过AI编码时上下文脱节的问题吧?这篇文章带来了一个硬核解决方案:通过定义机器可理解的“研发契约”代替散乱的提示词,再用MCP连接工具链、用Skills封装标准化流程,让研发人员从执行者变成决策者。基于OpenSpec与CodeBuddy的这套AI Native研发模式,提供了可复制的自动化工作流,目标是实现研发效能的飞跃。适合那些想让AI真正融入开发流程的团队参考。

22.【第 3592 期】揭秘 Bolt.new 背后的技术(前端早读课)

Bolt.new 号称“一句话生应用”,背后是 StackBlitz 的 WebContainer 技术在兜底。这篇文章把整个链路拆开给你看:用户的自然语言推给 LLM 生成代码,代码直接在浏览器内的虚拟机里跑,即时预览。重点解释了 WebContainer 怎么绕过浏览器的安全限制,用了 Rust/WASM 造虚拟文件系统、Web Worker 模拟 Node.js 进程、Service Worker 实现虚拟网络等等。再加上运行时精简、快照式文件系统这些骚操作,启动性能接近原生。最值得记住的是,Bolt 的爆发不是突然风口,而是七年底层积累正好撞上 LLM 浪潮。如果想理解浏览器端运行时为什么能成为 AI 产品的护城河,这篇是硬核拆解。

23.Claude 工程师聊 prompt:不要把模型当小孩子、不需要角色扮演、实话实说(Founder Park)

别再对着AI念咒语了。一位Claude工程师把提示工程从玄学拉回常识:把模型当同事,实话实说,具体描述场景,而不是大段角色设定。他特别强调,写好prompt的关键不是文采,而是工程思维和实验能力——不断试错、迭代,挑战模型能力的极限。趋势上,思维链这类技巧已经内化为模型能力,未来模型会更主动理解意图、甚至追问信息。如果你还在费劲写角色卡,这篇可以帮你卸掉包袱,回归沟通本质。

24.程序员的提示工程实战手册(宝玉的分享)

还在把AI当普通补全工具?Addy Osmani这篇实战手册能帮你把它升级成靠谱的结对编程伙伴。文章给出了10个通用提示词模板,比如角色设定、模拟调试、约束锚定,还特别强调通过提供明确上下文和输入输出示例来大幅提升AI生成代码的质量。大量错误与改进的对比案例,覆盖调试、重构、新功能开发等场景,手把手教你写出更好的提示词。不管你是刚接触AI编程还是已经用了很久,都能从中学到让AI更听话的技巧。

25.从上下文工程到 AI Memory,本质上都是在「拟合」人类的认知方式(Founder Park)

一位 AI 语音产品创业者用现象学视角,把上下文工程和 AI Memory 看作同一件事:模拟人类的认知与存在方式。他主张上下文工程是构建 AI Agent 动态记忆系统的核心,目标就是模仿人的注意力和记忆,甚至给出一个反常识的观点——「专注的上下文」比「长上下文」更有效。文章用「写入、选择、压缩、隔离」四大策略类比人类意识的构造,接着对比短期与长期、显性与隐性记忆,揭示了碳基与硅基在生物性、情感、意识、遗忘上的本质差异。最后,他虚拟了一段与哲学家胡塞尔的对话,追问 AI 记忆是否真的有时间性、主体性和情感。难得的是,这篇文章既给出了具体的工程策略,又逼着工程师在技术突破之外保留哲学思考。想跳出参数调优、从更深处理解记忆难点的人,这篇值得慢读。

26.上下文工程(Context Engineering)(LangChain Blog)

LLM 像操作系统,上下文窗口就是它的内存 RAM——这个类比让上下文工程一下子好懂了。LangChain 这篇把四种策略(写入、选择、压缩、隔离)讲得清清楚楚,每种都对应 token 上限、性能退化这类真实痛点。更棒的是,它落到框架层:LangGraph 怎么原生支持这些策略?Claude Code 的自动压缩、Anthropic 的多智能体研究系统怎么用?看完你会知道,为 Agent 选上下文管理工具时,抽象策略和具体实现之间该怎么权衡。

27.深度解读《AI 智能体的上下文工程》:构建高效 Agent 的七个宝贵教训(宝玉的分享)

Manus团队总结的七个上下文工程教训,直接关系到Agent的token开销和稳定性。核心观点:别急着花钱自己训练模型,先搞好上下文工程,效果更好成本更低。关键时刻用Prompt缓存的前缀匹配能大幅降本降延迟,但要是动态改了前缀或动了历史消息,缓存就白做了。还给出几个实战技巧:固定工具列表并预填充引导,让模型不乱;超长内容交给文件系统,别死磕上下文;复述ToDo List能主动控制模型注意力;错误信息留在上下文里,模型才能有效纠错。最后提醒,历史对话别堆太多,否则少样本学习陷阱会让模型变偏执、输出同质化。照着这份清单调,能同时管住账单和稳定性。

28.从“数据拼凑”到“精准断案”:深度剖析 RAG 系统中信息完整性的关键作用(阿里云开发者)

阿里云这篇实战文章用一个真实事故揭开了RAG系统的老底:做缺陷查重时,大模型总在自作聪明地“拼凑”数据。一开始以为Prompt没写好,追查下去才发现是索引和检索阶段丢了关键信息——结构化字段(像缺陷ID、模块、版本)在向量化时跟文本断了联系,LLM拿不到完整记录,只好脑补,于是幻觉就来了。解决办法其实很朴素但极其重要:在整个RAG流程里保住每份信息的原子性,建索引时把所有结构化字段作为字典完整挂在每个文本块上。这样LLM拿到结构完整的数据集合,才能精准产出查重报告。文章最扎心的结论是:RAG的根基是数据工程,不是Prompt工程。调AI得用系统性思维。如果你的RAG总答非所问、凭空补字段,这篇排障实录能让你少走半个月弯路。

29.Harness Engineering:耗时一周,我是如何将应用的 AI Coding 率提升至 90%的(阿里云开发者)

一家团队用一周时间,把AI写代码的产出率从25%拉到了90%,秘诀是把约束条件外部化。他们结合了Anthropic和OpenAI的脑洞,给Java应用搭了一套Harness体系,让AI Agent不再自由发挥,而是按照规则来。这套打法听起来硬核,但效果惊人,值得每个想用AI提效的开发者围观。

30.我们如何在多个产品中约束 Claude(Anthropic Engineering)

Anthropic 分享了在 claude.ai、Claude Code 和 Claude Cowork 等产品中,如何通过临时容器、沙盒和虚拟机等环境层面的隔离来限制 AI 代理的潜在风险。他们强调安全防护应该优先设计在环境层面,并且要根据用户监督能力调整隔离强度,同时小心自定义组件可能带来的漏洞。这些经验对平衡 AI 能力与安全非常关键。

31.Harness Engineering:AI 能在真正“出事会炸”的后端系统里写代码吗?(腾讯技术工程)

腾讯技术工程在CDN LEGO项目里搞了个大动作,面对百万行代码、高风险的后端系统,他们不是简单地“用AI”,而是“驾驭AI”——通过五层架构、上下文约束和反馈机制,让AI写代码从“能写”变成“敢用”。多模型对抗式Code Review和自动化流水线这些骚操作,最终把综合效率提升了20%,还攒了一堆知识资产。这篇文章对AI时代后端开发的角色转型给出了很实在的思考,值得一看。

32.挑战 Claude Code?OpenAI Codex 发布月将至,今先揭秘智能体循环(机器之心)

OpenAI 终于揭开了 Codex CLI 的神秘面纱,核心就是智能体循环——从你输入指令到工具执行,每一步都井然有序:推理、解码、决策、执行,环环相扣。更妙的是,他们通过保持提示词前缀一致来触发缓存优化,让响应速度飞起;面对上下文限制,用自动压缩技术巧妙破解。整篇文章干货满满,还特别强调了在数据隐私前提下实现高效安全的自动化开发,简直是码农和工程团队的福音。

33.从 ReAct 到 Ralph Loop:AI Agent 的持续迭代范式(阿里云开发者)

这篇文章介绍了一种叫 Ralph Loop 的自主编程范式,它通过把状态存到文件系统、用外部循环强制 AI 结合 Git 历史和测试结果不断修正代码,来解决大模型自我评估不准、上下文烂掉和过早退出这些头疼问题。简单说,就是让 AI 不再依赖它那容易忘事的“内存”,而是像人类开发者一样靠版本控制和自动化测试持续改进。这套框架很实用,想搞高可靠 AI Agent 流水线的话,值得仔细看看实现细节。

34.4 亿 token 买来 5 个教训:让 6 个 AI Agent 连写 4 天代码发生了什么?(腾讯云开发者)

6个AI Agent连跑4天,烧掉4亿token,结果发现系统稳定运行的关键竟然不是Agent的核心功能,而是不起眼的胶水代码。作者总结了5个血泪教训:虚假监控、系统演进、排查盲区、数据验证……这些实战经验比任何理论都来得真实。如果你也在搞Agent开发,建议仔细看看这些坑。

35.OpenAI: 构建 AI 智能体实用指南(宝玉的分享)

OpenAI 刚出了份《构建 AI 智能体实用指南》,宝玉做了精读,把这套新范式讲得特清楚。智能体不是什么新鲜词,但这里把它定义为能自主代理用户完成任务的新软件,跟传统工具划清界限。什么时候该上智能体?三种情况最合适:复杂决策、规则系统维护困难、非结构化数据成堆。核心是三大块:模型当大脑,工具当双手,指令当行为准则,各管各的好。架构上别贪心,从单一智能体起步,按需演进到多智能体,主管模式和去中心化自己掂量。最后是生产级安全:分层防御加人工干预 HITL。想从原型走到上线,这套方法论给出了清晰可照搬的路径。

36.什么是代理?(LangChain Blog)

别再纠结你的应用到底算不算Agent了,LangChain开发者直接给出了工程定义:Agent就是让大模型主导控制流的系统。文章用自动驾驶分级打了个比方,提出了“智能化程度”的光谱概念——从低到高,模型掌握多少决策权才是关键,而不是非黑即白地贴标签。顺着这个思路,你就能明白为什么需要LangGraph、LangSmith这类工具:当应用越来越依赖模型决策时,管理复杂度的专用基础设施就成了刚需。读完你会得到一把可量化的标尺,把团队里那些模棱两可的Agent讨论拆解成明确的设计取舍。

37.吴恩达:AI 智能体工作流引领人工智能新趋势 [译](宝玉的分享)

吴恩达的新文章要颠覆你对AI的用法——别再把模型当一次性答题器了。他搞了个对比实验:让GPT-3.5套上智能体工作流(先写提纲、查资料、反复改),结果比直接上GPT-4还猛。文章拆出四种设计模式:反思、工具调用、规划、多智能体协作,其中反思最简单最见效。搞工程的朋友注意,这玩意儿需要你学会等模型多轮思考,急不得。一份让性能飙升的实战地图,值得反复细读。

38.深度解析:Anthropic MCP 协议(浮之静)

Anthropic 搞了个叫 MCP 的协议,把 AI 模型和外部数据、工具串起来,就像给大模型装了个万能插头。这篇指南不扯虚的,从协议怎么分层、消息怎么传,到 Mac 和 Windows 上怎样配置 Claude 桌面应用、建个测试数据库、把数据接进去,一步步讲得明明白白。作者还特别提醒了资源 URI 校验和敏感数据加密,安全细节没落下。最有意思的是那个「debug-error」工作流,直接让模型读错误信息定位 bug,很实用。现在 Block、Apollo 这些公司已经用上了,想自己上手跑通第一个集成,照着这份教程操作就行。

39.别再误会 MCP 了!一篇写给 AI 工程师的硬核“辟谣”指南(阿里云开发者)

别再被带偏了!MCP 真不是高级版的 Function Calling。这篇文章从架构分析到源码深扒,再用 CherryStudio 开刀解剖,硬核证明了 MCP 本质是模型无关的工程协议,Client-Host-Server 里只有 Host 才真正承载智能,Server 和 Client 就是纯 RPC 中间件。它还理清了层级关系:Function Calling 是模型的决策能力,MCP 是工具调用的基础设施,两者协作而非替代。当然,作者也毫不客气地指出了 MCP 当前的高 Token 成本和意图识别稳定性两大痛。读完这篇,你对 MCP 的工程认知会彻底校准。

40.七大 MCP 支持的主流 AI 框架大盘点(山行AI)

想给自己的Agent接入MCP,但不知道怎么下手?这篇文章直接帮你整理了七套主流框架的集成方案,从OpenAI Agents SDK到LangChain、Chainlit都有。作者先讲清楚MCP到底解决了什么——让LLM不再信息闭塞,还能调用外部工具,而且比传统直连更安全、好管理。然后带你逛一圈Glama、Smithery这些注册表,接着就是干货:每个框架都配好了依赖安装、运行步骤和代码,照着敲就能跑起来。开发者选型或自己搭Agent时,这份清单能省去不少翻文档的功夫。

41.MCP 不止工具调用!MCP 联合创建者:绝大多数人用法都太初级!曝 MCP 五大原语、高阶玩法:丰富人机交互体验;MCP 的未来在 Web(51CTO技术栈)

MCP 联合创建者 David Soria Parra 直接开怼:绝大多数人把 MCP 用得太初级了,只知道调工具。这篇文章把 MCP 的五大原语(Prompt、Resource、Tool、Sampling、Roots)讲透了,每个原语的角色和协作方式都说明白了,比如 Sampling 能让服务器反向请求客户端补全,支撑复杂链式调用。作者还点明 MCP 的未来在 Web,用 OAuth 2.1 搞定鉴权,可流式 HTTP 解决扩展性,并预告了异步任务、官方注册中心、多模态等新能力。想从“只会调工具”升级的开发者,这篇给出了清晰的路线图。

42.我的研发实践:高准确率 AICoding 工作流设计(大淘宝技术)

淘天交易团队的工程师分享了一套让AI写代码准确率从50%飙升到92%的实战方法。他们用MCP、A2A和AG-UI协议搭了一套智能生码系统,专门解决AB实验下线、Switch开关治理这类又烦又没技术含量的问题,把‘氛围编程’变成了真正能用的企业级工具。文章还对比了Claude 4和QwenCoder谁更靠谱,以及怎么靠结构化提示词让AI少犯糊涂,想搞内部AICoding工作流的团队可以拿走当架构参考。

43.当 AI 智能体学会“欺骗”,我们如何自保?来自火山的 MCP 安全答卷(字节跳动技术团队)

当AI Agent学会被投毒和欺骗,安全就成了MCP落地的硬门槛。字节跳动团队以火山引擎实战案例,先带你搞懂MCP时序交互流程,再系统拆解七大安全风险——既有传统Web服务的老漏洞,也有工具描述投毒、间接提示词注入这类AI专属新型攻击,每个都附真实案例。更关键的是,他们给出了一份覆盖安全准入、原生设计、运行时防护三大维度的全生命周期安全方案。正在把MCP接入企业资源的团队,这份答卷把抽象风险变成了可对照的检查清单,实在解渴。

44.构建安全可扩展远程 MCP 服务器指南(The GitHub Blog)

如果你还想把MCP服务器当本地玩具,是时候升级了。GitHub这篇指南直接拆解了生产级远程MCP的两大命门:安全和扩展。授权上,OAuth 2.1是主角,搭配授权服务器发现、动态客户端注册什么的,让集成更顺滑;多用户场景下,用严格令牌校验和数据隔离搞定「Confused Deputy」这个坑。扩展性方面,作者建议搞个AI网关来统一处理限流、请求转换和缓存,这样核心业务代码就干净了。生产部署别忘了Azure Key Vault或AWS Secrets Manager这类密钥管理服务来做动态轮换,再加上结构化日志、分布式追踪和告警。想把自己的MCP服务器真正跑在生产上,这份架构清单值得当模板抄作业。

45.如何以及何时构建多智能体系统(LangChain Blog)

LangChain 综合了 Cognition 和 Anthropic 的观点,给出一份务实的多智能体系统决策指南。文章先强调上下文工程在多智能体协调中的极端重要性——也是最容易出问题的地方,然后抛出一个反直觉的观点:专注于“读取”任务的多智能体比“写入”任务好管得多,因为后者要处理并行化和输出合并的棘手问题。生产环境中,持久化执行、错误处理、调试、可观测性和评估都是硬骨头,这也是 LangGraph、LangSmith 这些工具存在的理由。最终结论很清晰:多智能体系统只在广度优先查询、高并行、大上下文、高价值的任务上才值得引入带来的复杂度和成本。这篇文章给纠结架构选型的团队一把实用的决策标尺。

46.多智能体在「燃烧」Token!Anthropic 公开发现的一切 | 机器之心(机器之心)

Anthropic 基于 Claude 搭建多智能体研究系统,采用「协调者-执行者」架构,让一个主导智能体把复杂研究问题拆解给并行的子智能体。核心发现是 Token 消耗直接驱动性能:多智能体靠并行「烧」Token 换取更强处理能力,成本也随之飙升。文章还分享了分工、分级投入、工具设计等提示词原则,以及从小样本起步、用 LLM 评审和人工评估结合的方法。另外,有状态智能体在调试、部署和同步/异步执行上也有不少工程坑。如果你正想把多智能体原型推向可靠生产,这份经验教训值得一看——它毫不避讳地算了一笔成本与可靠性的账。

47.阿里云客服 Agent 业务提效实践:灵活可控的落地方法论(InfoQ 中文)

阿里云客服团队在Agent落地上玩出了花:他们没掉进纯流程或纯大模型的坑里,而是搞了个“大模型自主规划”和“Workflow预编排”混搭方案。最狠的是邮箱诊断这种多步排障场景,靠一个“中间状态”让两边各干各的,既稳又活。为了让Agent不抽风,他们用AI自己优化提示词,还狂灌领域知识和压响应时间。目标也很实在——让不懂技术的客服人员也能低成本搭出自动化系统。如果你正纠结Agent和流程怎么选,这份工程取舍清单直接抄作业就行。

48.Agent 框架思考指南(LangChain Blog)

选Agent框架时,90%的人可能都忽略了最关键的一点:上下文控制。这篇LangChain官方的文章直接把这个问题拎了出来——可靠的Agent系统其实是Workflow和Agent的混合体,但市面上绝大多数框架只给了你Agent抽象,看似好上手,实际让LLM拿到的上下文变得混乱失控,可靠性翻车。作者顺势下场安利自家的LangGraph,定位很妙:既保留高层抽象的便利,又允许你在需要时撸起袖子精确控制上下文。文章还给了两条硬核评估维度:Workflow与Agent的取舍、声明式与非声明式的权衡。如果你正在为项目选型纠结,这份判断框架能帮你搞清楚每个框架到底替你管了什么、又夺走了什么控制权。

49.重塑记忆架构:LLM 正在安装「操作系统」 | 机器之心(机器之心)

LLM 的「失忆」问题一直是痛点,但机器之心这篇把记忆重新定义为系统层的资源管理问题。它先帮你划清长上下文和记忆的界限,再拆出四大处理能力,然后按事件、语义、程序性三类记忆重组整个图景。最精彩的是横向对比了一批前沿系统:MemGPT、MemOS 等从操作系统偷师,把记忆当资源调度;Larimar 和 M+ 则向人类大脑取经。RAG 在这张地图里成了外部知识的基础设施。对做长程交互和持久记忆的工程师来说,这份架构梳理相当解渴。

50.用于自学习自主 Agents 的 Memory 与 Dreaming(Claude)

Anthropic 给自主 Agent 加上了「记忆」和「梦想」两大新能力,记忆像虚拟文件系统一样管理知识,梦想则作为离线优化循环来全局协调记忆状态。这么一结合,Agent 就能持续学习和改进了,比如 Rakuten 的首次执行错误率直接降了 97%,企业级任务自动化效率大幅提升。

51.动态计算:我们如何构建无服务器服务器 - Vercel(Vercel News)

Vercel 工程团队花了两年时间,把无服务器架构翻了个底朝天,搞出了「动态计算」。起因是传统的 AWS Lambda 单个实例处理单个调用的模式,根本扛不住 React 服务端组件和 Next.js App Router 的流式传输需求。他们干脆自建了一套基于 TCP 的传输层,实现流畅的流式响应和双向通信,又用 compute-resolver 智能路由把请求灵活复用给多区域的空闲实例,配上 Rust 写的健康监控动态调节负载,从根子上消灭冷启动。最后推出的「动态 CPU 定价」更是颠覆——只按活跃计算时间收费,I/O 密集型的负载成本能省下最多 95%。想追 serverless 最新动向的工程师,这绝对是一篇值得细品的技术深挖。

52.阿里云 CIO 首次系统复盘:大模型落地的 RIDE 方法论与 RaaS 实践突破(InfoQ 中文)

AI在企业里到底怎么用出效果?阿里云CIO蒋林泉这次交底了。他直面一个扎心矛盾:业务部门看到Demo就兴奋,IT部门却苦于生产力跟不上预期。解决问题的关键是提出了RaaS(结果即服务)理念,不玩虚的,直接拿结果说话。他还总结了一套E2E落地方法论叫RIDE——重组组织、识别痛点、定义指标、推进数据与工程。别觉得抽象,人家用文档翻译、智能外呼、合同审核等28个数字人项目真刀真枪干出了量化效果。最实在的洞察是:大部分AI项目死在数据层,底层数据准备好、系统就绪,才是成功的基石。想让AI在组织里真正跑起来,这套框架值得收藏。

53.AI Native 时代 —— 研发组织何去何从(阿里技术)

阿里技术内部访谈发现,一线工程师写代码的时间从30%骤降到5%,跟Agent对话却从5%飙升到60%,一个原本6周的功能现在一天就能跑完上线、测试、下线、重发的全流程。这不仅仅是效率提升,而是协作主体变了——AI不再只是工具,而是新的协作伙伴,传统以人为核心的组织设计开始失效。像Anthropic这样的AI Native团队,结构上呈现为高度结构化、AI主导的Harness层与高度松散、人主导的Hive Mind层并存。蒸馏焦虑、Architect角色、Execution Graph等话题,让这篇文章成为本周最值得反复咀嚼的一篇。

54.脉搏:前场部署工程师再度火热(The Pragmatic Engineer)

前场部署工程师(FDE)这个角色又重新热起来了!Google、OpenAI、Anthropic 这些巨头都在抢人。但现在的 FDE 可不是以前那种纯部署的了,更像是解决方案架构师或者顾问,得懂业务、懂客户、还得会落地。这对刚入行的工程师来说是个好机会,能早点接触商业场景;但对那些经验丰富的老手,吸引力反而不大了,毕竟这种角色更偏软技能,技术深度可能不够。总的来说,FDE 的转型反映了 AI 行业对落地能力越来越看重。

其他

行业前沿与开源生态,整合行业深度洞察与开源技术动态的复合型主题,技术哲学、AGI 讨论、领袖观点。

1.Genie 3:世界模型的突破(Google DeepMind News)

Google DeepMind 的 Genie 3 把世界模型推到了新高度:只用文字描述就能生成可交互的实时环境,720p 分辨率、24 帧每秒,还能保持几分钟的一致性。它不只是模拟物理和虚构世界,连历史场景都能还原,甚至允许你用文本命令改变世界,为 Agent 训练造出无数「假如」场景。DeepMind 说这是 AGI 和具身智能的关键一步,但也老实承认限制不少——Agent 能做的事有限、多 Agent 协作难、地理位置还原不准,所以目前只开放有限研究预览。想亲眼看看世界模型怎么成为 Agent 训练底座的,这份一手材料别错过。

2.DeepSeek-V4 预览版:迈入百万上下文普惠时代(DeepSeek)

DeepSeek最近放了个大招,V4预览版开源了,直接标配1M上下文,Pro版代码能力直逼闭源最强,Flash版主打快和省。技术上用了稀疏注意力压缩token,处理超长文档不再烧算力。如果你是搞Agent开发的,这模型已经适配好了主流框架,海量文档自动化工作流有戏了。

3.奥特曼万字访谈:揭秘 GPT-5 幕后艰辛,宣告超级智能前夜已至(腾讯科技)

奥特曼在GPT-5发布后罕见深度访谈,揭秘了从预测下一个词到复杂编程的巨大跨越。他直言AI的增长卡在算力、数据、算法和产品定义四道坎上,而最缺的其实是能源。更劲爆的是,他押注2027年末AI就能搞出公认的重大科学发现——不是小打小闹,是真能改写教科书的那种。聊到工作、教育和健康时,他强调AI是给聪明人用的杠杆,不是偷懒神器。另外,内容真假、算力分配这些社会问题也没回避。OpenAI甚至愿意为造个有益人类的AI放弃短期增长,这格局你细品。想看清这位大佬眼中的时间表和真实瓶颈,这篇干货别错过。

4.关注 AI 必读!Anthropic CEO 万字长文-预测强人工智能的积极未来(歸藏的AI工具箱)

AI 大佬罕见地不谈风险,而是画了一张积极路线图:Anthropic 的 CEO Dario Amodei 预测,强的像天才数据中心一样的 AI 可能在 2026 年前后出现,而且它能把人类需要 50 到 100 年才能搞定的生物医学突破,压缩到几年内实现——从传染病、癌症、遗传病到延长寿命,全包了。他把这种 AI 比作「虚拟生物学家」,不只做数据分析,而是加速整个研究链条。不过他也承认,对全球贫困和不平等问题,AI 没那么灵,还得靠人类的协同努力。这篇不是空喊口号,而是来自前沿实验室掌舵人的、可验证的乐观清单。

5.智能的未来 | 戴密斯·哈萨比斯(DeepMind 联合创始人兼首席执行官)(Google DeepMind)

DeepMind 的 Demis Hassabis 在年度访谈中大方分享了他们对 AI 未来的真实想法:AGI 不是单纯靠堆数据和算力就能砸出来的,而是需要扩展(scaling)和真正的创新各占一半。他特别强调,像 AlphaGo 那样的搜索与规划能力才是关键,光靠大语言模型不够。更值得关注的是他对世界模型和模拟环境的重视——这不仅是让 AI 理解物理规律的基础,还能加速核聚变、材料科学等现实难题的突破。他形容这场变革比工业革命快 10 倍,甚至已经开始思考后稀缺时代的经济该怎么重新设计。内容信息量很大,适合对 AI 真正发展方向感兴趣的人。

6.和杨植麟时隔一年的独家对话:“站在无限的开端”(语言即世界language is world)

时隔一年,张小珺又跟杨植麟聊上了。这次围绕 Kimi K2,他掏出了一本书《无穷的开始》给大模型定调——就像一场无限攀登,问题会不断出现,但总可以解决。技术上有两个重点:一是K2用了 Muon 优化器,token效率明显提升;二是死磕 Agentic 能力,然而 Agent 泛化性是当前最大瓶颈,得靠“AI 参与 AI 训练”这类手段来破。他还重新解读了 OpenAI 的 L1 到 L5 分级,认为不是严格的串行路线,高阶能力反而能反哺低阶。想搞懂月之暗面怎么选方向、怎么想问题,这篇对话很值一看。

7.张宏江:我对于 AI 和大模型八点观察和看法 | AI 光年(深网腾讯新闻)

张宏江博士在硅谷分享了他的八点AI观察,从规模定律、GPU崛起,到把大模型看作新一代操作系统,逻辑清晰又犀利。他不仅拆解了应用分层和发展阶段,还给了创业者做模型策略的实战建议,尤其看好个性化与To B方向。最后预言多模态是AGI关键,能赋能通用机器人。想快速建立对AI大模型的高阶认知框架?这八点就是绝佳的脚手架。

8.李沐重返母校上海交大,从 LLM 聊到个人生涯,这里是演讲全文(机器之心)

李沐回上海交大做了一场很坦诚的分享,把LLM的技术现实和个人选择揉在一起讲。他跳出常规思路,直接点出一个容易被忽略的关键:内存瓶颈可能比算力更早成为模型尺寸和效率的天花板。还逐个拆了语音、音乐、图像等多模态方向的实际进展。应用上,他按文科白领、工科白领、蓝领三类岗位来评估AI的落地程度,把技术能力和就业现实对齐。最后聊大公司、读博、创业三条路的动机和代价,全是过来人的真话。想了解模型趋势又纠结职业选择的,这篇一次补齐。

9.王小川评 OpenAI o1: 找到一条从快思考走向慢思考的路(腾讯科技)

王小川给了一剂清醒剂:OpenAI o1不是颠覆,而是升级——从快思考到慢思考。亮点在于他把强化学习推上C位,说这是模型从吃老本到真泛化的钥匙,而语言链(CoT)是慢思考的骨架。他还大胆预言代码是下一个核心技能,并脑洞了强化学习在文科和医疗里的玩法,甚至想造AI医生和通用顾问。最燃的是他那句判断:大模型的终极逻辑是‘造人’——从智能模型迈向生命模型。想看懂o1为什么重要,这篇是坐标图。

10.黄仁勋深度访谈:十年时间,我是怎么带领 2.8 万人超越苹果的?(Founder Park)

Stripe CEO帕特里克·克里森跟黄仁勋聊了聊,后者直接把英伟达从几千人带到2.8万人,市值超越苹果。管理上他不走寻常路,让60多个高管直接汇报给自己,靠极致扁平换透明和效率;还公开复盘错误,不轻易开人,认为CEO就该只处理别人搞不定的事、只进能推动进展的会。战略上他偏好开创新市场,把AI比作工业革命,说生产token和浮点数就是在生产智能,会系统性提升各行各业生产力。顶级创始人的组织、判断和时代机会怎么拧成一股绳,这篇给你讲透。

11.Ilya Sutskever – 我们正从扩展时代迈向研究时代(Dwarkesh Patel)

Ilya Sutskever 放了一个大招:AI 行业那个靠堆算力就能进步的“扩展时代”结束了,接下来需要真正的科研突破。他狠狠吐槽了现在的模型表现——在复杂测试里能拿高分,但在简单任务上却翻车打转,说白了就是被训练成“考试机器”,没理解本质。而他的新公司 SSI 更是另辟蹊径,不急着做产品,一门心思扎进基础研究,想模仿人类那套直觉般的“情绪价值判断”来造出安全又聪明的 AI。这篇访谈是理解 AI 下一步怎么走的第一手材料,值得读透。

12.GPT-5 被批过度炒作、性能落后,OpenAI 联创揭秘其中原因:我们把它关在 “象牙塔”,和现实世界接触不够(InfoQ 中文)

GPT-5 被批过度炒作、性能不如预期?OpenAI 联创 Greg Brockman 给出了一个很有画面感的解释:他们把模型关在了「象牙塔」里,和现实世界接触不够。实际上,GPT-5 在编码、长篇推理这类企业级复杂任务上表现卓越,只是消费级场景因为「饱和效应」让人感觉不到提升。Brockman 还透露了模型范式的关键转变:从「下一词预测」转向在线强化学习,让模型真正与现实互动。算力依然是瓶颈,但好消息是模型成本正在飞速下降。他的愿景是让模型走出象牙塔,成为人类的「智力伙伴」。这篇访谈把 GPT-5 争议背后的技术逻辑讲透了,想了解真相的别错过。

13.Andrej Karpathy 谈软件 3.0:AI 时代的软件(Latent.Space)

Andrej Karpathy 在 YC AI Startup School 的演讲简直是把软件行业翻了个底朝天。他提出提示词就是新的程序,软件3.0正在蚕食1.0和2.0的地盘。他给大语言模型找了三个类比:工具、算力工厂和操作系统,但也不客气地指出它们有“锯齿状智能”这种时好时坏的能力,还有“顺行性遗忘”这种记不住事儿的毛病。补救办法?他提议搞个“系统提示词学习”。他还说AI产品得有可调的“自主性滑块”,文档和系统也得改造成面向AI Agent这个新物种,才能从demo变成靠谱产品。想快速理解AI时代的软件到底是个啥心智模型,这篇是绝佳的硬核入门。

14.The Second Half:一位 OpenAI 科学家的 AI 下半场启示录(海外独角兽)

OpenAI研究员姚顺雨最近抛出一个判断:AI的竞争已经进入下半场。这可不是简单的技术迭代,而是一场从‘怎么算’到‘问什么’的转变。过去大家拼训练算法、堆算力,现在RL、Scaling和推理能力的组合成了新公式,真正的胜负手变成了谁能精准定义问题、设计出能衡量真实智能的评估机制。那些老掉牙的静态Benchmark?已经不够用了。未来的核心挑战是要解决‘效用问题’——怎么让AI打破独立同分布的假设,通过长程记忆和真实交互,把聪明才智转化成实实在在的经济价值。这不是技术问题,而是战略问题。

15.如何避免 AI 扼杀你的批判性思维 | 阿德韦特·萨卡尔(TED)

这场演讲让人后背发凉——当你用AI总结邮件、起草报告时,其实正在把自己的理性外包出去。微软研究员Advait Sarkar用数据指出了四重代价:创造力变窄、批判性思维偷懒、记忆力退化、元认知超载。他形容我们成了“自己思想的中层管理者”,但更宝贵的是给出了替代方案:让AI成为工具而非助手,通过保留材料接触、提供生产性阻力和搭建元认知支架来保护我们的思维。对于重度使用AI的你,这是一次必要的认知校准。

16.E45 孟岩对话李继刚:人何以自处(无人知晓)

这期三小时长谈,孟岩和李继刚从一个简洁判断出发:工业革命拿走了体力,AI正在拿走脑力,留给人的是心力。聊到了向量世界的本质、商业模式从编网到打井的转变,以及人机协作中两条岔路——是借助AI放大自己的独特价值,还是让思考悄悄撤离。教育从灌输式的「水」转向启发式的「火」,李继刚的两个洞察「Your feed is your fate」和「提示词是有形状的」也很值得琢磨。如果你在技术讨论之外,想认真想想AI时代人该怎么自处,这期值得听。


编辑此页