Vol.48:AI 发展开始进入下半场

大家好!Weekly Gradient 第 48 期内容已送达!

✉️ 免费订阅更新

订阅我的免费通讯,第一时间获取生成式 AI 领域优质内容

我承诺保护您的隐私,不会向第三方分享您的信息。
您可以随时取消订阅。

论文

  1. LocAgent:辅助定位代码错误的 Agent:基于图引导的大语言模型,用于识别和定位软件中的错误。LocAgent 通过分析和理解代码的结构和语义,旨在帮助开发者更代码库中找到需要修改的具体位置,从而提高软件维护和重构的效率。该技术通过构建一个代码依赖图谱来引导代理对象,使其能够自动化地识别和定位代码中的相关部分。

    1. 自动化程度提升:LocAgent 通过自动化的方式提高了代码本地化的效率,减少了人工干预的需要。
    2. 精确度提升:利用图引导的大型语言模型,LocAgent 能够更精确地识别和定位代码中需要修改的部分。
    3. 结构和语义理解:LocAgent 能够更深入地理解代码的结构和语义,这允许更精细的代码分析,而不仅仅是基于文本匹配。
    4. 代码依赖图谱:通过构建和分析代码依赖图谱,LocAgent 能够更全面地理解代码之间的关系,从而提供更准确的本地化建议。
    5. 减少歧义和冗余:传统方法可能会因为重复和歧义而导致不准确的本地化结果,而 LocAgent 通过图引导的方法能够减少这种情况。
    6. 适应性强:LocAgent 更加适应性强,能够更好地处理大型软件项目中的复杂代码本地化场景。
    7. 维护和重构效率提升:通过直接定位到需要修改的代码位置,LocAgent 有助于提高软件维护和重构的效率。

    项目开源地址:LocAgent

  2. CrackSQL:实现不同数据库SQL的互转:CrackSQL 是一个结合规则与大语言模型方法的混合 SQL 翻译系统,旨在减少人工干预,提高翻译准确性。该系统支持三种翻译模式,包括 Web 控制台界面、PyPI 软件包和命令行工具,并提供多样化的部署和访问选项。CrackSQL 通过功能分解处理复杂查询,采用跨方言语法嵌入模型和自适应局部到全局翻译策略,以提高翻译的准确性和鲁棒性。该系统已开源,代码和文档可在 GitHub 上获取,并已在实际的 SQL 查询数据集上进行了测试,显示出低错误率和高用户友好性。

  3. 字节深度思考模型Seed-Thinking-v1.5技术报告:字节跳动Seed团队发布了一款名为Seed-Thinking-v1.5的混合专家模型(MoE),以86.7%的AIME数学竞赛得分和55.0%的Codeforces编程竞赛通过率,刷新了多项基准测试记录。Seed-Thinking-v1.5 使用了 Mixture-of-Experts (MoE) 架构,具有 20B 激活参数和 200B 总参数,并在内部基准测试中展示出其广泛的泛化能力。

  4. 大语言模型在学习新知识时可能会出现 “启动效应”,即在不相关的上下文中错误地应用新学到的知识,这可能会导致知识的 “污染”。Google Deepmind 团队开发了一个名为 “Outlandish” 的数据集,包含多种文本样本,用于测试 LLM 在学习新信息后的 “引导” 效应,即新学习的知识如何影响无关的知识。研究发现,新信息的学习可以通过预先测量的关键词概率来预测,这种关系在不同的模型架构、大小和训练阶段中都得到了验证。此外,研究还提出了两种新的策略来调节新知识对现有模型行为的影响:一是 “阶梯式” 文本增强策略,二是 “忽略前 k” 的梯度剥离技术。

工程

  1. MCP 安全检查清单:AI ⼯具⽣态系统安全指南:MCP(Model Context Protocol)安全检查清单是由慢雾安全团队编写和维护的,旨在帮助开发者确保 MCP 实现的安全性,并提供一系列的安全措施来管理和防范在 AI 工具和系统中的安全风险。该清单涵盖了从用户交互界面、客户端组件、服务插件,到多 MCP 协作机制及特定领域(如加密货币场景)的安全要点。强调了从 API 安全、服务插件安全、后台持久性控制、部署与运行时安全、代码与数据完整性、监控与日志记录、调用环境隔离、平台兼容性与安全、数据安全与隐私、资源安全、工具实现安全、MCP 客户端 / MCP HOST 安全、AI 控制与监控、本地存储安全、应用程序安全、客户端身份验证与授权、MCP Tools 与 Servers 管理、提示词安全、日志与审计、Server 验证与通信安全、权限 Token 存储与管理、自动批准控制、采样安全、MCP 在不同 LLM 上的适配与调用安全、多 MCP 场景安全、加密货币相关 MCP 的特有安全点等多个方面的安全考虑。
  2. awesome-gpt4o-images: OpenAI 最新多模态模型 GPT-4o 生成精彩案例的精选集合,展示了 GPT-4o 的强大功能,如跨模态理解、精准出图、多样风格支持、真实构图等。同时这篇文章整理了一份详细的 GPT-4o 图像生成风格指南,涵盖了多种艺术风格和应用场景,包括经典艺术风格如吉卜力动画、赛博朋克、水彩、油画、浮世绘等,以及现代创意风格如 3D Q 版角色、手绘简笔画、像素艺术等。这些风格可以应用于品牌设计、头像生成、儿童绘本、产品原型等多个实际场景。
  3. cursor-rules:介绍了 Cursor Rules 的最佳实践,包括 Cursor Rules 的定义、类型、最佳实践案例,以及如何通过 Project Rules 更精确地控制 AI 行为。
  4. PocketFlow:PocketFlow 是一个极简主义的 LLM 框架,以 100 行代码构建,基于图的核心抽象,提供轻量级的 AI Agent开发体验,简化了 LLM 应用的开发流程,提供了一系列基础教程,如聊天机器人、结构化输出、工作流、智能体、RAG、Map-Reduce、流式处理、聊天护栏、多智能体、并行处理等。
  5. 智谱开源 32B/9B 系列 GLM 模型,涵盖基座、推理、沉思模型,均遵循 MIT 许可协议
  6. GPT-4.1 提示指南:GPT-4.1 系列模型相比 GPT-4o 具有重大进步,特别是在编码、指令遵循和长文本理解方面。OpenAI 通过内部测试总结了一系列有效的提示技巧,帮助开发者充分利用 GPT-4.1 的能力。

产品

  1. Claude 推出了高级 Research 功能,并与 Google Workspace 实现了深度整合。这一新功能能够让用户更方便地在 Claude 平台上进行高级搜索和信息整理,提升工作效率。此外,Claude 与 Google Workspace 的整合使得用户可以直接在 Google Workspace 中使用 Claude 的高级语言处理功能,从而在处理文档、电子邮件等工作时获得更流畅的体验。

  2. OpenAI 发布三个新模型:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。这些模型目前仅支持 API,无法通过 ChatGPT 界面使用(不过可以在 OpenAI 的 API playground 中试用 )。这三个模型均可处理 1,047,576 个 token 的输入和 32,768 个 token 的输出,并且三个模型的训练数据截止日期均为 2024 年 5 月 31 日(之前的模型大多截止日期为 2023 年 9 月)。输入为每百万 token 0.10 美元,输出为每百万 token 0.40 美元,低于之前最便宜的 OpenAI 模型 GPT-4o-mini(0.15 美元/0.60 美元)。

    We will also begin deprecating GPT‑4.5 Preview in the API, as GPT‑4.1 offers improved or similar performance on many key capabilities at much lower cost and latency. GPT‑4.5 Preview will be turned off in three months, on July 14, 2025, to allow time for developers to transition。GPT-4.5 预览版会下线,GPT-4.5 可能很快就要面世了。

    OpenAI 还分享了一份 GPT 4.1 提示指南 ,其中包含有关长上下文的提示:在长上下文使用场景中,指令和上下文的摆放位置会显著影响模型表现。如果提示语包含较长上下文内容,最佳实践是将指令同时置于上下文的开头和结尾。我们的实验表明,这种”首尾呼应”的布局方式比单独将指令置于开头或结尾效果更佳。若倾向于仅设置单次指令,则将其置于上下文之前的效果优于置于之后。

  3. OpenAI 发布两款全新推理模型:o3 和 o4-mini。除了支持推理外,还支持工具调用能力,包括网络搜索、文件分析、以及视觉输入推理功能。同时发布的还有 Codex,一个在终端中运行的轻量级编程助手,类似 Claude-Code

  4. xAI 正式发布 Grok Studio 首个版本,集成了文档创建编辑和代码生成执行功能,代码方面目前支持 HTML 预览,并能执行 Python、C++、JavaScript、TypeScript 和 Bash 脚本。同时支持连接到 Google Drive,能够处理文档、电子表格和幻灯片,Grok Studio 目前对免费和付费用户均开放。

  5. 微软 Edge 浏览器即将上线 Copilot Vision:可以帮助用户浏览、整理网页内容,支持语音输入,目前仅支持维基百科、亚马逊等部分网站。微软表示未来会逐步扩大支持范围。

  6. 腾讯元宝现可直接添加为微信好友(目前还没有正式宣发):腾讯的 AI 助手元宝现在支持添加为微信好友进行聊天,就像好友一样,支持语音输入、图片、联网搜索,微信搜索元宝即可添加到联系人。

  7. 谷歌推出 Gemini 文生视频 & Whisk 图生视频:采用Veo2 视频生成模型,需要 Gemini Advanced 或 Google One AI Premium 订阅才能使用,可以在 Gemini 中进行文生视频,在 Whisk 中进行图生视频,最高能生成 8 秒 720p 的视频。

  8. 字节跳动发布的 Seedream 3.0(即梦 3.0)模型:登顶 Artificial Analysis 榜首( Mogo 模型),很强的汉字排版能力;最高支持 2K 分辨率输出。通过火山引擎接入该模型,目前定价为 0.2 元/张

市场

  1. 智谱正式启动A股IPO:北京智谱华章科技股份有限公司(以下简称“智谱”)于2025年3月31日同中金公司签署辅导协议,正式启动A股IPO进程。截至目前,智谱的投资方已汇集了中科创星、达晨财智、君联资本、启明创投、高瓴创投、今日资本、光速光合、红杉中国、顺为资本、招商局创投、云晖资本等知名VC,美团、蚂蚁、阿里巴巴、腾讯、小米、金山、BOSS直聘、好未来、三七互娱、华策影视等战略投资方,以及北京、杭州、珠海、成都等地的地方国资支持。
  2. OpenAI 考虑以 30 亿美元收购 AI 编程工具 Windsurf

观点

  1. Gemini 2.5 推理功能技术负责人(Google DeepMind 的首席研究科学家Jack Rae)访谈:Gemini 2.5 Pro的发布标志着Google DeepMind的大语言模型进入了新阶段。此次模型的主要特点是实现了超长上下文处理能力,能够处理数十万甚至更多token的输入。在实际应用中,该模型展现出精确掌握复杂代码库结构与细节的能力,并能在现有代码基础上进行高效的扩展与协作开发。这些突破的关键包括强化学习的广泛应用和工程细节的长期积累优化。

    Jack Rae表示,预训练阶段主要是学习大量的抽象特征和模式,为模型提供丰富的基础表达能力,捕捉文本分布中的各种行为,包括有效的推理模式和一些不理想的模式。而在后训练阶段,模型会从预训练中获得的众多模式中选择和精炼出优势,去除无关和低效的行为,专注于特定的推理和响应模式。成功实施强化学习后,模型能够进一步结合已有能力,应对更复杂、关键的任务。

    Jack Rae指出,以往小模型由于规模不足,简单的强化学习难以显现出复杂的推理结构。当模型规模达到一定程度后,会自然形成初步的内部推理机制,这些机制为强化学习的效果提供了基础。经过系统性优化后,强化学习能够帮助模型稳定地展现出自我纠正、探索多种推理路径等复杂行为,显著提升实际应用效果。这些复杂的推理模式是预训练阶段无法单独实现的,它们需要在后训练阶段通过强化学习来获得和巩固。

    Jack Rae认为,当前行业内“思维链”方法迅速流行,是因为这种方法显著地表达了内部推理过程。一旦模型具备足够的规模和能力,思维链方法便能快速验证和产生明显效果,因此被广泛应用。

    在模型内部机制的处理上,Gemini团队偏好让模型自然展现其内部思维过程,尽量减少人为干预。尽管在推理过程中可能出现语言单一化和模板化的现象,但这们被视为模型内部机制的自然体现。Gemini团队明确反对对思维链额外施加奖励压力,以确保推理过程的真实性和有效性。

    关于人类数据用于模型训练的问题,Jack Rae的经验是:当强制人们详细显式地记录推理过程时,数据质量往往较低。相反,自然产生的详尽描述对模型训练更有帮助。此外,模型自身生成的合成数据在训练中也显示出相当的实用性,有助于模型学习复杂的推理结构。

    在记忆机制方面,Jack Rae指出,尽管当前模型在上下文处理能力上已经取得了重要进展,但在长期理解和终身学习的场景下,仍需结合专门的外部记忆机制(如之前DeepMind研究过的Neural Turing Machine或可微分神经计算机)来实现高效的长期记忆能力。Gemini团队认为,将这种外部记忆机制与模型的深度思维能力相结合,是未来模型通向更高通用智能的关键路径。

    在多模态能力的深度整合方面,Jack Rae一直强调这一点。他观察到,深度多模态整合在文本和图像之间的有效结合远超简单的工具调用,极大地增强了模型的整体理解和表现。同时,他们也注意到在考虑是否将其他领域或数据类型(如生物数据)纳入统一多模态训练时,需具体评估数据规模、信息密度以及跨领域正向知识迁移的效果。这种务实的评估策略体现了Gemini团队目前优先从信息密集和规模较大、明确能提升模型整体能力的模态开始整合,并逐步拓展到其他模态领域。

  2. 本文是 OpenAI 科学家姚顺雨对 AI 发展下半场的解读,核心观点是 AI 的发展正从解决问题转向定义问题,Evaluation (模型评估) 会比 Training (模型训练) 更重要。文章回顾了 AI 上半场以算法和模型创新为主的特点,例如 Transformer、AlexNet、GPT-3 等,指出强化学习 (RL) 在实现通用人工智能 (AGI) 中的关键作用,并强调了先验知识 (priors) 的重要性。作者认为,AI 下半场需要重新思考评估方法,打破自动运行和独立同分布等假设,关注现实世界效用,以实现 AI 的真正价值。文章还提到了在计算机使用和网络导航等领域,RL Agent 的 zero-shot 能力仍有待提高。最后,文章鼓励 AI 研究者和从业者关注实际应用,打破固有思维模式,将智能转化为有用的产品,打造具有巨大商业价值的公司。

Vol.48:AI 发展开始进入下半场

https://liduos.com/the-memeber-newsletter-48.html

作者

莫尔索

发布于

2025-04-21

更新于

2025-06-30

许可协议

评论