Vol.37:2025 年 AI 编码类产品将如何演进?

大家好!Weekly Gradient 第 37 期内容已送达!

✉️ 免费订阅更新

订阅我的免费通讯,第一时间获取生成式 AI 领域优质内容

我承诺保护您的隐私,不会向第三方分享您的信息。
您可以随时取消订阅。

论文

  1. Memory Layers at Scale:这篇论文展示了记忆层在语言模型中的潜力,证明了其在扩展规模上的有效性。作者提出了一种可扩展的记忆层实现方法,能够在不显著增加计算量的情况下,通过引入额外的参数来增强模型的能力。实验结果表明,记忆层在事实性任务上表现出色,能够显著提高语言模型的准确性,尤其是在需要大量知识存储的任务中。与密集模型相比,使用记忆层增强的模型在事实性问答任务上提高了超过100%,并且在编码和常识任务上也表现出显著的优势。此外,记忆层在参数数量上与混合专家模型相当,但在性能上更优,特别是在事实性任务上。论文还探讨了记忆层的并行化和优化策略,以提高其在大规模模型中的应用效率。这篇论文为未来的AI架构提供了一个新的方向,即在保持计算效率的同时,通过增加内存容量来提升模型的知识获取能力。
  2. Search-o1: Agentic Search-Enhanced Large Reasoning Models:在这篇论文中,作者提出了Search-o1框架,旨在解决推理模型(LRMs)在处理复杂推理任务时面临的知识不足问题。通过将自主检索增强生成机制与知识精炼模块相结合,Search-o1能够在推理过程中动态地检索和整合外部知识,从而提高推理的准确性和连贯性。该框架的核心在于其代理检索机制,允许模型在遇到知识缺口时主动触发检索过程,以获取所需的外部信息。此外,Search-o1引入了Reason-in-Documents模块,用于从检索到的文档中提取相关且简洁的信息,并将其无缝集成到推理链中,确保推理过程的逻辑一致性。实验结果表明,Search-o1在多个复杂的推理任务上表现出色,包括科学、数学和编程领域,以及多个开放域问答基准测试。与其他基线方法相比,Search-o1在大多数任务中表现优异,特别是在需要多步推理和外部知识补充的任务中。此外,Search-o1在某些领域的表现甚至超过了人类专家的水平,显示出其在复杂问题解决中的潜力。
  3. 如何利用文本提示高效生成高质量、个性化的长视频?:微软亚洲研究院在 “文本 - 视频”(Text-to-Video, T2V)模型研究中,提出了 ARLON 框架,旨在解决长视频生成的挑战,如高分辨率视频的训练成本、基于文本条件的去噪过程的复杂性、长视频生成中的一致性问题等。ARLON 框架由三个主要组件组成:潜在 VQ-VAE 压缩、自回归建模和语义感知条件生成。通过潜在向量量化变分自编码器(VQ-VAE)技术,ARLON 能够将高维输入特征有效地压缩、量化,降低模型的学习复杂性。自回归模型预测粗略的视觉潜在标记,这些标记由 3D VAE 编码器和基于目标视频的潜在 VQ-VAE 编码器构建。潜在 VQ-VAE 解码器生成连续的潜在特征,并作为语义条件通过语义注入模块,引入 DiT 模型。研究员们还优化了 ARLON 框架,通过引入适应性语义注入模块和不确定性采样策略,提升了模型对噪声的鲁棒性和视频生成的效率。实验结果表明 ARLON 模型在长视频生成领域达到了最先进的性能,并且在推理效率和生成质量上都有显著的提升。
  4. MACT: 多 Agent 框架在复杂表格问答(TQA)任务中的应用:表格问答(TQA)的现状,即如何处理基于表格数据的复杂问题,这通常需要通过多步骤推理或者使用大语言模型(LLMs)来完成。然而,微调 LLMs 需要大量高质量的训练数据,而使用闭源的商业 LLMs 成本高昂且可重复性差。为了解决这些问题,作者提出了 MACT 多 Agent 框架,该框架结合了工具使用和多智能体协作,包括内存、规划智能体、编码智能体和工具集。MACT 框架的核心是五个动作阶段:动作生成、动作选择、工具选择 / 代码创建、观察计算以及内存状态更新。论文详细介绍了动作生成和动作选择的过程,以及工具选择与使用的细节,包括 Wiki 百科搜索工具、计算器工具和 Python 代码工具。接着论文对 MACT 在四个 TQA 基准上的效果进行了评估,与其他 TQA 模型和框架相比,MACT 展现出了更高的性能,特别是在不使用微调的情况下,MACT 能够在不同数据集间保持良好的泛化能力。论文还通过消融研究和错误分析进一步探讨了 MACT 框架的有效性和局限性。目前 MACT 主要在单表设置下进行评估,对多表复杂推理的数据集评估尚不明确,同时也仅在英语语境中研究了 TQA,未涉及多语言 TQA 基准和挑战。
  5. MiniRAG:一种极简和高效的新型 RAG 系统:MiniRAG 是由香港大学提出的一种新型 RAG系统,旨在解决传统 RAG 系统在使用小语言模型(SLMs)时的语义理解和文本处理局限性。MiniRAG 通过两项关键技术创新实现了高效的知识发现:首先,引入了一种语义感知的异构图索引机制,该机制将文本块和命名实体结合在一个统一结构中,减少了对复杂语义理解的依赖,降低了索引的复杂度。其次,开发了一种轻量级的拓扑增强检索方法,利用图结构实现高效的知识发现,而无需高级语言能力,提高了检索的准确性和效率。实验结果表明,MiniRAG 在使用 SLMs 时,性能与基于大语言模型的方法相当,同时仅需 25% 的存储空间。此外,研究团队还贡献了一个全面的基准数据集 LiHua-World,用于评估轻量级 RAG 系统在现实设备场景下处理复杂查询的能力。

工程

  1. MinMo 是一款由阿里通义实验室 FunAudioLLM 团队开发的大型多模态语言模型,旨在实现无缝语音交互,它通过多阶段训练,使用了大量多样化的语音数据,在各项语音任务中取得了领先的性能,同时保持了文本大型模型的能力,支持全双工语音交互,并具备低延迟和高效的语音生成能力,能够根据用户指令精确控制语音的情感、方言和语速等细节,以及模仿特定声音。它支持全双工对话,即用户与系统之间的同时双向通信,具有大约 100 毫秒的语音到文本延迟,以及在理论上大约 600 毫秒、实际上大约 800 毫秒的全双工延迟。
  2. 面壁智能开源 MiniCPM-o 2.6,端侧可用的 GPT-4o 级视觉、语音、多模态实时流式大模型:MiniCPM-o 2.6 总参数量 8B,是开源社区中模态支持最丰富、性能最佳的模型之一。在新的语音模式中,MiniCPM-o 2.6 支持可配置声音的中英双语语音对话,还具备情感/语速/风格控制、端到端声音克隆、角色扮演等进阶能力。基于其领先的视觉 token 密度,MiniCPM-o 2.6 成为了首个支持在 iPad 等端侧设备上进行多模态实时流式交互的多模态大模型。
  3. Mistral 正式发布了 Codestral 25.01 版本:这个版本在 LMsys 的 Copilot 榜单上冲到了第一名(并列)。Codestral 25.01 的特点是轻量级、快速,能够支持超过 80 种编程语言,并针对低延迟、高频率的使用场景进行了优化。与之前的版本相比,新版本的性能提升了一倍,同时增加了对中间填充、代码修正和测试生成等任务的支持。
  4. 千问开源了数学推理过程奖励模型 Qwen2.5-Math-PRM,包括 Qwen2.5-Math-7B-PRM800K、Qwen2.5-Math-PRM-7B 和 Qwen2.5-Math-PRM-72B 三个模型。Qwen2.5-Math-7B-PRM800K 是在 Qwen2.5-Math-7B-Instruct 基础上使用开源数据集 PRM800K 进行微调得到的,而另外两个模型则是使用自建数据集进行训练的。这些模型在数学推理的过程奖励任务中表现出色,特别是在 ProcessBench 评测中,其错误识别性能远超之前开源的 PRM 模型。
  5. 微软面向开发者推出《GraphRAG 实践应用白皮书》: 涵盖知识图谱的核心内容,从知识图谱的基础概念,包括其概述、表示、存储、查询与抽取方法,到 GraphRAG 的整体架构、实践挑战、图形化展示,以及结合 Agentic RAG 所面临的难题与应对方案,还深入分析了 GraphRAG 在不同应用场景下的最佳实践案例,并对其未来发展方向做出展望,旨在帮助开发者和企业全面深入地了解 GraphRAG 技术,为其在实际业务中的应用提供清晰的指导,从而提升决策效率和业务创新能力,在激烈的市场竞争中抢占先机,实现数字化转型与升级。
  6. 谷歌发布《Agents》白皮书 :谷歌最近发布了《Agents》白皮书,介绍了生成式 AI 智能体的基本概念和组成部分,包括模型、工具和编排层。智能体是一个自主的应用,能够通过观察世界并使用工具来实现目标,其中模型是智能体的 “大脑”,工具是 “瑞士军刀”,编排层是 “指挥中心”。智能体与单纯的模型不同,它能够通过工具扩展知识,进行多轮推理和计划,并与外部系统交互。白皮书详细介绍了智能体的认知架构,包括如何使用推理技术如 ReAct、思维链(CoT)和思维树(ToT)来处理信息、做出决策和调整行动。此外,还讨论了智能体如何通过扩展、函数和数据存储等工具与外部世界交互,以及如何使用 LangChain 快速入门 Agent 开发和构建生产级应用。
  7. Google Cloud 推出 Vertex AI RAG 引擎,Vertex AI RAG Engine 是 Google Cloud 提供的一个全面管理的服务,它允许用户利用自己的数据和方法构建和部署 RAG 实现。该服务支持多种架构,可以选择最适合用户案例的模型、向量数据库和数据源。用户可以通过简单的配置更改来轻松地添加新的数据源、更新模型或调整检索参数,使系统能够随着需求的变化而发展。Vertex AI RAG Engine 提供了 DIY 能力,支持多种连接器,可以快速连接到不同的数据源,并且具有良好的性能和可扩展性。此外,它还提供了自定义解析、检索和生成的能力,以及与 Gemini API 的原生集成,可以用于创建基于上下文的对话。Vertex AI Search 作为检索后端,可以提高数据检索的性能和质量。

产品

  1. MiniMax发布并开源新一代01系列模型:包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01,是首个大规模应用线性注意力机制架构的开源模型,为传统的 Transformer 架构提供了新的替代方案,模型拥有 4560 亿参数,每次推理激活 459 亿参数,并且能够处理高达 400 万 token 的最长上下文长度。

  2. 智谱 Realtime、4V、Air 新模型发布,同步上新API:智谱发布了全新的端到端多模态模型 GLM-Realtime,该模型具备近乎实时的视频理解与语音交互能力,支持长达 2 分钟的记忆及 Function Call 功能,并融入了清唱功能。此外,公司还升级了 GLM-4-Air 和 GLM-4V-Plus 模型,提供了更高性价比的解决方案,并且降低了企业使用大模型的门槛。

  3. 阶跃星辰上线推理模型Step R-mini:用户可以通过跃问网页端体验该模型。Step R-mini 是 Step 系列模型家族的首个推理模型,它通过慢思考和反复验证的逻辑机制,能够主动进行规划、尝试和反思,为用户提供准确可靠的回复。该模型不仅擅长解决复杂的逻辑推理、代码和数学问题,还能兼顾文学创作等通用领域。

  4. 书生浦语3.0发布 :书生浦语 3.0 使用 4T 训练数据的 InternLM3-8B-Instruct 模型,在节约 75% 以上训练成本的同时,其综合性能超过了同量级开源模型。此外,该模型首次在通用模型中实现了常规对话与深度思考能力的融合,能够应对更多真实使用场景。研究团队通过智能化的数据处理和高价值数据的合成,提升了数据的 “思维密度”(IQPT),从而提高了模型的性能。通过基于世界知识树(World Knowledge Tree)的指令标注与合成方案,以及多任务场景精细化分类,构建了数十万高质量微调指令数据集,大幅提升了模型的对话体验。在后训练阶段,研究团队还探索了基于任务场景和知识体系驱动的合成数据探索方案,使得模型能够在常规对话和深度思考能力之间进行一键切换。

    InternLM系列模型的参与方有上海AI实验室、商汤、香港中文大学,以及复旦和上交,主力应该是前两个,InternLM中的Intern这个名字也是继承自它们之前的视觉模型项目的名字。它们的盈利方式是与昇腾、寒武纪、沐曦等国内算力硬件厂商合作搞定制,进行私有化部署。

    InternLM一代
    • 发布时间:2023年6月
    • 模型规模:104B参数
    • 数据:1.6T多语言数据
    • 特点
      • 窗口长度为2k
      • 采用多阶段预训练策略
    InternLM2
    • 模型规模:1.8B、7B、20B
    • 最大支持窗口长度:200k
    • 预训练数据量:2.0~2.6T
    • 对齐阶段:SFT、COOL RLHF
      • SFT:使用10M的SFT数据,数据格式为ChatML
      • COOL RLHF
        • Conditional Reward Model:多维度打分,改进的loss函数
        • Online RLHF:Fast Path和Slow Path,反馈机制迭代
    • 长文本finetune:使用书籍和GitHub数据,DS-1000数据集
    • Tool-Augmented LLMs:ChatML格式增强,工具调用能力训练
    InternLM2.5
    • 模型结构:与InternLM2一致
    • 改进
      • 提升推理性能
      • 增强长文本处理能力
      • 优化工具调用能力
  5. Vidu AI 发布了 2.0 版本,提升了速度、效果,降低成本:视频生成速度大幅提升,只需 10 秒即可完成出片;视频效果更加一致和自然,首尾帧的过渡更加流畅;提供超值套餐,成本低至 4 分 / 秒。

  6. OpenAI 正在为 ChatGPT 推出一项名为「Tasks」的新测试功能,该功能允许用户安排未来的行动和提醒事项。

  7. Luma Labs 推出了 Ray2,能够产生具有自然、连贯运动的真实视觉效果,具备对文本指令的深刻理解,未来将支持图像到视频、视频到视频以及编辑功能。

  8. DeepSeek 官方 App 正式发布,iOS/Android 各应用市场均已上线

  9. Product Hunt 上周最佳产品

    1. **Wegic**:全面的网站设计、开发和管理平台,通过AI技术提供简化的网站创建流程,适合小型企业和个人创业者。

    2. **Sagehood**:提供AI驱动的美国股市分析,包括个性化股票推荐和投资组合分析服务。

    3. **21st.dev**:开源市场平台,提供丰富的专业UI组件供AI网站开发者使用,简化设计和开发流程。

    4. **AI Follow-ups by folk**:销售团队的AI驱动的销售助手,提供最佳的客户跟进线索和自动化销售流程。

    5. **TestSprite 1.0**:AI软件测试平台,提供测试流程自动化,包括自动测试用例生成和测试代码编写。

    6. **Topview 2.0 Product Avatar**:AI驱动的数字化虚拟人物生成,为电商和营销领域提供智能化的产品展示解决方案。

    7. **AI SDR-Kit**:提供AI销售代理构建工具包,允许开发者创建可定制工作流程的销售代理。

    8. **AnyParser Pro**:多语言文档和图像解析工具,支持将内容转换为JSON/Markdown格式,适用于企业、开发者和数据分析师。

    9. **Agents Base**:AI营销自动化平台,实现品牌自动化增长,提供自动化A/B测试、内容自动化和社交互动自动化服务。

    10. **Sitelifter**:AI网页设计优化工具,提供设计分析、优化建议和自动化错误检测,帮助用户提高页面性能和转化率。

市场

  1. 智谱被美国商务部列入实体清单
  2. 前月之暗面海外产品 Noisee 创始人明超平发起的 AI Coding 项目「新言意码」已完成两轮融资,目前公司估值已达到 8000 万美元。此次融资吸引了包括五源资本、高榕资本、真格基金、高瓴创投和 IDG 资本等在内的多家顶级投资机构。
  3. CES 2025,陪伴宠物、学习机、眼镜,AI硬件真是太多啦:这篇文章盘点了CES 2025上多种小型机器人产品,如 Yukai Engineering 的 “钱包妖精” Mirumi 和 Nékojita FuFu,以及中国的 Ropet 陪伴小机器人。日本 Mixi 公司推出的 Romy 机器人能够说话和表达情绪。TCL 发布了模块化人工智能伴侣机器人 Ai Me,而 Tombot 的机器宠物 Jennie 旨在为特定群体提供安慰和支持。三星电子有限公司的 Ballie 滚动机器人等。
  4. RTE 开发者社区与 InfoQ 研究中心发布了《RTE 和 AI 融合生态洞察报告 2024》:Voice Agent 产业生态全景图,涵盖了产品的研发、商业化和增长的完整生命周期。2024 年,AI 与实时互动技术的结合达到了新的高度,OpenAI 发布了 GPT-4o ,并与 Agora、Twilio 等公司合作,国内企业也公布了在 AI 领域的技术布局和市场战略。报告预测 2025 年 Voice Agent 产品将会爆发,并提供了一系列 Voice Agent 学习笔记和行业趋势分析。

观点

Cognition(Devin背后的公司)创始人&CEO Scott Wu的采访

  • 我们一直在采用智能体化(agentic)的方法,我认为最大的跃进在于异步与同步的区别。很多代码助手使用语言模型对代码进行自动补全,这节省了工程师的一部分时间,整体上将工程效率提升了 10% 到 20%。但 Devin 能够承担整个编码任务,它的提升是 10 倍,而不是 10%。用户可以将任务交给 Devin,然后继续处理自己的事情,他们可以同时运行其他 Devin,完成不同任务。
  • 我们关心的是以软件为中心构建能力和产品体验。我毫不怀疑 AI 基础模型的智力会继续提升。但我们使用的所有工具的细节、如何在这些工具中做决策,甚至如何与用户沟通,用户界面在哪里,与 Devin 对话、提供反馈、查看 Devin 的进展、检查并确保没有问题,这些流程中有很多细节,它们真正体现了所谓的智能。
  • 我的观点是,不应该在真空中解决问题,要考虑如何将 AI 的智能转化为对软件工程师及其日常工作真正有意义的帮助。因此,需要做大量的工作来适应特定工具和特定技术栈的能力,产品方面也需要做大量工作。
  • 我认为之后 GPU 和 AI 基础模型的主要使用场景将是智能体,因为每个代理查询所需的 AI 基础模型调用量远远超过单一的问答查询。接下来会发生的是,这些 AI 基础模型公司都会思考,如何构建它们的模型以优化代理使用。
  • 我们有一个单位叫做 ACU——代理计算单元。它基本上涵盖了 Devin 做出的所有决策、使用的框架、运行的代码等。大致相当于 Devin 每工作一小时,用户支付大约 8 到 12 美元。Devin 在一小时内可以完成很多事情,我们的设置这个定价的方式是希望它比用户自己完成这些任务便宜 10 倍。当我们开始拥有执行任务而非仅仅回答问题的人工智能时,这将成为新的范式。
  • 无论你的创业基本功多么扎实,总有另一个层次可以提升。比如尽可能快地前进,在我们的案例中,我们一月份成立了公司,开始构建产品的初版;二月份将产品推向第一批初始用户;三月份进行了发布;四月份完成了一轮大规模融资,五月份与微软达成了重大合作。
  • 自动驾驶与 AI 编码之间的区别,是自动驾驶确实需要达到 99.9999% 的可靠性。而在软件工程方面,Devin 并不是一个 99.9999% 的解决方案,它更像是 2014 年的 Waymo。但关键是让 Devin 完成第一次处理,或者让 Devin 发送代码给你审查。如果让 Devin 完成 90% 的工作,你只做 10% 的工作,这仍然非常有用。

2025年 AI coding 将如何演进:这个对话非常不错,基本把 AI coding的几个方向都聊的很清楚,我自己是站在垂直类Agent这一派,像Devin那种,其实也是scope稍大一点的垂直类Agent,就这些AI初创公司当前积累的代码量和需求量还敢让它暂时介入,成长为大体量的公司绝对是不敢用的,推荐关注这个品类的朋友,一定要去看看。

Vol.37:2025 年 AI 编码类产品将如何演进?

https://liduos.com/the-memeber-newsletter-37.html

作者

莫尔索

发布于

2025-01-20

更新于

2025-06-25

许可协议

评论