Vol.42:AI Agent 如何颠覆传统的外包行业?
大家好!Weekly Gradient 第 42 期内容已送达!
✉️ 免费订阅更新
订阅我的免费通讯,第一时间获取生成式 AI 领域优质内容
我承诺保护您的隐私,不会向第三方分享您的信息。
您可以随时取消订阅。
论文
多模态大模型在富文本图像理解上的全面研究综述:富文本图像在现实场景中非常重要,对于信息提取和用户交互优化至关重要。富文本图像理解(TIU)涉及文本检测、识别、信息抽取和视觉问答等核心能力。多模态大语言模型(MLLMs)的出现为 TIU 领域带来了新的维度,这篇综述性论文系统性地分析了 MLLMs 在该领域的时间线、架构、训练流程、数据集与基准测试。MLLMs 的框架通常包括视觉编码器、模态连接器和 LLM 解码器。视觉编码器分为 OCR-free、OCR-based 和混合编码器三种类型。模态连接器用于将视觉特征与语言特征对齐,采用线性投影、多层感知机(MLP)或交叉注意力等方法。LLM 解码器则负责生成最终答案。MLLMs 的训练流程包括模态对齐、指令对齐和偏好对齐。模态对齐通过 OCR 数据预训练模型,弥合视觉和语言模态之间的差距。指令对齐通过指令微调(SFT)提升模型的多模态感知、跨模态推理能力和零样本泛化能力。偏好对齐则优化模型输出以符合人类价值观和期望。TIU 任务的发展依赖于大量专门的数据集和标准化基准测试,这些数据集分为领域特定和综合场景两大类,其中代表性的数据集和基准测试有 DocVQA、InfoVQA、ChartQA 等。
FinSearch:使用大语言模型进行实时金融信息搜索的代理框架:FinSearch 是一个专为金融信息检索设计的智能搜索框架,它通过集成专业金融数据源、动态查询重写、时间加权机制和多步搜索预规划,解决了传统搜索引擎在实时信息获取、复杂用户意图理解和上下文细微差别识别方面的问题。FinSearch 的核心技术包括搜索预规划器、动态查询重写器、时间加权机制和响应生成器,这些技术共同作用,能够高效处理复杂的金融查询,为用户提供准确、及时且易于理解的金融信息。在 FinSearch Bench-24 基准测试中,FinSearch 的表现显著优于现有方法,准确率提升了 15.93%。尽管算力成本有所增加,但其处理时间仍保持在合理范围内。目前,该项目已开源https://github.com/eeeshushusang/FinSearch
代码与推理的双向赋能:关于代码增强推理和推理驱动代码智能的综述:本篇论文综述了代码增强推理和推理驱动代码智能在大语言模型(LLMs)中的应用。研究表明,代码提供了一种抽象、模块化和逻辑驱动的结构,支持推理过程,而推理能力的提升则使得 LLMs 能够更有效地执行复杂的代码智能任务,如自动代码补全、代码理解和修改、程序调试和优化。论文探讨了代码如何作为结构化的推理媒介,通过可验证的执行路径、逻辑分解和运行时验证来增强推理过程。同时,随着推理能力的提升,LLMs 在代码智能方面也发生了从基本补全到高级功能的转变,使得模型能够通过规划和调试解决复杂的软件工程任务。论文指出了代码推理交互中存在的关键挑战,并提出了未来研究方向,以加强这种协同作用,最终提高 LLMs 在代码智能和推理能力上的性能。
全景解读 LLM 后训练(Post-Training)技术:
这是一篇[解读文章](https://zhuanlan.zhihu.com/p/30201040247),[全景解读 LLM 后训练技术](https://markmap.js.org/full#?d=gist%3A8802f99d0c0eeb85604acaf9814d1e3c%3Ac2506d13e661f30ef87f7576ea5c38edb706a86d%2Fpost_train.md)
工程
阿里云 Qwen 团队开源 QwQ-32B:该模型拥有 320 亿个参数,通过大规模强化学习技术提升了语言模型的智能水平。QwQ-32B 的部分性能指标与 DeepSeek-R1(激活参数 370 亿 / 总参数 6710 亿)相匹敌。QWen 研究团队通过多阶段强化学习策略对模型进行深度优化,包括冷启动、聚焦数学与编程领域的答案验证机制,以及扩展至通用能力训练的阶段。模型在数学推理、编程能力和通用智能方面表现出色,在 GSM8K 数学数据集上达到 98.7% 准确率,HumanEval 编程测试获得 89.3 分。研究团队认为,QwQ-32B 的成功验证了 “强基础模型 + 规模化 RL” 的技术路线可行性,未来将聚焦开发万亿参数级基础模型、构建多智能体协作的持续学习框架,以及探索超长程推理的工程化实现。
HF: https://huggingface.co/Qwen/QwQ-32B
ModelScope: https://modelscope.cn/models/Qwen/QwQ-32B…
Demo: https://huggingface.co/spaces/Qwen/QwQ-32B-Demo…
Qwen Chat: https://chat.qwen.ai腾讯混元开源了图生视频模型,同时引入了音频与动作驱动等功能:腾讯混元发布了图生视频模型,并将其开源,使得企业和开发者可以通过腾讯云申请使用 API 接口,同时用户可以通过混元 AI 视频官网体验。该模型支持将静态图片转换为带有动作和镜头调度的 5 秒短视频,并自动添加背景音效。此外,还支持 “对口型” 功能,使得图片中的人物能够模拟说话或唱歌,以及 “动作驱动” 功能,可以生成跳舞视频。开源内容包括权重、推理代码和 LoRA 训练代码,支持开发者基于混元训练专属 LoRA 模型。该模型适用于多种类型的角色和场景,包括写实视频制作、动漫角色甚至 CGI 角色制作的生成。
Github: https://github.com/Tencent/HunyuanVideo-I2V
Huggingface:https://huggingface.co/tencent/HunyuanVideo-I2V
refly:开源的 AI 写作软件,提供了一个直观的自由格式画布界面,集成了多线程对话、AI 知识库、Chrome 扩展程序的网页剪贴功能、上下文内存、智能搜索以及所见即所得的 AI 编辑器等功能,旨在帮助用户将想法轻松转化为生产就绪的内容。
TheoremExplainAgent:一个能够自动生成 5 分钟动画视频的 AI 数理化老师,用于向学生解释数学公式和科学定理,具有很强的实用性。该系统采用了双智能体架构设计,其中一个规划智能体负责备课、设计教案和编写讲稿,另一个编程智能体则负责制作课件,利用 Manim 生成 Python 动画脚本和相应的音频。TheoremExplainAgent 支持数学、物理、化学、计算机科学等多个学科。
AI 流程平台对比——Dify、Fastgpt、Ragflow:对 AI 流程平台 Dify、FastGPT 和 RAGFlow 进行了详细的对比分析,涵盖了团队人员管理、模型管理、第三方工具、知识库管理、应用管理等多个维度。
- 如果您需要一个简单、固定的需求,随便选用一个适合的编程语言调用 LLM API 即可
- 如果您是正在学习的 AI 的开发人员,能自己实现就自己实现,框架会变,底层原理不变
- 注重流程与扩展选 Dify
- 注重知识库选 RageFlow
GAIA:通用 AI 助理的一个基准:一个叫 Manus 的噱头演示产品声称在 GAIA 上超过 OpenAI Deep Research,Manus 没必要浪费时间,这篇文章是对这个基准的介绍。GAIA 基准由 466 个人类设计和注释的问题组成,这些问题覆盖了各种助理用例,包括日常个人任务、科学或一般知识。这些问题旨在承认一个简短的、单一的正确答案,因此很容易验证。GAIA 的设计遵循四个原则:针对概念简单但多样化的问题,强调基本能力而非专业技能;内存的鲁棒性,确保任务不易通过记忆已知答案来完成;易于使用,评估过程简单快速;以及评估自动化,通过准确匹配模型答案和基本事实来完成。问题分为三个难度级别,根据解决问题所需步骤和工具的数量。GAIA 的问题设计要求反映现实世界中的助理用例,并且尽可能覆盖多种主题领域和文化。每个问题都经过严格的验证过程,确保问题的清晰度和准确性。
Spark-TTS:一个高效的文本转语音系统,它基于 Qwen2.5 模型,不仅在多个基准测试中表现出色,而且能够进行端到端的生成,无需额外的声学模型。该系统支持两种层次的语音控制:粗粒度控制包括性别、说话风格、情感等;细粒度控制则可以精准调整音高、语速等参数。Spark-TTS 的一个显著特点是零样本语音克隆,它能够在不需要目标声音样本的情况下生成高质量的个性化语音。此外,该系统采用了 BiCodec 编码,这大大简化了架构,提升了推理效率。与传统 TTS 不同,Spark-TTS 允许用户通过文本描述语音风格,甚至能够生成全新的虚拟声音,突破了传统 TTS 只能基于参考音频合成的限制。
产品
Gamma APP 功能上新,可以通过一键导入网页内容来生成 PPT、网站或文档等多种格式的文件,极大提升了内容制作的效率。
MiniMax 推出全新图像生成模型 Image-01:成本低、性能高的图像生成模型,能够提供精确的提示控制和优秀的视觉构图能力。
Stability AI 和 Arm 的合作展示了在移动设备上运行 AI 音频生成模型的可能性,为 AI 应用的离线使用提供了解决方案。
谷歌的 Gemini AI 新增了视频提问和屏幕共享功能,能够更清楚地表达问题,更快地找到答案,提供更好的学习体验。(这个功能之前在 Google AI Studio 就可以体验)
-
核心功能亮点:
多模态语义理解:支持文字、图片等多模态指令输入,精准匹配创作意图;
动漫化风格:业稳定的动漫风格,画面丝滑流畅、帧间一致性高;
首创多主体一致:突破模型上下文理解,实现多主体、多元素的融合一致;
个性化定制特效:支持定制专属特效模板,适配电商、泛娱乐等多场景需求;
-
- OpenArt Consistent Characters:一款 AI 角色创作平台,专为插画师、游戏开发者等提供一致性的角色形象创作工具,确保角色在不同场景和风格下保持一致性,极大提高了创作效率。
- Basalt:提供全流程 AI 功能整合解决方案,帮助开发者无缝地将 AI 功能融入到产品中。Basalt 支持多种 AI 服务和框架,简化了复杂的集成过程,让开发者能够专注于产品的核心功能。
- Currents AI:一个社交媒体智能分析平台,利用 AI 技术对社交媒体进行深度分析,为企业和营销团队提供实时洞察和趋势预测。Currents AI 的分析能力帮助用户制定更有效的营销策略。
- Captiwate:通过即时视频通话功能,帮助 B2B 企业实现与网站访客的即时沟通,提高销售转化率。Captiwate 的技术使得企业能够在潜在客户最感兴趣的时刻与之建立联系。
- Claude Code and Claude 3.7 Sonnet:Anthropic 公司推出的智能模型,提供混合推理模型,适用于需要复杂思考和即时响应的场景。这些模型能够根据用户的需求进行定制,提供个性化的 AI 辅助。
- Helix:一个 AI 驱动的设计工具,能够快速将创业想法转化为可交互的原型。Helix 的设计智能化流程大大缩短了从概念到原型的时间,帮助创业者快速验证和迭代产品想法。
- Zapier Agents:提供创建和部署 AI 代理的平台,这些 AI 代理能够跨越 7000 多个应用程序自动化工作流程。Zapier Agents 使得自动化更加智能和灵活。
- Deep Review by SciSpace:一款 AI 研究助手,专为系统性文献综述而设计,能够像研究人员一样进行文献搜索和综述编写,大幅提高了研究效率。
- HabitGo:一个生活管理和习惯建立应用,通过日程规划、情绪跟踪和个性化提醒帮助用户形成健康的生活习惯。HabitGo 的智能分析功能提供了个性化的建议,帮助用户持续改善。
- Pinch:提供实时语音翻译的跨语言视频会议平台,使得多语言参与者能够无障碍地进行交流。Pinch 的翻译技术支持多种语言,确保会议的高效和准确性。
市场
ChatGPT 在 2024 年下半年展现了稳健的增长趋势。ChatGPT 自 2023 年 11 月的 1 亿周活跃用户,经过九个月的时间增长至 2024 年 8 月的 2 亿,而在不到六个月的时间里,再次将用户数量翻了一番,达到了 2025 年 2 月的 4 亿周活跃用户。
-
- ChatGPT 的用户增长经历了一个平台期后快速增长,新功能的推出如 GPT-4o 和 Advanced Voice Mode 对用户增长有显著影响。
- DeepSeek 迅速成为 AI 领域的新星,特别是在中国市场,其用户增长速度超过了 ChatGPT。
- AI 视频技术在过去 18 个月中取得了重大进展,新的公司和产品如 Hailuo、Kling AI 和 Sora 进入了市场,提供了更加多样化的视频生成和编辑工具。
- AI 编程工具的发展为开发者和非技术用户提供了更多的创造力和效率,agentic IDEs 和 text-to-web 平台的增长迅速。
- AI 应用的盈利模式多样,一些用户数量不高但提供专业化服务的应用在收入方面表现出色。
- AI 应用在特定领域如植物识别、营养、语言学习、音乐和 Dictation 等方面展现了市场潜力和用户支付意愿。
观点
AI Agent 如何颠覆传统的商业流程外包(BPO)行业,并使企业能够将客户体验和后台运营内部化。:文章详细分析了 AI 技术对于商业流程外包(BPO)行业的潜在影响。AI 技术能够自动化和优化许多以往需要人工完成的任务,如客户服务、数据录入和分析等。这种技术的进步不仅提高了工作效率和质量,还降低了成本,使得企业能够以更高的标准内部化这些服务。随着 AI 的发展,传统的外包模式可能会被拆分(解绑),企业将能够更灵活地选择服务提供商,甚至直接依靠 AI 技术来提供服务。
BPO 企业依赖深厚的客户关系和过时的系统集成,而不是尖端技术,多年来,鉴于软件的限制,这曾是企业最佳的选择。
语义搜索产品 ExaAI 如何利用 Neural PageRank 来改进搜索引擎,与 Google 搜索有何不同:
Neural PageRank 算法:ExaAI 的搜索引擎基于一种名为 Neural PageRank 的算法,该算法是对传统 PageRank 算法的创新。它通过预测网页之间的链接关系,以及如何通过这些链接共享信息,来理解和预测用户的搜索意图。这种方法不仅考虑了链接的数量,还能理解链接背后的语义含义,从而提供更为精确的搜索结果。
深度语义理解:与 Google 的关键词匹配和链接分析不同,ExaAI 的搜索引擎旨在更深入地理解自然语言查询,能够处理复杂的、基于语义的搜索请求,这使得搜索结果更加相关和准确。
计算能力和成本:ExaAI 投资了一个价值 $500 万的 H200 集群,这提供了大量的计算资源来支持其搜索引擎的运算。这种计算能力的提升使得 ExaAI 能够处理更为复杂的查询,并且能够根据查询的复杂度和用户的需求,灵活地调整计算资源的投入。
搜索时间的灵活性:ExaAI 认为搜索引擎不必限定在几百毫秒内返回结果,而是可以根据查询的复杂度,允许搜索过程持续数分钟到一天不等。这种灵活性允许更深入的数据处理和分析,以提供更全面的搜索结果。
结果集的全面性:ExaAI 的目标是提供一个完整的结果集,而不是传统的近似结果。这意味着对于某些查询,ExaAI 愿意进行更深入的搜索,以确保用户能够获得所有相关的信息,而不是仅仅是最受欢迎或最优化的结果。
混合计算成本模型:ExaAI 采用了一个混合的计算成本模型,该模型结合了前置的计算和索引工作,以及基于查询复杂度变化的推理成本。这种模型使得 ExaAI 能够在保证搜索质量的同时,更有效地管理计算资源和成本。
Vol.42:AI Agent 如何颠覆传统的外包行业?