DeepSeek-V2搅动市场,大模型价格战已拉开序幕?|莫尔索随笔 Vol.4
大家好,会员计划第 4 期会员通讯已送达!上周由于假期原因暂停一周,本期包括的内容如下:在论文部分,我们梳理了在ICLR’24提交的论文中,基于大语言模型的智能体相关的全部98篇论文,探讨了如何在大语言模型驱动的数据分析中发现和探索对话上下文中的洞察力,摩根大通分享了如何利用LLM构建自动化金融工作流程,还有一篇关于RAG在LLMs中应用的综述。在工程部分,介绍了一个开源的构建ChatBI框架,一个提供统一的方式调用任意不同的RAG排序模型的框架,分享了一篇生产环境如何选择LLM推理服务所需要的GPU资源和推理框架的实践,微软亚洲研究院探讨了如何构建一个支持多模态、为向量索引和标量索引扫描提供统一化的数据库设计思路。市场方面,国外市场部分分享了500强企业2024年构建和采购AI服务的变化趋势报告,国内方面提供了2024年第1季度中国大模型季度监测报告,梳理了2024年1~4月国内大模型项目中标数据,腾讯旗下协作SaaS产品全面接入混元大模型、飞书的智能伙伴、钉钉AI助理市场,并从Copilot能力、Workflow能力、Agent能力进行了比较。在产品方面,我们对国内外20余款智能编程助手类产品进行了盘点,深入介绍了自动化平台的演进,探讨了从RPA产品到Agent平台的调研,观察了YC W2024硅谷AI创业的新趋势,讨论了DeepSeek-V2的发布对国内市场营销的影响。最后的观点环节,Zoho中国、实在智能、合思、腾讯云四家代表厂商探讨了在AI时代下企业如何做ToB应用。点击阅读原文,获取更好阅读体验。本期内容为会员每周通讯,会员可免费阅读,详细请戳此了解。
论文
InsightLens:在大语言模型驱动的数据分析中,发现和探索对话上下文中的洞察力:这篇文章对工程实践十分有益,LLMs 通过执行多步骤和复杂的推理过程,能够根据用户的分析意图生成深刻的数据洞察。然而,这些洞察往往与分析对话中的丰富上下文,如代码、可视化和自然语言解释等,交织在一起,使得在现有的基于聊天的 LLM 界面中难以高效地识别、验证和解释这些洞察,从而影响了数据分析的效率。基于此,引入了InsightLens,这是一个交互式系统,它从多个方面可视化复杂的对话上下文,以促进洞察的发现和探索。
InsightLens 组成:
- 多智能体框架:该框架采用多智能体方法,每个智能体都由一个 LLM 驱动,并配备专门的工具和上下文记忆。这些智能体并行工作,执行不同的任务,如意图解释、洞察力提取、关联和组织。
- 意图解释(Intent Interpretation):数据科学(DS)智能体作为框架的入口点,负责解释用户的分析意图,执行代码,并生成洞察力和各种中间输出。DS 智能体使用 Open Interpreter 和 ReAct(Reasoning and Acting)范式进行提示,以逐步思考并根据先前的观察调整其行动。
- 洞察力提取和关联(Insight Extraction and Association):洞察力提取(IE)智能体负责监控对话历史和分析过程,自动提取对话中的洞察力,并将其与相关的洞察力证据关联起来。IE 智能体还评估提取的洞察力的有趣程度,基于它们的语义和统计重要性。
- 洞察力组织(Insight Organization):洞察力管理(IM)智能体接收提取的洞察力,并根据数据和语义特征对它们进行分类,将它们组织到基于数据属性和分析主题的子组中。IM 智能体还识别相关洞察力,并动态地将新洞察力分类到现有的分析主题中。
- 可视化更新:InsightLens 系统根据对话周期迭代更新可视化,以便于用户从多个方面和细节层次灵活、高效地探索洞察力。
ICLR’24 大语言模型智能体最新研究进展:这篇文章梳理了在 ICLR’24 提交的论文中,基于大语言模型的智能体相关的全部 98 篇论文,其中 40 篇涉及智能体能力(涉及推理、决策、规划、记忆、反思、自适应、微调、对齐、可解释、安全等话题)、多智能体 11 篇(MetaGPT、AutoAgents 等项目介绍)、智能体评测 22 篇(AgentBench 介绍、ToolEmu 框架等)、智能体应用 25 篇(多模态、人机协同、Web 自动化等主体),基本可以把智能体领域的点覆盖完,可能自己思考过的问题,其中已经有论文系统性的探讨过了。
国际表征学习大会(International Conference on Learning Representation,简称 ICLR)是公认的深度学习领域国际顶级会议之一,关注有关深度学习各个方面的前沿研究,在人工智能、统计和数据科学领域以及机器视觉、语音识别、文本理解等重要应用领域中发布了众多极其有影响力的论文, 由深度学习巨头、图灵奖获得者 Yoshua Bengio 和 Yann LeCun 在 2013 年牵头举办,与 ICML、NeurIPS 并称为机器学习领域难度最大,水平最高,影响力最强的三大会议。5 月 7 日,ICLR 2024 在奥地利维也纳会展中心开幕,受新一波人工智能浪潮推动,本届 ICLR 在参展人数、展览规模、论文数量上均创新高,大家可以关注一下研究界的最新趋势。
FlowMind: 使用 LLM 自动生成工作流程:摩根大通推出的 FlowMind 系统,利用 LLM 构建自动化金融工作流程,例如生成一份金融报告、查询基金数据等,工作流构建分为两阶段:
对 LLM 进行“讲授”(Lecture to LLM)
- 设置上下文(Context):向 LLM 介绍任务的上下文,这涉及用户可能提出的任务或查询的领域。
- 介绍 APIs:然后提供可用 APIs 的列表,包括每个函数的名称、输入参数和输出变量的高级描述。这些 APIs 是领域专家开发和测试的可靠函数,确保了它们的准确性和可靠性。
- 准备编写代码(Code):最后,提示 LLM 准备在接收到用户查询或任务时使用提供的 APIs 编写工作流程代码。
工作流程生成和执行
- 代码生成:LLM 利用第一阶段获得的 API 知识,根据用户查询或任务生成相应的工作流程代码。这涉及到使用 APIs 来有效解决用户的问题或任务。
- 代码执行:生成的工作流程随后被执行,以产生对用户的输出结果。
- 用户反馈循环:启用了一个可选的用户反馈循环。系统向用户提供生成的工作流程,让用户能够理解工作流程的功能和结构,并对工作流程提供反馈,LLM 可以根据需要将这些反馈纳入,来优化工作流程。
大语言模型的检索增强文本生成调查:一篇关于 RAG 在 LLMs 中应用的综述,通过这篇论文,可以更系统的了解 RAG 技术产生的背景、RAG 具体是什么、怎么用和以后会往什么方向发展。
- RAG 技术的提出:为了解决 LLMs 在生成文本时可能产生的错误信息(称为“幻觉”)和更新信息的局限性,提出了 RAG 技术。RAG 通过检索方法与深度学习的结合,使得模型能够动态整合最新的外部信息。
- RAG 的工作流程:RAG 的工作流程分为四个阶段:预检索(pre-retrieval)、检索(retrieval)、后检索(post-retrieval)和生成(generation)。每个阶段都对提高 LLMs 的输出质量和可靠性起着关键作用。
- RAG 的研究分类:文章将 RAG 的研究分为不同的类别,包括索引(indexing)、查询操作(query manipulation)、数据修改(data modification)、搜索与排名(search & ranking)、重新排名(re-ranking)、过滤(filtering)和生成(generation)。
- RAG 的优势:RAG 通过从真实世界数据中检索信息,提高了生成文本的可靠性,并且简化了生成过程。此外, RAG 提供了一种成本效益较高的解决方案,避免了对 LLMs 进行广泛的训练和微调。
- RAG 的挑战与评估:文章讨论了 RAG 面临的挑战,包括如何提高检索质量、处理大量不可靠信息以及如何评估 RAG 系统的有效性。提出了多种评估框架和指标,以全面评估 RAG 系统的性能。
- 未来研究方向:文章提出了未来研究的方向,包括提高检索质量、开发多模态 RAG 系统、改进检索方法以及探索如何将 RAG 技术应用于更广泛的任务和领域。
工程
统一化数据库:为大语言模型垂域应用奠定基础:随着大模型能力的不断增强,文字、图像、视频等各种形式的数据都可以通过机器学习技术编码成高维向量,将知识的细节属性,如图片的类型、用户的偏好等,转换为不同维度的数据。但是,多样化的知识表示方式给复杂向量数据和标量数据的有效管理带来了挑战,如何在这些混合信息中实现高效且准确的查询也变得更加困难。这就需要一种统一化的数据库来管理这些外部知识,为大语言模型提供更坚实的知识支持。
LLM 推理:GPU 资源和推理框架选择:本篇介绍了 LLM 推理服务所需要的 GPU 资源和 LLM 推理框架的选择。
RAG-Retrieval :提供统一的方式调用任意不同的 RAG 排序模型。
排序模型是任何检索架构的重要组成部分,也是 RAG 的重要组成部分,但目前的现状是:
- 开源的排序模型很多,在 A 场景表现好的模型,在 B 场景不一定表现好,很难知道该使用哪一个。
- 另外,新的排序模型不断的出现,如今年 3 月份 BGE 才发布的 LLM Reranker,使用 decoder-only 的大模型来对段落重排序,非常有前景。
- 所有不同的排序模型,都倾向于自己开发一套库来进行排序,这导致了更高的壁垒,新用户需要熟悉每一种排序模型的输入和输出,以及安装各种不同的依赖。
vanna:Vanna 是一个开源的构建 ChatBI 框架,主要特点包括高精度回答复杂数据库、安全保障隐私、支持任何 SQL 数据库以及功能强大的自学习能力,它会将数据库的元模式和关于数据的文档学习到 RAG 中,代码生成时将从 RAG 库进行问答,但是对于复杂表结构或者宽表,不能够很好的定位表,只能每次将整个 scheme 给 LLM,可以结合这篇论文的思路DFIN-SQL:将专注模式与 DIN-SQL 集成,以提高大规模数据库的准确性(调用大模型,先根据问题和全量表结构,找到合适的表名.本质是去除噪音. 然后只给出上一步返回的表结构和相关的列描述,以及其他历史问题和 SQL),在 groq+llama3 上效果不错。
产品
- 智能编程助手类产品盘点:
- 初创:Augment(最新一轮融资 2.52 亿美元,估值 9.77 亿美元)、Tabnine(融资 2500 万美元)、Codeium(融资 6500 万美元)、Magic AI(融资 1.17 亿美元)
- 大厂:微软 GitHub Copilot、谷歌 Gemini Code Assist、亚马逊 CodeWhisperer、IBM Code assistant、Meta Code LIama、HuggingFace StarCode2
DeepSeek 发布全球最强开源 MoE 模型:不是搞噱头,真正的技术流,Transform 架构层面的创新,每百万 token 输入 1 元,输出 2 元,据内部人员透露这个价格依旧有 50%利润,国内大模型市场的鲶鱼来了。
从 YC W24 看硅谷 AI 创业新趋势:AI Agent、垂直领域、多模态和 AI 安全:
我把项目梳理成在线版思维导图了,可以直达产品官网 👉https://liduos.com/ycw2024.htmlAI 代理正在颠覆自动化:当前方法、市场解决方案和建议:Insight Partners 发布了一份详尽的人工智能智能体调研,深入介绍了自动化平台的演进、RPA 和任务自动化平台的实施方式、当前阶段 AI 智能体的定义和分类,最后还包括了对企业和智能体构建者的建议。
市场
2023 年 4 月,钉钉率先启动智能化战略,接入阿里的通义千问大模型,通过在首页的「/」图标,一键唤醒 AI 智能助手,实现在群聊、文档、视频会议和应用开发四个场景中的智能辅助能力。今年 1 月,钉钉推出了钉钉 AI 助理,分为企业 AI 助理和个人 AI 助理。每个用户都可以在 AI 助理页面一键创建个性化的 AI 助理,企业也可以充分使用企业所沉淀的知识库和业务数据,在获得授权后以对话的方式开展数据分析和洞察。4 月 18 日,钉钉正式上线 AI 助理市场(AI Agent Store),首批将推出超过 200 个 AI 助理,覆盖企业服务、行业应用、效率工具、财税法务、教育学习、生活娱乐等类目,用友、携程商旅、墨见 Molook 等各领域 SaaS 企业已上架 AI 助理,加入钉钉 AI 生态。钉钉首席产品官齐俊生认为“AI 超级助理的本质,是让每个专业技能人才能有意愿做事情,获得更大的帮助和能量。”钉钉总裁叶军认为对于企业来说“AI 助理能够解决的三大问题是:信息流转效率、协同流程效率和决策效率”。
去年 4 月份,飞书宣布将推出智能 AI 助手「My AI」,提供报告创建、文本优化与续写等功能。此外,My AI 还可以在飞书应用中以对话方帮助用户自动创建日程、搜索内部知识库等。2023 年 11 月,飞书发布了「飞书智能伙伴」,跟钉钉的 AI 超级助理一样,飞书的智能伙伴也是通过自然语言唤醒,帮助用户进行内容创作、内容总结、数据分析等业务,除了可以帮用户提炼会议要点、总结未读消息、分析 PDF 与音视频等,还能在具体场景下自动生成管理系统、帮销售生成对客方案,飞书的「飞书智能伙伴」开放了 AI 服务框架,企业可根据业务场景自主选择底层大模型(百川智能、智谱 AI、MiniMax 等国内大模型)。飞书 CEO 谢欣表示,“有了智能伙伴以后,飞书不仅是一个解决人和人协同的工作平台,更成为了一个解决人与人、人与 AI 协同工作的平台。”
利用大模型能力对产品进行智能化改造不是一朝一夕的事情,钉钉和飞书都在去年耗费巨大心力,钉钉发力最早,目前才刚刚实现对几乎所有产品线的智能化升级,而飞书的智能化升级仍旧未完成。企业微信不可能没有注意到钉钉和飞书主动拥抱大模型带来的智能化浪潮,协同办公产品本质上是大模型最适合落地的方向之一,当钉钉和飞书开启的 AI agent 功能,帮助企业和用户根据工作场景进行思考和行动,落后一步的企业微信自然会感到压力。
作为国内智能办公平台三巨头,全部都 all-in 行动了,我也都深度体验了一下,个人角度的总结:
- Copilot 能力基本都做的很全很完善(不过绝大部分工具底层还是 Prompt 套壳的路子,部分使用了 RAG),Copilot对资深员工提升最大,相当于无限量供应的实习生。
- Workflow 能力对企业整体价值最大,但是当前挖的都很浅,大语言模型的自然语言理解能力本质做的是打通企业数字自动化的最后一公里,因为他们企业用户群体跨度大,数字化水平良莠不齐,产品设计上要取最大公约数,所以可以理解。
- Agent 能力还没有做好的,一个具备企业普通员工平均水平能力的数字员工,需要借助 Copilot 阶段(积累专家经验)+Workflow 阶段(积累行业经验)数据积累,看好一些垂直领域的产品。
a16z:2024 年企业构建和采购生成式 AI 服务的 16 项变化趋势:AI 在 2023 年迅速发展,消费市场支出超过 10 亿美元,预计 2024 年企业领域的收入机会将更大,尽管去年企业对生成式 AI 的应用有限,但近期 a16Z 的调查显示,企业对 AI 的投入和态度有了显著变化,预算增加,应用从实验转向生产。这为创始人提供了机遇,特别是那些能预见客户痛点并构建可扩展产品的人工智能初创公司。a16Z 总结了 16 个关键考虑因素,帮助 AI 公司创始人了解企业客户如何决定部署生成式 AI。
2024 年 1 ~ 4 月国内大模型项目中标情况
围绕大模型相关中标项目正在爆发式增长,2024 年 1-4 月,统计到的大模型相关中标金额已经累计达到 6.12 亿元(4 月份,公开渠道统计到的大模型相关中标项目 48 个,其中:有 15 个项目未披露中标金额,其余 33 个中标项目披露的金额达到了 3.53 亿元),已经达到 2023 年全部中标项目披露金额的 77%左右。
目前围绕大模型相关的招投标项目整体归为 4 个大类:
算力(运行大模型所需要的计算资源)
数据(大模型相关数据标注或者数据资源等)
大模型(各类大模型软件以及相关支撑平台)
应用(大模型在明确场景中的融合落地)
类别 项目数量合计 数量占比合计 披露项目金额合计(万元) 披露项目金额占比(%) 算力 24 24.2% 41168 67.23% 数据 7 7.1% 1007.2 1.64% 大模型 15 15.2% 1384.0 2.26% 应用 53 53.5% 17677.0 28.87% 合计 99 100.0% 61236.2 100.00%
4月份大模型中标项目行业分布
1~3月份大模型中标项目行业分布
2024 年第 1 季度中国大模型季度监测报告:InfoQ 研究中心出品,聚焦在政策、大模型更新迭代、典型企业 AI 战略和热门产品所在的细分领域发展等方面,并对多款 AIGC 写作产品和 PPT 制作产品进行深入测评。 报告目录
AI 技术迭代与政策支持加速行业转型
行业巨头技术快速迭代发展,拓展应用范围
多部门频频联合发布国家级政策
人工智能已上升为国家战略,成为驱动新质生产力的关键引擎
基础设施建设得到广泛关注,也是 AI 未来发展的关键缺口
国家重磅政策支持下,央国企加速智算中心建设
大模型的新进展与突破
Sora 的推出及文生视频趋势
开源领域技术成果与开闭源之争
人形机器人技术侧尝试搭载大模型“大脑”,应用优先汽车制造
宇树科技:自研硬件融合软件智能的人形机器人探路者
Devin 横空出世,国产代码大模型产品出炉,竞速赛大幕被拉开
Baidu Comate:研发、测试、产品、生态优势于一身的智能编码助手
战略先行,头部硬件厂商纷纷官宣 All in AI
AIGC 写作及 PPT 制作产品测评洞察
AIGC 写作产品测评能力维度及测评产品
AIGC 写作产品平均得分率排名
各产品的各维度能力得分
各产品在营销写作、学术写作、商务写作、政务写作场景中的表现及输出示例
在各场景中,AIGC 写作产品发展阶段
PPT 制作难点及原因
不同用户对 PPT 制作产品的需求
PPT 制作产品测评能力维度及测评产品
PPT 制作产品平均得分率排名
各产品的各维度能力得分
在灵感和半成品阶段的 PPT 制作场景分析
PPT 制作产品的技术能力及产出模式
各产品输出示例
观点
AI 时代下企业如何做 ToB 应用:Zoho 中国(企业运行和管理的一站式云平台,包括 30 多款在线 SaaS 软件产品,如 CRM、在线 Office、邮箱、项目管理、团队协作、人事管理、财务管理、BI 商业智能、应用开发平台等,顺便一提,我的邮件通讯用的就是 zoho 邮箱产品)、合思(原来叫易快报,财务收支管理领域)、实在智能(RPA+AI 领域)、腾讯云(SaaS 行业解决方案)四家负责人讨论 toB 应用和 AI 结合的思路,挺有代表性的,很值得读一下,摘录几处精彩表述。
AI 大模型实现了价值的再创造。厂商归根结底是用变化的技术去赋能客户不变的业务,从而实现所谓的“改变”。它并不是完全革命性的创新,而是一个渐进过程或是再创造。 从 Zoho 的角度出发,大模型提高了内部的研发效率,同时,于用户而言,Zoho 的产品体验得到提升。我们希望随着与 AI 大模型的融合,能够实现 AI(Artificial Intelligence)+ BI(Business Intelligence)+ CI(Contextual Intelligence)= DI(Decision Intelligence), 回归到 “赋能业务”这一核心目的当中。
人工智能于 Zoho 而言,一是要对客户有用,我们努力的方向不是为了证明有人工智能模型,而是解决确实存在的客户需求。二是尊重客户隐私,善用 AI 力量的同时,也要加以约束。
DeepSeek-V2搅动市场,大模型价格战已拉开序幕?|莫尔索随笔 Vol.4