LIama 3 是大模型游戏规则改写者吗|莫尔索随笔 Vol.3
⼤家好,会员计划第 3 期会员通讯已送达!
LIama 3 的影响还在持续,仅仅一周,社区已经冒出来超过 100 多个 LIama 3 微调和其他周边项目,Github 上的 AI 领域热门项目已经第一时间支持了 LIama 3,LIama 3 让企业低成本使用高质量模型成为可能。。。
本期包括 3 篇论文分享、5 篇工程实践案例、3 条产品 tips 和两条市场信息,内容包括万字长文带你了解 Llama 模型生态的前世今生,如何提升 RAG 在领域专业知识上的准确性,AI Agent 的最新实现进展盘点,以及在实践中如何评估 LLM 产品,如何提高 AI 产品设计体验;最后对 ChatGPT 跨对话保持长期记忆的新特性进行解读,同时送上一份 Hume.AI 出品的语义空间理论,如何科学的测量和理解情感,做到让 AI 分析你的情绪,并根据你的情绪进行回答。
论文
如何提升 RAG 在领域专业知识上的准确性:这篇论文研究了领域特定模型微调和推理机制对由大语言模型(LLMs)和检索增强生成(RAG)驱动的问答系统性能的影响。通过使用 FinanceBench SEC 财务申报数据集,发现在 RAG 中,将经过微调的嵌入模型与经过微调的 LLM 相结合比通用模型具有更好的准确性,尤其是微调的嵌入模型贡献了更多的性能提升。此外,通过在 RAG 上使用迭代推理,可以进一步提升性能,使问答系统更接近人类专家水平,还提出了一个包含 Q&A AI 主要技术组件的结构化技术设计框架,并为这些组件的技术选择提供了建议。
一个合格的 RAG 系统中各个组件必须是模块化、插件式的,这样才能:
- 确定对问答系统性能影响最大的关键组件,例如信息索引与检索、答案生成和迭代推理
- 为特定领域知识或任务选定最佳配置
- 覆盖这些组件的所有可能配置
AI Agent 的最新实现进展:微软 17 号发布的一篇论文,深入探讨了 AI Agent 的最新实现进展,详细介绍了 Agent 的主要分类以及设计 Agent 系统时的关键因素。
Agent 分类
- 单 Agent:由一个大模型驱动,并将自行执行所有推理、规划和工具执行。(例子:ReAct,在 ReAct(Reason + Act)方法中,智能体首先写下关于给定任务的想法,然后它根据该想法执行操作,并观察输出,这个循环可以重复直到任务完成;RAISE方法建立在 ReAct 方法的基础上,增加了反映人类短期和长期记忆的记忆机制;Reflexion是一种单智能体模式,通过语言反馈进行自我反射。通过利用成功状态、当前轨迹和持久记忆等指标,该方法使用 LLM 评估器向智能体提供具体且相关的反馈。与 Chain-of-Thought 和 ReAct 相比,这可以提高成功率并减少幻觉;AUTOGPT + P(规划)是一种解决以自然语言命令机器人的智能体的推理限制的方法, AutoGPT+P 将对象检测和对象功能映射 (OAM) 与大语言模型驱动的规划系统结合起来;LATS(语言智能体树搜索)是一种单智能体方法,通过使用树来协同规划、行动和推理。)
- 多 Agent:两个或更多代理,每个代理使用相同的大语言模型或一组不同的大语言模型。每个代理通常有自己的角色,可以访问相同的工具或不同的工具。多 Agent 又可分为垂直架构和水平架构(例子:DyLAN(动态 LLM 智能体网络)框架创建了一个动态智能体结构,专注于推理和代码生成等复杂任务;AgentVerse 展示了分组规划的不同阶段如何提高智能体的推理和解决问题的能力; MetaGPT 通过要求智能体生成文档和图表等结构化输出而不是共享非结构化聊天消息来解决智能体之间无效聊天的问题。):
- 垂直架构:一个代理充当领导者,并让其他代理直接向其报告。根据架构的不同,报告代理可能只与领导代理交流。另外,领导者可能是通过所有代理之间共享的对话来定义的。垂直架构的特征包括有一个领导代理以及协作代理之间的明确分工。
- 水平架构:所有代理都被视为平等的,并且是关于任务的一组讨论的一部分。代理之间的通信发生在一个共享的线程中,每个代理都可以看到其他代理的所有消息。代理还可以自愿完成某些任务或调用工具,这意味着它们不需要被领导代理指派。水平架构通常用于需要协作、反馈和团队讨论,对任务整体成功至关重要的任务。
Agent 关键考虑因素:
- 推理和规划:AI 代理要有效地与复杂环境互动、做出自主决策并在各种任务中协助人类,它们需要强大的推理能力,通常分为五种主要方法之一:任务分解(task decomposition)、多计划选择(multi-plan selection)、外部模块辅助规划(external module-aided planning)、反思(reflection)和细化(refinement)以及记忆增强规划(memory-augmented planning)。这些方法允许模型将任务分解为子任务,从许多生成的选项中选择一个计划,利用预先存在的外部计划,根据新信息修改以前的计划,或者利用外部信息来改进计划。
- 工具调用:代理的一个关键优势是代理能够通过调用多个工具来解决复杂问题。这些工具使代理能够与外部数据源交互,从现有 API 发送或检索信息等。需要大量工具调用的问题通常与需要复杂推理的问题相辅相成。
虽然大语言模型是根据一组标准基准进行评估的,这些基准旨在衡量其一般理解和推理能力,但智能体评估的基准差异很大。许多研究团队在智能体实现的同时引入了自己独特的智能体基准,这使得在同一基准上比较多个智能体实现具有挑战性。此外,许多新的特定于智能体的基准包括手工制作的、高度复杂的评估集,其中的结果是手动评分的,这可以提供对方法功能的高质量评估,但它也缺乏较大数据集的稳健性,并且存在在评估中引入偏差的风险。
AgentBench 等一些特定于智能体的基准测试在各种不同的环境(例如网页浏览、命令行界面和视频游戏)中评估基于语言模型的智能体。这可以更好地指示智能体通过推理、规划和调用工具来实现给定任务的能力如何概括到新环境。 AgentBench 和 SmartPlay 等基准引入了客观的评估指标,旨在评估实施的成功率、输出与人类响应的相似性以及整体效率,虽然这些客观指标对于理解实施的整体可靠性和准确性很重要,但考虑更细致或主观的性能衡量标准也很重要。工具使用效率、可靠性和规划稳健性等指标几乎与成功率一样重要,但更难以衡量。
让 GPT-4 既当运动员,又当裁判员:在这篇论文里,作者提出了用 LLM 作为判别器的可能性,并在此基础上进行了大量的实验。结果显示,强大的 LLM 判别器(如 GPT-4)可以很好地匹配受控和众包的人类偏好,达到超过 80%的一致性,与人类之间的水平相同。因此,LLM 作为判别器是一种可扩展且可解释的方法,可以近似获取人类偏好,否则让人类打分成本较高且耗时。
论文介绍了两个基准测试:
- MT-Bench:这是一套包含 80 个高质量多轮问题的测试,旨在测试模型的对话和遵循指令的能力。这些问题分布在八个类别中,包括写作、角色扮演、提取信息、推理、数学、编程以及 STEM 和人文/社会科学知识领域。
- Chatbot Arena:一个众包平台,用户同时与两个匿名模型互动。用户向两个模型提出相同的问题,并投票选择他们更喜欢的回答。该方法已收集了约 30,000 票,提供了广泛的不受限制的使用案例。
工程
万字长文带你梳理 Llama 开源家族:从 Llama-1 到 Llama-3:Llama 作为开源社区中最受欢迎的大模型,以 Llama 为核心的生态圈由 Llama-1-65B 开始崛起,这篇文章从 Llama 进化史、模型架构、训练数据、训练方法和社区生态几方面详细梳理 Llama 开源家族的演进历程。
LLaMA 3:大模型之战的新序幕,符尧老师关于大模型演进的最新观点,我也第一时间做了翻译,可以前往阅读。
文本数据的扩展可能已经达到了极限,因为易于获取的网络文本资源(如 Common Crawl、GitHub、ArXiv 等)已基本被充分利用。
尽管如此,通过更深入地挖掘互联网资源、搜寻图书馆藏书及使用合成数据,我们仍有望获得新的文本数据,但要实现数据量级的大幅提升却面临重重挑战——这些新增的数据更可能是当前数量级上的增量。
规模扩展竞赛的新阶段将转向多模态领域,尤其是统一的视频-语言生成模型,因为仅有视频数据可以实现数量级的增长。
然而,坏消息是,视频数据似乎并不能显著提升模型的推理(reasoning)能力,而这一能力是区分模型强弱的首要指标。
但好消息是,视频数据能够带来其他性能的显著提升,尤其是增强了模型与现实世界的联系,展现出成为神经世界模型(neural world model)的巨大潜力(与 Zelda 等硬编码物理引擎不同),这提供了从模拟物理反馈中学习的可能性。
从 X(X 表示人类、人工智能和环境反馈)反馈中扩展强化学习可能是持续提升模型推理能力最有前景的路径。
类似于 AlphaGo Zero 在围棋领域取得的超人类成就,自我对弈和与环境互动可能是超人类生成模型的一个方向。使模型保持在线状态,并从反馈中进行迭代学习(而非一次性的离线优化),有望实现推理能力的持续提升。
规模扩展竞赛的第一阶段聚焦于扩展文本数据,在 GPT-4 达到顶峰,并由 LLaMA 3 画上句号。接下来的第二阶段将聚焦于统一的视频-语言生成模型建模,以及基于 X 反馈的迭代强化学习。
微软开源 Phi-3:微软的 Phi 系列模型的核心逻辑是数据质量会改变 scaling laws,使得 SLMs 可以提前获得以往几十 B 的大模型才有的能力。Phi-3 分为三个版本,其中 Phi-3-mini 参数规模最小、为 38 亿,即本次开源的,支持 4K 和 128K 上下文窗口,也是同类小模型中首个支持 128K 的开源模型,另外两个版本 Phi-3-small(70 亿参数)和 Phi-3-medium(140 亿参数),则于未来几周发布。官方博客提到 Phi-3 小模型主要用于推理资源受限、对低延迟要求严格、成本受限几种应用场景,并提供了一些合作案例。
Phi-3 介绍:重新定义 SLM 的可能性
我们很高兴介绍 Phi-3,这是微软开发的一系列开放式语言模型。Phi-3 模型是目前最具能力和成本效益的小型语言模型(SLMs)(most capable and cost-effective small language models (SLMs) ),在各种语言、推理、编码和数学基准测试中超越了同等大小和更大规模的模型。此次发布扩大了客户的高质量模型选择,为他们在创作和构建生成式人工智能应用时提供更多实用选择。
从今天开始,Phi-3-mini,一个拥有 38 亿个参数的语言模型,可以在微软Azure AI Studio、Hugging Face和Ollama平台上使用。
Phi-3-mini 有两种上下文长度变体——4K 和 128K 标记。它是同类模型中第一个支持最多达 128K 标记上下文窗口的模型,并且对质量影响很小。
它经过指令调整,意味着它经过训练以遵循反映人们正常交流方式的不同类型指令。这确保了该模型可以立即投入使用。
它可利用 Azure AI 上的部署-评估-微调工具链,并在 Ollama 上供开发人员在他们的笔记本电脑上本地运行。
它已经针对 ONNX Runtime 进行了优化,支持 Windows DirectML,并提供跨平台支持,包括图形处理单元(GPU)、CPU 甚至移动硬件。
它还作为 NVIDIA NIM 微服务提供,具有标准 API 接口,可在任何地方部署,并已经针对 NVIDIA GPU 进行了优化。
接下来的几周内,Phi-3 系列将添加更多模型,为客户提供更多在质量-成本曲线上的灵活性。Phi-3-small(70B)和 Phi-3-medium(140B)将很快在 Azure AI 模型目录和其他模型库中提供。
微软将继续在质量-成本曲线上提供最佳模型,而今天的 Phi-3 发布扩大了最先进小型模型的选择。
Phi-3 模型在关键基准测试中明显优于同等大小和更大模型(请参见下面的基准测试数据,数值越高越好)。Phi-3-mini 优于两倍大小的模型,并且 Phi-3-small 和 Phi-3-medium 胜过许多更大模型,包括 GPT-3.5T。所有报告的数据都是使用相同的流程生成的,以确保这些数据可比较。因此,由于评估方法略有不同,这些数据可能与其他已发布的数据有所不同。有关基准测试的更多详细信息,请参阅我们的技术论文。
注:由于较小的模型尺寸导致容量较低,Phi-3 模型在事实知识基准测试(例如 TriviaQA)方面表现较差。
Phi-3 模型遵循了微软负责任人工智能标准的开发,这是一套基于公司以下六个原则的要求:问责、透明、公平、可靠和安全、隐私和安全、包容性。Phi-3 模型经过严格的安全度量和评估,包括红队测试、敏感使用审查和遵守安全指南,以帮助确保这些模型在开发、测试和部署中遵循微软的标准和最佳实践。
借鉴我们以前使用 Phi 模型的工作(“Textbooks Are All You Need”),Phi-3 模型也是使用高质量数据进行训练的。它们经过了进一步的安全后训练,包括来自人类反馈的强化学习(RLHF)、跨数十种伤害类别的自动测试和评估,以及手动红队测试。我们对安全训练和评估的方法在我们的技术论文中有详细说明,并在模型卡中概述了推荐用途和限制。
微软在发布合作伙伴和利用 Azure AI 使客户能够通过生成式人工智能改变业务的经验,突显了不同大小模型在质量-成本曲线上为不同任务的增长需求。小语言模型,如 Phi-3,特别适用于:- 资源受限的环境,包括设备上和离线推理场景。
- 延迟受限场景,其中快速响应时间至关重要。
- 成本受限的用例,特别是那些涉及简单任务的用例。
有关小型语言模型的更多信息,请参阅我们的微软 Source 博客。
由于其较小的尺寸,Phi-3 模型可用于计算受限的推理环境。特别是 Phi-3-mini 可以在设备上使用,尤其是在通过 ONNX Runtime 进行进一步优化以实现跨平台可用性时。Phi-3 模型较小的尺寸还使得微调或定制更加容易和经济实惠。此外,它们更低的计算需求使得它们成为具有更好延迟的低成本选项。更长的上下文窗口使其能够接收和推理大量文本内容—文档、网页、代码等。Phi-3-mini 展现了出色的推理和逻辑能力,使其成为分析任务的理想选择。
客户已经开始使用 Phi-3 构建解决方案。Phi-3 已经展示其价值的一个示例是在农业领域,互联网可能不容易获得。强大的小型模型如 Phi-3 与微软合作伙伴模板可在最需要时提供给农民,并且以降低成本运行,使 AI 技术变得更加可及。
- 总部位于印度的领先企业集团 ITC 正在利用 Phi-3 作为其与微软合作开发的 Krishi Mitra 合作伙伴的一部分,该合作伙伴是一个面向农民的应用,覆盖超过一百万农民。“我们与 Krishi Mitra 合作伙伴的目标是提高效率,同时保持大型语言模型的准确性。我们很高兴与微软合作使用经过微调的 Phi-3 版本实现我们的双重目标—效率和准确性!”
Phi 模型源自微软研究院,已得到广泛应用,Phi-2 下载量超过 200 万次。 Phi 系列模型通过战略数据管理和创新扩展取得了卓越的性能。从用于 Python 编码的模型 Phi-1 开始,到增强推理和理解能力的 Phi-1.5,再到增强推理和理解能力的 Phi-2,这是一个拥有 27 亿参数的模型,在语言理解方面的性能优于其规模的 25 倍,每次迭代都利用高质量的训练数据和知识转移技术来挑战传统的缩放法则。
如何评估 LLM 产品:这篇文章讨论了如何对基于 LLM 构建的产品质量进行评估,提出了一个全面的评估流程,一个好的测试流程对于产品的改进至关重要,如果无法准确评估产品的质量,就无法知道如何改进它。
IntelliQ:一个开源的案例项目,实现了一个基于大语言模型(LLM)的多轮问答系统,综合了各种关键技术,包括多轮对话管理(能够处理复杂的对话场景,支持连续多轮交互)、意图识别(准确判定用户输入的意图,支持自定义意图扩展)、词槽填充(动态识别并填充关键信息(如时间、地点、对象等))、Function Call(直接与外部 APIs 对接,实现数据的实时获取和处理)、自适应学习(不断学习用户交互,优化回答准确性和响应速度)等,可以基于此构建和优化各类适合自己场景的对话型应用。
产品
ChatGPT 推出长记忆特性,提升个性化能力:memory across chats 可以保持不同对话内容的连续性,同时提供隐私模式,可以选择让 ChatGPT 不记录任何你的聊天历史,不放入模型训练;还可以在个人设定里面,设置一些属性,比如“我喜欢小狗”,ChatGPT 在任意聊天界面就会都记得这个设定。
从用户视角, 这是一种很大的使用体验提升, 让 ChatGPT 更懂你。就像之前,一些爱折腾的用户往往需要自己把聊天记录下载下来,结合大模型做一些特征分析,然后作为 system prompt,避免 ChatGPT 忘记自己。
这里我推荐大家都部署一个自己的大模型集成平台,或者使用相关的客户端(必须能导出聊天记录),将免费用户的聊天记录作为训练新模型数据来源的一部分,这几乎是各家的明牌了,那为什么不把和各家模型交互的数据在自己本地保留一份,用于训练自己的小模型呢。
Hume.AI:音同休谟,上个月底的产品,支持开发者申请 API,主打的是带情绪分析、带同理心的 AI 语音模型(所以短板也很明显,没有其他基础大模型智能,没几轮对话就没逻辑了),很不错的产品尝试。与其对话,模型就会分析你的情绪,然后用有情绪的声音回复你,会同步显示每句话的 asr 结果和情感值分析(实现原理 👉 语义空间理论,科学的测量和理解情感),我实际体验下来,很难听出来和真人的区别。融资到 b 轮 5000w 美金,创始人是前 google ai researcher,首席科学顾问是情感科学家。(初次注册有 20 美金免费额度,体验地址在这里demo.hume.ai)
AI 产品体验设计指南:Shapeof 推出了一份详细的 AI 产品体验设计指南,包括的话题有如何帮助用户使用和获取提示词、让用户自定义模型设置、控制响应并评估其准确性等。
市场
The 2024 MAD (ML, AI & Data) Landscape:一个最新的 ML/AI/Data 全景图,原始数据来自 CB Insights ,收录了几百家 AI 生态内的公司,分类梳理比较全面,从基础设施(包括开源和闭源)、AI 开发者平台等,到企业应用、行业应用、图文视频、代码、3D 等领域垂直应用全部有收录,而且是动态更新的,相比静态 pdf,效果更好,毕竟这个行业正在高速发展阶段,而且可以直接从公司 logo 跳转到公司简介和官网。这个图有一个缺点就是因为收录的项目过于多,部分分类不准确或者有漏掉,仅做技术选型、产品及市场调研参考。
Sam Altman 4 月 24 日斯坦福闭门分享,没有原文字稿,找到一份学生英文版现场总结。
Sam Altman 最近在斯坦福大学的一场演讲中,分享了他对人工智能未来发展的洞察。以下是他富有启发性演讲的几个重点:
人工智能发展的快速步伐
- 下一个 AI 模型,如 GPT-5,将比 GPT-4 更强大,这标志着这一领域的快速进步。
- 尽管复制如 GPT-4 这样的现有模型相对容易,但真正的挑战在于引领下一次 AI 能力的重大变革。
- Sam 比较了 AI 的巨大潜力和 iPhone 对移动通信领域的革命性影响。
走向通用人工智能的道路
- OpenAI 的宗旨是实现通用人工智能。对于实现这一目标,开放源代码可能不是最好的策略。
- 通过提供免费且无广告的 ChatGPT,OpenAI 正在努力在追求其目标的同时对社会产生积极影响。为了让每个人都能使用 AI,我们应该致力于降低 AI 计算的成本,并在全球范围内普及其使用,从而消除不平等。
- ChatGPT 作为一种旨在辅助人类的工具,并不需要具备情感功能。
- 对于超级智能 AI,我们无需过度恐慌,因为与未来的模型相比,每一代新模型总有不足之处,这正是不断进步的动力。
创新与创业机会
- 仅仅专注于解决当前 AI 的局限可能不够远见,因为未来的模型,如 GPT-5 和 GPT-6,很可能会使现有的努力变得过时。
- Sora 等突破性创新可能会彻底改变娱乐行业,创造出既有电影的情节性又有游戏的互动性的个性化体验。
- 虽然 AI 创业公司大有可为,但成功并非仅仅依靠使用 AI 技术就能保证,还必须坚守商业的基本原则。
- 虽然 AI 在国际象棋等领域可能已经超过了人类,但人们通常还是更喜欢看人类选手的比赛。不过,Altman 也指出了一些反例,例如一些青少年更愿意与 AI 理疗师而非人类理疗师进行对话。
Altman 的这次演讲提供了对人工智能未来的一种变革性展望,不仅强调了技术进步的速度,还论述了实现通用人工智能的战略,探讨了如何通过创新方法充分利用 AI 的潜力来应对社会挑战,以及人类与 AI 之间不断变化的关系。
反正奥特曼每次公开发言,都会成为一波热点,不过我赞同Abacus.AI CEO 的观点。
Berkeley Function-Calling Leaderboard(伯克利函数调用排行榜评估了大型语言模型(LLM)准确调用函数(也称为工具)的能力,这个排行榜由现实世界的数据组成)
LIama 3 是大模型游戏规则改写者吗|莫尔索随笔 Vol.3