大模型提取表格信息(TIS)的能力究竟如何?|莫尔索随笔 Vol.10

⼤家好,⼤家好,会员计划第 10 期会员通讯已送达!本期 4 篇论文内容主要围绕 LLM 在表格识别方面能力探索、RAG 流程优化方案以及提示词自动化优化策略方面,工程方面是关于怎样构建一个 LLM 驱动的自动数据采集应用、如何在本地构建完全免费的语音识别方案、RAG 系统从 Naive RAG 到 Advanced RAG 再到 Modular RAG 的演进,产品方面梳理了 11 款 AI+招聘工具的产品功能、从电子表格与数据库的历史看如何将大模型与智能数据分析相结合,市场方面总结了做垂直领域 AI 的思路,单点的打深、做透,专业量化测评专家+AI 算法专家的组合,特别是前者,领域专家带来的产品杠杆要远大于技术,最后的观点部分讨论了为什么现阶段的 Agent 都是噱头(凡是在应用中加入 LLM 作为语义理解组件的都说自己是 Agent)以及这一轮生成式 AI 泡沫下究竟有多少啤酒,更多内容请查看周刊全⽂。本期内容为会员每周通讯,加⼊会员可免费阅读所有会员付费内容,会员计划详细信息戳此了解

论文

  1. Uncovering Limitations of Large Language Models in Information Seeking from Tables:表格作为一种信息密集且广泛应用的形式,已成为不可或缺的信息源。大语言模型(LLMs)从表格中提取信息(TIS)的能力对支撑基于知识的问答系统至关重要,但目前该领域评估措施不足,缺乏可靠性。为此,本文推出了一个更为可靠的表格信息检索(TabIS)基准,采用单选题的形式(每题两个选项),避免了基于文本相似度的评估不准确性。设计了一套高效的选项生成机制,确保题目难度和质量。实验涵盖 12 种 LLMs,结果显示虽然 GPT-4-turbo 表现尚可,但其他模型表现不佳。深入分析发现,LLMs 在理解表格结构方面存在局限,且很难在 TIS 性能和抵御伪相关表格(常见于检索增强系统)的鲁棒性之间取得平衡。这些发现揭示了 LLMs 在表格信息检索方面的局限和挑战。

  2. RePrompt: Planning by Automatic Prompt Engineering for Large Language Models Agents:过去一年,大语言模型在非传统自然语言处理领域取得了显著进步。人们开始探索其在代码生成、旅行规划和机器人控制等更贴近实际应用的领域中的潜力。结合 LLMs 的强大能力与外部工具,人们正在开发 LLM 代理,旨在协助日常生活中的各种工作。在这些领域,提示对 LLMs 的生成内容和代理性能有显著影响,因此自动提示工程成为研究者和用户关注的焦点。

    本文提出了一种名为 RePrompt 的新方法,通过分析与 LLM 代理的互动历史,对提示中的指令进行逐步优化,类似于”梯度下降”的方式。优化后的提示使 LLM 能在特定领域内更好地规划。实验证明,使用更新后的提示作为起点,RePrompt 能有效提升不同推理任务的性能。

  3. RichRAG: Crafting Rich Responses for Multi-faceted Queries in Retrieval-Augmented Generation:这篇论文提出了一个名为 RichRAG 的系统,旨在生成富有内容和完整的问题回答。主要包括以下几个步骤:

    1. 通过子方面探索器预测问题的各个子方面。
    2. 利用多方面检索器收集与各子方面相关的文档,构建丰富多样的候选文档池。
    3. 设计了一种基于生成模型的智能排序器,通过监督式微调和强化学习两个阶段优化,从候选文档池中筛选出最有价值的内容,生成高质量的最终回答。
  4. Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection:尽管大语言模型(LLMs)具有显著的能力,但由于完全依赖其包含的参数化知识,常常会产生包含事实不准确的响应。检索增强生成(RAG)是一种临时方法,通过检索相关知识来增强 LMs,可以减少这种问题。然而,不加区分地检索并合并一定数量的检索段落,而不管检索是否必要,或段落是否相关,会降低 LM 的多功能性,或导致无用的响应生成。我们引入了一个名为自我反思检索增强生成(Self-RAG)的新框架,通过检索和自我反思来增强 LM 的质量和事实性。我们的框架训练一个单一的任意 LM,可以自适应地按需检索段落,并使用特殊的标记(称为反思标记)生成和反思检索到的段落及其自身生成。生成反思标记使 LM 在推断阶段可控,使其能够根据不同的任务要求来调整其行为。实验证明,Self-RAG(7B 和 13B 参数)在各种任务中显著优于最先进的 LLMs 和检索增强模型。具体而言,Self-RAG 在开放领域问答、推理和事实验证任务上优于 ChatGPT 和检索增强的 Llama2-chat,并且相对于这些模型,它在提高长篇生成的事实性和引文准确性方面取得了显著进展。

工程

  1. Web 端侧运行 whisper 模型:用 Transformer.js 使用 ONNX Runtime 来在浏览器中运行 Whisper 模型,用于语音识别场景。云端大模型虽好,但是在一些注重隐私、数据安全的场景,个人电脑支持端侧本地化运行是唯一解,这个方向在 HuggingFace 领衔下开源生态发展很快,上周的通讯中介绍过谷歌 Chrome 浏览器原生是支持 OMNX WebRuntime 的,而 ONNX Runtime 本身是微软推出的,这是巨头们都在关注的领域。

    ONNX Runtime 是一个深度学习推理引擎,用于在不同硬件和软件平台上运行深度学习模型。Transformer.js 借助 ONNX Runtime 的功能,能够在浏览器环境中加载、运行和推断 Transformer 模型,从而将最先进的机器学习技术引入到 Web 中,而无需依赖服务器端的计算资源。

  2. 怎样构建一个通用的 AI web 爬虫 :这篇文章深入介绍了一个通用的 AI Web 爬虫的设计与实现,从思路到解决方案,到调优,再到最终的结果演示,对做 AI 驱动的数据采集项目非常有用。

    工作流程

    简要说明流程:

    使用的工具:

    流程:
    HTML + 文本搜索 + 文本模型

    整个过程类似于人工操作

    1 先抓取整个 HTML

    2 由 AI 生成相关词汇,例如针对价格搜索可生成词汇(pricing, fee, cost, prices ….)

    3 根据这些词汇查找 HTML 结构,确定相关节点列表

    4 使用 OpenAI 分析节点列表,找到最相关的节点

    5 使用 AI 判断是否需要与该节点互动(通常需要点击)

    6 重复此过程直至获取最终结果

  3. 模块化 RAG 与 RAG 工作流:本文概述了模块化 RAG 以及 RAG 工作流的概念。作者提供了模块化 RAG 的理论框架,包括 6 种模块类型、14 个模块和 40 多个操作符。文章探讨了 RAG 技术的发展历程,从简单 RAG 到高级 RAG 再到模块化 RAG 的转变,并着重介绍了模块化 RAG 范式。作者指出,通过组合不同操作符,可以衍生出各种 RAG 工作流,进而提供对 RAG 的全面理解。另外,文章提及 RAG 的发展为数据获取、技术整合和检索过程带来了新的机遇,加强了检索能力。模块化 RAG 将 RAG 系统划分为模块类型、模块和操作符三层结构,提出了建立在朴素 RAG 和高级 RAG 范式基础上的新理论框架。

  4. Google 发布根据视频生成音频技术 V2A ,可以给视频自动配音、配乐:DeepMind 团队发布的视频转音频(V2A)的技术,可以根据视频画面和文字描述自动生成音轨,包括背景音乐、音效和对话。V2A 能确保音频与视频同步,用户可以生成无限数量的音轨来尝试不同的音效组合。为了生成高质量音频,系统在训练过程中引入了详细的声音描述和对话转录。V2A 实现了自动化处理,无需手动对齐声音与视频,减少了调整工作。工作原理是用户提供视频和文字描述,系统编码视频并生成与描述匹配的音频,最终合成音视频文件。不过音频输出质量、唇同步效果,解决视频失真等问题还需进一步解决。

  5. The Architecture Behind A One-Person Tech Startup:个人做的一个网络流量和性能检测的 SaaS 产品,已经有数千个网站在使用,这篇文章描述了产品背后的技术架构,值得一看。

产品

  1. 橙篇 AI:橙篇是百度文库最近刚推出的新 AI 工具,基于文心大模型构建。它集成了多种 AI 功能,可以视为 ChatGPT、Kimi.ai、Metaso、Notion.ai、Midjourney 和 Gamma 的综合体。

    这个工具主要包括以下几大功能:

    • 问答功能,类似 ChatGPT
    • 文档总结功能,支持多种常用格式
    • 资料搜索功能,包括学术检索和全网搜索
    • 强大的长文撰写功能,可以根据提供的主题自动生成大纲和文章内容
    • 即将推出的 AI 漫画和智能 PPT 功能

    其中”长文神器”功能尤其出色,仅凭简单的标题输入,就能生成真正的五分质量水平的上万字的内容,大大提升了写作效率,橙篇的其他功能,如文档总结、资料搜索等,也都展现出不俗的实力,在某些场景下可以替代 Kimi.ai、Metaso 等工具。

  2. DeepSeek 发布开源模型 DeepSeek-Coder-V2:模型及其相关代码、论文已全部开源,供免费商用使用,无需申请,模型提供 236B 参数和 16B 参数两种规模。DeepSeek-Coder-V2 继续采用专家混合(Mixture-of-Experts, MoE)架构,增强了代码和数学推理能力。DeepSeek-Coder-V2 在代码生成和数学推理的测试中性能优于一些闭源模型,例如 GPT4-Turbo、Claude 3 Opus 和 Gemini 1.5 Pro。

    DeepSeek-Coder-2评估结果

  1. AI+招聘工具大盘点

AI+招聘工具大盘点

  1. Anthropic 发布 Claude 3.5 Sonnet:Anthropic 周四官网宣布发布 Claude 3.5 Sonnet!它在数学和编码能力上超过 GPT-4o,同时 API 价格降为 1/15,最牛的是 Artifacts 特性,可以生成代码并支持实时预览与迭代,可以用于生成 PPT、在线网站、游戏!

    Claude 3.5 Sonnet的测试集表现

  2. 电子表格与数据库的历史:这个和 AI 无关,只是最近在看数据分析+AI 类产品,这篇内容对电子表格带来的负面影响总结的很到位:

    • 推演的只是数字,不是事实。完全基于数据推演无法描述真实世界的变化。
    • 输入错误,模型错误,将会带来灾难性的输出。
    • 黑箱效果,可以随机地制作公式,所有的公式都是相互依赖的。 当你看到最终结果时,你无法知道规则是什么
    • 成为了说服别人的工具,而非基于事实的阐述(比如对数据的任意解读)
    • 关于人类行为,没有完美的假设——因此也没有完美的模型

    数据分析的四个级别

    数据分析的四个级别,当前很多 AI 结合数据分析的产品差不多只做到了第二阶段,但是以模型的能力,是可以碰到第四阶段的水平的。

市场

  1. 甲小姐对话海纳 AI 梁公军:AI 2.0 核心就是“打穿、打穿、打穿”:海纳 AI 瞄准了人力资源行业的高价值应用场景,采取了三个阶段的发展策略。

    第一阶段,他们发现蓝领岗位的人岗匹配是一个未被充分开发的”富矿”。许多老板关注三件事:找方向、找人、找资源,而找人这个关键环节往往依赖于主观判断,缺乏大规模的高效和精准处理。海纳 AI 意识到人和岗位的基本单元尚未得到很好的结构化、量化和标准化。

    第二阶段,为了把握这个高价值场景,海纳 AI 集结了顶尖的量化测评专家和 AI 算法专家,开发出了自动评估算法。他们宣称,相比同行 HireVue,海纳 AI 的解决方案在精准度和信效度上都遥遥领先。这一方案已得到顺丰、京东等头部客户的广泛认可,在中国最大的 8 个行业,大部分行业头部 TOP3 集团均在使用海纳。

    第三阶段,海纳 AI 试图建立起自己的护城河。他们认为要把一件事做好,需要持续多年大量资源和资金投入,这使得灯塔客户自己做难以获得令人满意的投资回报。另一方面,海纳 AI 专注做好 AI 面试测评这个单点,力争实现像 HireVue 在美国市场的同样效果,内嵌到所有头部 HR SaaS 系统,为 Top1000 公司提供服务。这种专业分工和协同,或许能够成为海纳 AI 的护城河。

    最认同的做垂直 AI 的思路,单点的打深做透,专业量化测评专家+AI 算法专家的组合,特别是前者,领域专家带来的产品杠杆要大于技术。

  2. Zscaler 发布 2024 年 AI 安全报告:Zscaler ThreatLabz 2024 AI 安全报告揭示了企业 AI/ML 交易激增、18.5%的 AI 交易被阻止、制造业占 21%的 AI 流量、ChatGPT 等应用受欢迎,以及全球 AI 交易主要发生在美国、印度等地。报告关注了安全启用 AI、防止未经批准的 AI 工具激增(“阴影 AI”)、数据保护措施和数据隐私安全风险。企业需要制定 AI 政策指南、采用 DLP 措施、了解 AI 应用使用情况,并实施细粒度的访问控制以预防或减轻阴影 AI 风险。

观点

  1. 观 2024 智源大会 Agent 分论坛有感:话粗理不糙,”Agent” 这个词起源于强化学习 (Reinforcement Learning, RL) 领域,”Agent” 指的是在环境中采取行动并通过这些行动从环境中获得反馈的实体,强化学习的核心思想是通过试错和奖励机制来优化 Agent 的行为,使其能够在特定环境中最大化累积奖励,但是现在凡是在应用中加入 LLM 作为语义理解组件的都说自己是 Agent(智能体、智能代理、代理…),当下所谓的 Agent 架构第一次出现就是来自 OpenAI 员工的这篇博客(https://lilianweng.github.io/posts/2023-06-23-agent/)配图,严格来说是 (LLM-base )Agentic Workflows,现阶段在生产环境对可靠性和可解释性的要求,导致必须有 human in the loop,copilot 模式给大模型指导监督,同时提供反馈数据。

LLM-base Agent

  1. 拥抱时代、乐观和年轻人的力量:这期播客阐述了一些真格对 GenAI 投资的独特视角和论点,包括一些”非主流”观点:

    1. 目前 GenAI 在”全自动化”、”通用性”和”物理性”方面的预期都被高估了。真格更倾向于投资辅助性(半自动)、数字化(非物理)、专用型的 GenAI 应用。

      • 全自动驾驶被高估,人机协作(copilot)更实际。生产环境对可靠性和可解释性的需求,要求保留人工参与和反馈。
      • 通用性和泛化能力被高估,专用型 AI 应用更有可能率先落地。
      • 物理智能被高估,数字化应用更实际。物理世界的挑战远比想象大,如自动驾驶 20 年发展仍未完全解决。
    2. 当下 AI 可能存在泡沫,但泡沫下的价值不容忽视。历史上泡沫会促进基础设施建设,并孕育出伟大公司。

    3. AI 发展与移动互联网有所不同:

      • AI 技术壁垒更高,缺乏通用硬件平台是创业挑战;

      • AI 模型创新呈阶梯型,而移动互联网是连续性创新;

      • AI 应用需更大资本投入

​ AI 时代需要一个”4G”级基础技术突破,才能孕育如移动互联网时代那样的创新故事。关键在于何时出现这一突破性进展。

构建 AI 产品过程的踩坑经验总结|莫尔索随笔 Vol.9

⼤家好,会员计划第 9 期会员通讯已送达!
本期内容信息量较大,毕竟 2024 年即将过半,包括一份 OpenAI、微软、 马里兰大学和learnprompting社区联合发布的提示词技术调研报告,一篇总结大语言模型在信息抽取上的各方面应用的综述,看看一线工程师从过去一年构建基于大模型的产品中总结到哪些经验,大模型开源生态中国力量的现状分析, 过去一年的硅谷顶级 AI 初创公司和产品盘点,从字节的 Dreamina、腾讯的 VideoCrafter2 到右脑科技的 Vega AI、爱诗科技的 PixVerse,还有最近大热的快手可灵和 Luma 的 Dream Machine,看看文生视频/图生视频模型的发展现状,更多内容请查看周刊全文。

论文

  1. The Prompt Report: A Systematic Survey of Prompting Techniques:OpenAI、微软、 马里兰大学和learnprompting社区联合发布的提示词调研报告,报告调研了 1500 多篇和提示词研究相关的论文,分析了多种 Prompt Engineering 技术,涵盖多语言、多模态、Agent、模型评估、安全、对齐等主题。

下面是不同提示词技术的论文引用数排名前:

![](https://s2.loli.net/2024/06/14/ktEnzX6B7dOKswF.jpg)

评估了专家级 Prompt Engineering 为实现最佳结果而采取的不同优化步骤。

![](https://s2.loli.net/2024/06/14/ySUkasMF2NfxhAq.jpg)

完整报告地址:https://trigaten.github.io/Prompt_Survey_Site/
  1. Large Language Models for Generative Information Extraction: A Survey:又是一篇综述性质的论文,总结了大语言模型在信息抽取上的各方面应用。信息抽取(Information Extraction, IE)是自然语言处理领域的核心,也是构建知识图谱、知识推理和知识问答等众多下游任务的基础。信息抽取一般包括:命名实体识别(Named Entity Recognition, NER)、关系抽取(Relation Extraction,RE )和事件抽取(Event Extraction)。大语言模型(LLMs)在文本理解和生成领域表现突出,展示出跨领域的泛化能力。因此,许多研究都开始利用 LLMs 的潜力,为 IE 任务提供基于生成范式的创新解决方案。这项研究旨在对 LLMs 在 IE 领域的应用进行深入的系统回顾。论文首先根据 IE 子任务和学习范式对相关工作进行分类概述,然后通过实证分析了前沿技术,揭示了 LLMs 与 IE 任务结合的新趋势。通过全面的回顾,作者指出了技术方面的见解和未来研究的方向,并维护一个持续更新相关资料的公共资源库,地址为:https://github.com/quqxui/Awesome-LLM4IE-Papers

    大语言模型在IE上的应用

  2. Financial Statement Analysis with Large Language Models:本研究探讨了大语言模型(LLM)在财务报表分析任务中的表现,并与专业人类分析师进行了比较。研究发现,在没有任何叙述性或行业信息的情况下,GPT-4 在预测未来收益变化方面的表现优于人类金融分析师,并且在分析师可能遇到困难的情况下展现出了相对优势。此外,LLM 的预测准确性与传统机器学习模型相当,表明了 LLM 在财务分析领域的潜力。

  3. Enhancing Anomaly Detection in Financial Markets with an LLM-based Multi-Agent Framework:该论文提出了一个基于语言模型的多 Agent 框架,旨在提升金融市场数据中异常检测的能力,解决手动验证系统生成异常警报的长期挑战。该框架由一个协作网络构成,每个 Agent 专注于不同的功能,包括数据转换、依据专家分析的网络研究、利用机构知识或交叉核查,以及报告整合和管理。通过协调这些 Agent 共同推进,该框架提供了一种全面且自动化的方法来验证和阐释财务数据异常。

工程

  1. Challenges in red teaming AI systems:Anthropic 安全团队分享了他们在测试 AI 系统时所采用的红队方法,并希望这些经验对其他公司红队测试他们的 AI 系统、对红队工作机制有兴趣的决策者以及希望对抗 AI 技术的组织有所帮助。文章探讨了红队测试的定义、优缺点以及缺乏标准化实践的问题,并呼吁 AI 领域建立系统性的红队测试标准和实践。各种红队测试方法涵盖了特定领域的专家合作、政策漏洞测试、国家安全风险测试、多语言多元文化测试等多个领域。文章还讨论了如何从定性的红队测试过渡到定量的评估方法,并提出了一些政策建议来支持红队测试的进一步采纳和标准化。

  2. Hugging Face 中文社区:在上一期还谈到国内大模型影响力和贡献度不匹配问题,本周 Hugging Face 团队就宣布专门开设一个中文大语言模型社区,这是一个很好的窗口,Hugging Face 中文社区专门分享来自中文社区的热门模型、数据集、论文、工具及相关项目,以帮助国内外社区开发者发现并利用这些宝贵资源。

  3. DSPyDeclarative Self-improving Language Programs, pythonically(声明式自我改进语言程序),DSPy 是一款 prompt 自动优化相关的工具和框架,在 LLM 应用的开发流程中,通常包括明确需求、准备测试用例、编写 prompt、观察结果并做误差分析、修改 prompt 并重复实验等步骤。随着 pipeline 复杂度增加,可能会面临维护工作量和复杂度上升的挑战,需要拆分子任务、尝试新技术、优化 Pipeline 逻辑、切换模型版本等。DSPy 提出的解决思路是基于训练数据来自动优化整个 pipeline,类似机器学习中的参数优化。这篇文章对这个框架进行了详细分析,还在用手工作坊的方式管理 Prompt 的朋友可以用起来。

  4. 从过去一年构建大语言模型中学到的东西(二):本文总结了在产品开发中有效利用大语言模型的关键做法:

    1. 定期评估模型性能变化,做好测试和应对准备。

    2. 选择满足需求的最小模型规模,通过优化 prompt 等方式提升性能。

    3. 将产品设计和用户体验融入到大语言模型应用的开发流程中。

    4. 通过提示工程培养全员的 AI 使用能力,鼓励每个人尝试和实验。

    5. 在产品规划时留出充足时间进行实验和迭代优化,而非急于向生产环境推进。

    6. 实现 AI 驱动产品需要跨职能团队协作,不应过于依赖”AI 工程师”。

    7. 重视提升全体员工对 AI 技术的了解和应用能力,让每个人都成为创新的参与者。

产品

  1. Cloudflare 正式发布 AI Gateway:支持 AI 应用的性能、安全、可靠性和可观测性分析。该平台支持多 LLM 负载均衡,可运行 OpenAI、Amazon 等各种模型,并未来计划支持构建数据集和微调模型。此外,AI Gateway 与 Workers AI 整合,提供无缝体验,Cloudflare 推出的 类 LangSmith 产品。

  2. 苹果在 WWDC 全球开发者大会上推出 Apple Intelligence,这是深度集成到iOS 18、iPadOS 18 和 macOS Sequoia 中的个人智能系统,Apple Intelligence 由多个功能强大的生成模型组成,既有苹果自研的端侧模型也有和 OpenAI 合作的云端大模型,这些模型专门用于用户的日常任务,并可以根据用户的当前活动进行动态调整。

  3. Chrome 127 版本内置 Gemini Nano 端侧模型:上周只是作为新闻提了下,这周仔细看了一下延伸内容,发现这只是谷歌端侧大模型生态计划的一个开始,我试着完整梳理下。

    谷歌端侧大模型生态

    Chrome 本身已经支持通过 Tensorflow.js 或 OMNX WebRuntime 调用 Web API 来跑其他 ML 模型(Expert models),其核心架构如下(文章参考:https://developer.chrome.com/blog/io24-webassembly-webgpu-1?hl=zh-cn):
    用于实现更快的 Web AI 的 WebAssembly 和 WebGPU 增强功能

    到这里,在 Chrome 上运行各种端侧专门模型的条件已经具备。另一个就是 Visual Blocks ,谷歌也计划不久后推出能够在端侧运行的 Visual Blocks(https://visualblocks.withgoogle.com/#/),这是一个可视化编排工具,比如这个融合 Huggingface 生态的例子(https://huggingface.co/hf-vb),可以在本地提供图片分割、翻译、文本分类、背景移除等原子服务,最后是现有浏览器层面的APIs,这就是释放威力的地方,拥有API就可以操作一切,嵌在浏览器中的模型+编排工具+API,构建Agentic Workflow 的条件都具备了,可以预见首先在浏览器插件这个生态,现有插件都会接入端侧模型能力的,一切提供 Web 形态的产品可以都+AI,而且是免费的 AI,因为端侧模型的推理成本由用户承担,AI 化的成本会极大降低,这个过程是由一个个社区 Web 开发者主导自发进行的。

    端侧 Web AI 的 API 设计基于会话式设计,挂在在 window.ai 命名空间下:

    • 创建会话:window.ai.canCreateTextSession
    • 流式发送 Prompt API:session.promptStreaming(“你好”) ,异步 API 访问流式请求下的 chunk 消息
    • Gemini Nano 的输出速度达到 70+ token/s 远超 GPT-4

    最后推荐一篇文章 2024 年 I/O 大会 Web AI 总结:为您的下一个 Web 应用打造的新模型、工具和 API

  4. Luma 发布视频生成模型 Dream Machine:自从 OpenAI 春节期间发布 Sora,就引发了新一波文生视频热潮,从字节的 Dreamina、腾讯的 VideoCrafter2 到右脑科技的 Vega AI、爱诗科技的 PixVerse,还有最近的的快手可灵,动作更逼真、连贯,角色一致性也越来越强,但是最大的痛点是现阶段还无法产出和视频画面匹配的的声音,当然这也是模型结构决定了的,最近我在试着用 Gemini 的多模态 API 为视频生成脚本,然后根据脚本内容生成音乐,最后将音乐与视频合并,工程手段做点探索。

    文生视频产品

市场

  1. 12 位开源老兵跟你聊聊开源和大语言模型的商业化路径选择:探索开源与商业化路径的深度对话,本文汇聚了 12 位行业专家针对开源软件的商业模式、企业选择开源策略的考量、以及大型语言模型(LLM)对开源领域的影响等话题,提供了独到的分析和预测。这些讨论包括了企业服务开源的商业模式,企业是否应采用开源路线,LLM 对开源的影响,开源大模型商业化的可能性和路径,以及应用层对开源软件、基础设施服务和大模型的理解和期望。

  2. 总结 Y Combinator 近一年投资的 260 家 AI 公司:Y Combinator 是硅谷的创业孵化器,过去一年投资了 260 多家 AI 初创公司,它们可以说是硅谷乃至全世界 AI 创业趋势的缩影,通过这些 AI 公司的产品和官网,借此了解 AI 的顶尖创业者们究竟在做什么。

    项目分类

  3. 深度对谈顶尖 AI 开源项目:大模型开源生态, Agent 与中国力量:在大约一年多的时间里,生成式 AI 的迅速发展中,开源话题毫无疑问是一个引人注目的议题。从 Meta 的 Llama 3 到 Mistral 最新的模型,开源模型的快速发展不仅令人印象深刻,而且推动了 AI 应用在产品中的实际应用。围绕大型模型的生态系统,从推理加速到开发工具,再到智能代理,技术栈的丰富程度虽已孕育出像 Langchain 这样的领军企业,但这仅仅是冰山一角。尤其值得一提的是,随着阿里千问系列、Deepseek 以及中国团队主导的 Yi 在国际舞台上崭露头角,我们不禁思考,除了模仿和追赶,中国在大型模型领域的发展是否还有更多值得我们关注和自豪的成就。最新一期的 Onboard!节目 邀请到了几位高度代表性的重要嘉宾,其中包括来自 Huggingface 的开源老将,通义千问 Qwen 的开源负责人(同时也是 Agent 领域最受关注的项目 OpenDevin 的核心成员),以及最具国际影响力的开源项目 vLLM 的主要负责人,深入探讨了:

    • 底层基础大模型的开源与封闭生态,未来可能的发展方向是什么?
    • 开源模型的商业化与过去我们在大数据时代看到的 Databricks 等开源商业模式有何异同之处?
    • 如何打造一个具有国际影响力的开源项目?
    • 还有关于数据、评估等大型模型领域的核心议题等。

如何针对 GPT-4o 语音模式进行越狱攻击?|莫尔索随笔 Vol.8

本期分享的内容包括:如何利用这些多模态模型实现企业工作流程的端到端自动化;英伟达研究团队通过严谨的测试发现大多数商业模型的上下文长度虚标严重,甚至达到 32K 上下文长度的都不多;如何针对 GPT-4o 语音模式的进行越狱攻击;产品方面剖析了 Meta、Slack、Spotify 等 20+顶级科技公司如何将 AI 融入其产品中;a16z 盘点了 AIGC 如何推动营销和销售领域的发展,包括产品及项目调研;OpenAI 分享他们在 RAG 技术的最佳实践;开源社区最流行的 RAG 构建框架 LlamaIndex 团队对 RAG 技术现状总结;以及王铁震老师对中文 LLM 开源生态的观察分享,更多内容请查看周刊全文。本期共包括 4 篇论文、4 篇工程实践相关文章、5 条 AI 产品相关和 2 条市场方面的洞见,最后在观点部分分享了人工智能时代如何助推全球新产业革命,以及为什么在大模型开源社区国内贡献度和影响力极不匹配。

论文

  1. 超越代码生成:ChatGPT 在软件工程实践中的观察性研究:来自瑞典哥德堡查尔姆斯理工大学和瑞典 RISE 研究机构的研究人员对 10 家公司的 24 名软件工程师展开了定性分析。这些工程师在日常工作中使用 ChatGPT 超过一周。研究发现,这些从业者更多地使用 ChatGPT 寻求任务解决方法或对主题进行抽象理解的指导,而非期望 ChatGPT 生成可用的软件工件(如代码)。该研究提出了一个理论框架,解释了交互目的、内部因素(如用户个性)和外部因素(如公司政策)如何共同塑造用户体验(包括感知有用性和信任度)。研究指出,即使是前沿模型也无法解决企业应用中的某些问题,特别是上下文理解方面。为了提升用户体验,聊天界面需能够自动提供上下文信息给模型。一种方法是利用检索增强生成(RAG),自动将上下文信息添加到用户提示中。隐私和数据共享限制也是一个需要解决的问题。使用开源模型 Llama 3 可以确保数据永远不会离开用户组织。此外,用户在提示模型时的方式会对模型性能造成重大影响,减少提示工程的障碍可以改善用户体验。一些技术,如 Anthropic 公司的提示生成器和 DeepMind 的自动优化提示技术 OPRO,可以帮助解决这一挑战。最后,研究提到使用 ChatGPT 可能导致注意力分散。通过将模型融入团队合作,可以在一定程度上缓解这一问题。

    Image

  2. 如何利用这些多模态模型实现企业工作流程的端到端自动化:自动化工作流程虽然已有数十年研究实践,但实现全自动化仍有挑战。机器人流程自动化(RPA)是目前先进解决方案,通过硬编码规则执行工作流程,但受高成本、执行效果不稳定和维护需求繁重等限制。本文介绍了 ECLAIR 系统,该系统利用多模态基础模型学习人类工作流程专业知识,提高了识别工作流程步骤的准确率,并提高了完成任务的成功率。ECLAIR 还通过自我监控和纠错减少了对人工监督的需求,在验证过程中取得了很高的精确度和召回率。

  3. RULER: What’s the Real Context Size of Your Long-Context Language Models?:不知道大家在平常使用中是否会明显感知到大模型厂商声称的上下文长度和实际体验到的并不匹配,英伟达这篇论文从更科学的角度对大模型的上下文长度进行测试,发现大多数模型(不论开源闭源,国内外模型)上下文长度虚标严重,32K 性能合格的都不多。

    大模型有效上下文长度

  4. Voice Jailbreak Attacks Against GPT-4o:本研究首次系统评估了针对 GPT-4o 语音模式的越狱攻击,发现 GPT-4o 对直接转换的禁止问题和文本越狱提示具有较强的抵抗力。这得益于其内部安全机制及语音模式下适应文本提示的难度,受 GPT-4o 人类化行为的启发,论文提出了 VoiceJailbreak,一种通过虚构故事(设定、角色和情节)说服 GPT-4o 的新型语音越狱攻击,该攻击能生成简单而有效的越狱提示,将六种禁止场景下的平均攻击成功率从 0.033 大幅提升至 0.778。作者团队还还通过实验探讨了交互步骤、虚构写作要素及语言差异对 VoiceJailbreak 的影响,并运用高级虚构写作技巧提升攻击效果。

工程

  1. [使用大语言模型 (LLMs) 构建产品一年后的经验总结](https://www.oreilly.com/radar/what-we-learned-from-a-year-of-building-with-llms-part-i/ “使用大语言模型 (LLMs “使用大语言模型 (LLMs) 构建产品一年后的经验总结”) 构建产品一年后的经验总结”):在使用大语言模型(LLMs)构建产品方面,LLMs 的表现已经达到可以应用于现实世界的水平,推动预计到 2025 年 AI 投资达到 2000 亿美元。构建 AI 产品的门槛降低,但要创建高质量产品仍充满挑战。作者总结了一些关键经验和方法,对于基于 LLMs 的产品开发至关重要。这些经验包括提示设计、检索增强生成等方面的最佳实践和常见陷阱。这项工作分为战术、运作和战略三个部分,第一部分重点探讨使用 LLM 的战术细节。可以在此处阅读中文译文 [使用大语言模型 (LLMs) 构建产品一年后的经验总结 (第一部分) [译]](https://baoyu.io/translations/llm/what-we-learned-from-a-year-of-building-with-llms-part-1 “使用大语言模型 (LLMs “使用大语言模型 (LLMs) 构建产品一年后的经验总结 (第一部分) [译]”) 构建产品一年后的经验总结 (第一部分) [译]”)

  2. 构建 AI SaaS 应该用 RAG 还是微调?:如何将上下文数据合并到 LLM 中是一个关键问题。有两种主要方法:RAG 和微调。文章详细比较了这两种方法,以确定哪种方法最适合 AI SaaS 产品。

  3. OpenAI 分享他们在 RAG 技术的最佳实践:OpenAI 分享了技术团队的 RAG 最佳实践,当客户有大量文档(例如 10 万份),希望模型仅基于这些文档进行知识检索,下面是一个大概的方案分级过程:

    1. 直接嵌入 PDF 和 docx 文件,初始准确率为 45%。

    2. 经过 20 次调优迭代,解决了一些小 Bug,准确率提高到 65%。

    3. 通过基于规则的优化,例如首先识别问题所属领域(逐步考虑),然后给出答案,效果提高至 85%。

    4. 发现数据中包含一些结构化数据(例如表格),定制提取方法后,准确率提高至 98%。

  4. Beyond RAG: Building Advanced Context-Augmented LLM Applications:开源社区最流行的 RAG 构建框架 LlamaIndex 团队对 RAG 技术的总结,讨论如何构建一个一般的上下文增强研究助手,并强调了构建研究类 Agent 的优势,包括多跳问答、查询理解和任务规划、与各种外部工具交互的界面、反思以纠正行为、以及用于个性化的记忆。

产品

  1. 深入探讨 20+顶级科技公司如何将 AI 融入其产品中:本系列文章分析了海外科技公司将 AI 集成到产品中的新方法和功能,包括嵌入式助手、新的独立产品、用户体验增强器、生产力助推器和 ML 智能/数据分析五种类别。这些功能旨在提升产品价值、用户体验和生产力,并帮助 AI 团队设计产品时获得参考。

    Image

  2. 基于 AI 的软件如何推动营销和销售:营销因其依赖文本、图像、视频等媒体类型而特别适合采用生产式 AI,这也是许多首个 B2B GenAI 用例是用于营销的原因之一。采用 GenAI 在营销中的演进分为三个阶段:开发营销副驾驶员、建立营销代理人以及转变为自动化营销团队。目前我们处在第一个阶段,营销人员可以利用 GenAI 作为其营销副驾驶员,这有助于开发与传播品牌相关资产。下一个阶段是建立营销代理人,自动化营销工作,实现个性化营销活动,提高效果。最终目标是 AI 代理人承担 CMO 职责,操作作为完整营销计划的自动化营销团队,这将大幅提高市场团队的效能,并可能引领市场技术领域的新机遇。

  3. GLM-4-9B 开源:GLM-4-9B 与 GLM-3-6B 模型结构一致,主要改变为模型层数、词表大小、更长的上下文。

    • 词表由 65024 增加到 151552;
    • 模型层数由 28 增加到 40;
    • 上下文长度支持从 32K、128K 到 128K、1M

    开源 License 说明:学术研究免费,商业用途需要登记,且必须遵守相关条款和条件,Github 地址:https://github.com/THUDM/GLM-4

    能力方面,1M 上下文长度方面,在大海捞针测试中全绿

    大海捞针测试中全绿

    工具调用 Function Call 能力也属于 gpt-4-turbo 级别

    Model Overall Acc. AST Summary Exec Summary Relevance
    Llama-3-8B-Instruct 58.88 59.25 70.01 45.83
    gpt-4-turbo-2024-04-09 81.24 82.14 78.61 88.75
    ChatGLM3-6B 57.88 62.18 69.78 5.42
    GLM-4-9B-Chat 81.00 80.26 84.40 87.92
  4. Qwen2 开源:阿里 Qwen2 模型开源,本次开源的 Qwen2 模型包括 5 个尺寸,分别是 0.5B、1.5B、7B、72B、57B,其中 57B 的属于 MoE 模型(激活参数 14B),其余为 Dense 模型。Qwen2 和 Qwen1.5 的模型结构基本一致,主要是模型预训练数据有所增加(大约在 7T 以上),Qwen2-0.5B、Qwen2-1.5B 模型支持最大上下文长度为 32K;Qwen2-57B-A14B MoE 模型支持最大上下文为 64K;Qwen2-7B、Qwen2-72B 模型支持最大上下文为 128K,代码和数学能力显著提升。在 Qwen1.5 系列中,只有 32B 和 110B 的模型使用了 GQA,Qwen2 所有尺寸的模型都使用了 GQA,GQA 可以显著加速推理,降低显存占用。Qwen2-72B-Instruct 在多项指标超过 Llama-3-70B-Instruct,特别是中文领域,大幅领先。更多详细内容,请前往官网博客查看 https://qwenlm.github.io/zh/blog/qwen2/。

    Qwen2-72B-Instruct 在多项指标超过 Llama-3-70B-Instruct

  5. Chrome 内置 Gemini Nano:谷歌浏览器从 Chrome 126 开始, Gemini Nano 端侧小模型将内置到浏览器中,使用本地模型的好处也无需多言:1. 本地处理敏感数据,提高隐私保护;2. 提供流畅的用户体验,可实现近乎即时结果;3. 设备端 AI 提供更高的 AI 访问权限,用户设备可承担一部分负载;4. 可以离线使用 AI 功能,无需互联网连接。当前只是开发者版本可用,希望体验的朋友可以参考这篇文章进行配置手把手教你使用 Chrome 内置 Gemini Nano

市场

  1. 拆解 50 个大模型大单:0 元中标,头破血流!华为成隐形赢家:百模大战中,大模型企业开始盈利,50 个大模型大单中,百度获得 8 个,金额前十的大单有 3 个,成为最大赢家。智谱 AI、中国电信分别获得 6 个、5 个大单,位居第二、第三。

    大模型中标数量分布

  2. 从美国 B2B 软件企业的统计视角看 AI 的真实发展情况:Emergence Capital 是美国知名的 SaaS 风险投资基金,他们 2024 年 4 月最新发布的《Beyond Benchmarks》报告收集了 600 多家 B2B SaaS 企业的数据,在此基础上得出的当下 AI 在美国软件类企业真实的发展情况具有比较强的参考意义。

    60% 的企业在其产品中使用了 GenAI

观点

人工智能时代如何助推全球新产业革命:6 月 2 日,英伟达联合创始人兼首席执行官黄仁勋在 Computex 2024(2024 台北国际电脑展)上发表主题演讲,分享了人工智能时代如何助推全球新产业革命,本文是是腾讯科技整理的两小时演讲全文实录。

中文 LLM 开原生态蓬勃发展:近距离观察:来自 Hugging Face 的工程师王铁震老师的文章,总结了过去一年来,国内开源社区取得的重要进展,发布了许多新模型,一些模型不仅包括中文和英文,还支持多种语言,这些模型在性能方面表现出色,中国模型在一些排行榜上表现优异,最后总结了国内研究人员对整个开源社区的贡献,同时,还回答了一些有关开源模型、不同地区模型之间的差异以及政府在该领域所扮演的角色等问题。想起斯坦福 Llama3-V 套壳面清华系和面壁智能团队联合开发的 MiniCPM-Llama3-V 2.5 的事情美国拟限制开源 AI 大模型出口的风波,大模型开源社区的国内贡献度和影响力极不匹配,看好 GLM 和 Qwen、Yi 系列等继续扩大自己的开源影响力,延伸阅读材料

如何利用大模型解决传统行业的老问题?|莫尔索随笔 Vol.7

本期分享的内容包括:通过比较不同的 RAG 评估框架(RAGAs、CDQA、RECALL、MedRAG 等),教你如何设计一个合适的 RAG 评估体系;为了提高 RAG 召回率,如何使用非 chunking 方式,对数据预处理阶段进行优化;如何结合大语言模型,从用户或商品评论中生成更精确的用户和商品档案,用于推荐系统;产品方面分享了服装行业与 AI 技术如何结合,在面料设计、产品设计、定向改款和与 ODM 供应商的协作中发挥重要作用;详细盘点了在教育、法律、金融、医疗这类高价值行业做文档处理时,是如何对化学式、数学公式、表格、图表等重要信息做准确识别和处理的,包括开源方案和商业化产品;市场方面看看 a16z 是如何解读 AI 实时语音助手市场的,包括产品及项目调研,更多内容请查看周刊全文。本期共包括 4 篇论文、5 篇工程实践相关文章、5 条 AI 产品相关和 2 条市场方面的洞见,最后在观点部分分享下为什么 Scaling Law 本身代表一个非常悲观的未来?本期内容为会员每周通讯,加入会员可免费阅读所有会员付费内容,会员计划详细信息戳此了解

论文

  1. Evaluation of Retrieval-Augmented Generation:A Survey:这篇论文提出了一个名为 RGAR(Retrieval, Generation, and Additional Requirement)的分析框架,梳理评估检索增强生成(RAG)系统时面临的挑战,并将其分为三个主要部分:检索(Retrieval)、生成(Generation)和整个 RAG 系统(作为整体)。

    检索组件的挑战
    动态和广泛的知识库:评估检索组件时需要处理知识库的动态性和广泛性,这要求评估指标能有效衡量检索文档的精确度、召回率和相关性。
    时间敏感性:信息的相关性和准确性随时间变化,增加了评估过程的复杂性。
    信息源的多样性:评估还需考虑信息源的多样性,以及可能检索到的误导性或低质量信息。

    生成组件的挑战
    忠实度和准确性:生成组件评估重点在于生成内容对输入数据的忠实度和准确性,涉及事实正确性、查询相关性和生成文本的连贯性。
    主观性:某些任务(如创意内容生成或开放式问题回答)的主观性增加了评估的复杂性,因为存在关于”正确”或”高质量”响应的变异性。

    RAG 系统作为整体的挑战
    检索与生成的相互作用:整个 RAG 系统的评估引入额外复杂性,因为检索和生成组件的相互作用意味着无法单独评估每个组件来理解整个系统性能。
    实际考虑:评估系统的整体有效性和可用性很重要。

现有RAG系统评估框架盘点

  1. Question-Based Retrieval using Atomic Units for Enterprise RAG:为了提高召回率,这篇论文提出的思路对 chunking 阶段进行优化,确切来说就是不是盲目分块,而是将块划分为基本语句,然后基于这些基本语句生成一组综合问题(以块为上下文),然后通过密集检索找到与用户查询最相关的综合问题集以及相关的块。(这是一种非常不错的 RAG 优化方式,也是我在实践中采用的,特别是在客服问答场景,这种方式能够发挥作用的关键在于能够提前掌握用户问题的分布情况)。

    图像

  2. Evaluating Task-based Effectiveness of MLLMs on Charts:这篇论文深入探讨了 GPT-4V 在图表低级数据分析任务中的表现。论文作者团队创建了一个名为 ChartInsights 的大规模数据集,涵盖了 7 类图表的 10 种分析任务。经过系统评估,结果显示 GPT-4V 的准确率达 56.13%,远高于平均水平 36.17%。为了进一步理解 GPT-4V 的局限性,作者设计了一系列实验,并探究了视觉元素变化对其性能的影响。最后,作者提出了 Chain-of-Charts 和视觉提示策略,成功将准确率提升至 83.83%。 GPT-4V 在低级数据分析中,能力还是有限。

  3. RDRec: Rationale Distillation for LLM-based Recommendation:大语言模型的推理能力已经广受认可,并在推荐系统领域取得进展,如新闻、商品推荐,一种直接的方法是通过提示词预测用户信息和商品 ID;另一种最近提出的 P5 范式,将用户-商品交互、用户行为序列和评论转化为文本提示,为 LLMs 推荐系统提供更深层次的语义理解,本文作者提出了 RDRec(Rationale Distillation)推荐系统框架,能够从用户所有相关评论或商品评论中生成更精确的用户和商品档案,用于推荐系统。代码地址https://github.com/WangXFng/RDRec

工程

  1. FlashRAG:这个项目其实是一篇论文的工程实现,提供了构建 RAG 系统的最基本组件。涵盖 32 个预处理的基准 RAG 数据集、12 种 RAG 算法以及 5 大 RAG 组件,包括检索器、重排器、生成器、精炼器和评测器。使用 FlashRAG 及其提供的资源,可轻松复制 RAG 领域的现有最新技术成果,复现一些论文中的 RAG 研究,也可自定义 RAG 流程和组件,相比 LangChain 和 LlamaIndex 更加轻量且易操作。

    img

  2. 解读大模型应用的可观测性:大模型应用并不神秘,仍然是一种软件系统。就像使用一个库或者 web 服务,以及 SaaS 乃至云计算服务,我们需要对库、服务、SaaS 以及平台进行评估、监控和追踪,这可以被粗略地认为是它们的可观测性。对大模型应用而言,也是如此。

  3. tiny-gpu: tiny-gpu 是一个最小化的 GPU 实现,经过优化后,可以从头开始学习 GPU 的工作原理。随着通用 GPU (GPGPU) 和 ML 加速器(如 Google 的 TPU)的发展趋势,tiny-gpu 专注于阐述所有这些架构的基本原理,而非特定硬件的细节。如果想学习 GPU 编程,了解 GPU 在硬件层面的工作原理,这个开源项目非常值得推荐!

  4. document-convert:海量的高质量数据以 PDF 或扫描图像的形式存在,由于布局和格式的多样性以及扫描图像质量的不一致,从这些数据构建数据集是一项具有挑战性的任务,需要将这些内容转换为类 markdown 格式方可使用。其核心问题集中在两个方面:分析布局信息(包括文本、标题、说明、图像、表格和公式),识别不同元素并处理这些布局组件之间的关系。几个出色的开源解决方案,如 PP-StructureV2、Marker、Vary 和 Nougat,每个都有待改进的地方。 PP-StructureV2 缺乏识别 LaTeX 格式内容的能力;Marker 支持的语言较少,且不能有效处理图形;Nougat 对多栏数据支持有限;Vary、Vary-toy 和 Texify 需要大量计算资源,这个方案整合开源方案的优势。

    pipeline

  5. 数据收集魔法:获取顶级训练数据的方法:ChatGPT 诞生一年多后的今天,人们逐渐理解了大模型的运行逻辑,并在积极探索其落地场景。作者团队坚信大模型是一个以数据为中心的领域(data-centric),而不是以模型为中心(model-centric)。因此,在大模型时代的探索中,积累了大量关于数据的经验和思考,数据在大模型中的作用已经不言而喻,合理地收集数据以及选择收集哪些数据是一个非常重要的话题,本篇文字详细探讨几种主要的数据收集方法,分析其优缺点和实际应用情况。

产品

  1. 公式识别类产品:在第 4 期的会员通讯种我提到了文档识别 SaaS 服务 Mathpix,谷歌 Gemini,Anthropic,Facebook 都是其客户,这篇公式识别性能报告盘点了常见 Mathpix 类产品,包括开源项目和商业化产品。为什么要提这个非常细分领域的点呢,还是源于 RAG 类产品的流行,去做教育科研、金融、医疗这类高价值行业的知识库问答,化学公式、数学公式等信息的准确识别和处理是非常关键的痛点,客户现场的测试文档案例基本就是包含图表公式的复杂元素集成。

    同类竞品

  2. AI 来了,干票大的!想改变 4 万亿服装行业的人 | 访谈「轻链」创始人 CEO Frank:本期播客节目讲述了嘉宾 Frank 创办的 AI 创业项目轻链,并介绍了 AI 技术在解决服装行业问题和创造新价值方面的应用。轻链项目帮助供应商更快地设计和推出款式,并与合作伙伴合作将其销售出去。通过与 ODM 供应商的合作,AI 工具可以帮助设计师更好地满足客户需求,实现利益分配的平衡。AI 技术还在面料设计、产品设计、定向改款和与 ODM 供应商的协作中发挥重要作用。

    又是一个+AI 的案例,Frank 代表着一类典型的 AI 创业者,他们并不是互联网背景或技术背景,而是在自己的垂直行业深耕多年到顶尖位置后,再借助 AI 创业,希望用 AI 解决行业的旧问题、赋能出新价值。因此,比起多数创业者,他们往往能更清晰地知道行业痛点,也能更准确地找到 PMF。

  3. 腾讯发布 C 端 AI 产品「腾讯元宝」:腾讯元宝是依托于腾讯混元大模型的 AI 产品,提供了 AI 搜索、AI 总结、AI 写作等核心能力,能够一次性解析多个微信公众号链接、网址,以及 PDF、word、txt 等多种格式的文档,并支持超长的上下文窗口。面向日常生活场景,支持创建个人智能体等玩法。

    值得一提的是 AI 搜索功能,搜索源覆盖了微信公众号生态内容,答案质量可以比竞品可以高一个 Level。

  4. Introducing GPT-4o and more tools to ChatGPT free users:GPT-4o 结束免费用户试用灰度测试,正式向所有免费用户全量开放,包括支持联网搜索能力、 支持上传文件进行数据分析(Python CodeInterpreter)、支持读取图片进行提问、免费使用 GPTs 和 GPT Store、以及 Memory 能力等。

  5. Unify:Unify 旨在整合 LLM 的生态系统,允许用户根据任务的需求动态地选择最合适的 LLM 模型,在质量、速度和成本之间轻松平衡。解决方案包括了一个可调整的路由系统,可以将简单的提示发送给更快更便宜的模型,而将复杂任务发送给更加强大的 LLM,如 GPT-4o、Opus 和 Gemini 等。

市场

  1. Artificial Analysis :Artificial Analysis 是目前最全面的大型语言模型性能对比网站。 它不仅基于大量数据进行了深入分析和可视化展示,还给出了质量、价格、性能、速度、上下文窗口等关键指标的详细排名。不过可惜的是,它仍然只统计国外模型,所以我对国内模型进行了统计,后续陆续接入其他指标。

    图像

  2. a16z 发布的 AI 实时语音助手市场调研:a16z 发布了关于 AI 实时语音助手的调研报告,提出了几个关键的创业洞见:

    1. 市场刚刚兴起,未来可能会出现赢家。企业可以通过语音助手降本增效,而消费者也能获得拟人级别的语音体验。

    2. 语音助手技术栈包括 ASR、LLM、TTS 等基础能力,以及情感引擎、对话引擎等扩展能力。厂商可以选择构建全栈的语音 Infra,或聚焦在特定垂类领域优化。

    3. 语音助手可以应用于 B2C 和 B2B 两个市场,为企业和消费者带来不同的价值。企业可以通过语音助手减少人力成本和提升客户体验,而消费者则可获得免费的或拟人化的语音服务。

    4. 整个语音助手市场仍存在很大的机会,无论是底层的 Infra 层,还是面向消费者或企业的应用层,都有待进一步探索和创新。制作产品时,可选择全栈平台或自行组装技术栈。全栈平台提供快速落地与定制灵活性,但成本较高;自定义技术栈则更具灵活性和成本控制。当前 AI 语音助手头部玩家包括全栈平台和组装技术栈的公司。市场正从电话呼叫向 AI 语音交互 2.0 转变,为行业定制的垂类 AI 语音产品以及作为现有产品功能扩展的 AI 语音附加服务等,均存在发展机会。

      构建 AI 语音助手的 Fullstack 平台

观点

Scaling Law 代表一个非常悲观的未来:Scaling law 也许是对的,但不会是全部,因为 Scaling Law 本身代表一个非常悲观的未来——Scaling Law 的本质是,用指数级的数据增长,来获得几个点的收益。最终人类世界可能会有很多长尾需求,需要人类的快速反应能力去解决,这些场景的数据本身也很少,LLM 做不到。Scaling law 发展到最后,可能每个人都站在一个数据孤岛上。

Sam Altman Is Full Of Shit:这篇文章对 Sam Altman 和 OpenAI 公司进行了批评,作为 OpenAI 首席执行官,Sam Altman 最近在 AI 模型 GPT-4o 发布新功能时,发生了与演员斯嘉丽·约翰逊的相关争议。OpenAI 声称该新功能的声音助手并未以约翰逊为原型,但约翰逊本人表示曾两次拒绝 OpenAI 使用她的声音。这表明 OpenAI 可能未经约翰逊同意擅自使用了她的声音特征,随后又试图掩盖这一事实。此事暴露了 OpenAI 存在伪造内容和误导公众的问题,反映出该公司缺乏透明度和诚信。近日,OpenAI 最高技术官员 Mira Murati 向《The Verge》记者 Kylie Robison 作出虚假陈述,否认”Sky”语音模型与女演员斯嘉丽·约翰逊的声音有任何相似之处。事实上,OpenAI 曾与约翰逊的代表进行过对话,希望将她的声音引入 ChatGPT,但遭到拒绝。同时,OpenAI 还解散了负责 AI 安全长期风险的团队,并有两名重要高管离职,OpenAI 近期的一系列行为都充满了可疑和谎言,CEO Sam Altman 的话也值得怀疑,他似乎更像一个游说者和说谎者,而非一名真正的工程师。OpenAI 的技术负责人 Mira Murati 曾向《The Verge》说谎,并拒绝回答其视频生成器 Sora 是否使用了 YouTube 视频进行训练。这种欺骗做法表明,OpenAI 公司及其高管缺乏道德、透明度和对用户及整个科技行业的尊重,媒体和公众应该对这些人物抱持怀疑态度,不能轻易相信他们的言论和承诺,直到他们真正交出能够证明自己实力的成果。

如何将 AI 模型转化为生产环境中的产品?|莫尔索随笔 Vol.6

大家好,会员计划第 6 期会员通讯已送达!在本期分享内容包括:如何将 AI 模型转化为生产环境中的产品,包括售前与解决方案的草稿完成、产品或项目启动、数据采集与管理、模型训练与调试等,非常适合本次 AI 浪潮新入场做大模型项目交付的乙方朋友以及甲方决策者阅读;Agent 可观测性项目,用于代理应用执行图分析和调试;LLM 微调和训练平台产品,用于提升训练效率,提高推理速度,减少显存占用;产品方面包括生成式 UI/UX 产品盘点;市场方面分享了 2024 年零售与消费品行业 AI 现状与趋势 报告,更多内容请查看周刊全文。本期共包括 4 篇论文、4 篇工程相关文章、4 条产品信息和 3 条市场方面的洞见,最后在观点部分重点分享了从 GPT-3 开始,AI 是如何开始改变企业的游戏规则的。

论文

  1. Retrieval-Augmented Generation for AI-Generated Content: A Survey:一篇 RAG 技术的调研汇总,RAG 技术在人工智能生成内容 AIGC 各个领域的应用和进展,来自北大 DAIR Lab 汇总了 RAG 技术在 Text、Image、Code、Audio、3D 等等多种 AIGC 垂直领域中的技术研究(论文),汇总资料:https://github.com/PKU-DAIR/RAG-Survey
  2. MapCoder: Multi-Agent Code Generation for Competitive Problem Solving:代码合成是一个复杂的过程,需要深入理解自然语言描述,生成复杂算法和数据结构的代码指令,并经过全面的单元测试。尽管大语言模型(LLMs)在自然语言处理方面表现出色,但在代码生成方面仍有局限。本文提出了一种新颖的多代理提示方法,模拟人类开发者的程序合成全周期,包括回忆示例、规划、代码生成和调试。MapCoder 框架通过四个 LLM 代理实现这一过程,并在多个基准测试中展示了其卓越的代码生成能力,刷新了 HumanEval、MBPP、APPS、CodeContests 和 xCodeEval 的记录。此外,该方法在不同编程语言和问题难度上均表现出色。项目的 GitHub 地址:https://github.com/Md-Ashraful-Pramanik/MapCoder
  3. MCS-SQL: Leveraging Multiple Prompts and Multiple-Choice Selection For Text-to-SQL Generation:大语言模型(LLMs)在文本到 SQL 任务中表现出色,其关键在于利用上下文学习(ICL)方法超越了简单的微调方法。尽管如此,它们在面对复杂模式和查询(如 BIRD)时的表现仍低于人类专家。本研究深入探讨了 LLMs 的提示敏感性,提出了一种创新策略,通过多提示探索答案的广阔空间,并巧妙地整合结果。通过构建精细调整的数据库架构链接多提示,进而创造出多样的候选 SQL 查询。最后依据置信度评分筛选这些候选查询,并采用多选机制展示最优解。在 BIRD 和 Spider 测试中,该方法分别达到了 65.5%和 89.6%的准确率,显著超越了以往的 ICL 方法,在 BIRD 上刷新了准确性和效率的 SOTA 记录。
  4. AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments:诊断和治疗病患是一个复杂且持续性的决策过程,医生需要收集信息并据此采取行动。大语言模型(LLMs)的进步为临床护理带来了福音,但现有的评估更多依赖于静态的问答,无法模拟实际的互动决策过程。为此,斯坦福和霍普金斯联合开发了 AgentClinic,这是一个多模态评估平台,让 LLMs 在模拟临床环境中扮演医生的角色,通过对话和数据收集来揭示病情。提供了两种环境:AgentClinic-NEJM 结合图像和对话,而 AgentClinic-MedQA 仅包含对话,模拟了偏见因素,发现这不仅降低了诊断的准确性,还影响了患者的配合程度和信心。同时发现,所使用的 LLM 对患者代理的性能有显著影响,且交互次数需保持适中,过多或过少都会影响诊断准确性。相关的代码和数据已经公开发布,网址为https://AgentClinic.github.io。

工程

  1. 如何将 AI 模型转化为生产环境中的产品?:toB 大模型项目的研发和交付,和传统机器学习项目的实施部署其实没有太大差别,这本开源电子书非常详细的概述了一个机器学习项目的生命周期,包括售前与解决方案的草稿完成、产品或项目启动、数据采集与管理、模型训练与调试、部署与测试、DevOps 实践以及最终的项目交付,这些步骤涵盖了从项目准备到实施再到最终交付的全过程,非常适合这次 AI 浪潮新入场做大模型项目交付的乙方朋友以及甲方决策者阅读。

  2. chat-with-your-data-solution-accelerator:本项目是一个基于 Azure 的开源解决方案加速器,采用 RAG 模式,利用 Azure AI 搜索和 Azure OpenAI 大型语言模型,提供类似 ChatGPT 的交互体验和问答功能。主要特点包括:私有 LLM 访问用户私有数据,实现高效的自然语言交互;通过单一应用程序访问完整数据集,减少端点数量;支持语音转文字,方便快速获取答案和进行后续查询;查询时可直接访问源文档以增加上下文理解;支持批量上传各种类型文件,并提供易于操作的编排功能,包括提示和文档配置。

  3. 腾讯开源混元-DiT:5 月 14 日,腾讯旗下的混元文生图大模型宣布对外开源,目前已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。

    这个算是上周的事情了,主要是这周我深度体验了下,真的不错,特别是文生图模型,当前国内提供文生图能力的大模型厂商,有一个算一个基本都是 Stable Diffusion 模型基础上简单改改,好一点的还加入更多中文场景下的图片数据(阿里通义万相),有的甚至滥用充数,完全是做了一层中文转英文(百度家的),然后输入模型的,大家可以试试用烤面冷、凉拌猪耳朵或者凉拌菠菜等这类国内小吃和传统菜品验证下。

    传统菜品狗不理包子

    传统艺术

  4. AgentOps:这是一个开源的 Python SDK,用于监控 AI Agent、跟踪 LLM 成本、进行基准测试等。它支持多种主流 LLM 和 Agent 框架的集成,包括 Llama、Mistral、Claude、Gemini、Dall-E、Whisper、Cohere 等。该 SDK 提供了分步代理执行图分析和调试功能,可以帮助跟踪 LLM 基础模型的支出,并进行 1,000 多次的 Agent 基准测试。此外,它还能检测常见的提示注入和数据泄露漏洞,确保合规性和安全性。该 SDK 可以轻松集成到 CrewAI、LangChain 等框架中使用。

产品

  1. 生成式 UI/UX 创业公司全景图:

![生成式 UI/UX 创业公司全景图](https://s2.loli.net/2024/05/20/k4GoQBfiLeYw6jE.jpg)
  1. 筷子科技 AIGC 内容商业应用平台 i:公司定位在利用 AI 技术解决企业级营销内容生产和管理的效率与转化问题。筷子科技最初通过程序化生产创意图片,提高了企业广告创意图片的生产效率,并连接了多家主流互联网平台的营销体系,帮助广告主进行数据分析和投放优化。主要服务于大消费行业的大中型 To C 品牌,如欧莱雅、华为等。2020 年后,随着短视频内容的兴起,筷子科技转向视频内容生产,利用前期积累的技术经验,程序化量产营销视频。同时,公司开始研发面向更广泛品牌的 AIGC 应用产品,并推出了 Kuaizi.ai AIGC 内容商业应用平台,该平台通过 AI 提升内容生产效率,并整合了多个平台的营销资源,利用智能推荐算法和数据分析提高营销效果。

    又是一个 + AI 的产品案例,对客户而言,他们不止在意营销内容的生产效率,更在意如何能有效驱动销售转化,打通全环节。筷子科技是 AI 在品牌内容商业领域的深度应用者及拓展者而非依赖者,AIGC 浪潮来临前,公司就已经找到了稳定的可持续规模化发展的业务模式。

  2. Unsloth:LLM 微调和训练平台,更快地训练和推理速度、更少的显存占用、提供算力托管。Unsloth 详细功能介绍亮点信息:

    • 速度提高 30 倍。Llama 微调只需要 3 小时而不是 85 小时。

    • 内存使用量减少 60%,允许批量增加 6 倍。

    • 产品支持 NVIDIA、Intel 和 AMD GPU。

    • 手动自动求导和链式矩阵乘法优化。

    • 用 OpenAI 的 Triton 语言重写了所有内核。

    • Flash Attention 通过 xformers 和 Tri Dao 的实现。

    • 提供开源版本使微调速度提高 2 倍,内存减少 50%。

    国内的算想未来也提供类似服务。

  3. Huggingface 模型推理服务:Huggingface 推出的模型推理服务,旨在降低了部署模型的成本。支持一键部署现有模型、私有模型通过 docker 镜像部署,并具备 autoscaling 功能,可在没有负载时自动缩减到 0 实例。

市场

  1. 大模型价格战:价格战的时间线应该从从 DeepSeek-V2 发布开始,毕竟自那以后新闻稿上的模型 API 调用价格计量单位从 xxx 元/千 tokens 开始变成了 xxx 元/百万 tokens,下面是一个简单的时间线:

    1. DeepSeek 发布全球最强开源 MoE 模型:2024-05-06,DeepSeek-V2(32K 上下文) API 的定价为:每百万 tokens 输入 1 元、输出 2 元

    2. 用大模型 API 就上 bigmodel.cn!:2024-05-11,智谱 AI 的 GLM-3 Turbo API 价格调整为 1 元/百万 tokens(输入输出同价)

    3. 2024 春季火山引擎 FORCE 原动力大会上: 2024-05-15 ,字节 Doubao-pro-128k(128K 上下文) API 的定价为:每百万 tokens 输入 5 元、输出 9 元;Doubao-lite-128k(128K 上下文) API 的定价为:每百万 tokens 输入 0.8 元、输出 1 元

    4. 智谱 AI 最新推出 Batch API:2024-05-21,支持的模型以及价格:GLM-4 API 价格为 50 元 / 百万 tokens,GLM-3-Turbo API 价格为 0.5 元 / 百万 tokens(输入输出同价)

    5. 降价,立即生效!:2024-05-21,阿里云 Qwen-Long API 价格调整为每百万 tokens 输入 0.5 元、输出 2 元。

    6. 免费,立即生效!:2024-05-21,百度宣布 ERNIE Speed 和 ERNIE Lite 两款模型宣布免费

      首先肯定是利好 AI 应用层探索的,但如果不是模型推理优化带来的基础设施成本降低、从而带动消费 API 价格降低,那这种卷价格的市场策略我很反感, 赔钱补贴最终比的不是谁家模型能力强,而是谁家便宜,对大模型来说技术是核心,还想着用共享单车、百团大战的那种烧钱打法,那最后就是双输,模型能力没提升,钱也没了。

    模型 API 价格比较

  2. 2024 年零售与消费品行业 AI 现状与趋势:零售与快速消费品行业在 AI 分析方面潜力巨大,可借助 AI 提升运营效率、改善顾客与员工体验,进而推动增长。NVIDIA 发布首份年度报告《2024 年零售与消费品行业 AI 现状与趋势》,深度分析了零售业中 AI 的应用现状、对收入与成本的影响,以及正在塑造行业未来的新兴趋势,该调研吸引了全球 400 多位参与者,包括首席高管、其他高管、部门经理及个人,问题涉及 AI 的多个方面、热门应用案例、主要挑战、基础设施投资规划及部署方式。

  3. scale 官宣 F 轮融资 10 亿美元,估值 138 亿美元:Accel 领投,众多行业巨头如 Nvidia、AMD、Amazon、Meta 参与,在这波大模型浪潮中获利的公司,除了英伟达和 OpenAI,便是 Scale。Scale 旨在构建以 AI 技术为核心的数据基础设施平台,拥有宽广且强大的护城河,在大模型价值链上占据重要生态位。

    8 年来,Scale 一直是领先的 AI 数据基础设施,助力推动了 AI 领域最激动人心的进步。

    今天,我们宣布 Scale 已完成一笔 10 亿美元的融资交易,估值达到 138 亿美元。此次融资由现有投资者 Accel 领投,几乎所有现有投资者均参与其中:Y Combinator、Nat Friedman、Index Ventures、Founders Fund、Coatue、Thrive Capital、Spark Capital、NVIDIA、Tiger Global Management、Greenoaks 和 Wellington Management。同时,我们也热烈欢迎新投资者的加入:Cisco Investments、DFJ Growth、Intel Capital、ServiceNow Ventures、AMD Ventures、WCM、Amazon、Elad Gil 和 Meta。

    随着这一里程碑的实现,我们来看看我们的旅程进展以及接下来的计划。

    成为 AI 数据基础设施
    2016 年,我在麻省理工学院学习 AI。那时,AI 的三大基石——数据、算力和算法已显而易见。我创立 Scale,旨在提供推动 AI 全生命周期发展的数据支柱。

    过去 8 年,Scale 助力了 AI 几乎所有重大突破领域:

    • Scale 的自主数据引擎推动了 L4 级自动驾驶的突破。

    • Scale 的公共部门数据引擎为美国国防部内多个重大 AI 项目提供了支持。

    • Scale 与 OpenAI 合作,在 GPT-2 上首次实验了基于人类反馈的强化学习(RLHF),并将这些技术扩展到 InstructGPT 及更远。

    • Scale 参与了白宫支持的 DEFCON 31 红队演习,并与美国国防部合作,对 LLMs 进行严格的评估、测试和红队演习。

    今天,Scale 为几乎所有领先的 AI 模型提供数据支持,服务于 OpenAI、Meta、微软等组织。

    下一阶段:前沿 AI 的数据愈加丰富
    AI 数据仍面临重大问题。随着模型变大,数据需求呈指数增长,这引发了一个关键问题:我们会耗尽数据吗?

    正如数据、算力和算法构成 AI 的三大支柱,我们认为 AI 数据的未来也基于三大原则:

    • 数据极大丰富(abundance):我们必须建立数据基础,引领 AI 数据丰富时代的到来,而非屈服于数据稀缺。

    • 前沿数据多样性(frontier):随着 AI 能力的不断增强,我们必须构建前沿数据,始终推动 AI 能力向复杂推理、智能体、多模态等方向发展。

    • 测量与评估(measurement evaluation):我们必须建立评估系统,以衡量 AI,建立信心,推动采用,并扩大影响。

    丰富并非默认,而是一种选择。它需要汇聚工程、运营和 AI 领域的顶尖人才。

    我们的使命是建立 AI 的数据基础设施,随着今天的融资,我们正迈入这一旅程的下一阶段——加速前沿数据的丰富多样性,铺就我们通往 AGI 的道路。

    扩展阅读 👉 国内图像领域内的数据标注公司行业现状

观点

AI 正在改变企业的游戏规则:文章探讨了 AI 如何通过自动化重复性任务、数据分析和模式识别,帮助企业提高效率、增加收入和市场份额。通过介绍 AI 的演变、层次结构以及在不同行业中的实际应用案例,文章强调了 AI 技术对企业未来发展的重要性。

面向企业的大模型应用算一个新赛道吗?|莫尔索随笔 Vol.5

第 5 期会员通讯已送达!在本期分享内容包括:揭秘 OpenAI 发布会现场演示中 GPT-4o 低延迟语音交谈背后采用的实时语音解决方案,IBM 在实践中如何利用三种混合搜索方案(关键字搜索、向量搜索、基于语义的稀疏编码器搜索)提升 RAG 效果, 分享 LinkedIn 在客服问答系统中如何结合检索增强生成(RAG)和知识图谱(KG)的,同时介绍一款快速准确地将 PDF 转为 markdown 的开源工具,和一个 OCR 开源项目,提供了完整的 OCR 解决方案所需的所有功能,一款向量数据库厂商 Weaviate 开源出生产级 RAG 框架。国内大模型市场方面,介绍了零一万物开源的 Yi-1.5 模型、腾讯的新产品(智能体平台)腾讯元器、字节豆包系列大模型(原云雀)、Kimi 会员功能(对话唤出打赏功能),最后分享一组关于各个大模型的 TTFT (Time To First Token,token 首次输出时间)以及 TPS(Tokens Per Second,每秒处理 token 数)数据的对比,以及「大模型应用层 To B 并不是一个新赛道」的洞见,本期共包括 4 篇论文、5 篇工程相关文章、6 条产品信息和 3 条市场方面的洞见。

阅读更多

DeepSeek-V2搅动市场,大模型价格战已拉开序幕?|莫尔索随笔 Vol.4

大家好,会员计划第 4 期会员通讯已送达!上周由于假期原因暂停一周,本期包括的内容如下:在论文部分,我们梳理了在ICLR’24提交的论文中,基于大语言模型的智能体相关的全部98篇论文,探讨了如何在大语言模型驱动的数据分析中发现和探索对话上下文中的洞察力,摩根大通分享了如何利用LLM构建自动化金融工作流程,还有一篇关于RAG在LLMs中应用的综述。在工程部分,介绍了一个开源的构建ChatBI框架,一个提供统一的方式调用任意不同的RAG排序模型的框架,分享了一篇生产环境如何选择LLM推理服务所需要的GPU资源和推理框架的实践,微软亚洲研究院探讨了如何构建一个支持多模态、为向量索引和标量索引扫描提供统一化的数据库设计思路。市场方面,国外市场部分分享了500强企业2024年构建和采购AI服务的变化趋势报告,国内方面提供了2024年第1季度中国大模型季度监测报告,梳理了2024年1~4月国内大模型项目中标数据,腾讯旗下协作SaaS产品全面接入混元大模型、飞书的智能伙伴、钉钉AI助理市场,并从Copilot能力、Workflow能力、Agent能力进行了比较。在产品方面,我们对国内外20余款智能编程助手类产品进行了盘点,深入介绍了自动化平台的演进,探讨了从RPA产品到Agent平台的调研,观察了YC W2024硅谷AI创业的新趋势,讨论了DeepSeek-V2的发布对国内市场营销的影响。最后的观点环节,Zoho中国、实在智能、合思、腾讯云四家代表厂商探讨了在AI时代下企业如何做ToB应用。点击阅读原文,获取更好阅读体验。本期内容为会员每周通讯,会员可免费阅读,详细请戳此了解

阅读更多

LIama 3 是大模型游戏规则改写者吗|莫尔索随笔 Vol.3

⼤家好,会员计划第 3 期会员通讯已送达!

LIama 3 的影响还在持续,仅仅一周,社区已经冒出来超过 100 多个 LIama 3 微调和其他周边项目,Github 上的 AI 领域热门项目已经第一时间支持了 LIama 3,LIama 3 让企业低成本使用高质量模型成为可能。。。

本期包括 3 篇论文分享、5 篇工程实践案例、3 条产品 tips 和两条市场信息,内容包括万字长文带你了解 Llama 模型生态的前世今生,如何提升 RAG 在领域专业知识上的准确性,AI Agent 的最新实现进展盘点,以及在实践中如何评估 LLM 产品,如何提高 AI 产品设计体验;最后对 ChatGPT 跨对话保持长期记忆的新特性进行解读,同时送上一份 Hume.AI 出品的语义空间理论,如何科学的测量和理解情感,做到让 AI 分析你的情绪,并根据你的情绪进行回答。

阅读更多

你支持AI“复活”逝者吗|莫尔索随笔 Vol.1

大家好,会员计划第1期会员通讯已送达!

每一期的会员通讯内容我将分为论文、工程、产品、市场四个栏目组织,在每一篇精选内容后面使用标签形式做更细粒度划分,同时标注我的总结或观点,会不定期增加观点栏目,提出一个议题供大家在群里讨论,或者是我最近关于AI行业的一些阶段性总结。

阅读更多