大模型提取表格信息(TIS)的能力究竟如何?|莫尔索随笔 Vol.10
⼤家好,⼤家好,会员计划第 10 期会员通讯已送达!本期 4 篇论文内容主要围绕 LLM 在表格识别方面能力探索、RAG 流程优化方案以及提示词自动化优化策略方面,工程方面是关于怎样构建一个 LLM 驱动的自动数据采集应用、如何在本地构建完全免费的语音识别方案、RAG 系统从 Naive RAG 到 Advanced RAG 再到 Modular RAG 的演进,产品方面梳理了 11 款 AI+招聘工具的产品功能、从电子表格与数据库的历史看如何将大模型与智能数据分析相结合,市场方面总结了做垂直领域 AI 的思路,单点的打深、做透,专业量化测评专家+AI 算法专家的组合,特别是前者,领域专家带来的产品杠杆要远大于技术,最后的观点部分讨论了为什么现阶段的 Agent 都是噱头(凡是在应用中加入 LLM 作为语义理解组件的都说自己是 Agent)以及这一轮生成式 AI 泡沫下究竟有多少啤酒,更多内容请查看周刊全⽂。本期内容为会员每周通讯,加⼊会员可免费阅读所有会员付费内容,会员计划详细信息戳此了解。
论文
Uncovering Limitations of Large Language Models in Information Seeking from Tables:表格作为一种信息密集且广泛应用的形式,已成为不可或缺的信息源。大语言模型(LLMs)从表格中提取信息(TIS)的能力对支撑基于知识的问答系统至关重要,但目前该领域评估措施不足,缺乏可靠性。为此,本文推出了一个更为可靠的表格信息检索(TabIS)基准,采用单选题的形式(每题两个选项),避免了基于文本相似度的评估不准确性。设计了一套高效的选项生成机制,确保题目难度和质量。实验涵盖 12 种 LLMs,结果显示虽然 GPT-4-turbo 表现尚可,但其他模型表现不佳。深入分析发现,LLMs 在理解表格结构方面存在局限,且很难在 TIS 性能和抵御伪相关表格(常见于检索增强系统)的鲁棒性之间取得平衡。这些发现揭示了 LLMs 在表格信息检索方面的局限和挑战。
RePrompt: Planning by Automatic Prompt Engineering for Large Language Models Agents:过去一年,大语言模型在非传统自然语言处理领域取得了显著进步。人们开始探索其在代码生成、旅行规划和机器人控制等更贴近实际应用的领域中的潜力。结合 LLMs 的强大能力与外部工具,人们正在开发 LLM 代理,旨在协助日常生活中的各种工作。在这些领域,提示对 LLMs 的生成内容和代理性能有显著影响,因此自动提示工程成为研究者和用户关注的焦点。
本文提出了一种名为 RePrompt 的新方法,通过分析与 LLM 代理的互动历史,对提示中的指令进行逐步优化,类似于”梯度下降”的方式。优化后的提示使 LLM 能在特定领域内更好地规划。实验证明,使用更新后的提示作为起点,RePrompt 能有效提升不同推理任务的性能。
RichRAG: Crafting Rich Responses for Multi-faceted Queries in Retrieval-Augmented Generation:这篇论文提出了一个名为 RichRAG 的系统,旨在生成富有内容和完整的问题回答。主要包括以下几个步骤:
- 通过子方面探索器预测问题的各个子方面。
- 利用多方面检索器收集与各子方面相关的文档,构建丰富多样的候选文档池。
- 设计了一种基于生成模型的智能排序器,通过监督式微调和强化学习两个阶段优化,从候选文档池中筛选出最有价值的内容,生成高质量的最终回答。
Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection:尽管大语言模型(LLMs)具有显著的能力,但由于完全依赖其包含的参数化知识,常常会产生包含事实不准确的响应。检索增强生成(RAG)是一种临时方法,通过检索相关知识来增强 LMs,可以减少这种问题。然而,不加区分地检索并合并一定数量的检索段落,而不管检索是否必要,或段落是否相关,会降低 LM 的多功能性,或导致无用的响应生成。我们引入了一个名为自我反思检索增强生成(Self-RAG)的新框架,通过检索和自我反思来增强 LM 的质量和事实性。我们的框架训练一个单一的任意 LM,可以自适应地按需检索段落,并使用特殊的标记(称为反思标记)生成和反思检索到的段落及其自身生成。生成反思标记使 LM 在推断阶段可控,使其能够根据不同的任务要求来调整其行为。实验证明,Self-RAG(7B 和 13B 参数)在各种任务中显著优于最先进的 LLMs 和检索增强模型。具体而言,Self-RAG 在开放领域问答、推理和事实验证任务上优于 ChatGPT 和检索增强的 Llama2-chat,并且相对于这些模型,它在提高长篇生成的事实性和引文准确性方面取得了显著进展。
工程
Web 端侧运行 whisper 模型:用 Transformer.js 使用 ONNX Runtime 来在浏览器中运行 Whisper 模型,用于语音识别场景。云端大模型虽好,但是在一些注重隐私、数据安全的场景,个人电脑支持端侧本地化运行是唯一解,这个方向在 HuggingFace 领衔下开源生态发展很快,上周的通讯中介绍过谷歌 Chrome 浏览器原生是支持 OMNX WebRuntime 的,而 ONNX Runtime 本身是微软推出的,这是巨头们都在关注的领域。
ONNX Runtime 是一个深度学习推理引擎,用于在不同硬件和软件平台上运行深度学习模型。Transformer.js 借助 ONNX Runtime 的功能,能够在浏览器环境中加载、运行和推断 Transformer 模型,从而将最先进的机器学习技术引入到 Web 中,而无需依赖服务器端的计算资源。
怎样构建一个通用的 AI web 爬虫 :这篇文章深入介绍了一个通用的 AI Web 爬虫的设计与实现,从思路到解决方案,到调优,再到最终的结果演示,对做 AI 驱动的数据采集项目非常有用。
简要说明流程:
使用的工具:
- 爬虫工具 Crawlee https://crawlee.dev
- OpenAI API
流程:
HTML + 文本搜索 + 文本模型整个过程类似于人工操作
1 先抓取整个 HTML
2 由 AI 生成相关词汇,例如针对价格搜索可生成词汇(pricing, fee, cost, prices ….)
3 根据这些词汇查找 HTML 结构,确定相关节点列表
4 使用 OpenAI 分析节点列表,找到最相关的节点
5 使用 AI 判断是否需要与该节点互动(通常需要点击)
6 重复此过程直至获取最终结果
模块化 RAG 与 RAG 工作流:本文概述了模块化 RAG 以及 RAG 工作流的概念。作者提供了模块化 RAG 的理论框架,包括 6 种模块类型、14 个模块和 40 多个操作符。文章探讨了 RAG 技术的发展历程,从简单 RAG 到高级 RAG 再到模块化 RAG 的转变,并着重介绍了模块化 RAG 范式。作者指出,通过组合不同操作符,可以衍生出各种 RAG 工作流,进而提供对 RAG 的全面理解。另外,文章提及 RAG 的发展为数据获取、技术整合和检索过程带来了新的机遇,加强了检索能力。模块化 RAG 将 RAG 系统划分为模块类型、模块和操作符三层结构,提出了建立在朴素 RAG 和高级 RAG 范式基础上的新理论框架。
Google 发布根据视频生成音频技术 V2A ,可以给视频自动配音、配乐:DeepMind 团队发布的视频转音频(V2A)的技术,可以根据视频画面和文字描述自动生成音轨,包括背景音乐、音效和对话。V2A 能确保音频与视频同步,用户可以生成无限数量的音轨来尝试不同的音效组合。为了生成高质量音频,系统在训练过程中引入了详细的声音描述和对话转录。V2A 实现了自动化处理,无需手动对齐声音与视频,减少了调整工作。工作原理是用户提供视频和文字描述,系统编码视频并生成与描述匹配的音频,最终合成音视频文件。不过音频输出质量、唇同步效果,解决视频失真等问题还需进一步解决。
The Architecture Behind A One-Person Tech Startup:个人做的一个网络流量和性能检测的 SaaS 产品,已经有数千个网站在使用,这篇文章描述了产品背后的技术架构,值得一看。
产品
橙篇 AI:橙篇是百度文库最近刚推出的新 AI 工具,基于文心大模型构建。它集成了多种 AI 功能,可以视为 ChatGPT、Kimi.ai、Metaso、Notion.ai、Midjourney 和 Gamma 的综合体。
这个工具主要包括以下几大功能:
- 问答功能,类似 ChatGPT
- 文档总结功能,支持多种常用格式
- 资料搜索功能,包括学术检索和全网搜索
- 强大的长文撰写功能,可以根据提供的主题自动生成大纲和文章内容
- 即将推出的 AI 漫画和智能 PPT 功能
其中”长文神器”功能尤其出色,仅凭简单的标题输入,就能生成真正的五分质量水平的上万字的内容,大大提升了写作效率,橙篇的其他功能,如文档总结、资料搜索等,也都展现出不俗的实力,在某些场景下可以替代 Kimi.ai、Metaso 等工具。
DeepSeek 发布开源模型 DeepSeek-Coder-V2:模型及其相关代码、论文已全部开源,供免费商用使用,无需申请,模型提供 236B 参数和 16B 参数两种规模。DeepSeek-Coder-V2 继续采用专家混合(Mixture-of-Experts, MoE)架构,增强了代码和数学推理能力。DeepSeek-Coder-V2 在代码生成和数学推理的测试中性能优于一些闭源模型,例如 GPT4-Turbo、Claude 3 Opus 和 Gemini 1.5 Pro。
Anthropic 发布 Claude 3.5 Sonnet:Anthropic 周四官网宣布发布 Claude 3.5 Sonnet!它在数学和编码能力上超过 GPT-4o,同时 API 价格降为 1/15,最牛的是 Artifacts 特性,可以生成代码并支持实时预览与迭代,可以用于生成 PPT、在线网站、游戏!
电子表格与数据库的历史:这个和 AI 无关,只是最近在看数据分析+AI 类产品,这篇内容对电子表格带来的负面影响总结的很到位:
- 推演的只是数字,不是事实。完全基于数据推演无法描述真实世界的变化。
- 输入错误,模型错误,将会带来灾难性的输出。
- 黑箱效果,可以随机地制作公式,所有的公式都是相互依赖的。 当你看到最终结果时,你无法知道规则是什么
- 成为了说服别人的工具,而非基于事实的阐述(比如对数据的任意解读)
- 关于人类行为,没有完美的假设——因此也没有完美的模型
数据分析的四个级别,当前很多 AI 结合数据分析的产品差不多只做到了第二阶段,但是以模型的能力,是可以碰到第四阶段的水平的。
市场
甲小姐对话海纳 AI 梁公军:AI 2.0 核心就是“打穿、打穿、打穿”:海纳 AI 瞄准了人力资源行业的高价值应用场景,采取了三个阶段的发展策略。
第一阶段,他们发现蓝领岗位的人岗匹配是一个未被充分开发的”富矿”。许多老板关注三件事:找方向、找人、找资源,而找人这个关键环节往往依赖于主观判断,缺乏大规模的高效和精准处理。海纳 AI 意识到人和岗位的基本单元尚未得到很好的结构化、量化和标准化。
第二阶段,为了把握这个高价值场景,海纳 AI 集结了顶尖的量化测评专家和 AI 算法专家,开发出了自动评估算法。他们宣称,相比同行 HireVue,海纳 AI 的解决方案在精准度和信效度上都遥遥领先。这一方案已得到顺丰、京东等头部客户的广泛认可,在中国最大的 8 个行业,大部分行业头部 TOP3 集团均在使用海纳。
第三阶段,海纳 AI 试图建立起自己的护城河。他们认为要把一件事做好,需要持续多年大量资源和资金投入,这使得灯塔客户自己做难以获得令人满意的投资回报。另一方面,海纳 AI 专注做好 AI 面试测评这个单点,力争实现像 HireVue 在美国市场的同样效果,内嵌到所有头部 HR SaaS 系统,为 Top1000 公司提供服务。这种专业分工和协同,或许能够成为海纳 AI 的护城河。
最认同的做垂直 AI 的思路,单点的
打深
、做透
,专业量化测评专家+AI 算法专家的组合,特别是前者,领域专家带来的产品杠杆要大于技术。Zscaler 发布 2024 年 AI 安全报告:Zscaler ThreatLabz 2024 AI 安全报告揭示了企业 AI/ML 交易激增、18.5%的 AI 交易被阻止、制造业占 21%的 AI 流量、ChatGPT 等应用受欢迎,以及全球 AI 交易主要发生在美国、印度等地。报告关注了安全启用 AI、防止未经批准的 AI 工具激增(“阴影 AI”)、数据保护措施和数据隐私安全风险。企业需要制定 AI 政策指南、采用 DLP 措施、了解 AI 应用使用情况,并实施细粒度的访问控制以预防或减轻阴影 AI 风险。
观点
- 观 2024 智源大会 Agent 分论坛有感:话粗理不糙,”Agent” 这个词起源于强化学习 (Reinforcement Learning, RL) 领域,”Agent” 指的是在环境中采取行动并通过这些行动从环境中获得反馈的实体,强化学习的核心思想是通过试错和奖励机制来优化 Agent 的行为,使其能够在特定环境中最大化累积奖励,但是现在凡是在应用中加入 LLM 作为语义理解组件的都说自己是 Agent(智能体、智能代理、代理…),当下所谓的 Agent 架构第一次出现就是来自 OpenAI 员工的这篇博客(https://lilianweng.github.io/posts/2023-06-23-agent/)配图,严格来说是 (LLM-base )Agentic Workflows,现阶段在生产环境对可靠性和可解释性的要求,导致必须有 human in the loop,copilot 模式给大模型指导监督,同时提供反馈数据。
拥抱时代、乐观和年轻人的力量:这期播客阐述了一些真格对 GenAI 投资的独特视角和论点,包括一些”非主流”观点:
目前 GenAI 在”全自动化”、”通用性”和”物理性”方面的预期都被高估了。真格更倾向于投资辅助性(半自动)、数字化(非物理)、专用型的 GenAI 应用。
- 全自动驾驶被高估,人机协作(copilot)更实际。生产环境对可靠性和可解释性的需求,要求保留人工参与和反馈。
- 通用性和泛化能力被高估,专用型 AI 应用更有可能率先落地。
- 物理智能被高估,数字化应用更实际。物理世界的挑战远比想象大,如自动驾驶 20 年发展仍未完全解决。
当下 AI 可能存在泡沫,但泡沫下的价值不容忽视。历史上泡沫会促进基础设施建设,并孕育出伟大公司。
AI 发展与移动互联网有所不同:
AI 技术壁垒更高,缺乏通用硬件平台是创业挑战;
AI 模型创新呈阶梯型,而移动互联网是连续性创新;
AI 应用需更大资本投入
AI 时代需要一个”4G”级基础技术突破,才能孕育如移动互联网时代那样的创新故事。关键在于何时出现这一突破性进展。