Vol.49:大模型时代的表格数据挖掘

大家好!Weekly Gradient 第 49 期内容已送达!

✉️ 免费订阅更新

订阅我的免费通讯,第一时间获取生成式 AI 领域优质内容

我承诺保护您的隐私,不会向第三方分享您的信息。
您可以随时取消订阅。

论文

  1. Hybrid-RRF:动态权重混合检索RAG方案:通过融合稀疏检索和稠密检索的优势,采用动态权重调整和互逆排序融合算法,显著降低了大语言模型的 “幻觉” 问题,提高了检索的精确度和适应性。

  2. 综述大模型时代的表格数据挖掘:本综述旨在全面梳理大语言模型在表格挖掘领域的研究进展。首先,介绍了表格数据的类型和特性,如结构化、半结构化和非结构化表格数据,以及表格数据的特点,如结构化形式、多样化边界、高维特征、多模态内容、数值主导等。随后,探讨了大语言模型处理表格数据的优势和面临的挑战,如结构理解能力有限、数值敏感性差、潜在的知识混淆等。此外,还介绍了表格数据准备任务,包括表格识别、表格处理和表格编码等步骤。最后,分析了表格数据挖掘的任务,如表格问答、表格推理和表格相关生成等,并指出了基于大语言模型的高级表格数据挖掘方法和未来研究方向。

  3. AI辅助决策的新可能:AI 不只喂你答案,还能当你的“思考教练”:研究针对的是 AI 辅助复杂决策的应用,特别强调了在设计认知支持系统时,应该考虑到用户的独立思考需求。虽然 AI 可以帮助人们在复杂决策过程中做出更好的选择,但系统应该能够提供不同类型的认知支持,以适应不同用户的需求。这些认知支持包括:帮助用户识别问题、生成解决方案、评估解决方案及时间管理等方面。AI 系统应该支持用户在整个决策过程中的独立思考,而不是简单地提供最终答案。

    在设计 AI 辅助决策工具时,需关注如何增强用户的思维过程而非替代用户的判断。

    1. AI 应该辅助用户在复杂决策过程中进行思考,而不仅仅是直接提供答案。
    2. 认知支持系统应该提供多种类型的支持,以适应不同用户的需求。
    3. 系统设计时应考虑用户在认知过程中的独立性,支持用户从提出问题到评估解决方案的整个过程。
    4. AI 辅助的系统应该鼓励用户的自主思考,而非简化决策过程到只需点击按钮即可。
  4. Zep: A Temporal Knowledge Graph Architecture for Agent Memory:论文提出了一种名为 Zep 的新型 AI 代理记忆架构,旨在解决当前大语言模型(LLM)在动态知识整合方面的局限性。Zep 的核心组件是 Graphiti,这是一种具备时间感知能力的知识图谱引擎,能够动态地整合非结构化的对话数据和结构化的业务数据,同时保持历史关系的完整性。

    1. 动态时间感知的知识图谱引擎(Graphiti):Zep 的 Graphiti 引擎能够处理和更新时间序列数据,支持对话历史和业务数据的动态整合,适应企业环境中知识不断变化的需求。
    2. 超越传统检索增强生成(RAG)框架:传统的 RAG 框架主要依赖静态文档检索,难以应对实时对话和动态数据的整合需求。Zep 通过引入时间感知的知识图谱,提供了更强大的动态知识整合能力。
    3. 在 Deep Memory Retrieval(DMR)基准测试中表现优异:Zep 在 DMR 测试中取得了 94.8% 的准确率,超越了 MemGPT 的 93.4%,展示了其在深度记忆检索方面的优势。
    4. 在 LongMemEval(LME)测试中实现显著提升:Zep 在更具挑战性的 LME 测试中,准确率提高了最多 18.5%,同时响应延迟减少了 90%,显示了其在复杂时间推理任务中的卓越性能。
    5. 支持企业关键任务:Zep 在跨会话信息整合和长期上下文维护等企业关键任务中表现出色,适合部署于实际应用场景中。

    架构与工作原理

    • 知识图谱构建:Zep 将用户交互和业务数据解析为“事件”,提取出“实体”和“事实”,并通过时间戳维护它们之间的关系,形成动态的知识图谱。
    • 记忆检索机制:Zep 采用两阶段检索流程,首先通过语义搜索获取相关记忆片段,然后使用重排序器(Reranker)根据上下文相关性进行排序,确保检索结果的准确性和相关性。
    • 实验评估:在 DMR 和 LME 基准测试中,Zep 展示了其在处理动态和复杂任务方面的优势,尤其在需要时间推理和长期记忆的场景中表现突出。

工程

  1. Anthropic 发布 Claude Code 官方最佳实践指南:Claude Code 是一个命令行工具,用于代理式编码,它能够自动拉入上下文,提供灵活的工具,适用于各种代码库、语言和环境。用户可以通过创建 CLAUDE.md 文件来自定义设置,这些文件可以放置在多个位置,以便在不同的目录中自动拉入相关的 CLAUDE.md 文件。Claude Code 允许用户通过 bash 工具与它配合,并且可以利用 MCP 和 REST API 来访问更复杂的工具。此外,用户可以通过自定义斜杠命令来创建自定义命令,并通过 Markdown 文件共享这些命令。Claude Code 不强制执行特定的工作流程,让用户根据自己的需求灵活使用。

  2. OpenAI发布图像模型GPT-image-1 的API:吉卜力风格提供 API 了,GPT-image-1 的应用案例包括 Adobe 在 Firefly 和 Express 中提供多样图像风格,Figma 通过简单提示生成图像,HeyGen 用于增强头像创建,Wix 帮助用户实现想法,而 Photoroom 则帮助在线卖家创建视觉效果。GPT-image-1 的 API 支持一次性生成多张图、使用多张图像作为提示词合成新图像、轻松实现 Photoshop 中重要的蒙版功能等。该模型还支持图像尺寸、渲染质量、压缩格式的配置,以及透明度的调整。定价方面,文本输入每 100 万 token 的费用为 5 美元,图像输入每 100 万 token 的费用为 5-10 美元,图像输出每 100 万 token 的费用为 40 美元。

  3. Graphiti :Graphiti 用于构建和查询时间感知型知识图谱。与传统的信息检索增强生成(RAG)方法不同,Graphiti 能够持续地整合用户交互数据、企业内部的结构化与非结构化数据,以及外部信息到,构建成一个连贯、可查询的图谱。这个框架支持增量数据更新、高效的检索和精确的历史查询,无需重新计算整个图谱,非常适合开发交互式、上下文敏感型的 AI 应用。

    这个项目推荐做 AI 应用的都看下,对应有一篇论文,RAG解决存量静态数据挖掘的问题,当你的AI应用已经跑了两三年,增量动态数据的处理需要新方案。

  4. 月之暗面开源 Kimi-Audio:一个端到端语音对话的通用音频模型,支持语音识别(ASR)、智能音频问答(AQA)、自动音频字幕(AAC)、精准语音情感识别(SER)、专业级声音事件/场景分类(SEC/ASC)等功能。

  5. 阶跃星辰开源图像编辑模型 Step1X-Edit:该模型总参数量为 19B (7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力;支持 11 类高频图像编辑任务类型,如文字替换、风格迁移、材质变换、人物修图等。

    开源链接与体验地址:

    Github:

    https://github.com/stepfun-ai/Step1X-Edit

    HuggingFace:

    https://huggingface.co/stepfun-ai/Step1X-Edit

    ModelScope:

    https://www.modelscope**.**cn/models/stepfun-ai/Step1X-Edit/summary

    技术 Report:

    https://arxiv.org/pdf/2504.17761

产品

  1. DeepWiki :Devin 最新推出的DeepWiki 能将任何公共 GitHub 代码库转化为知识库。只需将 GitHub URL 中的域名替换为 deepwiki,就能立即获得该仓库的详细解析。DeepWiki 能自动生成包括系统架构图、设计模式、时序图在内的完整文档,甚至详细解析各个组件和 API 的用途。

    这里还有一个很早就出现的对应开源实现 Tutorial-Codebase-Knowledge

  2. 阶跃星辰推出端到端语音大模型 Step-1o-Audio:它提供超低延迟、高情商、多方言、拟人化的语音对话体验,支持人机之间的自然流畅沟通,并具备实时打断能力,实现真正意义上的双向交互式对话。阶跃星辰 Realtime API 是基于 Step-1o-Audio 模型构建的实时交互式语音接口,提供了详细的开发指南并开源了实时语音控制台。通过该控制台,用户可以快速体验实时语音交互及相关功能的调试与测试,包括实时语音交互、可视化音频波形(使用 WaveSurfer.js)、自定义 AI 人设以及调试日志,方便开发者们快速上手并了解阶跃星辰 Realtime API 的各项功能和特色。

  3. 秘塔搜索上线的「今天学点啥」功能真不错,输入你想学的内容,系统便会搜集相关电子书籍,并允许你选择要学习的章节。随后,系统会自动生成ppt及视频教材。在学习过程中,人工智能老师将同时演示ppt并讲解相应章节内容。在生成课程之前,你可以根据个人需求,选择多种选项来定制学习风格,包括知识掌握程度、讲解方式、语音选项等。

    把 NotebookLM 模仿的最好的产品。

  4. Trae 更新MCP 和Agent 能力:越来越和Cursor和Windsurf对齐了。用户可自定义智能体,并通过MCP和prompt同时调用多个专属AI专家的能力,极大提升效率。

    智能体创建:用户可根据提示词和MCP工具定制智能体,使用时仅需@提及,无需每次都输入复杂指令。

    智能工具(MCP):内置常用MCP工具,点击即可应用。

    更多上下文:AI新增联网搜索和文档集上下文理解能力,能够处理编码框架和文档相关查询。

    个人/项目规则:支持设置个人和项目规则,避免了对基础编码要求的重复强调。

  5. 阿里 Qwen Chat 正式推出 App,上线Google PlayApp Store

  6. OpenAI 的 Deep Research 推出轻量版,由 o4-mini 提供支持,向所有免费用户开放。

市场

  1. Chatbot Arena 转型为公司化运营,计划进行融资:那个有名的大模型排行榜单,允许用户直接比较不同的 AI 模型效果。

    参考上周的关于 AI 下半场论点的文章,评测排行榜慢慢会越来越没意义,更注重实际效用。

  2. AWS 的服务 Bedrock 在提供 Anthropic 的 AI 模型时遇到了容量问题,导致客户不满,部分客户因 Bedrock 的问题而选择直接从 Anthropic 购买模型,而非通过 AWS。谷歌也投资了 Anthropic 并提供了类似的服务,谷歌云作为 AWS 的竞争对手,将从 AWS 的问题中受益。

  3. 百度 Create 2025 AI 开发者大会

观点

  1. Databricks 和 Anthropic CEO 对谈的关于AI的未来,特别是在数据处理和智能体(agents)方面的应用

    • AI 在复杂领域的潜力: Dario 认为 AI 能深刻改变社会,特别是在生物医学创新等复杂挑战方面。
    • 企业数据的重要性:两位 CEO 都强调了专有企业数据的重要性,认为将强大的基础模型与企业特定数据结合,是创造不可替代的创新价值的关键。
    • AI 的未来在 AI Agent: Dario 明确表示 “AI 的未来主要在于 Agents”,预见模型将越来越自主地使用工具、与数据交互来完成各种任务。
    • Databricks 与 Anthropic 的合作:合作包括将 Claude 模型原生集成到 Databricks 平台中,以及数据治理、数据安全性和信任的重要性。
    • 数据治理、数据安全与信任至关重要: Dario 指出,完善的数据治理、安全保障和隐私保护是企业采用 AI 的必要前提。
    • AI 创新持续加速: Dario 介绍了 Anthropic 的最新进展,包括 Claude Sonnet 3.7 和 Claude Code 的发布,以及 “Hybrid Reasoning” 模型的概念。
    • 开源模型上下文协议(MCP): Anthropic 开发并开源了 MCP,用于连接 AI 模型与所需工具和数据,Dario 希望它能成为行业标准。
    • AI Agent 的未来发展: Dario 认为 AI 的未 ures 主要在于智能体(agents),随着模型越来越智能,加上开发的专用工具,智能体会变得越来越重要。
    • 数据对组织的重要性: Dario 强调数据代表着企业积累的知识与智慧,是与 AI 能力最相辅相成的要素之一。
    • 开源与封闭模型之辩: Dario 认为对于开源和封闭模型的讨论有些过头了,其实两者都有对应的价值。
    • Scaling Law 的有效性: Dario 确认 Scaling Law—— 通过提升算力、数据规模等来改进性能 —— 仍然适用并推动着技术进步。
    • AI Agent 在企业数据处理中的应用: Dario 和 Ali 都强调了 AI Agent 在处理企业专有数据方面的潜力,以及通过 Databricks 平台中的 Claude 模型实现的便利性和安全性。
    • AI Agent 在 Databricks 平台中的应用: Ali Ghodsi 展示了如何通过 Databricks 平台中的 Claude 模型,让 AI Agent 在处理企业专有数据时更加高效和安全。
    • AI Agent 的快速迭代和闭环开发: Dario 和 Ali 都强调了快速迭代和闭环开发的重要性,以及这种方法对提升 AI Agent 推理质量的作用。
  2. 洞悉 OpenAI 最新的 Agent 开发工具:OpenAI agent 产品和工程负责人分享了 OpenAI 在 agent 开发与工具生态方面的技术细节,以及他们对开发者实践的观察与见解。

    在信息获取方面,agent已经从2024年的单次搜索决策模式,发展为能够自主从网络获取信息、思考内容、重新评估立场的系统,并且能够同时打开多个网页以节省时间。

    未来几个月,互联网上可能会出现众多的agent,它们将接触到更多的实时数据,而不仅仅是用户提供的有限上下文,这对于开发者整合和使用API尤为重要。

    在工作流程上,与过去相比,agent现在更加智能,能够自主决定如何调用多种工具,并且能够在发现方向错误时及时调整。

    OpenAI预测,在几个月内,agent可调用的工具数量将从目前的10个量级扩展到100个量级。

    多agent系统具备更高的可控性和优化潜力,OpenAI Agents SDK实现了将任务分解为多个子任务,让不同的agent负责特定子任务,从而提高整体工作效率。当一个agent同时处理多个任务时,轻微的prompt变动可能导致完全不同的结果,而分工后的每个agent都将更独立地进行修改和调试。

    开发者需要构建agent的评估与微调机制,基于强化学习,开发者可以在自己领域内构建评估器,引导模型沿着正确的工具使用路径解决特定问题。目前,尚未出现完美产品化的评分和任务生成系统,这在未来两年内可能是最 urgente需要解决的问题。

    评估器的作用不仅仅是比对两个字符串是否相等,更重要的是能够将模型输出与权威资料进行对比,或者通过代码执行来验证数学正确性。

    Computer Use目前仍处在早期阶段,需要开发者来填补空白。未来可能会有基于不同操作系统生态的虚拟机(VM),例如专门为iPhone开发VM,类似于过去专门为iOS开发测试框架的公司,只不过今天的VM是为模型服务的。

Vol.49:大模型时代的表格数据挖掘

https://liduos.com/the-memeber-newsletter-49.html

作者

莫尔索

发布于

2025-04-28

更新于

2025-06-30

许可协议

评论