2025-04-28发表会员计划35 分钟读完 (大约5269个字)

Vol.49：大模型时代的表格数据挖掘

大家好！Weekly Gradient 第 49 期内容已送达！

✉️ 免费订阅更新

订阅我的免费通讯，第一时间获取生成式 AI 领域优质内容

我承诺保护您的隐私，不会向第三方分享您的信息。
您可以随时取消订阅。

论文

Hybrid-RRF：动态权重混合检索RAG方案：通过融合稀疏检索和稠密检索的优势，采用动态权重调整和互逆排序融合算法，显著降低了大语言模型的 “幻觉” 问题，提高了检索的精确度和适应性。
综述大模型时代的表格数据挖掘：本综述旨在全面梳理大语言模型在表格挖掘领域的研究进展。首先，介绍了表格数据的类型和特性，如结构化、半结构化和非结构化表格数据，以及表格数据的特点，如结构化形式、多样化边界、高维特征、多模态内容、数值主导等。随后，探讨了大语言模型处理表格数据的优势和面临的挑战，如结构理解能力有限、数值敏感性差、潜在的知识混淆等。此外，还介绍了表格数据准备任务，包括表格识别、表格处理和表格编码等步骤。最后，分析了表格数据挖掘的任务，如表格问答、表格推理和表格相关生成等，并指出了基于大语言模型的高级表格数据挖掘方法和未来研究方向。
AI辅助决策的新可能：AI 不只喂你答案，还能当你的“思考教练”：研究针对的是 AI 辅助复杂决策的应用，特别强调了在设计认知支持系统时，应该考虑到用户的独立思考需求。虽然 AI 可以帮助人们在复杂决策过程中做出更好的选择，但系统应该能够提供不同类型的认知支持，以适应不同用户的需求。这些认知支持包括：帮助用户识别问题、生成解决方案、评估解决方案及时间管理等方面。AI 系统应该支持用户在整个决策过程中的独立思考，而不是简单地提供最终答案。
在设计 AI 辅助决策工具时，需关注如何增强用户的思维过程而非替代用户的判断。
1. AI 应该辅助用户在复杂决策过程中进行思考，而不仅仅是直接提供答案。
2. 认知支持系统应该提供多种类型的支持，以适应不同用户的需求。
3. 系统设计时应考虑用户在认知过程中的独立性，支持用户从提出问题到评估解决方案的整个过程。
4. AI 辅助的系统应该鼓励用户的自主思考，而非简化决策过程到只需点击按钮即可。
Zep: A Temporal Knowledge Graph Architecture for Agent Memory：论文提出了一种名为 Zep 的新型 AI 代理记忆架构，旨在解决当前大语言模型（LLM）在动态知识整合方面的局限性。Zep 的核心组件是 Graphiti，这是一种具备时间感知能力的知识图谱引擎，能够动态地整合非结构化的对话数据和结构化的业务数据，同时保持历史关系的完整性。
1. 动态时间感知的知识图谱引擎（Graphiti）：Zep 的 Graphiti 引擎能够处理和更新时间序列数据，支持对话历史和业务数据的动态整合，适应企业环境中知识不断变化的需求。
2. 超越传统检索增强生成（RAG）框架：传统的 RAG 框架主要依赖静态文档检索，难以应对实时对话和动态数据的整合需求。Zep 通过引入时间感知的知识图谱，提供了更强大的动态知识整合能力。
3. 在 Deep Memory Retrieval（DMR）基准测试中表现优异：Zep 在 DMR 测试中取得了 94.8% 的准确率，超越了 MemGPT 的 93.4%，展示了其在深度记忆检索方面的优势。
4. 在 LongMemEval（LME）测试中实现显著提升：Zep 在更具挑战性的 LME 测试中，准确率提高了最多 18.5%，同时响应延迟减少了 90%，显示了其在复杂时间推理任务中的卓越性能。
5. 支持企业关键任务：Zep 在跨会话信息整合和长期上下文维护等企业关键任务中表现出色，适合部署于实际应用场景中。
架构与工作原理
- 知识图谱构建：Zep 将用户交互和业务数据解析为“事件”，提取出“实体”和“事实”，并通过时间戳维护它们之间的关系，形成动态的知识图谱。
- 记忆检索机制：Zep 采用两阶段检索流程，首先通过语义搜索获取相关记忆片段，然后使用重排序器（Reranker）根据上下文相关性进行排序，确保检索结果的准确性和相关性。
- 实验评估：在 DMR 和 LME 基准测试中，Zep 展示了其在处理动态和复杂任务方面的优势，尤其在需要时间推理和长期记忆的场景中表现突出。

工程

Anthropic 发布 Claude Code 官方最佳实践指南：Claude Code 是一个命令行工具，用于代理式编码，它能够自动拉入上下文，提供灵活的工具，适用于各种代码库、语言和环境。用户可以通过创建 CLAUDE.md 文件来自定义设置，这些文件可以放置在多个位置，以便在不同的目录中自动拉入相关的 CLAUDE.md 文件。Claude Code 允许用户通过 bash 工具与它配合，并且可以利用 MCP 和 REST API 来访问更复杂的工具。此外，用户可以通过自定义斜杠命令来创建自定义命令，并通过 Markdown 文件共享这些命令。Claude Code 不强制执行特定的工作流程，让用户根据自己的需求灵活使用。
OpenAI发布图像模型GPT-image-1 的API：吉卜力风格提供 API 了，GPT-image-1 的应用案例包括 Adobe 在 Firefly 和 Express 中提供多样图像风格，Figma 通过简单提示生成图像，HeyGen 用于增强头像创建，Wix 帮助用户实现想法，而 Photoroom 则帮助在线卖家创建视觉效果。GPT-image-1 的 API 支持一次性生成多张图、使用多张图像作为提示词合成新图像、轻松实现 Photoshop 中重要的蒙版功能等。该模型还支持图像尺寸、渲染质量、压缩格式的配置，以及透明度的调整。定价方面，文本输入每 100 万 token 的费用为 5 美元，图像输入每 100 万 token 的费用为 5-10 美元，图像输出每 100 万 token 的费用为 40 美元。
Graphiti ：Graphiti 用于构建和查询时间感知型知识图谱。与传统的信息检索增强生成（RAG）方法不同，Graphiti 能够持续地整合用户交互数据、企业内部的结构化与非结构化数据，以及外部信息到，构建成一个连贯、可查询的图谱。这个框架支持增量数据更新、高效的检索和精确的历史查询，无需重新计算整个图谱，非常适合开发交互式、上下文敏感型的 AI 应用。

这个项目推荐做 AI 应用的都看下，对应有一篇论文，RAG解决存量静态数据挖掘的问题，当你的AI应用已经跑了两三年，增量动态数据的处理需要新方案。
月之暗面开源 Kimi-Audio：一个端到端语音对话的通用音频模型，支持语音识别（ASR）、智能音频问答（AQA）、自动音频字幕（AAC）、精准语音情感识别（SER）、专业级声音事件/场景分类（SEC/ASC）等功能。
阶跃星辰开源图像编辑模型 Step1X-Edit：该模型总参数量为 19B (7B MLLM + 12B DiT)，具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力；支持 11 类高频图像编辑任务类型，如文字替换、风格迁移、材质变换、人物修图等。

开源链接与体验地址：

Github：

https://github.com/stepfun-ai/Step1X-Edit

HuggingFace：

https://huggingface.co/stepfun-ai/Step1X-Edit

ModelScope：

https://www.modelscope**.**cn/models/stepfun-ai/Step1X-Edit/summary

技术 Report：

https://arxiv.org/pdf/2504.17761

产品

DeepWiki ：Devin 最新推出的DeepWiki 能将任何公共 GitHub 代码库转化为知识库。只需将 GitHub URL 中的域名替换为 deepwiki，就能立即获得该仓库的详细解析。DeepWiki 能自动生成包括系统架构图、设计模式、时序图在内的完整文档，甚至详细解析各个组件和 API 的用途。

这里还有一个很早就出现的对应开源实现 Tutorial-Codebase-Knowledge。
阶跃星辰推出端到端语音大模型 Step-1o-Audio：它提供超低延迟、高情商、多方言、拟人化的语音对话体验，支持人机之间的自然流畅沟通，并具备实时打断能力，实现真正意义上的双向交互式对话。阶跃星辰 Realtime API 是基于 Step-1o-Audio 模型构建的实时交互式语音接口，提供了详细的开发指南并开源了实时语音控制台。通过该控制台，用户可以快速体验实时语音交互及相关功能的调试与测试，包括实时语音交互、可视化音频波形（使用 WaveSurfer.js)、自定义 AI 人设以及调试日志，方便开发者们快速上手并了解阶跃星辰 Realtime API 的各项功能和特色。
秘塔搜索上线的「今天学点啥」功能真不错，输入你想学的内容，系统便会搜集相关电子书籍，并允许你选择要学习的章节。随后，系统会自动生成ppt及视频教材。在学习过程中，人工智能老师将同时演示ppt并讲解相应章节内容。在生成课程之前，你可以根据个人需求，选择多种选项来定制学习风格，包括知识掌握程度、讲解方式、语音选项等。

把 NotebookLM 模仿的最好的产品。
Trae 更新MCP 和Agent 能力：越来越和Cursor和Windsurf对齐了。用户可自定义智能体，并通过MCP和prompt同时调用多个专属AI专家的能力，极大提升效率。

智能体创建：用户可根据提示词和MCP工具定制智能体，使用时仅需@提及，无需每次都输入复杂指令。

智能工具（MCP）：内置常用MCP工具，点击即可应用。

更多上下文：AI新增联网搜索和文档集上下文理解能力，能够处理编码框架和文档相关查询。

个人/项目规则：支持设置个人和项目规则，避免了对基础编码要求的重复强调。
阿里 Qwen Chat 正式推出 App，上线Google Play 和 App Store 。
OpenAI 的 Deep Research 推出轻量版，由 o4-mini 提供支持，向所有免费用户开放。

市场

Chatbot Arena 转型为公司化运营，计划进行融资：那个有名的大模型排行榜单，允许用户直接比较不同的 AI 模型效果。

参考上周的关于 AI 下半场论点的文章，评测排行榜慢慢会越来越没意义，更注重实际效用。
AWS 的服务 Bedrock 在提供 Anthropic 的 AI 模型时遇到了容量问题，导致客户不满，部分客户因 Bedrock 的问题而选择直接从 Anthropic 购买模型，而非通过 AWS。谷歌也投资了 Anthropic 并提供了类似的服务，谷歌云作为 AWS 的竞争对手，将从 AWS 的问题中受益。
百度 Create 2025 AI 开发者大会
- 文心大模型 4.5 Turbo 和 X1 Turbo：对标 DeepSeek V3 & R1
- 高说服力数字人
- 通用智能体「心响」
- 内容操作系统「沧舟 OS」
- 全面拥抱 MCP 生态

观点

Databricks 和 Anthropic CEO 对谈的关于AI的未来，特别是在数据处理和智能体（agents）方面的应用
- AI 在复杂领域的潜力： Dario 认为 AI 能深刻改变社会，特别是在生物医学创新等复杂挑战方面。
- 企业数据的重要性：两位 CEO 都强调了专有企业数据的重要性，认为将强大的基础模型与企业特定数据结合，是创造不可替代的创新价值的关键。
- AI 的未来在 AI Agent： Dario 明确表示 “AI 的未来主要在于 Agents”，预见模型将越来越自主地使用工具、与数据交互来完成各种任务。
- Databricks 与 Anthropic 的合作：合作包括将 Claude 模型原生集成到 Databricks 平台中，以及数据治理、数据安全性和信任的重要性。
- 数据治理、数据安全与信任至关重要： Dario 指出，完善的数据治理、安全保障和隐私保护是企业采用 AI 的必要前提。
- AI 创新持续加速： Dario 介绍了 Anthropic 的最新进展，包括 Claude Sonnet 3.7 和 Claude Code 的发布，以及 “Hybrid Reasoning” 模型的概念。
- 开源模型上下文协议（MCP）： Anthropic 开发并开源了 MCP，用于连接 AI 模型与所需工具和数据，Dario 希望它能成为行业标准。
- AI Agent 的未来发展： Dario 认为 AI 的未 ures 主要在于智能体（agents），随着模型越来越智能，加上开发的专用工具，智能体会变得越来越重要。
- 数据对组织的重要性： Dario 强调数据代表着企业积累的知识与智慧，是与 AI 能力最相辅相成的要素之一。
- 开源与封闭模型之辩： Dario 认为对于开源和封闭模型的讨论有些过头了，其实两者都有对应的价值。
- Scaling Law 的有效性： Dario 确认 Scaling Law—— 通过提升算力、数据规模等来改进性能 —— 仍然适用并推动着技术进步。
- AI Agent 在企业数据处理中的应用： Dario 和 Ali 都强调了 AI Agent 在处理企业专有数据方面的潜力，以及通过 Databricks 平台中的 Claude 模型实现的便利性和安全性。
- AI Agent 在 Databricks 平台中的应用： Ali Ghodsi 展示了如何通过 Databricks 平台中的 Claude 模型，让 AI Agent 在处理企业专有数据时更加高效和安全。
- AI Agent 的快速迭代和闭环开发： Dario 和 Ali 都强调了快速迭代和闭环开发的重要性，以及这种方法对提升 AI Agent 推理质量的作用。
洞悉 OpenAI 最新的 Agent 开发工具：OpenAI agent 产品和工程负责人分享了 OpenAI 在 agent 开发与工具生态方面的技术细节，以及他们对开发者实践的观察与见解。

在信息获取方面，agent已经从2024年的单次搜索决策模式，发展为能够自主从网络获取信息、思考内容、重新评估立场的系统，并且能够同时打开多个网页以节省时间。

未来几个月，互联网上可能会出现众多的agent，它们将接触到更多的实时数据，而不仅仅是用户提供的有限上下文，这对于开发者整合和使用API尤为重要。

在工作流程上，与过去相比，agent现在更加智能，能够自主决定如何调用多种工具，并且能够在发现方向错误时及时调整。

OpenAI预测，在几个月内，agent可调用的工具数量将从目前的10个量级扩展到100个量级。

多agent系统具备更高的可控性和优化潜力，OpenAI Agents SDK实现了将任务分解为多个子任务，让不同的agent负责特定子任务，从而提高整体工作效率。当一个agent同时处理多个任务时，轻微的prompt变动可能导致完全不同的结果，而分工后的每个agent都将更独立地进行修改和调试。

开发者需要构建agent的评估与微调机制，基于强化学习，开发者可以在自己领域内构建评估器，引导模型沿着正确的工具使用路径解决特定问题。目前，尚未出现完美产品化的评分和任务生成系统，这在未来两年内可能是最 urgente需要解决的问题。

评估器的作用不仅仅是比对两个字符串是否相等，更重要的是能够将模型输出与权威资料进行对比，或者通过代码执行来验证数学正确性。

Computer Use目前仍处在早期阶段，需要开发者来填补空白。未来可能会有基于不同操作系统生态的虚拟机（VM），例如专门为iPhone开发VM，类似于过去专门为iOS开发测试框架的公司，只不过今天的VM是为模型服务的。

Vol.49：大模型时代的表格数据挖掘

https://liduos.com/the-memeber-newsletter-49.html

作者

莫尔索

发布于

2025-04-28

更新于

2025-08-18

许可协议

支付宝

送我杯咖啡

Vol.49：大模型时代的表格数据挖掘

✉️ 免费订阅更新

论文

工程

产品

市场

观点

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

评论

订阅我的免费通讯

我的作品

目录

最新文章

归档

标签