别再用智能体忽悠用户了,应用场景化才是大模型落地的关键

这是一篇吐槽文,缘于今天详细体验一款低代码的大模型应用开发工具,没想到设计的真不错,但是一搜相关介绍,看到官方 PR 稿和自媒体广告文铺天盖地都在夸的是什么智能体,什么 AI 原生应用,就是不讲能解决哪些实实在在的问题,支持的实际场景。所以本篇想聊聊「智能体平台」的话题,先叠个甲,这些产品并不是一无是处,毫无疑问确实是方便用户快速用上大模型的能力,也提升了工作效率和生活体验,但这里面噱头大于实际,其中忽悠的内容太多了,本文不会出现具体的产品:)

阅读更多

AI Creativity 赛道有哪些机会?|莫尔索随笔 Vol.32

本期内容通过论文、工程、产品和市场四个部分,全面展示了 AI 技术在各个领域的应用和影响。在论文部分,包括基于检索增强推理的 RARE 框架,提升了推理轨迹的准确性和相关性;HtmlRAG 项目,通过使用 HTML 而非纯文本来改善问答系统的性能;以及 MarketSenseAI,一个基于 GPT-4 的金融投资分析工具,实现了显著的投资回报。在工程方面,提到了 ChatBI 的技术路径,旨在通过生成式 AI 技术促进数据驱动决策;LiveKit Agents,一个开源的实时多模态 AI 应用开发框架;以及 OpenAI 实时 API 的技术细节,包括对话状态管理和实时语音应用的开发简化。产品部分,Meta 推出了新的 Llama 3.3 模型,提升了文本应用场景的性能;DeepSeek 发布了 DeepSeek-V2.5-1210 并支持联网搜索功能;OpenAI 举办了产品发布会,推出了多个新功能和产品,如 Sora 正式版和 Canvas 工具的全面开放。谷歌发布了性能超越 1.5 Pro 的多模态 AI 模型 Gemini 2.0,支持 Agent 功能,并探讨了其在游戏、机器人和深度研究方面的应用。市场动态方面,探讨了编码类 Agent 如何颠覆传统软件开发模式,以及 AI Creativity 赛道的机会,包括 Flux1、Ideogram 和 Midjourney 等公司的最新进展,以及视频生成领域的新趋势和产品形态。最后观点不,AI 行业正面临一个转折点,随着可用数据的接近极限,行业需要寻找新的训练方法,预训练模型时代即将结束,未来将进入超级智能时代。
阅读更多

AI开发者工具(3)——2024 年 6 个开源 AI 网页爬虫框架对比:功能解读、应用场景分析

This content is also available in:English.

这是本系列的第三篇文章,重点介绍如何从网络抓取数据以丰富大模型的上下文。无论是个人使用的 AI 搜索引擎,还是企业级的知识库应用,获取实时网络数据都是关键功能,特别是网页信息的更新,有助于提高大模型回答的准确性和时效性。关于本地文档(尤其是 PDF 文件、扫描印影件、图像等)的处理方法,已在上一篇文章中详细讨论。

阅读更多

AI Native 应用长什么样?|莫尔索随笔 Vol.31

本期内容通过论文、工程、产品和市场四个部分,全面展示了 AI 技术在各个领域的应用和影响。在论文部分,介绍了基于大语言模型(LLM)的模型评估智能助手CriticAL,以及基于扩散模型的系统 AnchorCrafter,用于生成包含人类 - 物体交互的 2D 视频。文章还探讨了大模型幻觉现象的原因和解决策略,以及集成 LLM 的统一商业智能平台 DataLab。在工程部分,提到了面向 LLM 的内容组织标准、全能文档解析工具 MegaParse、开源工具 Co-op Translator,以及 AI 工程的定义和未来趋势。产品部分详细介绍了亚马逊推出的 Nova 系列基础模型、Hume AI 推出的 Voice Control 功能,以及 Cohere 推出的新的搜索模型 Rerank3.5,以及腾讯推出的混元大模型 HunyuanVideo。最后,在市场部分,讨论了 OpenAI 计划推出的新品和服务,以及 AI Native 应用的特征和发展趋势。
阅读更多

AI开发者工具(2)——2024 年 12 个开源文档解析项目的选型对比评测:PDF解析、OCR识别功能解读、应用场景分析及优缺点比较

This content is also available in:English.

这是本系列的第二篇文章,聚焦于智能文档处理(特别是 PDF 及图像解析)。无论是在模型预训练的数据收集阶段,还是基于 RAG 的知识库构建阶段,大量高质量数据通常以 PDF 或扫描图像的形式出现。由于这些文件的排版多样、格式不一以及扫描质量参差不齐,利用这些数据极具挑战。主要难点在于:一是有效提取内容信息和版面信息(如正文、标题、图注、图片、表格、公式等);二是处理版面元素之间的关系。鉴于此领域的巨大需求,市场上既有开源框架,也不乏商业解决方案,涵盖了从传统 OCR 识别到新型多模态大模型,甚至两者的结合,本篇文章就对他们进行盘点并做功能解读,优缺点比较,应用场景选择推荐。

阅读更多

什么是Agentic RAG?|莫尔索随笔 Vol.30

大家好!会员计划第 30 期会员通讯已送达!本期内容讨论了 Agentic RAG 及其在 AI 领域的应用,介绍了 ChunkRAG、Star Attention、ShowUI、Thanos 等模型和技术的最新进展,以及 DataWind 平台、LazyGraphRAG 模型、QwQ、GGUF-my-LoRA 平台、MCP、文本水印技术、纳米搜索等产品和工程的实践与发展,并探讨了 AI 在教育和营销领域的应用前景,以及 OpenAI 创始人 Sam 关于 AI 未来的看法。

阅读更多

AI开发者工具(1)——2024 年 8 个开源 RAG 项目对比:功能解读、应用场景分析及优缺点比较

This content is also available in:English.

为了撰写开源中国即将发布的大模型生态 2024 年报告中关于开发者中间件和开源工具的年终总结,我回顾了过去一年所关注的开源项目,并计划将其整理成一系列文章。这些文章将涵盖从智能文档处理、生成式 AI 推理平台的对比,到大模型的结构化输出支持及 TTS 技术的选项等多个方面。这一系列文章既是我个人的年终总结,也旨在为感兴趣的读者提供有价值的信息。
这是该系列的第一篇文章,主题围绕 RAG 技术。在过去一年中,RAG 技术成为大模型应用中最热门的方向之一,开源社区因此涌现了许多相关项目,包括面向个人开发者的 SDK 集成、企业级框架以及面向普通用户的 RAG 应用。本文将重点介绍那些成熟度较高且专注于 RAG 技术的项目,所以像 FlashRAG(一个高效、模块化的开源工具包,用于复现现有 RAG 方法和开发新算法)和 GraphRAG(一种基于图的 RAG 方法,通过利用实体间的结构信息提高检索精度和生成更加符合上下文的响应)这类具有创新性的研究项目不在本文讨论范围内,同样,像 LangChain 这样包含 RAG 处理模块的综合框架也不在讨论之列。

阅读更多

可视化呈现RAG的工作过程|莫尔索随笔 Vol.29

本期内容详细介绍了大语言模型在流程自动化、算法设计、角色扮演产品设计、工程技术、产品创新以及市场发展等方面的最新进展和应用,并展示了可视化工具 RAGViz 的功能和作用。同时,还讨论了小语言模型的技术进展和应用场景,以及企业在生成式 AI 领域的投资趋势和挑战。
阅读更多

从物理定律看视频生成离世界模型还有多远?|莫尔索随笔 Vol.28

本期内容探讨了视频生成模型是否能够通过视觉数据发现基本物理定律,而无需人类先验知识。研究通过一个 2D 模拟测试平台评估了视频生成模型在分布内、分布外和组合泛化三种关键场景下的表现。此外,还介绍了 TableGPT2、一种针对大语言模型(LLM)越狱攻击的快速响应防御机制、以及 Long Term Memory(OMNE 框架)在 AI 自我进化和个性化优化方面的应用。在工程领域,PDFMathTranslate 项目提供了双语翻译且保留原文排版格式的方法,AI Agents 技术栈的演进显示了从基础 LLM 框架到能够执行工具调用的 Agents 的转变。此外,还讨论了如何使用 Anthropic 的提示改进器来优化和增强用户的提示模板,以及提示词优化的实验性库 Promptim。Cursor 公司透露了其代码库索引技术的详细步骤。产品方面,Mintlify 提供了现代化的公共文档标准和协作工具,生数科技发布了视频生成模型 Vidu1.5,Context Autopilot 作为一款 AI 办公助手提高工作效率,月之暗面发布了数学模型 k0-math,主打深入思考。市场报告指出,AI 技术正从实验室走向生产环境,企业利用开源模型和 RAG 技术将自有数据与 AI 能力结合,促进了数据智能的民主化。语音 AI 赛道全解析显示了语音应用开发的热潮和市场全景图。
阅读更多

如何定制 LLM 以更好地服务于特定领域的企业?|莫尔索随笔 Vol.27

本期内容涵盖了论文、工程、产品和市场等多个方面的 AI 技术进展。论文部分讨论了苹果公司的 Ferret-UI 2 多模态大模型,字节跳动和清华大学合作开发的 X-Portrait 2 肖像动画技术,大语言模型在数值理解方面的不足及改进方法,以及 HtmlRAG 在知识检索和生成方面的优势。工程部分介绍了针对代码仓库的 RAG 上下文细化代理,Wix 工程团队如何使用 DAPT 技术自定义 LLM,微软 GraphRAG 的新版本发布,Elasticsearch 和 Vespa 搜索引擎的性能对比,以及 RAG 技术的五个实际应用案例。产品部分展示了智谱的 AI 生成视频新清影、腾讯开源的 Hunyuan-Large 大型 MoE 模型、Google 推出的在线视频制作和编辑工具 Vids、Anthropic 的 Claude 3.5 Sonnet 模型能够理解文档中的文本和视觉内容、FLUX 1.1 Pro Ultra 的新功能以及 Recraft V3 模型在图像生成领域的领先地位。市场部分探讨了 AI + 代码的未来趋势,红杉资本对 Glean 企业级 AI 搜索独角兽的 CEO 进行了对话,以及 Product Hunt 上上周的最佳产品介绍。最后,百度智能云黄锋分享了企业如何运用大模型应用开发平台的策略和案例。
阅读更多