会员计划说明

我要推出一个为期一年的会员计划,这篇文章我想从会员计划介绍、面向人群、会员权益、会员定价四个方面来介绍下,希望大家理性消费,务必先看权益部分的内容是否是自己未来一年内要聚焦和关注的,然后再看定价是否满足自己当前的消费能力。

阅读更多

AI Native 应用长什么样?|莫尔索随笔 Vol.31

本期内容通过论文、工程、产品和市场四个部分,全面展示了 AI 技术在各个领域的应用和影响。在论文部分,介绍了基于大语言模型(LLM)的模型评估智能助手CriticAL,以及基于扩散模型的系统 AnchorCrafter,用于生成包含人类 - 物体交互的 2D 视频。文章还探讨了大模型幻觉现象的原因和解决策略,以及集成 LLM 的统一商业智能平台 DataLab。在工程部分,提到了面向 LLM 的内容组织标准、全能文档解析工具 MegaParse、开源工具 Co-op Translator,以及 AI 工程的定义和未来趋势。产品部分详细介绍了亚马逊推出的 Nova 系列基础模型、Hume AI 推出的 Voice Control 功能,以及 Cohere 推出的新的搜索模型 Rerank3.5,以及腾讯推出的混元大模型 HunyuanVideo。最后,在市场部分,讨论了 OpenAI 计划推出的新品和服务,以及 AI Native 应用的特征和发展趋势。
阅读更多

盘点 12 款开源 PDF 解析工具和 5 家智能文档处理服务,优缺点比较,应用场景选择,功能解读

这是本系列的第二篇文章,聚焦于智能文档处理(特别是 PDF 及图像解析)。无论是在模型预训练的数据收集阶段,还是基于 RAG 的知识库构建阶段,大量高质量数据通常以 PDF 或扫描图像的形式出现。由于这些文件的排版多样、格式不一以及扫描质量参差不齐,利用这些数据极具挑战。主要难点在于:一是有效提取内容信息和版面信息(如正文、标题、图注、图片、表格、公式等);二是处理版面元素之间的关系。鉴于此领域的巨大需求,市场上既有开源框架,也不乏商业解决方案,涵盖了从传统 OCR 识别到新型多模态大模型,甚至两者的结合,本篇文章就对他们进行盘点并做功能解读,优缺点比较,应用场景选择推荐。

阅读更多

什么是Agentic RAG?|莫尔索随笔 Vol.30

大家好!会员计划第 30 期会员通讯已送达!本期内容讨论了 Agentic RAG 及其在 AI 领域的应用,介绍了 ChunkRAG、Star Attention、ShowUI、Thanos 等模型和技术的最新进展,以及 DataWind 平台、LazyGraphRAG 模型、QwQ、GGUF-my-LoRA 平台、MCP、文本水印技术、纳米搜索等产品和工程的实践与发展,并探讨了 AI 在教育和营销领域的应用前景,以及 OpenAI 创始人 Sam 关于 AI 未来的看法。

阅读更多

盘点 8 个流行的开源 RAG 项目,优缺点比较,应用场景分析,易用性解读

为了撰写开源中国即将发布的大模型生态 2024 年报告中关于开发者中间件和开源工具的年终总结,我回顾了过去一年所关注的开源项目,并计划将其整理成一系列文章。这些文章将涵盖从智能文档处理、生成式 AI 推理平台的对比,到大模型的结构化输出支持及 TTS 技术的选项等多个方面。这一系列文章既是我个人的年终总结,也旨在为感兴趣的读者提供有价值的信息。
这是该系列的第一篇文章,主题围绕 RAG 技术。在过去一年中,RAG 技术成为大模型应用中最热门的方向之一,开源社区因此涌现了许多相关项目,包括面向个人开发者的 SDK 集成、企业级框架以及面向普通用户的 RAG 应用。本文将重点介绍那些成熟度较高且专注于 RAG 技术的项目,所以像 FlashRAG(一个高效、模块化的开源工具包,用于复现现有 RAG 方法和开发新算法)和 GraphRAG(一种基于图的 RAG 方法,通过利用实体间的结构信息提高检索精度和生成更加符合上下文的响应)这类具有创新性的研究项目不在本文讨论范围内,同样,像 LangChain 这样包含 RAG 处理模块的综合框架也不在讨论之列。

阅读更多

可视化呈现RAG的工作过程|莫尔索随笔 Vol.29

本期内容详细介绍了大语言模型在流程自动化、算法设计、角色扮演产品设计、工程技术、产品创新以及市场发展等方面的最新进展和应用,并展示了可视化工具 RAGViz 的功能和作用。同时,还讨论了小语言模型的技术进展和应用场景,以及企业在生成式 AI 领域的投资趋势和挑战。
阅读更多

从物理定律看视频生成离世界模型还有多远?|莫尔索随笔 Vol.28

本期内容探讨了视频生成模型是否能够通过视觉数据发现基本物理定律,而无需人类先验知识。研究通过一个 2D 模拟测试平台评估了视频生成模型在分布内、分布外和组合泛化三种关键场景下的表现。此外,还介绍了 TableGPT2、一种针对大语言模型(LLM)越狱攻击的快速响应防御机制、以及 Long Term Memory(OMNE 框架)在 AI 自我进化和个性化优化方面的应用。在工程领域,PDFMathTranslate 项目提供了双语翻译且保留原文排版格式的方法,AI Agents 技术栈的演进显示了从基础 LLM 框架到能够执行工具调用的 Agents 的转变。此外,还讨论了如何使用 Anthropic 的提示改进器来优化和增强用户的提示模板,以及提示词优化的实验性库 Promptim。Cursor 公司透露了其代码库索引技术的详细步骤。产品方面,Mintlify 提供了现代化的公共文档标准和协作工具,生数科技发布了视频生成模型 Vidu1.5,Context Autopilot 作为一款 AI 办公助手提高工作效率,月之暗面发布了数学模型 k0-math,主打深入思考。市场报告指出,AI 技术正从实验室走向生产环境,企业利用开源模型和 RAG 技术将自有数据与 AI 能力结合,促进了数据智能的民主化。语音 AI 赛道全解析显示了语音应用开发的热潮和市场全景图。
阅读更多

如何定制 LLM 以更好地服务于特定领域的企业?|莫尔索随笔 Vol.27

本期内容涵盖了论文、工程、产品和市场等多个方面的 AI 技术进展。论文部分讨论了苹果公司的 Ferret-UI 2 多模态大模型,字节跳动和清华大学合作开发的 X-Portrait 2 肖像动画技术,大语言模型在数值理解方面的不足及改进方法,以及 HtmlRAG 在知识检索和生成方面的优势。工程部分介绍了针对代码仓库的 RAG 上下文细化代理,Wix 工程团队如何使用 DAPT 技术自定义 LLM,微软 GraphRAG 的新版本发布,Elasticsearch 和 Vespa 搜索引擎的性能对比,以及 RAG 技术的五个实际应用案例。产品部分展示了智谱的 AI 生成视频新清影、腾讯开源的 Hunyuan-Large 大型 MoE 模型、Google 推出的在线视频制作和编辑工具 Vids、Anthropic 的 Claude 3.5 Sonnet 模型能够理解文档中的文本和视觉内容、FLUX 1.1 Pro Ultra 的新功能以及 Recraft V3 模型在图像生成领域的领先地位。市场部分探讨了 AI + 代码的未来趋势,红杉资本对 Glean 企业级 AI 搜索独角兽的 CEO 进行了对话,以及 Product Hunt 上上周的最佳产品介绍。最后,百度智能云黄锋分享了企业如何运用大模型应用开发平台的策略和案例。
阅读更多

AI Agent 应用、商业化以及当前行业的现状|莫尔索随笔 Vol.26

本期内容通过论文、工程、产品和市场等多个维度,全面展现了 AI Agent 技术的最新进展和应用实例。在论文方面,介绍了 StructRAG 和 KAG 两种模型,分别提升了 LLMs 在知识密集型推理和专业领域的表现。同时,提出了针对 AI 搜索的 16 个局限性及建议,以及 AutoRAG 这一自动化优化 RAG Pipeline 的框架。在工程领域,探讨了 prompt 工程的深入应用,以及如何通过技术能力提升和优化 prompt 来提高任务执行的效率和准确性。产品部分,ChatGPT 的搜索功能正式上线,腾讯推出了结合 AI 搜索的知识库类产品 ima,以及 Recraft 的文生图模型。市场动态方面,澜码科技 CEO 周健分析了 AI Agent 的技术特性、商业价值和行业应用案例,SaaStr Annual 大会回顾了全球企服和 SaaS 市场的发展,强调了 AI 的兴起和 SaaS 的持续发展。最后,从观点层面,Valenzuela 认为生成式 AI 是一种新媒体,它将改变我们创造现实的方式,并为全新的媒体景观奠定了基础。
阅读更多

AI像人一样使用计算机可信吗?|莫尔索随笔 Vol.25

本期内容通过论文、工程、产品和市场四个部分,全面展示了 AI 技术的最新发展。在论文部分,介绍了 Sketch2Code、Class-RAG、大模型数据合成与增强技术的最新综述以及 ComfyGen 等研究进展,涉及 AI 在视觉语言转换、内容审核、数据生成和图像生成方面的应用。工程部分提到了微软的 OmniParser、Jina AI 的分类器 API、Genmo 的视频生成模型 Mochi 1、Meta 的 Llama 3.2 1B/3B 模型、LangChain 的开源生态系统以及 LLM 推理流程的深入解析。产品部分则展示了 Anthropic 的 Claude 3.5、Hugging Face 的 HUGS、Google 的 NotebookLM、阶跃星辰的 step-1.5v-turbo、智谱技术团队的 GLM-4-Voice 和 AutoGLM 等一系列 AI 产品的最新进展。最后,市场部分分析了硅谷基金在 AI 领域的投资策略,以及 2024 年 AI 代码平台及产品的发展简报。
阅读更多