对OpenAI o3模型的看法、思考与反思|莫尔索随笔 Vol.34

本期内容通过论文、工程、产品和市场四个部分,论文部分讨论了多模态大语言模型(MLLMs)在视觉空间智能、数学语音到公式转换、AI 代理在自治云环境中的应用、以及 LLM 幻觉现象的研究。工程部分介绍了 NVIDIA GPU 在 LLM 推理任务中的应用指南、多模态大模型在表格解析任务的效果、Hugging Face 的评估方法指南书、开源视觉推理模型 QVQ-72B-Preview 的性能、智谱技术开源的 GLM-PC 基座模型 CogAgent-9B,以及无问芯穹开源的端侧全模态理解模型 Megrez-3B-Omni。产品部分展示了 DeepSeek 新系列模型 DeepSeek-V3、百川智能的金融大模型 Baichuan4-Finance、Kimi 视觉思考模型 k1、AI 病历助手 Freed AI、以及利用 AI Agent 技术帮助企业在售前阶段找到潜在客户的 Clay。市场部分报告了阶跃星辰、像素绽放 PixelBloom 和 xAI 的融资情况,以及 2024 年 AI 应用开发平台的发展趋势和 AI 领域的整体发展情况。最后提供了两篇关于 OpenAI o3 模型的观点文章,分析了 o3 模型在编程竞赛、软件开发测试、数学测试和图形逻辑推理任务中的表现,并对其技术特性和未来发展进行了探讨。
阅读更多

为什么视频生成模型比文本生成模型发展速度更快?|莫尔索随笔 Vol.33

本期内容通过论文、工程、产品和市场四个部分,论文部分,在视频理解模型 Apollo 中,研究揭示了帧率(fps)采样与 token 数量(tps)之间的权衡,以及在视频编码器上的微调可以进一步提高性能。此外,论文还探讨了 OmniParser 在 OCR 领域的应用,以及 OCR 对 RAG 系统性能的影响。在多智能体大语言模型的研究中,提出了四种不同的范式,并讨论了其在对话任务中的应用。还有,研究团队提出了在潜在空间中进行推理的方法,以提高大语言模型在数学和逻辑推理任务中的性能。在工程方面,介绍了 Rockset 的混合搜索架构,以及 MarkitDown 和 PipeCat 等开源工具。PromptWizard 作为一个提示词自动优化框架,也被提及。产品部分,Google 发布了 Veo 2 和 Imagen 3,以及新工具 Whisk,提升了视频和图像生成的质量。GitHub Copilot 推出了免费版本,而 OpenAI 发布了 o1 模型的 API 以及最新的 o3 模型。Remento 和 DeepSeek-VL2 等新产品也被介绍。市场方面,智谱和爱诗科技完成了大规模融资,Perplexity 收购了 Carbon,以及 2024 年语音 AI 行业现状报告的内容也被总结。最后,网页提出了视频生成模型发展速度快的原因,并预测了 2025 年 AI 的六大趋势。
阅读更多

AI Creativity 赛道有哪些机会?|莫尔索随笔 Vol.32

本期内容通过论文、工程、产品和市场四个部分,全面展示了 AI 技术在各个领域的应用和影响。在论文部分,包括基于检索增强推理的 RARE 框架,提升了推理轨迹的准确性和相关性;HtmlRAG 项目,通过使用 HTML 而非纯文本来改善问答系统的性能;以及 MarketSenseAI,一个基于 GPT-4 的金融投资分析工具,实现了显著的投资回报。在工程方面,提到了 ChatBI 的技术路径,旨在通过生成式 AI 技术促进数据驱动决策;LiveKit Agents,一个开源的实时多模态 AI 应用开发框架;以及 OpenAI 实时 API 的技术细节,包括对话状态管理和实时语音应用的开发简化。产品部分,Meta 推出了新的 Llama 3.3 模型,提升了文本应用场景的性能;DeepSeek 发布了 DeepSeek-V2.5-1210 并支持联网搜索功能;OpenAI 举办了产品发布会,推出了多个新功能和产品,如 Sora 正式版和 Canvas 工具的全面开放。谷歌发布了性能超越 1.5 Pro 的多模态 AI 模型 Gemini 2.0,支持 Agent 功能,并探讨了其在游戏、机器人和深度研究方面的应用。市场动态方面,探讨了编码类 Agent 如何颠覆传统软件开发模式,以及 AI Creativity 赛道的机会,包括 Flux1、Ideogram 和 Midjourney 等公司的最新进展,以及视频生成领域的新趋势和产品形态。最后观点不,AI 行业正面临一个转折点,随着可用数据的接近极限,行业需要寻找新的训练方法,预训练模型时代即将结束,未来将进入超级智能时代。
阅读更多

AI Native 应用长什么样?|莫尔索随笔 Vol.31

本期内容通过论文、工程、产品和市场四个部分,全面展示了 AI 技术在各个领域的应用和影响。在论文部分,介绍了基于大语言模型(LLM)的模型评估智能助手CriticAL,以及基于扩散模型的系统 AnchorCrafter,用于生成包含人类 - 物体交互的 2D 视频。文章还探讨了大模型幻觉现象的原因和解决策略,以及集成 LLM 的统一商业智能平台 DataLab。在工程部分,提到了面向 LLM 的内容组织标准、全能文档解析工具 MegaParse、开源工具 Co-op Translator,以及 AI 工程的定义和未来趋势。产品部分详细介绍了亚马逊推出的 Nova 系列基础模型、Hume AI 推出的 Voice Control 功能,以及 Cohere 推出的新的搜索模型 Rerank3.5,以及腾讯推出的混元大模型 HunyuanVideo。最后,在市场部分,讨论了 OpenAI 计划推出的新品和服务,以及 AI Native 应用的特征和发展趋势。
阅读更多

什么是Agentic RAG?|莫尔索随笔 Vol.30

大家好!会员计划第 30 期会员通讯已送达!本期内容讨论了 Agentic RAG 及其在 AI 领域的应用,介绍了 ChunkRAG、Star Attention、ShowUI、Thanos 等模型和技术的最新进展,以及 DataWind 平台、LazyGraphRAG 模型、QwQ、GGUF-my-LoRA 平台、MCP、文本水印技术、纳米搜索等产品和工程的实践与发展,并探讨了 AI 在教育和营销领域的应用前景,以及 OpenAI 创始人 Sam 关于 AI 未来的看法。

阅读更多

可视化呈现RAG的工作过程|莫尔索随笔 Vol.29

本期内容详细介绍了大语言模型在流程自动化、算法设计、角色扮演产品设计、工程技术、产品创新以及市场发展等方面的最新进展和应用,并展示了可视化工具 RAGViz 的功能和作用。同时,还讨论了小语言模型的技术进展和应用场景,以及企业在生成式 AI 领域的投资趋势和挑战。
阅读更多

从物理定律看视频生成离世界模型还有多远?|莫尔索随笔 Vol.28

本期内容探讨了视频生成模型是否能够通过视觉数据发现基本物理定律,而无需人类先验知识。研究通过一个 2D 模拟测试平台评估了视频生成模型在分布内、分布外和组合泛化三种关键场景下的表现。此外,还介绍了 TableGPT2、一种针对大语言模型(LLM)越狱攻击的快速响应防御机制、以及 Long Term Memory(OMNE 框架)在 AI 自我进化和个性化优化方面的应用。在工程领域,PDFMathTranslate 项目提供了双语翻译且保留原文排版格式的方法,AI Agents 技术栈的演进显示了从基础 LLM 框架到能够执行工具调用的 Agents 的转变。此外,还讨论了如何使用 Anthropic 的提示改进器来优化和增强用户的提示模板,以及提示词优化的实验性库 Promptim。Cursor 公司透露了其代码库索引技术的详细步骤。产品方面,Mintlify 提供了现代化的公共文档标准和协作工具,生数科技发布了视频生成模型 Vidu1.5,Context Autopilot 作为一款 AI 办公助手提高工作效率,月之暗面发布了数学模型 k0-math,主打深入思考。市场报告指出,AI 技术正从实验室走向生产环境,企业利用开源模型和 RAG 技术将自有数据与 AI 能力结合,促进了数据智能的民主化。语音 AI 赛道全解析显示了语音应用开发的热潮和市场全景图。
阅读更多

如何定制 LLM 以更好地服务于特定领域的企业?|莫尔索随笔 Vol.27

本期内容涵盖了论文、工程、产品和市场等多个方面的 AI 技术进展。论文部分讨论了苹果公司的 Ferret-UI 2 多模态大模型,字节跳动和清华大学合作开发的 X-Portrait 2 肖像动画技术,大语言模型在数值理解方面的不足及改进方法,以及 HtmlRAG 在知识检索和生成方面的优势。工程部分介绍了针对代码仓库的 RAG 上下文细化代理,Wix 工程团队如何使用 DAPT 技术自定义 LLM,微软 GraphRAG 的新版本发布,Elasticsearch 和 Vespa 搜索引擎的性能对比,以及 RAG 技术的五个实际应用案例。产品部分展示了智谱的 AI 生成视频新清影、腾讯开源的 Hunyuan-Large 大型 MoE 模型、Google 推出的在线视频制作和编辑工具 Vids、Anthropic 的 Claude 3.5 Sonnet 模型能够理解文档中的文本和视觉内容、FLUX 1.1 Pro Ultra 的新功能以及 Recraft V3 模型在图像生成领域的领先地位。市场部分探讨了 AI + 代码的未来趋势,红杉资本对 Glean 企业级 AI 搜索独角兽的 CEO 进行了对话,以及 Product Hunt 上上周的最佳产品介绍。最后,百度智能云黄锋分享了企业如何运用大模型应用开发平台的策略和案例。
阅读更多

AI Agent 应用、商业化以及当前行业的现状|莫尔索随笔 Vol.26

本期内容通过论文、工程、产品和市场等多个维度,全面展现了 AI Agent 技术的最新进展和应用实例。在论文方面,介绍了 StructRAG 和 KAG 两种模型,分别提升了 LLMs 在知识密集型推理和专业领域的表现。同时,提出了针对 AI 搜索的 16 个局限性及建议,以及 AutoRAG 这一自动化优化 RAG Pipeline 的框架。在工程领域,探讨了 prompt 工程的深入应用,以及如何通过技术能力提升和优化 prompt 来提高任务执行的效率和准确性。产品部分,ChatGPT 的搜索功能正式上线,腾讯推出了结合 AI 搜索的知识库类产品 ima,以及 Recraft 的文生图模型。市场动态方面,澜码科技 CEO 周健分析了 AI Agent 的技术特性、商业价值和行业应用案例,SaaStr Annual 大会回顾了全球企服和 SaaS 市场的发展,强调了 AI 的兴起和 SaaS 的持续发展。最后,从观点层面,Valenzuela 认为生成式 AI 是一种新媒体,它将改变我们创造现实的方式,并为全新的媒体景观奠定了基础。
阅读更多

AI像人一样使用计算机可信吗?|莫尔索随笔 Vol.25

本期内容通过论文、工程、产品和市场四个部分,全面展示了 AI 技术的最新发展。在论文部分,介绍了 Sketch2Code、Class-RAG、大模型数据合成与增强技术的最新综述以及 ComfyGen 等研究进展,涉及 AI 在视觉语言转换、内容审核、数据生成和图像生成方面的应用。工程部分提到了微软的 OmniParser、Jina AI 的分类器 API、Genmo 的视频生成模型 Mochi 1、Meta 的 Llama 3.2 1B/3B 模型、LangChain 的开源生态系统以及 LLM 推理流程的深入解析。产品部分则展示了 Anthropic 的 Claude 3.5、Hugging Face 的 HUGS、Google 的 NotebookLM、阶跃星辰的 step-1.5v-turbo、智谱技术团队的 GLM-4-Voice 和 AutoGLM 等一系列 AI 产品的最新进展。最后,市场部分分析了硅谷基金在 AI 领域的投资策略,以及 2024 年 AI 代码平台及产品的发展简报。
阅读更多