会员计划说明

我要推出一个为期一年的会员计划,这篇文章我想从会员计划介绍、面向人群、会员权益、会员定价四个方面来介绍下,希望大家理性消费,务必先看权益部分的内容是否是自己未来一年内要聚焦和关注的,然后再看定价是否满足自己当前的消费能力。

阅读更多

从物理定律看视频生成离世界模型还有多远?|莫尔索随笔 Vol.28

本期内容探讨了视频生成模型是否能够通过视觉数据发现基本物理定律,而无需人类先验知识。研究通过一个 2D 模拟测试平台评估了视频生成模型在分布内、分布外和组合泛化三种关键场景下的表现。此外,还介绍了 TableGPT2、一种针对大语言模型(LLM)越狱攻击的快速响应防御机制、以及 Long Term Memory(OMNE 框架)在 AI 自我进化和个性化优化方面的应用。在工程领域,PDFMathTranslate 项目提供了双语翻译且保留原文排版格式的方法,AI Agents 技术栈的演进显示了从基础 LLM 框架到能够执行工具调用的 Agents 的转变。此外,还讨论了如何使用 Anthropic 的提示改进器来优化和增强用户的提示模板,以及提示词优化的实验性库 Promptim。Cursor 公司透露了其代码库索引技术的详细步骤。产品方面,Mintlify 提供了现代化的公共文档标准和协作工具,生数科技发布了视频生成模型 Vidu1.5,Context Autopilot 作为一款 AI 办公助手提高工作效率,月之暗面发布了数学模型 k0-math,主打深入思考。市场报告指出,AI 技术正从实验室走向生产环境,企业利用开源模型和 RAG 技术将自有数据与 AI 能力结合,促进了数据智能的民主化。语音 AI 赛道全解析显示了语音应用开发的热潮和市场全景图。
阅读更多

如何定制 LLM 以更好地服务于特定领域的企业?|莫尔索随笔 Vol.27

本期内容涵盖了论文、工程、产品和市场等多个方面的 AI 技术进展。论文部分讨论了苹果公司的 Ferret-UI 2 多模态大模型,字节跳动和清华大学合作开发的 X-Portrait 2 肖像动画技术,大语言模型在数值理解方面的不足及改进方法,以及 HtmlRAG 在知识检索和生成方面的优势。工程部分介绍了针对代码仓库的 RAG 上下文细化代理,Wix 工程团队如何使用 DAPT 技术自定义 LLM,微软 GraphRAG 的新版本发布,Elasticsearch 和 Vespa 搜索引擎的性能对比,以及 RAG 技术的五个实际应用案例。产品部分展示了智谱的 AI 生成视频新清影、腾讯开源的 Hunyuan-Large 大型 MoE 模型、Google 推出的在线视频制作和编辑工具 Vids、Anthropic 的 Claude 3.5 Sonnet 模型能够理解文档中的文本和视觉内容、FLUX 1.1 Pro Ultra 的新功能以及 Recraft V3 模型在图像生成领域的领先地位。市场部分探讨了 AI + 代码的未来趋势,红杉资本对 Glean 企业级 AI 搜索独角兽的 CEO 进行了对话,以及 Product Hunt 上上周的最佳产品介绍。最后,百度智能云黄锋分享了企业如何运用大模型应用开发平台的策略和案例。
阅读更多

AI Agent 应用、商业化以及当前行业的现状|莫尔索随笔 Vol.26

本期内容通过论文、工程、产品和市场等多个维度,全面展现了 AI Agent 技术的最新进展和应用实例。在论文方面,介绍了 StructRAG 和 KAG 两种模型,分别提升了 LLMs 在知识密集型推理和专业领域的表现。同时,提出了针对 AI 搜索的 16 个局限性及建议,以及 AutoRAG 这一自动化优化 RAG Pipeline 的框架。在工程领域,探讨了 prompt 工程的深入应用,以及如何通过技术能力提升和优化 prompt 来提高任务执行的效率和准确性。产品部分,ChatGPT 的搜索功能正式上线,腾讯推出了结合 AI 搜索的知识库类产品 ima,以及 Recraft 的文生图模型。市场动态方面,澜码科技 CEO 周健分析了 AI Agent 的技术特性、商业价值和行业应用案例,SaaStr Annual 大会回顾了全球企服和 SaaS 市场的发展,强调了 AI 的兴起和 SaaS 的持续发展。最后,从观点层面,Valenzuela 认为生成式 AI 是一种新媒体,它将改变我们创造现实的方式,并为全新的媒体景观奠定了基础。
阅读更多

AI像人一样使用计算机可信吗?|莫尔索随笔 Vol.25

本期内容通过论文、工程、产品和市场四个部分,全面展示了 AI 技术的最新发展。在论文部分,介绍了 Sketch2Code、Class-RAG、大模型数据合成与增强技术的最新综述以及 ComfyGen 等研究进展,涉及 AI 在视觉语言转换、内容审核、数据生成和图像生成方面的应用。工程部分提到了微软的 OmniParser、Jina AI 的分类器 API、Genmo 的视频生成模型 Mochi 1、Meta 的 Llama 3.2 1B/3B 模型、LangChain 的开源生态系统以及 LLM 推理流程的深入解析。产品部分则展示了 Anthropic 的 Claude 3.5、Hugging Face 的 HUGS、Google 的 NotebookLM、阶跃星辰的 step-1.5v-turbo、智谱技术团队的 GLM-4-Voice 和 AutoGLM 等一系列 AI 产品的最新进展。最后,市场部分分析了硅谷基金在 AI 领域的投资策略,以及 2024 年 AI 代码平台及产品的发展简报。
阅读更多

为什么大语言模型仍无法做到真正的推理?|莫尔索随笔 Vol.23

本期详细介绍了多项研究成果和工程应用,旨在提升大语言模型(LLM)的推理能力。首先,Google DeepMind 提出了 TableRAG 方法,用于处理大型表格理解任务,通过模式和单元格检索提高了数据编码和精确检索的效率。接着,论文介绍了 Agent Security Bench (ASB),用于评估基于 LLM 的智能体在不同场景下的攻击和防御效果,揭示了智能体在安全性方面的脆弱性。SMART-SLIC 框架集成了检索增强生成(RAG)、知识图(KG)和向量存储(VS),以解决 LLM 在领域特定和知识密集型任务中的问题。此外,还探讨了推理扩展策略 DRAG 和 IterDRAG,以及 OpenAI o1 复现项目的进展。工程部分提到了多个实用工具和平台,如 chunkr、LlamaIndex、pgvector 和 Timescale 等,它们在提高 LLM 性能和效率方面扮演了重要角色。在产品领域,OpenAI 推出了多项新能力,如 Realtime API、视觉微调功能和模型蒸馏功能,以及新交互界面 Canvas。市场部分分析了 AI 教育硬件和 AI 智能助手产品的发展趋势。最后,网页提出了对于 LLM 推理能力的深入思考,指出 LLM 所做的推理并非完全可靠,需要范式转变。
阅读更多

垂直 SaaS 如何通过 AI 来提高收入? |莫尔索随笔 Vol.22

本期内容涵盖了 AI 技术在垂直应用、工程实践、产品发布以及市场趋势和观点。首先,介绍了微软亚洲研究院提出的将外部数据整合到大语言模型中的方法,Moshi 模型,它是一个开源的语音 - 文本基础模型。接着,讨论了 OpenAI o1 模型在规划能力上的表现,以及 TC-RAG 框架在医疗领域的应用。在工程部分,对比了 NVIDIA 的 GPU 在 AI 推理任务中的性能,探讨了从零开始进行预训练模型的步骤,以及 OpenAI o1 模型的原理逆向工程。文章还分析了大语言模型在推理能力上的局限性,以及 AI Character 角色扮演应用的聊天对话管理方案。此外,对比了五种深度学习训练 / 微调工具,并介绍了 OpenAI 推出的高级语音模式、火山引擎发布的豆包大模型视频生成模型,以及 Meta 发布的 Llama 3.2 多模态 AI 模型。在市场趋势方面,预测了 AI 将为垂直 SaaS 开启新时代,并分析了企业 AI 应用需求的发展趋势。最后,从 BVP 的 2024 云计算研究报告中提炼了五大趋势,以及 OpenAI CEO Sam Altman 对人工智能未来发展的看法。
阅读更多

OpenAI o1合成数据与推理搜索|莫尔索随笔 Vol.21

本期详细探讨了 OpenAI o1 模型的创新点,包括合成数据的使用和推理搜索的技术进展。论文部分提到了 RetrievalAttention 方法的提出,它通过将大部分 KV 向量卸载到 CPU 内存并构建近似最近邻搜索索引,以及采用 CPU-GPU 协同执行策略,来提高长上下文 LLM 的推理效率和准确性。此外,还介绍了 Large Language Monkeys 的研究,即通过重复采样扩展推理计算,提高大语言模型解决复杂任务的能力。还有一篇论文详细阐述了通用 OCR 理论和 OCR-2.0 模型 GOT 的研究成果。在工程方面,文章首先介绍了合成数据的概念和推理搜索的过程,强调了它们在提高模型泛化能力和解决实际问题中的重要性。Awesome-LLM-Strawberry 项目收集了与 OpenAI Strawberry (o1) 和逻辑推理相关的研究论文和博客,Anthropic 推出了上下文检索方法,提高了基于知识库的信息检索的准确性,Noam Brown 作为 OpenAI 的核心人物,在多 Agent、多步骤推理、强化学习等方面做出了贡献。Zep 项目通过持久化聊天历史记录和自动生成摘要,提高了从过去对话中检索相关上下文信息的能力。产品部分,Qwen2.5 系列模型开源,包括语言模型 Qwen2.5、Qwen2.5-Coder 和 Qwen2.5-Math,这些模型在多种语言和长上下文支持方面表现出色。Jina AI 推出了 Reader-LM,这是一种将原始 HTML 转换为 Markdown 的小语言模型,优化了 HTML 到 Markdown 的转换任务。DeepSeek-V2.5 在国内大模型竞技场中领先,超越了多个闭源模型。Napkin AI 提供了一个直接从文本生成视觉内容的平台,帮助用户更有效地分享和传达想法。市场分析方面,文章提供了中国政务行业大模型发展的洞察,以及 2024 年中国金融大模型产业发展报告和 AI 应用市场的分析。
阅读更多