会员计划说明

我要推出一个为期一年的会员计划,这篇文章我想从会员计划介绍、面向人群、会员权益、会员定价四个方面来介绍下,希望大家理性消费,务必先看权益部分的内容是否是自己未来一年内要聚焦和关注的,然后再看定价是否满足自己当前的消费能力。

阅读更多

2025 年 AI 编码类产品将如何演进?|莫尔索随笔 Vol.37

本期内容通过论文、工程、产品和市场四个部分, 在论文部分,详细介绍了记忆层在语言模型中的应用、Search-o1 框架在推理任务中的作用、长视频生成的 ARLON 框架、多 Agent 框架 MACT 在表格问答任务中的应用,以及 MiniRAG 系统在轻量级 RAG 系统中的效能等。在工程领域,提到了多模态语言模型 MinMo、MiniCPM-o 2.6、Mistral 的 Codestral 25.01 版本、千问的数学推理过程奖励模型 Qwen2.5-Math-PRM 等。产品方面,讨论了 MiniMax 发布的新一代 01 系列模型、智谱的 GLM-Realtime 模型、书生浦语 3.0、InternLM 系列模型、Vidu AI 2.0 版本、OpenAI 推出的 ChatGPT 的「Tasks」功能、Luma Labs 的 Ray2、DeepSeek 官方 App、Product Hunt 上周最佳产品等。市场部分涉及了智谱被美国商务部列入实体清单、AI Coding 项目「新言意码」的融资情况、CES 2025 上的 AI 硬件产品、RTE 开发者社区与 InfoQ 研究中心发布的《RTE 和 AI 融合生态洞察报告 2024》等。最后,网页包含了 Cognition(Devin 背后的公司)创始人 & CEO Scott Wu 的采访,他对 AI 编码领域的未来发展和智能体化的重要性表示了看法。
阅读更多

YC 回顾 2024 年 AI 行业创业生态|莫尔索随笔 Vol.36

本期内容通过论文、工程、产品和市场四个部分,在论文方面,包括解决在资源受限的边缘设备上部署 RAG 的 EdgeRAG 系统、基于大语言模型的金融交易框架 TradingAgents、GraphRAG 技术的综述、用于讨价还价的 AgreeMate 框架、Agent 认知架构 CoALA 以及中国历史人物角色扮演语料库 BaiJia 等。在工程方面,提到了 SiliconCloud 的 LLM 在线 LoRA 微调功能、开源 AI 框架 Eliza、针对实时语音应用的 Ultravox 模型、NVIDIA 的 nv-ingest 微服务以及微软开源的 Phi-4 模型。产品部分,介绍了 AI 设计产品 Recraft 的发展策略、Cohere 推出的企业级搜索产品 North、NVIDIA 在 CES 2025 上展示的新技术和产品、雷鸟发布的 V3 AI 眼镜以及 CES 2025 上其他有亮点的硬件产品。最后,对市场进行了总结,包括 TAAFT 年终总结和 YC 对 2024 年 AI 创业生态的回顾,以及智源研究院发布的 2025 年十大 AI 技术趋势。
阅读更多

2024 年大模型领域的发展趋势和竞争格局全面回顾|莫尔索随笔 Vol.35

本期内容通过论文、工程、产品和市场四个部分,在论文方面,涉及了多模态信息转换为 tokens 并通过上下文预测下一个 token 的技术,微软披露了 GPT-4 系列模型的参数规模,探讨了样本比例和样本长度对微调大型预训练语言模型的影响,以及提出了 HybGRAG 方法以处理半结构化知识库中的问题检索。工程部分,Anthropic 发布了 MCP 2025 年上半年的发展路线图,SuperSonic 项目提升了数据查询和可视化的效率,以及对 2024 年大模型领域的发展趋势和竞争格局的回顾。产品部分,介绍了 Product Hunt 本周最佳产品,AI 搜索引擎的现状和未来发展趋势,Butterflies AI 社交媒体产品的特点,以及智谱发布的基于扩展强化学习技术训练的推理模型 GLM-Zero-Preview。市场部分,a16z 分析了 2025 年科技领域的大趋势,特别是 AI 领域的观点,以及 LangChain 发布的关于 AI 代理的报告。最后,提出了关于信息内容的抽象层次转换的观点。
阅读更多

对OpenAI o3模型的看法、思考与反思|莫尔索随笔 Vol.34

本期内容通过论文、工程、产品和市场四个部分,论文部分讨论了多模态大语言模型(MLLMs)在视觉空间智能、数学语音到公式转换、AI 代理在自治云环境中的应用、以及 LLM 幻觉现象的研究。工程部分介绍了 NVIDIA GPU 在 LLM 推理任务中的应用指南、多模态大模型在表格解析任务的效果、Hugging Face 的评估方法指南书、开源视觉推理模型 QVQ-72B-Preview 的性能、智谱技术开源的 GLM-PC 基座模型 CogAgent-9B,以及无问芯穹开源的端侧全模态理解模型 Megrez-3B-Omni。产品部分展示了 DeepSeek 新系列模型 DeepSeek-V3、百川智能的金融大模型 Baichuan4-Finance、Kimi 视觉思考模型 k1、AI 病历助手 Freed AI、以及利用 AI Agent 技术帮助企业在售前阶段找到潜在客户的 Clay。市场部分报告了阶跃星辰、像素绽放 PixelBloom 和 xAI 的融资情况,以及 2024 年 AI 应用开发平台的发展趋势和 AI 领域的整体发展情况。最后提供了两篇关于 OpenAI o3 模型的观点文章,分析了 o3 模型在编程竞赛、软件开发测试、数学测试和图形逻辑推理任务中的表现,并对其技术特性和未来发展进行了探讨。
阅读更多

为什么视频生成模型比文本生成模型发展速度更快?|莫尔索随笔 Vol.33

本期内容通过论文、工程、产品和市场四个部分,论文部分,在视频理解模型 Apollo 中,研究揭示了帧率(fps)采样与 token 数量(tps)之间的权衡,以及在视频编码器上的微调可以进一步提高性能。此外,论文还探讨了 OmniParser 在 OCR 领域的应用,以及 OCR 对 RAG 系统性能的影响。在多智能体大语言模型的研究中,提出了四种不同的范式,并讨论了其在对话任务中的应用。还有,研究团队提出了在潜在空间中进行推理的方法,以提高大语言模型在数学和逻辑推理任务中的性能。在工程方面,介绍了 Rockset 的混合搜索架构,以及 MarkitDown 和 PipeCat 等开源工具。PromptWizard 作为一个提示词自动优化框架,也被提及。产品部分,Google 发布了 Veo 2 和 Imagen 3,以及新工具 Whisk,提升了视频和图像生成的质量。GitHub Copilot 推出了免费版本,而 OpenAI 发布了 o1 模型的 API 以及最新的 o3 模型。Remento 和 DeepSeek-VL2 等新产品也被介绍。市场方面,智谱和爱诗科技完成了大规模融资,Perplexity 收购了 Carbon,以及 2024 年语音 AI 行业现状报告的内容也被总结。最后,网页提出了视频生成模型发展速度快的原因,并预测了 2025 年 AI 的六大趋势。
阅读更多

AI Creativity 赛道有哪些机会?|莫尔索随笔 Vol.32

本期内容通过论文、工程、产品和市场四个部分,全面展示了 AI 技术在各个领域的应用和影响。在论文部分,包括基于检索增强推理的 RARE 框架,提升了推理轨迹的准确性和相关性;HtmlRAG 项目,通过使用 HTML 而非纯文本来改善问答系统的性能;以及 MarketSenseAI,一个基于 GPT-4 的金融投资分析工具,实现了显著的投资回报。在工程方面,提到了 ChatBI 的技术路径,旨在通过生成式 AI 技术促进数据驱动决策;LiveKit Agents,一个开源的实时多模态 AI 应用开发框架;以及 OpenAI 实时 API 的技术细节,包括对话状态管理和实时语音应用的开发简化。产品部分,Meta 推出了新的 Llama 3.3 模型,提升了文本应用场景的性能;DeepSeek 发布了 DeepSeek-V2.5-1210 并支持联网搜索功能;OpenAI 举办了产品发布会,推出了多个新功能和产品,如 Sora 正式版和 Canvas 工具的全面开放。谷歌发布了性能超越 1.5 Pro 的多模态 AI 模型 Gemini 2.0,支持 Agent 功能,并探讨了其在游戏、机器人和深度研究方面的应用。市场动态方面,探讨了编码类 Agent 如何颠覆传统软件开发模式,以及 AI Creativity 赛道的机会,包括 Flux1、Ideogram 和 Midjourney 等公司的最新进展,以及视频生成领域的新趋势和产品形态。最后观点不,AI 行业正面临一个转折点,随着可用数据的接近极限,行业需要寻找新的训练方法,预训练模型时代即将结束,未来将进入超级智能时代。
阅读更多

AI Native 应用长什么样?|莫尔索随笔 Vol.31

本期内容通过论文、工程、产品和市场四个部分,全面展示了 AI 技术在各个领域的应用和影响。在论文部分,介绍了基于大语言模型(LLM)的模型评估智能助手CriticAL,以及基于扩散模型的系统 AnchorCrafter,用于生成包含人类 - 物体交互的 2D 视频。文章还探讨了大模型幻觉现象的原因和解决策略,以及集成 LLM 的统一商业智能平台 DataLab。在工程部分,提到了面向 LLM 的内容组织标准、全能文档解析工具 MegaParse、开源工具 Co-op Translator,以及 AI 工程的定义和未来趋势。产品部分详细介绍了亚马逊推出的 Nova 系列基础模型、Hume AI 推出的 Voice Control 功能,以及 Cohere 推出的新的搜索模型 Rerank3.5,以及腾讯推出的混元大模型 HunyuanVideo。最后,在市场部分,讨论了 OpenAI 计划推出的新品和服务,以及 AI Native 应用的特征和发展趋势。
阅读更多

什么是Agentic RAG?|莫尔索随笔 Vol.30

大家好!会员计划第 30 期会员通讯已送达!本期内容讨论了 Agentic RAG 及其在 AI 领域的应用,介绍了 ChunkRAG、Star Attention、ShowUI、Thanos 等模型和技术的最新进展,以及 DataWind 平台、LazyGraphRAG 模型、QwQ、GGUF-my-LoRA 平台、MCP、文本水印技术、纳米搜索等产品和工程的实践与发展,并探讨了 AI 在教育和营销领域的应用前景,以及 OpenAI 创始人 Sam 关于 AI 未来的看法。

阅读更多

可视化呈现RAG的工作过程|莫尔索随笔 Vol.29

本期内容详细介绍了大语言模型在流程自动化、算法设计、角色扮演产品设计、工程技术、产品创新以及市场发展等方面的最新进展和应用,并展示了可视化工具 RAGViz 的功能和作用。同时,还讨论了小语言模型的技术进展和应用场景,以及企业在生成式 AI 领域的投资趋势和挑战。
阅读更多