会员计划说明

我要推出一个为期一年的会员计划,这篇文章我想从会员计划介绍、面向人群、会员权益、会员定价四个方面来介绍下,希望大家理性消费,务必先看权益部分的内容是否是自己未来一年内要聚焦和关注的,然后再看定价是否满足自己当前的消费能力。

阅读更多

从 DeepSeek R1 看 Scaling Law 的未来|莫尔索随笔 Vol.39

本期内容通过论文、工程、产品和市场四个部分,在论文部分,介绍了 GRPO 的应用与效果,包括在 Qwen2.5-0.5B 基础模型上的实验成果、模型限制、资源优化等;数据集与推理能力的探讨,如小数据集的潜力、LIMO 和 s1K 数据集的效果,以及推理深度与性能的关系;奖励函数与优化的研究,包括针对诗歌生成设计的奖励函数和余弦奖励函数的提出。此外,还介绍了 PIKE-RAG 在工业应用中解锁领域私有数据价值的方法,以及 R1-Zero 的训练过程中的三项重要发现。在工程部分,网页讨论了 Canva 如何使用图像相似性搜索来替换设计中的图片,以及 DeepSeek 火爆现象背后企业可以得到的实质提升。前 Facebook CTO 对智能体通信协议的看法,以及如何本地复现 Deep Research,都是工程实践的一部分。在产品和市场方面,网页提到了硅基流动和智谱、三星合作的产品发布,以及 2024 中国开源开发者报告、Apple 智能在国内的可能上线等市场动态。最后,网页提出了关于 S 型智能增长曲线的观点,讨论了从 DeepSeek R1 看 Scaling Law 的未来,以及解构 DeepSeek-R1 背后的技术突破。
阅读更多

关于 DeepSeek 的误读与真相|莫尔索随笔 Vol.38

本期内容通过论文、工程、产品和市场四个部分,论文部分讨论了大语言模型高效推理的综述,包括数据级优化、模型级优化和系统级优化三种思路,并详细介绍了 CyberMentor 框架的设计和应用,以及 OmniHuman-1 框架在人体动画生成方面的研究成果。工程部分分享了 Kimi k1.5 技术报告,介绍了 DeepSeek 的影响力和技术实现,以及 Unsloth 推出的 R1 推理模型的本地训练功能。产品部分展示了谷歌发布的 Gemini 2.0 Flash Thinking 推理模型加强版、豆包 APP 上线实时语音通话功能、Qwen2.5-Max 的智能探索、OpenAI 发布的 Deep Research 和 Operator 功能,以及 OpenAI o3-mini 的性能表现和精准学发布的 “超拟人一对一 AI 老师” 产品。市场部分报道了谷歌向 Anthropic 再投资的消息,大基金三期与上海国资成立 AI 投资基金,以及 Mistral AI 计划进行首次公开募股(IPO)。最后,DeepSeek一节澄清了公众对 DeepSeek 的误解,强调了其在技术创新和普及 AI 能力方面的贡献。
阅读更多

2025 年 AI 编码类产品将如何演进?|莫尔索随笔 Vol.37

本期内容通过论文、工程、产品和市场四个部分, 在论文部分,详细介绍了记忆层在语言模型中的应用、Search-o1 框架在推理任务中的作用、长视频生成的 ARLON 框架、多 Agent 框架 MACT 在表格问答任务中的应用,以及 MiniRAG 系统在轻量级 RAG 系统中的效能等。在工程领域,提到了多模态语言模型 MinMo、MiniCPM-o 2.6、Mistral 的 Codestral 25.01 版本、千问的数学推理过程奖励模型 Qwen2.5-Math-PRM 等。产品方面,讨论了 MiniMax 发布的新一代 01 系列模型、智谱的 GLM-Realtime 模型、书生浦语 3.0、InternLM 系列模型、Vidu AI 2.0 版本、OpenAI 推出的 ChatGPT 的「Tasks」功能、Luma Labs 的 Ray2、DeepSeek 官方 App、Product Hunt 上周最佳产品等。市场部分涉及了智谱被美国商务部列入实体清单、AI Coding 项目「新言意码」的融资情况、CES 2025 上的 AI 硬件产品、RTE 开发者社区与 InfoQ 研究中心发布的《RTE 和 AI 融合生态洞察报告 2024》等。最后,网页包含了 Cognition(Devin 背后的公司)创始人 & CEO Scott Wu 的采访,他对 AI 编码领域的未来发展和智能体化的重要性表示了看法。
阅读更多

YC 回顾 2024 年 AI 行业创业生态|莫尔索随笔 Vol.36

本期内容通过论文、工程、产品和市场四个部分,在论文方面,包括解决在资源受限的边缘设备上部署 RAG 的 EdgeRAG 系统、基于大语言模型的金融交易框架 TradingAgents、GraphRAG 技术的综述、用于讨价还价的 AgreeMate 框架、Agent 认知架构 CoALA 以及中国历史人物角色扮演语料库 BaiJia 等。在工程方面,提到了 SiliconCloud 的 LLM 在线 LoRA 微调功能、开源 AI 框架 Eliza、针对实时语音应用的 Ultravox 模型、NVIDIA 的 nv-ingest 微服务以及微软开源的 Phi-4 模型。产品部分,介绍了 AI 设计产品 Recraft 的发展策略、Cohere 推出的企业级搜索产品 North、NVIDIA 在 CES 2025 上展示的新技术和产品、雷鸟发布的 V3 AI 眼镜以及 CES 2025 上其他有亮点的硬件产品。最后,对市场进行了总结,包括 TAAFT 年终总结和 YC 对 2024 年 AI 创业生态的回顾,以及智源研究院发布的 2025 年十大 AI 技术趋势。
阅读更多

2024 年大模型领域的发展趋势和竞争格局全面回顾|莫尔索随笔 Vol.35

本期内容通过论文、工程、产品和市场四个部分,在论文方面,涉及了多模态信息转换为 tokens 并通过上下文预测下一个 token 的技术,微软披露了 GPT-4 系列模型的参数规模,探讨了样本比例和样本长度对微调大型预训练语言模型的影响,以及提出了 HybGRAG 方法以处理半结构化知识库中的问题检索。工程部分,Anthropic 发布了 MCP 2025 年上半年的发展路线图,SuperSonic 项目提升了数据查询和可视化的效率,以及对 2024 年大模型领域的发展趋势和竞争格局的回顾。产品部分,介绍了 Product Hunt 本周最佳产品,AI 搜索引擎的现状和未来发展趋势,Butterflies AI 社交媒体产品的特点,以及智谱发布的基于扩展强化学习技术训练的推理模型 GLM-Zero-Preview。市场部分,a16z 分析了 2025 年科技领域的大趋势,特别是 AI 领域的观点,以及 LangChain 发布的关于 AI 代理的报告。最后,提出了关于信息内容的抽象层次转换的观点。
阅读更多

对OpenAI o3模型的看法、思考与反思|莫尔索随笔 Vol.34

本期内容通过论文、工程、产品和市场四个部分,论文部分讨论了多模态大语言模型(MLLMs)在视觉空间智能、数学语音到公式转换、AI 代理在自治云环境中的应用、以及 LLM 幻觉现象的研究。工程部分介绍了 NVIDIA GPU 在 LLM 推理任务中的应用指南、多模态大模型在表格解析任务的效果、Hugging Face 的评估方法指南书、开源视觉推理模型 QVQ-72B-Preview 的性能、智谱技术开源的 GLM-PC 基座模型 CogAgent-9B,以及无问芯穹开源的端侧全模态理解模型 Megrez-3B-Omni。产品部分展示了 DeepSeek 新系列模型 DeepSeek-V3、百川智能的金融大模型 Baichuan4-Finance、Kimi 视觉思考模型 k1、AI 病历助手 Freed AI、以及利用 AI Agent 技术帮助企业在售前阶段找到潜在客户的 Clay。市场部分报告了阶跃星辰、像素绽放 PixelBloom 和 xAI 的融资情况,以及 2024 年 AI 应用开发平台的发展趋势和 AI 领域的整体发展情况。最后提供了两篇关于 OpenAI o3 模型的观点文章,分析了 o3 模型在编程竞赛、软件开发测试、数学测试和图形逻辑推理任务中的表现,并对其技术特性和未来发展进行了探讨。
阅读更多

为什么视频生成模型比文本生成模型发展速度更快?|莫尔索随笔 Vol.33

本期内容通过论文、工程、产品和市场四个部分,论文部分,在视频理解模型 Apollo 中,研究揭示了帧率(fps)采样与 token 数量(tps)之间的权衡,以及在视频编码器上的微调可以进一步提高性能。此外,论文还探讨了 OmniParser 在 OCR 领域的应用,以及 OCR 对 RAG 系统性能的影响。在多智能体大语言模型的研究中,提出了四种不同的范式,并讨论了其在对话任务中的应用。还有,研究团队提出了在潜在空间中进行推理的方法,以提高大语言模型在数学和逻辑推理任务中的性能。在工程方面,介绍了 Rockset 的混合搜索架构,以及 MarkitDown 和 PipeCat 等开源工具。PromptWizard 作为一个提示词自动优化框架,也被提及。产品部分,Google 发布了 Veo 2 和 Imagen 3,以及新工具 Whisk,提升了视频和图像生成的质量。GitHub Copilot 推出了免费版本,而 OpenAI 发布了 o1 模型的 API 以及最新的 o3 模型。Remento 和 DeepSeek-VL2 等新产品也被介绍。市场方面,智谱和爱诗科技完成了大规模融资,Perplexity 收购了 Carbon,以及 2024 年语音 AI 行业现状报告的内容也被总结。最后,网页提出了视频生成模型发展速度快的原因,并预测了 2025 年 AI 的六大趋势。
阅读更多

AI Creativity 赛道有哪些机会?|莫尔索随笔 Vol.32

本期内容通过论文、工程、产品和市场四个部分,全面展示了 AI 技术在各个领域的应用和影响。在论文部分,包括基于检索增强推理的 RARE 框架,提升了推理轨迹的准确性和相关性;HtmlRAG 项目,通过使用 HTML 而非纯文本来改善问答系统的性能;以及 MarketSenseAI,一个基于 GPT-4 的金融投资分析工具,实现了显著的投资回报。在工程方面,提到了 ChatBI 的技术路径,旨在通过生成式 AI 技术促进数据驱动决策;LiveKit Agents,一个开源的实时多模态 AI 应用开发框架;以及 OpenAI 实时 API 的技术细节,包括对话状态管理和实时语音应用的开发简化。产品部分,Meta 推出了新的 Llama 3.3 模型,提升了文本应用场景的性能;DeepSeek 发布了 DeepSeek-V2.5-1210 并支持联网搜索功能;OpenAI 举办了产品发布会,推出了多个新功能和产品,如 Sora 正式版和 Canvas 工具的全面开放。谷歌发布了性能超越 1.5 Pro 的多模态 AI 模型 Gemini 2.0,支持 Agent 功能,并探讨了其在游戏、机器人和深度研究方面的应用。市场动态方面,探讨了编码类 Agent 如何颠覆传统软件开发模式,以及 AI Creativity 赛道的机会,包括 Flux1、Ideogram 和 Midjourney 等公司的最新进展,以及视频生成领域的新趋势和产品形态。最后观点不,AI 行业正面临一个转折点,随着可用数据的接近极限,行业需要寻找新的训练方法,预训练模型时代即将结束,未来将进入超级智能时代。
阅读更多

AI Native 应用长什么样?|莫尔索随笔 Vol.31

本期内容通过论文、工程、产品和市场四个部分,全面展示了 AI 技术在各个领域的应用和影响。在论文部分,介绍了基于大语言模型(LLM)的模型评估智能助手CriticAL,以及基于扩散模型的系统 AnchorCrafter,用于生成包含人类 - 物体交互的 2D 视频。文章还探讨了大模型幻觉现象的原因和解决策略,以及集成 LLM 的统一商业智能平台 DataLab。在工程部分,提到了面向 LLM 的内容组织标准、全能文档解析工具 MegaParse、开源工具 Co-op Translator,以及 AI 工程的定义和未来趋势。产品部分详细介绍了亚马逊推出的 Nova 系列基础模型、Hume AI 推出的 Voice Control 功能,以及 Cohere 推出的新的搜索模型 Rerank3.5,以及腾讯推出的混元大模型 HunyuanVideo。最后,在市场部分,讨论了 OpenAI 计划推出的新品和服务,以及 AI Native 应用的特征和发展趋势。
阅读更多