Vol.40:Grok3 是否意味着预训练阶段 Scaling Law 已失效?

本期内容通过论文、工程、产品和市场四个部分,论文部分讨论了大语言模型在问答系统中的多样性增强、基于图的问答框架的改进、以及在潜在空间中进行推理的新范例。工程部分展示了 DeepSeek R1 模型的应用实例、多模态模型的开源发布以及 AI 面试平台 FoloUp 的特性。产品部分介绍了新 Email 的推出、知乎直答的升级以及其他 AI 搜索产品的进展。市场部分分析了 DeepSeek 在中国的应用案例、微信搜索的 AI 搜索功能灰度测试、以及 YC 在孵化 AI 初创企业方面的成功经验。此外,还提到了 Product Hunt 2024 年的金喵奖榜单,以及从 DeepSeek-R1 看 2025 模型未来的趋势和可能性。
阅读更多

Vol.39:从 DeepSeek R1 看 Scaling Law 的未来

本期内容通过论文、工程、产品和市场四个部分,在论文部分,介绍了 GRPO 的应用与效果,包括在 Qwen2.5-0.5B 基础模型上的实验成果、模型限制、资源优化等;数据集与推理能力的探讨,如小数据集的潜力、LIMO 和 s1K 数据集的效果,以及推理深度与性能的关系;奖励函数与优化的研究,包括针对诗歌生成设计的奖励函数和余弦奖励函数的提出。此外,还介绍了 PIKE-RAG 在工业应用中解锁领域私有数据价值的方法,以及 R1-Zero 的训练过程中的三项重要发现。在工程部分,网页讨论了 Canva 如何使用图像相似性搜索来替换设计中的图片,以及 DeepSeek 火爆现象背后企业可以得到的实质提升。前 Facebook CTO 对智能体通信协议的看法,以及如何本地复现 Deep Research,都是工程实践的一部分。在产品和市场方面,网页提到了硅基流动和智谱、三星合作的产品发布,以及 2024 中国开源开发者报告、Apple 智能在国内的可能上线等市场动态。最后,网页提出了关于 S 型智能增长曲线的观点,讨论了从 DeepSeek R1 看 Scaling Law 的未来,以及解构 DeepSeek-R1 背后的技术突破。
阅读更多

2024 年终总结

今年起,每年的年终总结需要更加具体,并继续坚持最初受益的原则进行决策和行动,这个迭代过程,应该蛮有意思的。

阅读更多

Vol.38:关于 DeepSeek 的误读与真相

本期内容通过论文、工程、产品和市场四个部分,论文部分讨论了大语言模型高效推理的综述,包括数据级优化、模型级优化和系统级优化三种思路,并详细介绍了 CyberMentor 框架的设计和应用,以及 OmniHuman-1 框架在人体动画生成方面的研究成果。工程部分分享了 Kimi k1.5 技术报告,介绍了 DeepSeek 的影响力和技术实现,以及 Unsloth 推出的 R1 推理模型的本地训练功能。产品部分展示了谷歌发布的 Gemini 2.0 Flash Thinking 推理模型加强版、豆包 APP 上线实时语音通话功能、Qwen2.5-Max 的智能探索、OpenAI 发布的 Deep Research 和 Operator 功能,以及 OpenAI o3-mini 的性能表现和精准学发布的 “超拟人一对一 AI 老师” 产品。市场部分报道了谷歌向 Anthropic 再投资的消息,大基金三期与上海国资成立 AI 投资基金,以及 Mistral AI 计划进行首次公开募股(IPO)。最后,DeepSeek一节澄清了公众对 DeepSeek 的误解,强调了其在技术创新和普及 AI 能力方面的贡献。
阅读更多

Serverless GPU (弹性 GPU 服务)的前世今生

当Serverless GPU 不使用时,它会关闭。这意味着第一次使用它时,它需要启动,这可能需要几秒钟到几分钟,具体取决于模型大小。如果您正在运行实时应用,这可能是一个问题。在云数据中心内,用户需要部署各种各样的大模型推理服务,占用海量GPU资源。为了减少GPU资源的使用,许多云服务提供商正在探索使用服务器无感知计算的范式来运行大模型推理服务。此时,当针对一种模型的请求到来时,系统才会为该模型分配资源并加载到对应GPU上,以此来提高资源利用率。然而,由于预训练的大模型往往具有GB至TB量级的大小,所以加载模型的过程会消耗相当长的时间,导致推理服务无法真正部署。使用预留实例的方案可以解决此问题,但是预留实例会消耗大量GPU资源,失去服务器无感知计算的优势。另一种将模型缓存在内存里的解决方案只适用于小模型,因为以大模型的规模,它们往往无法被全部放入内存。

阅读更多

Vol.37:2025 年 AI 编码类产品将如何演进?

本期内容通过论文、工程、产品和市场四个部分, 在论文部分,详细介绍了记忆层在语言模型中的应用、Search-o1 框架在推理任务中的作用、长视频生成的 ARLON 框架、多 Agent 框架 MACT 在表格问答任务中的应用,以及 MiniRAG 系统在轻量级 RAG 系统中的效能等。在工程领域,提到了多模态语言模型 MinMo、MiniCPM-o 2.6、Mistral 的 Codestral 25.01 版本、千问的数学推理过程奖励模型 Qwen2.5-Math-PRM 等。产品方面,讨论了 MiniMax 发布的新一代 01 系列模型、智谱的 GLM-Realtime 模型、书生浦语 3.0、InternLM 系列模型、Vidu AI 2.0 版本、OpenAI 推出的 ChatGPT 的「Tasks」功能、Luma Labs 的 Ray2、DeepSeek 官方 App、Product Hunt 上周最佳产品等。市场部分涉及了智谱被美国商务部列入实体清单、AI Coding 项目「新言意码」的融资情况、CES 2025 上的 AI 硬件产品、RTE 开发者社区与 InfoQ 研究中心发布的《RTE 和 AI 融合生态洞察报告 2024》等。最后,网页包含了 Cognition(Devin 背后的公司)创始人 & CEO Scott Wu 的采访,他对 AI 编码领域的未来发展和智能体化的重要性表示了看法。
阅读更多

2024 年大模型基础设施与中间件工具链生态演进—— ChatGPT 发布两周年记

原本计划写一篇《ChatGPT 发布两周年记》的文章,以呼应去年的总结性文章 ChatGPT 发布一周年记,但最近太太忙了,现在都快 1 月中旬了,这个题目已经不太严谨了:),决定换个题目,从开发者角度聊聊过去一年从基础模型到开发者工具生态的个人观察,文章会分为三部分:

基础模型:总结一年来基础模型层面的发展,这个是基本。

开发者工具生态:聊聊大模型开发者工具生态系统的发展,涵盖基础模型服务商、中间层产品以及标志性开源项目。

2025 年关注方向:最后延伸浅谈一下 2025 年个人重点关注的 AI 发展方向。

阅读更多

Vol.36:YC 回顾 2024 年 AI 行业创业生态

本期内容通过论文、工程、产品和市场四个部分,在论文方面,包括解决在资源受限的边缘设备上部署 RAG 的 EdgeRAG 系统、基于大语言模型的金融交易框架 TradingAgents、GraphRAG 技术的综述、用于讨价还价的 AgreeMate 框架、Agent 认知架构 CoALA 以及中国历史人物角色扮演语料库 BaiJia 等。在工程方面,提到了 SiliconCloud 的 LLM 在线 LoRA 微调功能、开源 AI 框架 Eliza、针对实时语音应用的 Ultravox 模型、NVIDIA 的 nv-ingest 微服务以及微软开源的 Phi-4 模型。产品部分,介绍了 AI 设计产品 Recraft 的发展策略、Cohere 推出的企业级搜索产品 North、NVIDIA 在 CES 2025 上展示的新技术和产品、雷鸟发布的 V3 AI 眼镜以及 CES 2025 上其他有亮点的硬件产品。最后,对市场进行了总结,包括 TAAFT 年终总结和 YC 对 2024 年 AI 创业生态的回顾,以及智源研究院发布的 2025 年十大 AI 技术趋势。
阅读更多

Vol.35:2024 年大模型领域的发展趋势和竞争格局全面回顾

本期内容通过论文、工程、产品和市场四个部分,在论文方面,涉及了多模态信息转换为 tokens 并通过上下文预测下一个 token 的技术,微软披露了 GPT-4 系列模型的参数规模,探讨了样本比例和样本长度对微调大型预训练语言模型的影响,以及提出了 HybGRAG 方法以处理半结构化知识库中的问题检索。工程部分,Anthropic 发布了 MCP 2025 年上半年的发展路线图,SuperSonic 项目提升了数据查询和可视化的效率,以及对 2024 年大模型领域的发展趋势和竞争格局的回顾。产品部分,介绍了 Product Hunt 本周最佳产品,AI 搜索引擎的现状和未来发展趋势,Butterflies AI 社交媒体产品的特点,以及智谱发布的基于扩展强化学习技术训练的推理模型 GLM-Zero-Preview。市场部分,a16z 分析了 2025 年科技领域的大趋势,特别是 AI 领域的观点,以及 LangChain 发布的关于 AI 代理的报告。最后,提出了关于信息内容的抽象层次转换的观点。
阅读更多