莫尔索随笔

2025-02-10发表会员计划1 小时读完 (大约8105个字)

大家好！Weekly Gradient 第 38 期内容已送达！本期内容通过论文、工程、产品和市场四个部分, 论文部分讨论了大语言模型高效推理的综述，包括数据级优化、模型级优化和系统级优化三种思路，并详细介绍了 CyberMentor 框架的设计和应用，以及 OmniHuman-1 框架在人体动画生成方面的研究成果。工程部分分享了 Kimi k1.5 技术报告，介绍了 DeepSeek 的影响力和技术实现，以及 Unsloth 推出的 R1 推理模型的本地训练功能。产品部分展示了谷歌发布的 Gemini 2.0 Flash Thinking 推理模型加强版、豆包 APP 上线实时语音通话功能、Qwen2.5-Max 的智能探索、OpenAI 发布的 Deep Research 和 Operator 功能，以及 OpenAI o3-mini 的性能表现和精准学发布的 “超拟人一对一 AI 老师” 产品。市场部分报道了谷歌向 Anthropic 再投资的消息，大基金三期与上海国资成立 AI 投资基金，以及 Mistral AI 计划进行首次公开募股（IPO）。最后，DeepSeek一节澄清了公众对 DeepSeek 的误解，强调了其在技术创新和普及 AI 能力方面的贡献。

2025-01-20发表会员计划1 小时读完 (大约6905个字)

Vol.37：2025 年 AI 编码类产品将如何演进？