大家好!Weekly Gradient 第 42 期内容已送达!
大家好!Weekly Gradient 第 42 期内容已送达!
Vol.41:DeepSeek R1爆火之后,到底什么任务适合用 RL 做?
大家好!Weekly Gradient 第 41 期内容已送达!
Vol.40:Grok3 是否意味着预训练阶段 Scaling Law 已失效?
大家好!Weekly Gradient 第 40 期内容已送达!
Vol.39:从 DeepSeek R1 看 Scaling Law 的未来
大家好!Weekly Gradient 第 39 期内容已送达!
大家好!Weekly Gradient 第 38 期内容已送达!本期内容通过论文、工程、产品和市场四个部分, 论文部分讨论了大语言模型高效推理的综述,包括数据级优化、模型级优化和系统级优化三种思路,并详细介绍了 CyberMentor 框架的设计和应用,以及 OmniHuman-1 框架在人体动画生成方面的研究成果。工程部分分享了 Kimi k1.5 技术报告,介绍了 DeepSeek 的影响力和技术实现,以及 Unsloth 推出的 R1 推理模型的本地训练功能。产品部分展示了谷歌发布的 Gemini 2.0 Flash Thinking 推理模型加强版、豆包 APP 上线实时语音通话功能、Qwen2.5-Max 的智能探索、OpenAI 发布的 Deep Research 和 Operator 功能,以及 OpenAI o3-mini 的性能表现和精准学发布的 “超拟人一对一 AI 老师” 产品。市场部分报道了谷歌向 Anthropic 再投资的消息,大基金三期与上海国资成立 AI 投资基金,以及 Mistral AI 计划进行首次公开募股(IPO)。最后,DeepSeek一节澄清了公众对 DeepSeek 的误解,强调了其在技术创新和普及 AI 能力方面的贡献。
大家好!Weekly Gradient 第 37 期内容已送达!
大家好!Weekly Gradient 第 36 期内容已送达!
Vol.35:2024 年大模型领域的发展趋势和竞争格局全面回顾
大家好!Weekly Gradient 第 35 期内容已送达!
大家好!Weekly Gradient 第 34 期内容已送达!
Vol.33:为什么视频生成模型比文本生成模型发展速度更快?
大家好!Weekly Gradient 第 33 期内容已送达!