Tag: 长上下文
全部标签 "长上下文".
-
DeepSeek-V4 技术解读:1M Context、MoE 稳定性与低精度训练的工程取舍
基于 DeepSeek-V4 技术报告系统梳理 DeepSeek-V4 在 1M Context、MoE 训练稳定性、FP8/FP4 低精度训练、Muon 分布式实现上的关键工程取舍,并说明这些设计与检索质量、训练成本和系统复杂度之间的关系。
-
字节豆包大模型深度评测:API 性能、长上下文与 AI 应用开发
深度评测字节跳动豆包大模型,分析其 API 吞吐、函数调用、长上下文能力,探讨其在 AI 应用开发中的适用性与企业选型价值。