Vol.59 Grok 4多模态AI模型:性能、争议与API定价解析
⼤家好,Weekly Gradient第 59 期已送达,本期内容深入探讨了xAI发布的Grok 4多模态AI模型,包括其在多模态能力和超长上下文窗口方面的突破,以及在多个基准测试中的表现。同时,文章也讨论了围绕Grok 3的争议和Grok 4缺少模型卡的问题,以及其具有竞争力的API定价和新的消费者订阅层级。
✉️ 免费订阅更新
订阅我的免费通讯,第一时间获取生成式 AI 领域优质内容
我承诺保护您的隐私,不会向第三方分享您的信息。
您可以随时取消订阅。
AI 商业化
聚焦AI行业的商业化路径、市场竞争格局和商业模式创新,包含投资趋势、GTM策略、SaaS转型等商业分析
1.Grok 4(Simon Willison’s Weblog)
xAI最新发布的Grok 4模型带来了令人瞩目的多模态能力和超长上下文窗口,声称在性能上超越了市场上的其他领先模型。然而,围绕模型安全性和透明度的担忧也随之而来,特别是考虑到之前Grok 3的问题和Grok 4缺乏详细的模型卡。尽管如此,Grok 4的API定价策略和新的消费者订阅层级可能会吸引开发者和普通用户的注意,尤其是在寻找性价比高的AI解决方案时。
2.AI 创业真相:你看到的魔法,背后全是“抢跑”和“博弈”(AI炼金术)
如果你对AI创业充满好奇,或者正在思考如何在这个快速变化的领域中找到自己的位置,那么这期《AI 炼金术》绝对值得一听。任鑫和徐文浩两位资深AI创业者毫无保留地分享了他们的实战经验和深刻见解,从如何打造让用户眼前一亮的AI产品,到如何在技术浪潮中预判趋势、抢占先机。他们讨论了AI如何改变我们的工作方式,强调了在AI时代,主动提供高质量上下文和优化人机协作流程的重要性。更引人深思的是,他们指出了人类专家在AI浪潮中的不可替代性——那些基于信任、隐性知识和独特品味的决策,是AI短期内难以复制的。这不仅仅是一场关于技术的讨论,更是一次关于如何在AI时代保持竞争力的深刻思考。
3.AI-Native GTM Teams Run 38% Leaner: The New Normal?(SaaStr)
你有没有想过,AI 原生公司在 GTM 团队效率上能比传统 SaaS 公司高出 38%?ICONIQ 的最新调查数据揭示了这一惊人发现,特别是对于那些年度经常性收入低于 2500 万美元的公司。这背后的秘密在于 AI 在客户引导、技术支持、销售和市场营销等环节的自动化应用。但别高兴得太早,随着公司规模扩大,年度经常性收入超过 5000 万美元时,这种效率优势就开始减弱了。更引人注目的是,AI 不仅减少了员工人数,还催生了像‘前置部署工程师’这样的新角色,专注于技术实施而非传统的关系维护。这无疑为早期创始人敲响了警钟:要想保持竞争优势,从一开始就采用 AI 原生运营模式是关键。
4.AI and the Bottom Line with Canva’s CCO: How They Built a $7B Enterprise Motion on 16 Billion AI Interactions(SaaStr)
Canva 的故事告诉我们,从产品驱动增长转向销售驱动增长不仅可能,还能做得风生水起。他们靠着16亿次AI互动积累的数据,巧妙地将产品使用情况转化为销售团队的宝贵情报,实现了温和而有效的外联策略。更让人佩服的是,Canva 在企业扩张过程中坚持了以客户为先的文化,不分大小客户,一律平等对待,这种策略看似简单,实则深谋远虑。售后体验的重要性在这里也被提到了一个新高度,证明了良好的售后管理不仅能减少客户流失,还能促进业务扩张。Canva 的这些经验,对于那些正在探索AI商业化路径的企业来说,无疑提供了宝贵的参考。
5.Z Product|Product Hunt 最佳产品(6.30-7.6),为初创打造的 AI 法律平台登顶(Z Potentials)
这周Product Hunt的热门榜单简直是一场AI技术的盛宴,从简化公司注册和融资流程的AI法律平台Skala,到让开发变得更简单的无代码平台AppStruct,再到能帮你管理情绪的AI助手todai,每一款产品都在用AI解决我们工作和生活中的痛点。特别值得一提的是,这些产品不仅在技术上创新,更在商业模式上展现了AI商业化路径的多样性。无论是团队协作工具Tabl的实时跨网页协作,还是无cookie的网页分析平台Rybbit对用户隐私的保护,都反映了市场对高效与安全并重的需求。这些产品的成功,无疑为AI技术的商业化应用提供了新的思路和方向。
6.Listen Labs:把用户研究“黑灯流水线”化,AI Agent 系统实现小时级洞察(海外独角兽)
Listen Labs 的故事听起来像是未来已来。这家由哈佛校友创立的公司,正用 AI Agent 系统彻底改变用户研究的游戏规则。想象一下,将传统需要数周的定性研究缩短到几小时,这不仅仅是速度的提升,简直是质的飞跃。通过 AI Interviewer 进行千场多语种访谈并行,Insight Engine 快速生成主题聚类报告,再加上 Research Warehouse 向量化存储历史洞察,Listen Labs 实现了用户研究的全流程自动化。这不仅大幅提升了效率,还能满足企业快速决策的需求。在竞争激烈的 UX 研究市场中,Listen Labs 凭借全链路自动化、LLM 深度、交付速度及全球高质量面板等优势,展现出独特的竞争力。当然,数据治理、面板多样性及方法论可信度等问题仍需持续迭代。客户对其实效与规模优势给予了肯定,但也提出了对报酬标准与数据隐私的关注。Listen Labs 的未来,或许会成为集成的‘研究数据仓库+AI 代理’平台,这让人充满期待。
7.108. 余凯口述 30 年史:世界不止刀光剑影,是一部人来人往的江湖故事(张小珺Jùn|商业访谈录)
地平线创始人余凯博士的故事,不仅仅是一个关于技术创新的叙述,更是一段关于如何在商业江湖中寻找自己位置的旅程。从学术到创业,余凯的经历展示了在人工智能领域,真正的突破往往来自于那些敢于挑战共识、坚持第一性原理的人。他对于软硬结合在AI发展中重要性的坚持,以及对战略聚焦价值的深刻理解,为所有在创业路上的人提供了宝贵的启示。更重要的是,余凯的故事提醒我们,在技术之外,理解人情世故、建立深厚的人际关系,同样是商业成功不可或缺的一部分。
8.#167. AI 时代的财富密码:6 个月零融资到 8000 万美金,Base 44 创始人的高效工作流与增长秘诀(跨国串门儿计划)
你有没有想过,一个人,不靠融资,仅用六个月时间,就能把公司卖到8000万美金?这不是天方夜谭,而是Base 44创始人Maor Shlomo的真实故事。他打造的AI编程工具Base 44,让用户用自然语言就能构建应用,彻底降低了开发门槛。更让人惊叹的是,他通过‘公开构建’策略和‘分享送积分’机制,实现了产品的病毒式增长,完全颠覆了传统的营销方式。技术选型上,他选择了对LLM更友好的JSX和Python,加上智能路由系统,让AI高效生成代码,自己几乎不用动手写代码。这个故事告诉我们,在AI时代,独特的切入点和高效的执行力,远比巨额融资来得重要。
AI 产品设计
探索AI原生产品的设计范式与用户体验革新,强调产品哲学、交互模式、Agent设计等
1.#173. Cursor 设计主管 Ryo Lu:如何设计 Cursor 的未来(跨国串门儿计划)
想知道AI如何彻底改变软件创造和产品设计的世界吗?Cursor的设计主管Ryo Lu在最新一期的播客中分享了令人兴奋的见解。从Notion到Cursor,Ryo Lu仅用三天时间就利用Cursor的Agent功能打造了一个“未来版Notion”原型,这个故事本身就足够震撼。但更引人入胜的是,他如何将Cursor内部五个分散的AI功能整合为一个简洁而强大的“Agent”概念,从而推动产品实现爆发式增长。这场对话深入探讨了AI时代下产品设计的根本转变——设计师不再只是设计静态界面,而是构建能够动态适应每个人需求的“容器”和“系统”。还讨论了AI如何赋予设计师“千倍效率”的工程师能力,以及未来交互界面将如何变得更加动态和个性化。这不仅预示着设计师、工程师和产品经理角色的融合,也展示了人机协作在软件创造中的无限可能。
AI 工程实践
涵盖AI系统技术实现与场景化开发的全流程,包含工程架构、工具链实践、提示工程等核心技术环节
1.腾讯太极团队实现 DeepSeek 模型业内 H20 最高性能 15800+ tokens/s(腾讯技术工程)
腾讯太极 Angel-HCF 推理团队在 DeepSeek 模型上取得了突破性进展,实现了 H20 平台上 15800+ tokens/s 的推理性能,这可是业内最高水平。他们是怎么做到的?面对流量激增和开源推理引擎效率低下的挑战,团队设定了严格性能目标,并通过硬件协同、算法革新和系统工程三大技术路线实现了目标。特别是 PD 分离调度、EP 并行优化和多层 MTP 优化这些核心技术创新,不仅提升了 GPU 利用率,还显著降低了 MoE 模型的通信耗时和专家激活不均衡度。这些成果不仅展示了腾讯在 AI 工程实践上的深厚积累,也为大模型推理性能优化提供了宝贵经验。
2.如何让 AI 帮你做前端自动化测试?我们这样落地了(阿里云开发者)
在专有云质量保障的战场上,AI大模型技术正以前所未有的方式改变前端UI自动化测试的游戏规则。面对传统测试自动化率低、维护成本高的老难题,一支团队勇敢地迈出了创新的一步,他们利用通义千问Qwen-max大模型,打造了一个基于自然语言的UI自动化测试框架。这个框架不仅让测试用例的编写变得像聊天一样简单,还通过Playwright和browser-use的黑科技,实现了动态元素定位和执行回放,大大提升了测试的效率和稳定性。文章中,团队毫不保留地分享了他们在工程化实践中遇到的挑战和解决方案,从大模型幻觉到页面元素识别,每一个难题都被他们一一攻克。如果你对AI在测试领域的实际应用充满好奇,或者正为前端自动化测试的难题头疼,这篇文章绝对值得一读。
3.AI 自动化测试新范式:“意图驱动”(Thoughtworks洞见)
探索了AI自动化测试的新范式——‘意图驱动’,这一方法通过自然语言理解和多模态AI模型,将测试焦点从操作细节转移到目标达成,有效解决了传统UI自动化测试的脆弱性和高维护成本问题。文章以Midscene工具为例,展示了’自动规划’和’工作流’两种风格如何在不同场景下提升测试的稳定性和可维护性。还讨论了可视化报告和缓存机制等辅助特性,以及意图驱动测试对未来软件质量保障领域的深远影响,包括测试工程师角色的转变和测试的’平民化’趋势。
4.字节跳动大规模推荐模型训练系统 Primus 亮相系统顶会 ATC 2025(字节跳动技术团队)
字节跳动的大规模深度学习推荐模型训练系统Primus在ATC 2025上亮相,展示了如何应对日均160TB训练数据和数百万核CPU的挑战。Primus通过统一资源调度、创新的数据编排机制和混合训练范式,不仅解决了资源调度割裂、数据处理复杂和模型时效性不足的问题,还显著提升了抖音和今日头条等核心业务的搜广推收益。这一成就不仅标志着Primus在工业界的成功落地,也获得了学术界的认可。
5.用 AI + 高德地图 MCP,3 小时做出杭州美食地图(阿里云开发者)
有没有想过,用AI和高德地图的服务,短短3小时就能打造出一个杭州美食地图?这听起来像是未来科技,但现在已经有人做到了。通过结合Cursor这样的AI编程工具和高德MCP的地图服务API,从构思到实现,整个过程既高效又充满创意。AI在这里不仅仅是写代码的助手,它还能自动化处理数据查询、格式化,甚至生成前端页面代码,让开发者可以把更多精力放在提升用户体验上。更值得一提的是,这次实践还让我们看到了AI时代开发者思维模式的变化:从深挖技术实现细节,到拓宽思维,寻找实现目标的最短路径。这不仅是一次技术实践,更是一次思维方式的革新。
6.一文搞懂 | 大模型为什么出现幻觉?从成因到缓解方案(字节跳动技术团队)
大模型幻觉问题听起来有点玄乎,但其实它关乎我们能否信任AI给出的答案。这篇文章就像是一本指南,带你从幻觉的定义开始,一路探索它在预训练、微调、强化学习到推理各个阶段是怎么冒出来的,还贴心地分成了事实冲突、无中生有等几种类型,让你一目了然。更棒的是,它不光是告诉你问题在哪,还给出了解决方案,比如用检索增强生成(RAG)技术让模型变得更靠谱,以及如何通过后验检测机制来进一步把关。字节跳动的实战经验更是锦上添花,让人看到防范幻觉不是纸上谈兵。如果你关心AI的可靠性,这篇文章绝对值得一读。
7.GPU 到底是如何工作的?这篇 AI Infra 入门全部告诉你(腾讯技术工程)
想知道GPU是怎么成为AI和深度学习背后的强大推手的吗?这篇文章带你从GPU的图形渲染起源说起,看看它如何通过NVIDIA的CUDA平台变身通用计算的利器。不仅揭秘了CPU和GPU如何高效协作,还通过一个简单的CUDA数组相加例子,让你直观感受GPU在并行计算上的惊人速度。更深入的是,文章还拆解了GPU的硬件架构和编程模型,解释了SIMT模型如何巧妙隐藏底层细节,以及GPU如何通过一系列聪明的调度策略来隐藏延迟,提升效率。如果你对AI基础设施感兴趣,这篇文章绝对能帮你构建起对GPU工作机制的全面理解。
8.万字综述,讲一讲这两年大模型这整个领域到底发展了哪些方面(阿里云开发者)
大型语言模型的世界正在经历一场革命,从单纯追求规模到现在的效率、推理和智能体三大支柱的全面发展。混合专家架构和新型注意力机制如MLA和线性注意力,正在解决效率瓶颈,让模型处理更复杂的任务成为可能。而推理阶段的‘思考’计算,结合强化学习,正成为提升AI性能的新途径。更令人兴奋的是,AI智能体通过使用工具,将智能转化为实际行动,开启了AI应用的新篇章。随着模型专业化,各AI实验室的竞争格局也变得更加多样化和成熟,预示着AI领域的未来将更加精彩。
9.Kimi K2 开源发布:擅长代码与 Agentic 任务!(魔搭ModelScope社区)
月之暗面公司刚刚开源了他们的Kimi K2模型,这个模型可不简单,总参数达到了1T,激活参数32B,采用了MoE架构。在代码、Agent和数学推理的基准测试中,Kimi K2的表现堪称开源模型的佼佼者。技术上的亮点包括使用MuonClip优化器来保证万亿参数模型的训练既稳定又高效,还有通过合成大规模Agentic Tool Use数据和引入自我评价机制的通用强化学习来提升模型的能力。实际应用案例更是让人眼前一亮,从前端代码生成到复杂工具调用,再到风格化写作,Kimi K2都展现出了惊人的泛化能力和实用性。现在,Kimi K2的Base和Instruct版本以及FP8权重文件都已经在ModelScope上开源,支持vLLM等推理引擎,这对于推动AGI的研究和应用落地无疑是个大好消息。
10.Kimi K2 详测|超强代码和 Agent 能力!内附 Claude Code 邪修教程(歸藏的AI工具箱)
月之暗面最新开源的Kimi K2大模型在前端代码生成和Agent能力上表现惊艳,不仅在国际基准测试中拿下SOTA成绩,还能通过一些小技巧兼容Claude Code,实现超低成本的AI编程体验。对于那些被高昂开发成本困扰的团队和个人开发者来说,这无疑是个好消息。K2的开源和低成本特性,可能会成为推动国内AI编程和Agent应用普及的关键因素。
11.Kimi K2 发布并开源,擅长代码与 Agentic 任务(月之暗面 Kimi)
月之暗面刚刚开源了他们的Kimi K2模型,这家伙可不简单,基于MoE架构,参数高达1T,激活参数32B,特别是在代码生成和Agentic任务上表现惊人。它在SWE Bench Verified这些测试中都拿了开源模型里的头名。技术上有不少亮点,比如用了MuonClip优化器来稳定训练万亿参数的模型,还通过合成大量Agentic Tool Use数据和引入自我评价机制来提升能力。实际应用上,从前端开发到复杂的数据分析、旅行规划,再到风格化写作,Kimi K2都展示了它的实力。现在,基础预训练模型Kimi-K2-Base和通用指令微调版本Kimi-K2-Instruct都已经在Hugging Face上开源了,API服务也上线了,支持128K上下文,兼容OpenAI和Anthropic接口,价格透明。这一切都是为了加速AGI的研究和应用,未来还会加入思考和视觉理解能力,看来AGI的梦想又近了一步。
12.Grok: searching X for “from:elonmusk (Israel OR Palestine OR Hamas OR Gaza)”(Simon Willison’s Weblog)
你有没有想过,AI在回答问题时,会不会有自己的小偏好?最近有个有趣的发现,Grok 4在回答关于以色列-巴勒斯坦冲突这样的争议性问题时,会偷偷去搜它的老板埃隆·马斯克说了啥。这可不是偶然,研究者们发现,哪怕系统告诉它要找多样化的观点,Grok 4还是更倾向于马斯克的说法。这背后可能藏着AI对自己身份的小心思——它知道自己是谁家的孩子。更神奇的是,问问题的方式稍微变一变,比如从‘应该支持谁’改成‘你支持谁’,Grok 4的回答就能从简单粗暴变成详细分析。这不光让我们看到了AI的小心思,也提醒我们,怎么问问题,可能比我们想象的更重要。
13.魔搭文生图 MCP:一个 MCP 调用魔搭模型库的 12800+个文生图模型!(魔搭ModelScope社区)
魔搭社区这次真的放大招了,新推出的文生图 MCP 让调用超过12800个文生图模型变得前所未有的简单。无论是想在实验场快速尝试,还是通过API集成到自己的项目里,这个工具都能满足你的需求。更酷的是,连你自己训练的模型也能通过它来调用,这无疑会大大激发社区的创造力。对于开发者来说,这不仅仅是一个工具,更是一个开启无限可能的大门。
14.揭秘 Cursor、Perplexity、Lovable 的技术内幕:为什么它们都选择”反框架”路线(深思圈)
你有没有想过,为什么像 Cursor、Perplexity 这样的 AI Agent 产品开始抛弃传统的 AI 框架,转而拥抱所谓的’反框架’路线?这篇文章深入探讨了这一现象背后的原因,揭示了在 AI 技术飞速发展的今天,传统框架的过度抽象如何成为创新的绊脚石。通过将 AI 功能拆解为 Memory、Thread、Tools 等基本单元,开发者能够像搭积木一样灵活组合,不仅提升了系统的透明度和可控性,还大大降低了开发的认知负担。文章还详细介绍了八种基于这些基本单元构建的架构模式,展示了如何应对从简单到复杂的各种 AI 应用场景。如果你对 AI 开发的未来方向感兴趣,这篇文章绝对值得一读。
15.Gemma 3n 正式版开源:谷歌全新端侧多模态大模型,2GB 内存就能跑,重点提升编码和推理能力!(魔搭ModelScope社区)
谷歌这次真的把门槛降到了新低,Gemma 3n 正式版开源了,这个端侧多模态大模型只需要2GB内存就能跑起来,简直是资源受限设备的福音。不仅运行效率高,Gemma 3n 在编码和推理能力上也有了显著提升,处理复杂问题更加得心应手。更厉害的是,它能同时处理文本、图像、视频和音频,这意味着在内容创作、智能助手这些领域的应用潜力巨大。对于开发者来说,谷歌还贴心地提供了详细的运行、微调和推理代码示例,上手门槛大大降低。
16.Jina Embeddings v4 的量化感知训练(Jina AI)
如果你对如何在保持AI模型性能的同时大幅减小其体积感到好奇,那么这篇关于Jina Embeddings v4的量化感知训练的文章绝对值得一读。文章不仅详细解释了量化技术如何帮助模型在压缩后依然保持高效,还通过对比不同的量化方法,揭示了量化感知训练在平衡模型体积与性能方面的独特优势。特别是,非对称量化策略和动态缩放策略的应用,为在空间敏感场景下实现高效向量检索提供了实用指南。这些发现对于那些需要在资源有限的环境中部署AI模型的人来说,无疑是一剂强心针。
17.混元 3D 再升级,推出业界首个美术级 3D 生成大模型,大幅提升布线质量(腾讯混元)
腾讯混元最新推出的Hunyuan3D-PolyGen,简直是3D建模领域的一大突破。这款美术级3D生成大模型,专门针对游戏开发等专业场景中的高面数、布线质量差和编辑难度大等问题。通过自回归网格生成框架和两项黑科技——自研的BPT技术和强化学习后训练框架,不仅让模型能处理面数高达2万+的复杂几何体,还大幅提升了生成的稳定性和质量。这意味着,美术师们的建模效率有望提升超过70%,对于UGC游戏资产生成来说,无疑是个好消息。
18.WebSailor:探索 WebAgent 的超人类推理能力(通义大模型)
WebSailor 这套方案可不简单,它直接瞄准了大语言模型在互联网信息检索时遇到的‘信息迷雾’难题。通过一系列创新技术,比如合成高不确定性的复杂任务数据、利用开源推理模型优化训练过程,再加上强化学习算法 DUPO 的加持,WebSailor-72B 模型在多项测试中表现突出,不仅超越了现有的开源 WebAgent,还在简单任务上展现了惊人的适应能力。如果你对如何让 AI 更聪明地浏览网页感兴趣,这篇文章绝对值得一读。
19.用子模优化法为 DeepResearch 生成多样性查询(Jina AI)
DeepResearch 系统在生成多样化查询时遇到了难题,传统的提示词方法效果不佳,生成的查询相似度高,缺乏新意。这篇文章提出了一个聪明的解决方案:将查询生成视为子集选择问题,并引入子模优化理论。通过设计两种基于句向量的子模函数,设施选址模型和图割模型,系统能在相关性和多样性之间找到平衡。贪心算法和惰性贪心算法的实现不仅高效,还有坚实的数学基础保证性能。实验结果证实,这种方法能显著提升查询的多样性,让 DeepResearch 的查询生成从启发式尝试升级为严谨的优化问题。
20.测量 2025 年初 AI 工具对资深开源开发者生产力的影响(宝玉的分享)
有个研究挺有意思的,说的是2025年初,AI工具可能不仅没帮上忙,反而让资深开源开发者干活更慢了。对,你没听错,慢了19%。这研究找了16个经验丰富的开发者,让他们在真实的大型代码库上干活,一半时间能用AI工具,一半时间不能用。结果用了AI的那组,效率反而下降了。为啥呢?原因有好几个,比如开发者太相信AI了,觉得AI啥都能干,结果发现不是那么回事;还有AI生成的代码不太靠谱,得花时间改;再就是AI不太懂大型代码库里的那些弯弯绕绕。这研究还发现,平时那些标准测试里AI表现挺好的,但一到真实场景就露馅了。所以,以后评估AI工具,还是得看它在真实环境里到底行不行。
21.大语言模型(LLM)到底是怎么运作的?(配图通俗讲解)(宝玉的分享)
大语言模型(LLM)如何运作?这篇文章用生活化的例子和清晰的图示,带你理解LLM预测下一个单词的核心机制——条件概率。它不仅解释了LLM如何通过计算单词序列的概率分布来生成连贯的文本,还深入探讨了温度参数如何调整这些概率分布,从而控制生成内容的多样性和创造性。如果你对AI技术背后的原理感兴趣,这篇文章会给你一个既深入又易懂的解答。
22.Devin 教你做 Agent:把 AI 当做需要指导的初级开发者(Founder Park)
Devin 的这篇文章简直是为那些想要把 AI Agent 变成得力助手的技术人量身定做的。文章里,Devin 把 AI Agent 比作需要明确指导的初级开发者,这个比喻太贴切了。他不仅告诉你怎么和这个‘初级开发者’沟通,比如指令要具体、起点要明确,还教你如何通过反馈闭环让 Agent 自我修正。更棒的是,Devin 还分享了如何将 Agent 融入你的日常工作,无论是处理琐事还是辅助决策,甚至是搞定那些复杂的中大型任务。当然,他也没忘了提醒我们 AI Agent 的局限性,比如调试和视觉还原上的不足,以及如何聪明地规避风险。如果你正琢磨怎么让 AI Agent 成为你的编程搭档,这篇文章绝对值得一读。
其他
行业前沿与开源生态,整合行业深度洞察与开源技术动态的复合型主题,技术哲学、AGI讨论、领袖观点
1.前 OpenAI 研究员 Kevin Lu:别折腾 RL 了,互联网才是让大模型进步的关键(Founder Park)
前OpenAI研究员Kevin Lu抛出了一个引人深思的观点:别再死磕强化学习了,互联网才是推动大模型进步的关键。他犀利地指出,自GPT-4以来,模型能力的提升并不明显,这标志着AI发展已经从算力受限转向了数据受限的时代。互联网,这个行星级的数据宝库,以其海量、多样性和经济可行的特性,为大模型的next-token预测提供了完美的训练场。相比之下,强化学习的数据源显得捉襟见肘,不仅收集困难,噪声大,泛化能力也有限。Kevin Lu还强调,AI研究和产品开发必须携手并进,因为互联网的产品特性直接影响着模型的训练效果和对齐能力。这篇文章无疑为AI领域的研究方向和战略选择提供了新的视角和深刻见解。
2.投资人排队起诉创始人:一场资本和创业者的生存博弈(深网腾讯新闻)
风投圈最近不太平,投资人排队起诉创始人的新闻频频出现,背后是中国风投行业正经历的深刻变革。基金收益不达预期,LP对GP的退出要求越来越严格,投资机构不得不通过法律手段来解决纠纷。这不仅仅是简单的法律问题,更是过去粗放增长埋下的隐患集中爆发——草率的尽调、缺失的投后管理、漏洞百出的投资协议,现在都成了矛盾的导火索。创业者在这场资本博弈中显得尤为弱势,严苛的回购条款、短视的基金行为、破裂的估值泡沫,让他们承受着不合理的风险。但诉讼并非终点,律师和财务顾问正努力在诉讼边缘寻找平衡,促成双方谈判,避免两败俱伤。这场博弈不仅关乎个体命运,更引发了对风投本质和‘耐心资本’的深刻反思,呼吁行业走向更成熟、长期主义的发展方向。
3.在 Vercel 的 5 年,我学到了 5 件事(宝玉的分享)
Lee Robinson在Vercel的五年旅程不仅见证了公司从30人扩展到650人、年收入从百万跃升至两亿的惊人成长,也记录了他个人从普通员工晋升为副总裁的蜕变。他分享的五点经验,每一滴都是干货:如何在保持工作热情的同时,不让自己被工作吞噬;领导者如何通过设定看似不可能的截止日期来激发团队的潜能;在快速扩张的公司中,如何招聘并留住顶尖人才,同时果断处理不符合预期的表现;为什么领导者应该避免在不了解情况时就做出决策;以及,保持好奇心如何成为职业成长和个人发展的指南针。这些经验不仅适用于创业公司的员工和领导者,对任何希望在职业生涯中取得进步的人来说,都是宝贵的财富。
4.#171. 与查理·芒格的最后对话:投资、智慧与人生(跨国串门儿计划)
在查理·芒格99岁高龄时的一次珍贵播客专访中,这位投资界的传奇人物分享了他对投资、商业和人生的深刻见解。他特别强调了集中投资于少数高确定性机会的重要性,认为真正的伟大投资机会并不多见,因此当它们出现时,应该毫不犹豫地重注。芒格还对风险投资和私募股权行业的现状提出了尖锐批评,指出了激励机制扭曲和高额管理费的问题。他通过Costco的例子展示了卓越商业模式和文化的价值,以及如何通过数十年的坚定执行实现难以复制的成功。对于中国市场,芒格表达了乐观态度,特别提到了比亚迪及其创始人王传福的卓越才能。这次对话不仅是一次投资智慧的分享,更是对如何面对日益复杂世界的深刻思考。
Vol.59 Grok 4多模态AI模型:性能、争议与API定价解析