Vol.34:对OpenAI o3模型的看法、思考与反思

大家好!Weekly Gradient 第 34 期内容已送达!

✉️ 免费订阅更新

订阅我的免费通讯,第一时间获取生成式 AI 领域优质内容

我承诺保护您的隐私,不会向第三方分享您的信息。
您可以随时取消订阅。

论文

  1. Thinking in Space:多模态大语言模型如何观察、记忆和回忆空间:论文提出了一个名为 VSI-Bench 的新基准测试,包含超过 5,000 个问答对,用于评估 MLLMs 的视觉空间智能。研究发现,尽管 MLLMs 在某些视觉空间任务上表现接近人类水平,但它们的空间推理能力仍然是主要瓶颈。研究还指出,传统的语言推理技术如链式思维和自我一致性对提升模型性能的帮助有限,而显式生成认知地图的方法则可以显著提高模型的空间距离判断能力。实验结果显示,MLLMs 在空间推理任务上的表现虽然优于随机猜测,但仍低于人类水平。
  2. MathSpeech:利用小语言模型实现数学语音到公式的准确转换:MathSpeech 旨在将数学语音准确转换为 LATEX 格式。该流程首先通过自动语音识别(ASR)模型将语音信号转换为文本,然后利用小语言模型进行错误修正,并将修正后的文本转换为结构化的 LATEX 表示。研究团队开发了一个新的基准数据集,包含来自麻省理工学院开放课程网的 1,101 个音频样本,用于评估 ASR 模型在数学语音识别方面的性能。通过对小语言模型(特别是 T5-small)进行微调,MathSpeech 能够有效地将 ASR 输出转换为 LATEX 代码,并在端到端的训练方法中进一步提高了性能。实验结果表明,与领先的大型语言模型(如 GPT-4o)相比,MathSpeech 在翻译的 CER、BLEU 和 ROUGE 分数方面显示出显著优势,降低了 CER 从 0.390 到 0.298,并且提高了 ROUGE/BLEU 分数。此外,研究还涉及到了多模型输入策略,通过使用不同 ASR 模型的 top-1 结果来提高错误修正的准确性。
  3. AIOpsLab:用于评估 AI 代理以实现自治云的整体框架:AI for IT Operations (AIOps) 旨在自动执行复杂的运营任务,例如故障定位和根本原因分析,以减少人工工作量并最大限度地减少对客户的影响。虽然传统的 DevOps 工具和 AIOps 算法通常专注于解决孤立的操作任务,但大语言模型 (LLMs) 和 AI 代理的最新进展正在通过实现端到端和多任务自动化来彻底改变 AIOps。本论文设想了一个未来,AI 代理可以在整个事件生命周期中自主管理运营任务,从而实现自我修复的云系统,称之为 AgentOps 的范式。实现这一愿景需要一个全面的框架来指导这些代理的设计、开发和评估。为此推出了 AIOPSLAB,这是一个框架,不仅可以部署微服务云环境、注入故障、生成工作负载和导出遥测数据,还可以编排这些组件并提供用于与代理交互和评估的接口。论文讨论了这种整体框架的关键要求,并展示了 AIOPSLAB 如何促进对下一代 AIOps 代理的评估。通过在 AIOPSLAB 创建的基准测试中评估最先进的 LLM 代理,深入了解了它们在云环境中处理复杂操作任务的能力和局限性。
  4. 当 LLM 出现幻觉时它在想什么?:幻觉现象,即 LLM 在回答问题时可能产生事实性错误、逻辑矛盾或不合常识的回答。研究人员发现,LLM 在生成答案时,关于答案真假的信息主要集中在确切答案词元上。为了提高错误检测的性能,研究人员训练了探测分类器,专门对 LLM 在生成确切答案词元时的内部激活状态进行分析。研究表表明,即使 LLM 生成了错误的答案,其内部表示可能已经包含了正确答案的信息。论文进一步探讨了模型内外不一致的原因,并提出了工程学上的意义,包括优化模型的训练策略、改进解码方法和开发开源模型等。论文接着解释了激活的概念,即神经网络中每个神经元输出的结果,以及激活值的高低对模型答案选择的影响。通过分析模型内部的激活值,我们可以理解模型的信心分布,发现潜在的正确答案,并利用这些信息改进模型。除此之外解码策略,包括贪心解码、束搜索(Beam Search)、温度采样(Temperature Sampling)、Top-k 采样和 Top-p(核)采样等,并通过示例说明了这些策略如何影响模型生成文本的风格和质量。最后总结了不同解码策略的优缺点,以及如何通过组合策略和其他调整,如禁止重复 n-gram 和 长度惩罚,来优化模型的输出。

工程

  1. 用于 LLM 推理的最佳 NVIDIA GPU 综合指南:对于企业级部署,NVIDIA H200 和 H100 等 GPU 提供了无与伦比的性能,适合处理最大型模型和最密集的 AI 工作负载;对于寻求高性能且价格较低的组织,NVIDIA A100 和 RTX 6000 Ada Generation 在功率和成本之间取得了平衡,适合推理任务;对于中型企业和研究实验室,NVIDIA L40 和 A40 等 GPU 提供了稳定的 Tensor 核心数量、高 VRAM 容量和高效的功耗,适合高性能 AI 任务;对于规模较小的团队或个人开发者,NVIDIA RTX 4090 或 RTX 3090 等消费级 GPU 是高性价比的选择,提供了强大的性能;对于基于云的推理或边缘计算,NVIDIA T4 和 P100 提供了一个经济实惠的专业级 LLM 推理切入点,适合较轻的推理工作负载和较小的 AI 应用。GPU 的选择应该与 AI 工作负载的特定需求保持一致,以确保高效处理 LLM 推理任务。

  2. 多模态大模型在表格解析任务上效果如何?:多模态大模型做表格解析任务,对于简单表格效果很好,但对于带合并单元格的表格和长表,效果很差;即使是现在顶尖的闭源模型GPT4-o、Claude3.5的效果也不是好,不可用;多模态大模型对于表格复杂程度的定义,与传统方法对复杂的定义不同;多模态大模型输出md格式要比html更好,但复杂表格md根本展现不出来。

  3. Evaluation Guidebook:Hugging Face 分享的关于评估方法指南的系列文章,涵盖了自动评估基准和人工评估的基础概念、技巧与提示以及如何设计自动评估任务和选择人工标注员。

  4. Qwen 开源视觉推理模型QVQ-72B-Preview:该模型能够通过阅读一张图片和指令来进行思考和推理,并在 MMMU 基准测试中取得了 70.3 的分数,这一成绩超越了之前的 Qwen2-VL-72B-Instruct 模型。在其他三项专注于数学和科学问题的基准测试中,QVQ-72B-Preview 也表现出色,有效地缩小了与领先的 o1 模型之间的性能差距。

  5. 智谱技术开源 GLM-PC 基座模型 CogAgent-9B:CogAgent-9B-20241220 是基于 GLM-4V-9B 训练的专用 Agent 任务模型,能够通过屏幕截图作为输入,结合历史操作,预测下一步的 GUI 操作,适用于个人电脑、手机、车机设备等多种场景。与之前的 CogAgent 模型相比,CogAgent-9B-20241220 在 GUI 感知、推理预测准确性、动作空间完善性、任务普适性和泛化性等方面有显著提升,并支持中英文双语交互。该模型的论文、代码、模型和技术文档已经公开,方便社区进一步开发和研究。CogAgent 的执行过程包括以下几个方面:以 GUI 截图为唯一环境输入,结合已完成的动作历史,计算当前最合适的动作;输出包括思考过程(Status & Plan)、下一步动作的自然语言描述(Action)、结构化描述(Grounded Operation)和敏感性判断。

    论文: 

    代码: 

    模型: 

    技术文档:

  6. 无问芯穹开源端侧全模态理解模型 Megrez-3B-Omni:Megrez-3B-Omni 能够处理图片、音频、文本三种模态数据,并在各模态的测评基准中取得了不错的效果。该模型选择了适合端侧设备的 30 亿参数规模,推理速度领先同精度模型 300%。在图片理解方面,Megrez-3B-Omni 的性能超越了 34B 的大型模型,并在 OCR 等任务上表现良好。在文本理解方面,Megrez-3B-Omni 压缩了上一代 14B 大模型的能力至 3B 规模,在多个测试集上取得了端上模型最优精度。在语音理解方面,Megrez-3B-Omni 支持中英文语音输入及多轮对话场景,能够实现模态间的自由切换。Megrez-3B-Omni 还通过软硬件协同优化策略,确保了与主流硬件的高度适配,以及硬件性能的最大化利用。无问芯穹技术团队在模型压缩和推理加速等领域拥有深入研究和工程实践经验,提供端上智能一体化解决方案,并与多家智能设备和终端芯片厂商合作。

产品

  1. DeepSeek 新系列模型 DeepSeek-V3 首个版本上线并同步开源:DeepSeek-V3 作为一款全新的自研 MoE 模型,拥有 671B 参数和 37B 激活参数,经过 14.8T token 的预训练。该模型在多项评测中超越了其他开源模型,与世界顶尖的闭源模型如 GPT-4o 和 Claude-3.5-Sonnet 表现相当。DeepSeek-V3 在知识类任务、长文本处理、代码场景、数学问题以及中文能力方面都有显著提升。同时,生成速度从 20 TPS 提升至 60 TPS。

  2. 百川智能推出金融大模型 Baichuan4-Finance

    提到最新金融评测体系设计的很有亮点,FLAME(Financial Large-Language Model Assessment and Metrics Evaluation)是中国人民大学财政金融学院 12 月 17 日发布,作为金融领域最新的评测体系,FLAME 兼顾专业性和实用性,由两个方向的评测基准组成。其中,FLAME-Cer 主要面向模型的专业金融能力评测,覆盖了 CPA、CFA、FRM 等 14 类权威金融资格认证;FLAME-Sce 则侧重模型的场景应用能力,包含 10 个一级核心金融业务场景,21 个二级细分金融业务场景,近百个三级金融应用任务。github 地址:https://github.com/FLAME-ruc/FLAME/tree/main

  3. Kimi 视觉思考模型 k1:支持端到端的图像理解和思维链技术,基于强化学习技术。Kimi k1 模型的推理能力不仅限于数学领域,还能够应用于其他领域,如分析歌单推理 MBTI 类型、推理手写稿的作者和内容等。此外,Kimi k1 模型在处理 “噪声” 场景下的性能损失较小,能够直接理解图片信息并进行深度推理。

  4. Freed AI 是一款 AI 病历助手,自创立以来,已有超过 1 万名付费医生使用,年度经常性收入(ARR)达到 1000 万美金。Freed AI 通过语音识别和自然语言处理技术,能够在医生问诊时自动转写对话内容,并形成符合医疗规范的临床文档。该系统采用环境感知技术,无需医生手动操作,即可智能识别和提取关键医疗信息,自动组织成结构化的医疗记录,帮助医生减少高达 95% 的文书工作时间。

  5. Clay:利用 AI Agent 技术帮助企业在售前阶段找到潜在客户:整个销售 workflow 中,目前最适合 AI 发挥作用的是售前 GTM、以及 Customer Service 两个环节。售前 GTM 的工作环节包括 Lead Qualification、Needs Discovery、Demo、Outbound 以及 Solution Presentation 前的会议预约,每个板块也有 niche 的创业公司。

    客户在售前阶段最急需的自动化功能集中在潜在客户生成(Leads Generation)和外呼(Outbound)环节。Leads Generation 是最销售漏斗的顶部,leads 的质量直接决定企业触达客户的转换效率。在高度竞争或细分行业例如 B2B SaaS、金融科技、医疗健康等领域,客户的选择性较强且需求专业化。在这些行业中,SDR 团队通常会花费更多时间研究潜在客户,制定个性化的推广策略,以提高转化率和客户满意度。在这类环境下,基于大语言模型的潜在 leads 生成,正成为客户获得高质量 leads 的关键手段。自动化 outbound 外呼是现阶段落地效果较好的核心场景,在市场竞争较低或产品目标群体广泛的行业,例如消费品、低门槛的 B2C 产品等,企业通常会采用低成本的大规模推广策略,比如大量发送电子邮件。这些策略虽然转化率较低,但由于客户选择较多且需求较为通用,仍能带来一定的推广效果。在这种场景中,语音外呼(Voice Agent Outbound)技术的应用潜力日益凸显。

市场

  1. 阶跃星辰完成数亿美元 B 轮融资:阶跃星辰的技术发展路线图是从 “单模态 — 多模态 — 多模理解和生成的统一 — 世界模型 —AGI”,推出的模型有:

    1. 千亿参数语言大模型 Step-1
    2. 万亿参数语言大模型 Step-2
    3. 图像理解大模型 Step-1V
    4. 图像生成大模型 Step-1X
    5. 多模态理解大模型 Step-1.5V
    6. 视频生成大模型 Step-Video
    7. 语音复刻和生成大模型 Step-tts-mini
    8. 语音识别大模型 Step-Asr
    9. 千亿参数端到端语音大模型 Step-1o Audio
  2. 像素绽放 PixelBloom 完成 B2 轮融资:目前像素绽放PixelBloom旗下产品包括AiPPT.cn(国内)/AiPPT.com(海外)、爱设计AIGC 内容中台、365 编辑器、爱设计在线设计工具、AiH5、叮当好记Readlecture.cn、Visdoc.Ai 等超过10余款应用 AI 能力的内容创作工具。

  3. xAI宣布完成60亿美元的C轮融资

  4. 2024 最受开发者欢迎的 AI 应用开发平台,和体感差不多,除了讯飞和百度,在个人业余项目和公司产品中都用过。

    评选标准:

    • 参选平台品牌美誉度较高,在开发者人群中具备较高知名度及影响力;
    • 参选平台拥有稳定的平台服务和不断创新的技术能力;
    • 参选平台必须持续建设开发者生态,有各种形式的技术内容输出与活动组织
  5. 2024 年 AI 领域的发展情况,涵盖了基础设施、基础模型、应用层和工具层的进展,特别强调了 AI 在企业环境中带来的实际投资回报

    1. AI 技术栈的各个层面都在经历重大改造,类似于互联网和云计算的建设过程,推理的需求正在增加,这一需求将由 GenAI 的普及、新的多模态应用以及不断演进的模型架构推动。
    2. 随着模型开发从大型预训练转向推理时的逻辑推演,AI 模型能够处理更复杂的逻辑推理任务,同时更小、更专业的模型提供了更高的效率和灵活性。
    3. AI 在企业环境中首次带来了实际的投资回报,例如代码生成、客户服务和搜索正在引发可衡量的影响。未来的前沿领域在于 AI 智能体的普及,这需要构建支持多智能体交互的底层架构。
    4. AI 的投资持续增长,尤其是在基础设施和基础模型层,大多数退出将通过并购实现,但投资者的高期望可能与市场现实相冲突,影响未来的估值。
    5. AI 的快速采用已经超过了监管框架的步伐,引发了关于版权和知识产权等话题的争论。各国越来越多地将 AI 视为主权问题,导致对 AI 生态系统区域化的关注增加。
    6. 随着 GenAI 的发展,AI 应用在企业中的采用正在迅速增长,特别是在代码生成、搜索和智能体等领域。
    7. AI 投资与并购活动持续稳定,基础设施和模型层的大型融资轮次占据了主导,同时也出现了一些在应用层的大规模融资。
    8. 主权 AI 的概念正在得到重视,各国政府关注敏感数据的处理,并在基础设施和模型层面上寻求独立发展。
    9. AI 与版权法的交汇成为关键议题,AI 内容的生成和使用引发了知识产权的侵权问题。
    10. AI 法规的制定和实施正在进行中,欧盟 AI 法案为此类法规提供了全面框架,而美国则可能会采取更有利于行业的做法。

观点

分享两篇关于 OpenAI o3 的观点。

  1. 对OpenAI o3模型的看法、思考与反思:在 Codeforces 编程竞赛中,o3 排名超过了 99.9% 的程序员,并且在真实世界的软件开发测试中,o3 能够直接做对并通过单元测试的比例达到了 71.7%。在数学测试中,o3 做对了 96.7% 的问题,几乎可以说是达到了人类博士生的水平。此外,o3 在图形逻辑推理的 ARC-AGI 任务中达到了 87.5% 的准确率,超过了人类平均水平。但 o3 并不是万能的,现实世界工程任务的处理能力并没有想象的那么强。模型擅长的是边界清晰、定义明确的封闭式科学问题。o3 不知道怎么样,但从 SWE Bench 只能做对 71% 来看,还是不如人类软件开发工程师的,因为一个合格的工程师不能说我只能完成 70% 的需求,剩下 30% 的需求做不了。o3 在 Codeforces 上超过 99.9% 的人类,是因为编程竞赛题都是边界清晰、定义明确的,而在真实世界的工程任务上就远不如编程竞赛那么强。作者认为AI 的智能更高效,并且随着硬件的进步和模型知识密度的提升,推理成本将快速降低。作者还提到AI 并不是程序员的终结者,而是可以大大提升程序员的工作效率。在未来,人类的脑力劳动将更加体面,因为 AI 能够解决人类需要最烧脑才能想出答案的难题,并且提升重复脑力劳动的效率。
  2. 如何理解 OpenAI o3 ?以及对其的技术分析:作者分析了 o3 的成本和能力,包括它在 FrontierMath 测试中的表现,提升了 25.2% 的成绩,表明其在某些复杂问题上的能力已经超出了公众的想象。接着讨论了 o3 的推理方式,包括推理成本的增长、多路推理的可能性以及从 o1 到 o3 的技术演变。作者提出了对 o3 推理方式的推测,包括多路采样、Beam Search 和 Tree of Thoughts 等方法。作者还强调了跨领域泛化的重要性,并对 o3 的未来发展和潜在的技术路线进行了展望。

Vol.34:对OpenAI o3模型的看法、思考与反思

https://liduos.com/the-memeber-newsletter-34.html

作者

莫尔索

发布于

2024-12-30

更新于

2025-06-30

许可协议

评论