Vol.33:为什么视频生成模型比文本生成模型发展速度更快?

大家好!Weekly Gradient 第 33 期内容已送达!

✉️ 免费订阅更新

订阅我的免费通讯,第一时间获取生成式 AI 领域优质内容

我承诺保护您的隐私,不会向第三方分享您的信息。
您可以随时取消订阅。

论文

  1. Meta开源的视觉理解模型 Apollo:研究揭示了多项关键发现,例如在模型训练和推理中首选帧率(fps)采样而非均匀采样 ;在token数量(tps)和帧率(fps)之间存在权衡,最佳的token数量每帧为 8-32 个;Perceiver 重采样在减少每帧令牌数量时表现最优;SigLIP-SO400M 是视频大模型中最佳的单一编码器;将 SigLIP-SO400M 与 InternVideo2 结合使用可以实现最佳的整体性能;在不同帧或剪辑之间的视频token中添加文本或学习token等足以实现高效的token整合;在视频编码器上的微调可以进一步提高整体性能,尤其是在推理和领域特定任务中;数据混合对性能至关重要,包含适量的文本数据,并保持略微偏向视频的混合比例可以实现最佳性能 。此外,研究还发现了可扩展性一致性,即在小模型和数据集上做出的设计决策可以可靠地转移到更大的模型 ;逐阶段解冻不同组件可以改善模型训练动态。

    项目地址:https://apollo-lmms.github.io/

    Github地址:https://github.com/Apollo-LMMs/Apollo/

    模型下载地址:https://huggingface.co/Apollo-LMMs

    在线体验:https://huggingface.co/spaces/Apollo-LMMs/Apollo-3B

  2. OmniParser:用于文本识别、关键信息提取和表识别的统一框架:OmniParser 是由 Alibaba 研发的一款 OCR工具,旨在解决复杂场景下的通用文档 OCR 抽取问题。它将 OCR 任务分为三个主要部分:文本识别、关键信息提取和表格识别。OmniParser 框架采用基于文本中心点的连贯输入和输出模式,分为两个阶段:stage1 和 stage2。在 stage1 阶段,通过结构中心点序列化标记重要信息区域的中心位置;在 stage2 阶段,进行多边形区域序列化和文本内容序列化,以得到文本的多边形区域和内容。该框架通过两阶段的处理,有效地压缩原始的长序列,并使用空间和字符导向的窗口提示来增强对文本空间排列和单词语义的理解。OmniParser 的 OCR 解析流程包括图片编码、中心点定位、区域解码以及文本内容序列化解码,最终生成文本的定位信息、表格的序列信息和重要信息。

  3. OCR 阻碍 RAG:评估 OCR 对 RAG 的级联影响:论文详细讨论了在 RAG 系统中,OCR 从非结构化的 PDF 文档中抽取数据时产生的噪声问题。这些噪声包括语义噪声和格式噪声,它们会影响知识库的质量,进而影响 RAG 系统的性能。为了评估 OCR 在现实世界的 RAG 应用中的表现,研究人员提出并开源了 OHRBench 基准测试。OHRBench 包含了 350 个来自六个不同领域的非结构化 PDF 文档,以及从这些文档中派生出的多模态问答对。基准测试结果显示,基于流水线的 OCR 在检索性能方面表现最佳,Marker 在检索方面表现最好,而 MinerU 在生成和整体评估中占据主导地位。尽管如此,所有 OCR 解决方案在面对 OCR 噪声时都遭受了性能下降。此外,文章还提出了直接使用视觉语言模型(VLMs)而不是 OCR 的潜力,以提高 RAG 系统的性能。

  4. 多智能体大语言模型用于对话任务求解:论文深入探讨了多智能体大语言模型(MALLM)的四种范式,分别是记忆、接力、报告和辩论,并评估了它们在生成任务和问答任务中的优劣。论文指出,尽管多智能体系统在复杂推理任务中表现出色,但在基础任务上却不尽人意,并指出了三个挑战:较长的讨论可能导致推理能力增强但偏离任务要求,长时间的讨论存在对齐崩溃的风险,以及长时间生成可能导致决策公平性问题。此外,论文还提出了多智能体 LLM 的分类法,介绍了在对话任务解决中部署多智能体 LLM 的框架,并讨论了智能体、讨论和决策制定的不同组成部分及其在不同任务中的应用。最后,论文通过实验验证了多智能体 LLM 在不同任务和范式下的性能,并提出了 MALLM 框架,用于处理多智能体问题,以及如何通过调整参数或定义子类来测试新的构想。

  5. 训练大语言模型在连续的潜空间中进行推理:田渊栋团队提出的连续思维链(Coconut)方法,通过在潜在空间中进行推理,而非依赖语言模型,有效提高了大语言模型(LLM)在数学和逻辑推理任务中的性能。Coconut 方法通过对传统的思维链(CoT)进行简单修改,允许 LLM 在潜在空间中进行推理,而非仅限于语言空间。这种方法不再通过语言模型头和嵌入层将隐藏状态与语言 token 进行映射,而是直接将最后的隐藏状态作为下一个 token 的输入嵌入。实验表明,Coconut 方法在数学推理(如 GSM8k 数据集)和逻辑推理(如 ProntoQA 和 ProsQA 数据集)任务上的表现优于传统的 CoT 方法,能够在推理过程中生成更少的 token,并且在处理需要规划的任务时表现出更高的效率。研究团队通过多阶段训练策略对模型进行了训练,并且发现在潜在空间中进行推理能够提高模型的规划能力。此外,研究还探讨了潜在推理机制,并通过案例研究说明了 Coconut 方法如何在推理过程中保持思维的多样性,并逐步缩小推理范围,提高推理准确率。最后,研究强调了潜在空间推理在规划密集型任务中的优势,以及模型在学习潜在空间推理时仍需指导。

工程

  1. Rockset 混合搜索架构白皮书:Rockset 是一个为处理实时搜索和分析而设计的云原生数据库(已被OpenAI收购),它能够在事件流、变更数据捕获流和向量数据上提供毫秒级响应的分析查询能力,同时具备强大的实时流数据集成能力,这篇文章介绍了 Rockset 如何实现混合搜索,这种搜索方法结合了向量搜索、文本搜索、元数据过滤和地理空间搜索,以提供最相关的搜索结果。Rockset 的融合索引支持多种数据类型的索引,包括向量、文本、文档、地理和时间序列数据,并且能够在单个查询中执行复杂的搜索操作,提供必要的上下文信息。Rockset 使用 FAISS-IVF 向量索引库来构建分布式向量索引,并且支持实时更新和分级存储索引,以优化性能和成本。此外,Rockset 的搜索索引设计支持 BM25 和地理搜索的索引,同时提供列式存储和行式存储来优化分析和查找操作。Rockset 的排名设计包括互惠排名融合(RRF)和线性组合排名,这些方法允许用户根据不同的搜索模态结合评分,以创建一个综合的排名得分。Rockset 支持多种混合搜索查询,包括向量搜索与文本搜索、元数据过滤和地理空间搜索的结合,以及通过 RRF 和线性组合方法结合多种排名信号的查询。Rockset 的成本基查询优化器能够根据数据分布和查询需求选择最佳的数据访问路径,以优化查询性能。Rockset 的多租户设计允许用户根据租户分区字段对索引中的记录进行分区,从而提高查询性能和数据隔离。Rockset 的计算与计算分离设 igned 确保了数据摄取和索引操作不会影响搜索性能,同时支持并发索引和搜索操作。最后,文章强调了 Rockset 混合搜索架构的优势,包括它的云原生架构、灵活的索引能力、高效的查询执行和对 LLMs 等先进技术的支持。
  2. MarkitDown:MarkItDown 是由 Microsoft 开发的一个开源 Python 工具,它支持将多种文件格式,如 PDF、PowerPoint、Word、Excel、图片(包括 EXIF 元数据和 OCR)、音频(包括 EXIF 元数据和语音转录)、HTML 以及基于文本的格式(如 CSV、JSON、XML)和 ZIP 文件等转换为 Markdown 格式,便于进行索引和文本分析等操作。
  3. Pipecat:PipeCat 项目是一个完整的开源框架,旨在帮助开发者快速搭建实时语音 AI 应用。它通过集成 WebRTC 实现了实时语音通信,并且集成了 Google 的 Gemini 多模态 AI 模型,提供了音频处理、转录和上下文管理功能。架构设计包括客户端、服务器端和处理管道三个主要部分。客户端使用 WebRTC 进行音频传输,并提供了一个简单的 Web 界面,只需四个主要依赖。服务器端负责处理 WebRTC 连接、管理音频流传输以及与 Gemini API 进行交互。处理管道则负责音频处理、语音转录、多模态 API 集成、对话上下文管理和事件处理。项目选择 WebRTC 而非 WebSocket 是因为其更低的延迟、更好的音质、更强的网络适应性和自动时间戳同步功能。使用场景包括需要实时语音交互的 AI 应用,支持多平台,特别适合需要低延迟的应用场景。
  4. PromptWizard:微软开源的一个提示词自动优化框架,它能够让 AI 自主地生成、评估和改进提示词,通过迭代反馈机制实现持续优化。该框架同时优化指令和示例部分,并能自动生成详细的推理步骤。主要创新点包括反馈驱动的优化方法、智能示例生成以及自动生成思维链步骤。在实际效果上,PromptWizard 在 45 个不同任务上的测试表明,它比现有方法如 InstructZero、APE 等表现更好,尤其在资源受限的情况下也能表现良好,例如仅需 5 个训练样本或使用较小的语言模型即可实现良好的优化。

产品

  1. Google 发布最新的视频生成模型 Veo 2、图像生成模型 Imagen 3 以及新工具 Whisk,生成质量和效果大幅提升:Google 在其 Google Labs 平台上发布了 Veo 2 和 Imagen 3 的最新版本,这两个模型分别在视频和图像生成方面取得了领先的成果。Veo 2 能够生成高质量的视频,提升了对现实世界物理学和人类运动表达的理解,能够根据提示创作具有电影语言特征的视频,如镜头类型、镜头效果等,并且支持高达 4K 分辨率的视频生成。Imagen 3 则在图像生成上进行了升级,能够产生更亮、更精确组合的图像,支持更多多样化的艺术风格,包括从现实主义到印象主义,从抽象到动漫等。此外,Google Labs 推出了一个新的实验工具 Whisk,它允许用户通过图像提示来可视化和混合创意,为用户提供了一种新的创意表达方式。Veo 2 和 Imagen 3 已经在 VideoFX 和 ImageFX 中推出,Whisk 则在美国首发。

  2. 谷歌发布 Gemini 2.0 Flash Thinking:该模型可以快速解决复杂问题,并能够展示其思考过程。它能够在几秒钟内解决物理问题,并给出解题步骤,同时处理涉及视觉和文本线索的谜题。在所有综合类别指标中,Gemini 2.0 Flash Thinking 排名第一,包括数学、代码、指令跟随、长 QA、创意写作等方面。该模型目前支持 32k 上下文窗口,并且不支持联网。Gemini 2.0 Flash Thinking 的响应推理能力比基础版 Gemini 2.0 Flash 模型更强,而基础版模型是谷歌最新、最出色的模型。新模型仅支持 32000 个token输入,并且每个输出响应可以产生 8000 个token,适合多模式理解、推理和编码。Gemini 2.0 Flash Thinking 允许用户通过下拉菜单访问其逐步推理,使得模型的决策过程更加清晰和透明。

  3. GitHub Copilot 推出了免费版本,为开发者提供了代码补全和聊天功能,每月有 2000 次代码补全和 50 条聊天消息的免费额度,GitHub Copilot 支持多种功能,包括代码补全、聊天功能、多种模型选择、第三方代理,以同时支持在 VSCode 和浏览器中使用,并且对学生、教育者和开源维护者提供了免费的 Pro 账户。

    免费版 VS 付费版:https://github.com/features/copilot#pricing

    Copilot 功能介绍:https://github.com/features/copilot

    感受到cursor、winsurf、bolt new这批智能辅助编码工具新势力们的压力,使用限额免费计划来应对了。

  4. 星流 AI 是由 LiblibAI 推出的一站式 AI 图像生成平台:该工具基于自研的 Star-3 Alpha 图像生成模型,该模型基于业界领先的 F.1 基础算法架构训练而成,具有高图像精准度、色彩表现力和美学捕捉的细腻表达。星流 AI 支持多种风格,包括写实、插画、动漫等,适用于电商、广告、设计等多个领域。用户可以通过输入提示词来生成图片,并且可以通过图片参考、色彩参考、局部重绘、智能高清放大和智能扩图等核心功能进一步优化图片效果。此外,星流 AI 还支持详细的生成设置,如生成尺寸、数量、提示词优化等。

    效果和成本平衡的不错(豆包0.2一张太贵了,其他几家大厂用中文出图质量一言难尽),中文提示词的遵循能力也可以。

  5. OpenAI发布会

    ChatGPT 搜索功能向免费用户全面开放,OpenAI 还将 ChatGPT 搜索功能与高级语音模式结合,使得 ChatGPT 能够以语音形式搜索网络并回答问题。OpenAI 与多家顶级新闻和数据提供商合作,使得用户能够直接在 ChatGPT 中查看股票行情、体育赛事得分、天气预报等信息。

    OpenAI 向开发者开放了 o1 模型的 API 使用,o1 API 现在支持功能调用、开发者消息、结构化输出和视觉识别等功能。实时 API 升级了 WebRTC 功能,并且 GPT-4o 音频价格下调了 60%。

    OpenAI 宣布用户能够通过电话和 WhatsApp 与ChatGPT进行交流。用户可以通过拨打 1-800-CHATGPT(1-800-242-8478)与 ChatGPT 进行电话对话,美国用户每月可享受 15 分钟的免费通话时间。同时,ChatGPT 也在 WhatsApp 上线,允许全球用户通过该平台发送文本消息与 ChatGPT 进行交流。

    ChatGPT 与 Mac 应用进行了深度集成,使得其能够从简单的聊天机器人转变为更强大的 AI 助手,可以在编程和写作等领域提供更多帮助。

    OpenAI 发布最新的 o3 模型:o3 模型在多个领域展现了突出的能力,例如在软件工程考试中得分 71.7%,在全球编码竞赛平台 Codeforces 上排名第 175 名,超越了 99.99% 的人类参与者。在数学竞赛 AIEM 2024 和博士级科学考试 GPQA Diamond 中也有显著的表现。尤其是在 FrontierMath 数学基准测试中,o3 的成绩是 25.2,远超其他模型。在 ARC-AGI 抽象推理任务上,o3 达到了 87.5% 的成绩,接近人类的阈值分数 85%。

  6. Remento:通过AI录音帮助用户将家人的口述故事转换成书本形式,以此来保存和分享家庭历史和记忆。

    上榜了本周 PH 第二,欧美用户很吃这一套叙事。

  7. DeepSeek 推出了 DeepSeek-VL2,这是一个基于 MoE 架构的视觉 - 语言大模型(该模型包括 DeepSeek-VL2-Tiny、DeepSeek-VL2-Small 和 DeepSeek-VL2,其中 DeepSeek-VL2 基于 DeepSeekMoE-27B 构建,具有 4.5B 激活参数),它在视觉问答、OCR、文档理解等任务中展现出卓越的性能,并且在 SiliconCloud 上提供了推理加速版,便于开发者使用。

    在线体验:https://cloud.siliconflow.cn/playground/chat/17885302689

市场

  1. 智谱完成新一轮三十亿人民币融资,新的投资方包括多家战投及国资
  2. 爱诗科技完成近3亿元A+轮融资:爱诗科技的核心AI视频生成产品PixVerse全球用户数超1200万,月活跃用户数近600万。
  3. Perplexity 收购了 Carbon,计划将 AI 搜索能力扩展到企业文件和应用
  4. 2024 年语音 AI 行业现状报告:报告指出,技术架构方面,OpenAI 推出了 ChatGPT Voice 模式,实现了语音到语音的直接转换;@kyutai_labs 发布了支持全双工语音系统的 Moshi 模型;Cartesia 推出了基于状态空间模型的 Sonic TTS,提高了部署灵活性。在核心技术进步方面,@DeepgramAI 的 Nova-2 模型显著降低了语音转文本的词错率;大语言模型的成本也有所下降;文本转语音技术提升了自然度和准确性。应用场景方面,语音 AI 在金融、保险、医疗健康、物流、酒店服务等垂直行业得到了广泛应用,并在招聘、销售、客户支持等核心业务功能中发挥了作用。平台工具演进方面,@livekit 和 @trydaily 提供了开源组件,@Vapi_AI 等平台支持快速部署定制语音助手,@HammingAI、Coval 等平台提供了评估套件,支持大规模模拟和质量度量。对于未来发展,2025 年预计将进一步改进语音到语音模型,降低延迟至接近人类对话的水平,提升情感识别、语气控制和打断处理能力;设备端部署将增强本地处理能力,无需网络连接,提高隐私保护;应用升级方向将支持多步骤业务流程和情感语气精确调节,实现多模态协调;行业影响方面,企业将从基础筛选任务向核心业务扩展,用户体验将更加自然,应用场景将更加广泛。

观点

  1. 视频生成模型相比文本生成模型的进步速度更快的原因:为什么视频生成模型能够产生如此精细和高分辨率的图像,而文本生成模型相对而言在处理几百字的文本时表现不佳。

    1. 信号与计算量:图像具有丰富的结构,可以在单次计算中处理大量信号,而文本是离散的,即使是一个简单的标记(token)也需要大量的计算。Shane Gu 在 2015 年没有选择从事 NLP 研究,因为他觉得信号与计算量的比例非常糟糕,尤其是在使用循环神经网络(LSTM)时,他不觉得这将导致人工通用智能(AGI)的实现。
    2. 高质量数据创建与评估的便捷性:生成和评估高质量文本非常困难或者不可能,而视频生成可以通过任何 50 美元的相机或者游戏渲染来实现。对于视频评估,任何地球上的人都可以在看到前 10 秒的视频后做出判断,他们不需要拥有博士学位。Shane Gu 认为,随着人工智能的扩展,在视频人类评估方面不太可能赚取大量金钱,因为它太过简单。
  2. 2025年六大AI趋势展望:微软亚洲研究院关于 2025 年人工智能的六大发展趋势展望,包括 AI 模型的高级推理能力、数据管理和后训练进步、AI 驱动代理的兴起、AI 在提升生活质量方面的应用、AI 基础设施的高效与可持续性以及 AI 风险评估与定制化,非常值得读读,他们在年初发布的2024年值得关注的三大人工智能趋势(小模型、多模态、AI for Science基本都印证了。)

    1. AI 模型将拥有更高的自主性和高级推理能力,能够在科学、编程、数学、法律和医学等领域进行复杂任务,如比较合同、生成代码和执行多步骤工作流程。
    2. 数据管理和后训练的进步将提升模型性能和推理能力,例如微软的小语言模型 Phi 系列和 Orca 项目展示了合成数据在后训练中的作用。
    3. AI 驱动的代理(agent)将能够处理更多任务,甚至代表用户执行任务,组织机构可以利用代理重新构想工作流程,如报告生成和人力资源任务。
    4. AI 将提升人们的生活质量,例如 Microsoft Copilot 将全天候提供支持,帮助处理日常任务,并与用户建立更紧密的联系。
    5. 微软将实现零冷却用水和使用超高效液冷系统的数据中心,提高 AI 基础设施的高效与可持续性,并投资于低碳建筑材料和无碳能源。
    6. 评测与定制化将成为 AI 风险评估的关键,微软正在开发更严格的测试来打造安全的 AI 应用,并允许组织机构定制内容过滤和防护措施。

Vol.33:为什么视频生成模型比文本生成模型发展速度更快?

https://liduos.com/the-memeber-newsletter-33.html

作者

莫尔索

发布于

2024-12-23

更新于

2025-07-07

许可协议

评论