Vol.28:从物理定律看视频生成离世界模型还有多远?
大家好!Weekly Gradient 第 28 期内容已送达!
✉️ 免费订阅更新
订阅我的免费通讯,第一时间获取生成式 AI 领域优质内容
我承诺保护您的隐私,不会向第三方分享您的信息。
您可以随时取消订阅。
论文
从物理定律看视频生成离世界模型还有多远:这篇论文探讨了视频生成模型能否仅通过视觉数据发现基本的物理定律,而无需人类先验知识。具体来说,研究了视频生成模型在分布内(in-distribution)、分布外(out-of-distribution)和组合泛化(combinatorial generalization)三种关键场景下的表现。
论文提出了一种基于2D模拟测试平台的方法,用于评估视频生成模型在发现物理定律方面的能力。具体来说,
2D模拟测试平台:开发了一个2D模拟测试平台,用于生成受经典力学定律(如匀速直线运动、完全弹性碰撞和抛物线运动)支配的视频。该平台提供了无限的数据供应,支持大规模实验和定量评估。
视频生成模型:采用了变分自编码器(VAE)和扩散变换器(DiT)架构进行视频生成。VAE模型将视频压缩成时空潜在表示,而DiT模型则建模去噪过程。具体来说,使用(2+1)D-VAE将视频投影到潜在空间,并通过3D块扩展为时空自编码器。所有参数在高质量图像和视频数据上进行预训练,以保持强大的外观建模和运动建模能力。
物理一致性损失:定义了物理一致性损失函数,用于衡量模型预测的帧是否符合真实世界的物理规律。
实验设计
- 数据生成:使用Box2D模拟器生成不同物理场景的训练和测试数据。具体场景包括匀速直线运动、完全弹性碰撞和抛物线运动。训练数据集从30K到3M不等,视频分辨率设置为128x128。
- 模型训练:训练了不同大小的模型(如DiT-S、DiT-B、DiT-L和DiT-XL),并使用32 Nvidia A100 GPU进行训练,批量大小为256,训练步数为100K。
- 评估指标:使用速度误差、傅里叶视频距离(FVD)、结构相似性指数(SSIM)、峰值信噪比(PSNR)和感知相似度(LPIPS)等指标评估模型性能。此外,还进行了人工评估,标记出生理上不合理生成的视频样本。
结果
分布内泛化:随着模型大小和数据量的增加,速度误差在所有任务中显著降低,表明扩展对分布内泛化至关重要。例如,DiT-S模型在30K数据上的速度误差为0.022,而DiT-L模型在3M数据上的误差降至0.012。
分布外泛化:分布外预测误差远高于分布内误差,且扩展数据和模型大小对减少分布外误差影响不大。例如,DiT-L模型在匀速直线运动任务中的分布外速度误差为0.427,而分布内误差仅为0.012。
组合泛化:通过增加训练数据的模板数量,显著减少了异常视频的比例。例如,使用60个模板进行训练时,异常率从67%降至10%。这表明扩展数据覆盖范围对组合泛化至关重要。
泛化机制分析:实验揭示了视频生成模型的两种主要泛化机制:
- 模型倾向于“案例式”泛化,即模仿最接近的训练样本。
- 在泛化到新案例时,模型在引用训练数据时优先级不同:颜色 > 大小 > 速度 > 形状
TableGPT2: A Large Multimodal Model with Tabular Data Integration:TableGPT2 是针对表格数据集成的需求而开发的大型多模态模型。该模型通过对超过 593.8K 张表格和 2.36M 个高质量查询表格输出元组的预训练和微调,在表格相关任务上表现出色,同时保持了强大的通用语言和编码能力。TableGPT2 的一个关键创新是其独特的表格编码器,它能够捕捉到模式级和单元格级的信息,从而提高了处理模糊查询、缺失列名和非规则表格的能力。该模型在 7B 和 72B 版本上的 23 个基准测试指标上,分别相比先前的大型语言模型提升了 35.20% 和 49.32% 的性能。
一种针对大语言模型(LLM)越狱攻击的快速响应防御机制:随着 LLM 能力的增强,面临被滥用的风险,而现有的防御方法往往不完美,新攻击方法很快就能突破。研究提出了一种基于少量攻击样本的快速响应机制,通过自动扩增相似攻击样本并动态更新防御策略,实现了对越狱攻击的高效防护。该研究创新性地提出了 “快速响应”(Rapid Response)机制,主张在观察到少量攻击样本后快速适应并阻止整类攻击,并通过 “越狱扩增”(jailbreak proliferation)技术自动生成更多类似的攻击样本来训练防御系统。研究成果包括开发了 RapidResponseBench 基准测试集来评估快速响应技术,评估了 5 种不同的快速响应方法,其中最佳方法 Guard Fine-tuning 在仅观察每种攻击策略的一个样本后,将同分布攻击成功率降低了 240 倍以上,分布外攻击成功率降低了 15 倍以上。关键发现显示,扩增模型的质量和扩增样本的数量对防御效果至关重要,Guard Fine-tuning 方法展现出最佳的泛化能力,并能在保持较低误拒率的同时有效防御攻击。
Long Term Memory : The Foundation of AI Self-Evolution:Omne 框架旨在通过多智能体合作、信息共享和长期记忆(LTM)的应用,提升 AI 系统的自我进化和个性化优化。该框架能够从模型与外界的交互中收集多样化、个性化的数据,并在 LTM 中有效存储。每个智能体拥有独立的系统结构,能够自主学习并存储完整的世界模型,实时适应个体行为的变化,优化任务规划与执行。在全球 AI 代理基准测试系统 GAIA 中,OMNE 框架通过融合长期记忆机制,显著提高了在复杂问题上的决策能力,并通过优化协作机制,增强了多智能体系统的整体能力。这一提升机制受到了人类大脑皮层柱状结构研究的启发。
OMNE 框架的核心组件包括多智能体系统(MAS)、智能体的独立性与协作、多智能体协作机制、个性化与动态调整、数据共享与信息协作、LTM 的应用、适用于多场景和复杂任务、以及自适应优化。它基于 OpenAI 的 GPT-4o 和 o1-preview 开发,并配备了 Web 浏览器、必应搜索引擎、基于 LlamaParse 的文件读取器,以及一个逻辑专家。Omne 框架对 GPT O1-preview 版本进行了优化,特别是工具调用机制的改进,显著提升了系统的推理能力。这些优化包括智能工具选择、动态工具调用、多步推理与工具集成、工具调用记忆等。
OMNE 框架在 GAIA 基准测试中取得了优异成绩,证明了其在实际应用中的强大潜力。它的智能体类型包括决策智能体、信息智能体、执行智能体和协同智能体。应用案例方面,OMNE 框架被应用于提升生产力、医学诊断等领域,尤其是在组织协作和医疗应用中,如全球第一个带长期记忆的团队协作 IM 工具 Tanka,以及心理健康诊断对话系统。
工程
PDFMathTranslate:PDFMathTranslate 是一个开源项目,旨在为用户提供一种高效的方式,实现 PDF 科技论文的双语翻译,同时完整保留原文的排版格式。此外,项目还提供了一种比较功能,允许用户在翻译的基础上,对原文和翻译后的文本进行对比分析,这对于学术研究和学习双语文献的用户来说是一个极具帮助的功能。
文档合并:PyMuPDF
文档解析:Pdfminer.six
文档提取:MinerU
多线程翻译:MathTranslate
布局解析:DocLayout-YOLO
AI Agents 技术栈的演进:从 2022-2023 年 LLM 框架的兴起,如 LangChain、LlamaIndex 等,到 2024 年 AI Agents 的显著转变,出现了能够执行工具调用并自主运行的 Agents。Agents 技术栈分为三大层次:垂直应用层(如 Decagon、Sierra 等)、Agents 托管和服务层(如 Letta、LangGraph 等)、基础框架层(包括模型服务、存储系统和工具库)。关键技术挑战包括状态管理、工具执行和内存管理。Agents 与基础 LLM 聊天机器人的区别在于需要状态管理、工具执行和跨 Agents 通信。未来发展趋势预示 Agents 将成为可部署的服务,需要标准化的 Agents API,框架间差异将体现在部署工作流程上,而工具生态系统将继续扩展。当前面临的挑战包括部署 Agents 服务的复杂性、工具依赖管理、大规模 Agents 状态存储和安全执行问题。
如何使用 Anthropic 的提示改进器来优化和增强用户的提示模板:详细说明了 Anthropic 提供的提示改进器功能,它可以通过自动化分析和增强来帮助用户快速迭代和改进他们的提示模板,尤其是在需要高准确率的复杂任务中。使用该工具的前提条件包括拥有一个待改进的提示模板、对 Claude 输出的反馈以及示例输入和理想输出(可选但推荐)。改进器通过四个步骤工作:示例识别、初始草稿、推理链的细化和示例的增强,这些步骤可以实时在改进模态框中观察。改进器生成的模板具有详细的推理指令、清晰的组织结构、标准化的示例格式和策略性的预填充内容,以指导 Claude 的初始回应。此外,网页还介绍了如何使用提示改进器、生成测试示例、以及何时使用提示改进器最为合适。最后,通过一个示例,展示了提示改进器如何将一个基础的分类提示改进为一个详细的、结构化的、指导性的新提示。
提示词优化的实验性库Promptim:Promptim 是一个专注于提示词优化的实验性库,它可以系统化地改进 AI 系统的性能。用户需要提供初始提示词、数据集以及自定义评估器,可选的还包括人类反馈。Promptim 会运行一个优化循环,以生成一个精炼的提示词,目标是超越原始提示词的表现。该库采用评估驱动开发的方法,通过定义数据集和评估指标,自动化地改进提示词。这种方法可以节省时间,为提示词工程带来更多科学性,并且在模型之间切换时加快调整速度。Promptim 的工作原理是与 LangSmith 集成,使用 LangSmith 进行数据集管理、提示词管理、跟踪结果和人工标注。核心算法包括指定数据集、提示词和评估器,可选的是
train
/dev
/test
数据集分割。然后运行初始提示词以获得基线分数,接着在train
数据集上循环,使用元提示词(metaprompt)来提出对当前提示词的改进建议,并在dev
分割上重新计算指标。如果指标显示出改进,则保留更新后的提示词;如果没有改进,则保留原始提示词。这个过程会重复N
次。与 DSPy 相比,Promptim 目前专注于优化单个提示词,而 DSPy 则关注整个 AI 系统的优化。Promptim 更注重保持人类在循环中的作用,例如通过人工标注队列和在 LangSmith 中存储提示词以便审查。Cursor 在其产品安全声明中透露了其代码库索引技术的详细步骤:Cursor 的代码库索引技术包括以下六个步骤:首先扫描文件夹中的文件并计算哈希值;接着构建 Merkle 树并同步到服务器;然后定期检查并上传更改的文件;在服务器上分块和嵌入文件;存储嵌入并按哈希值索引以加快重复索引速度;最后,推理时进行最近邻搜索并处理用户提问。
产品
Mintlify:Mintlify 是一款现代化的公共文档标准,提供出色的外观和易于维护的特性。它适用于各种规模的团队,支持高度定制化和协作,以及优化用户发现和参与。它还提供了基于用户行为和搜索热度的优化策略,以及一个直观的网页编辑器,允许无需使用 git 即可进行文档的创建、编辑和发布。Mintlify 支持团队协作,无论是通过代码库同步还是所见即所得的编辑器,并提供了 API 游乐场、访问者认证、自定义访问控制、用户反馈和预览部署等功能。该平台还具备高度定制性,允许用户通过自定义组件和 JS + CSS 来定制文档。Mintlify 还集成了AI特性,如编辑建议、自动翻译、写作助手和工具集成,以提高文档的智能化、可访问性和持续改进。AI公司Scale AI、Pinecone、ElevenLabs、Cursor、Perplexity、Anthropic等都是其客户。
生数科技发布视频生成模型 Vidu1.5:生数科技发布了 Vidu 1.5,这个版本新增了「多图参考」功能,这是视频生成模型在解决「多主体一致性」难题上的新突破。Vidu 从一开始就具备了角色一致性生成能力,后续更是扩展到全身一致性,并且能够适用于动物、物体、虚拟角色等任意主体。这一技术突破体现在复杂主体的精准控制、人物面部特征和动态表情的自然一致,以及多主体一致性上。Vidu 1.5 的这些进步源自于基础模型能力的全面提升,而非传统的 LoRA 微调方案,这使得 Vidu 能够仅靠三张图稳定输出高一致性的视频,省去了复杂的「炼丹」环节。此外,Vidu 的模型能够理解「上下文」,这使得它能够处理多图的灵活输入,生成连贯且符合情境的视频内容。
Context Autopilot:由 Context 公司开发,是一款旨在提升工作效率的 AI 办公助手,它能够像人类一样思考和学习,进行日常工作任务,能够无缝整合用户现有的工作流程,支持多种信息处理工作。Autopilot 具备自动化工作流整合功能,可以连接到多种数据源,并具备完整的办公套件、浏览器、代码编辑器等功能,适用于深度研究和项目规划。在处理复杂任务时,Autopilot 能够自动生成计划文档、执行多步数据分析,并创建财务模型和可视化图表。Autopilot 支持自适应的智能协作,当面对不确定任务时,能够主动向用户请求指导,实现人机协同,并通过实时反馈机制提高生产效率。在大项目中,Autopilot 能够产生多个微型代理(mini-pilots)进行分工协作,实现智能分配和执行。此外,Autopilot 能够进行竞争对手分析、市场洞察、金融数据收集等实际应用,并在 HELMET 128k 和 LOFT 1M 基准上表现出色,显著提升了大型语言模型在长文本理解能力上的增强。
Autopilot 采用了一个基于大语言模型的操作系统,能够理解复杂任务需求并生成解决方案。它可以与 Google Drive、SharePoint、Slack、电子邮件等平台无缝集成,并通过上下文引擎在复杂环境中进行推理和理解。Autopilot 还具备智能协作与多代理系统,能够自我复制生成多个协作代理,实现多任务处理和实时反馈与调整。在推理与长上下文处理方面,Autopilot 能够处理超过传统 RAG 模型的任务规模,并具备自我修正与学习的能力,不断优化决策和执行过程。
月之暗面发布数学模型k0-math,对标OpenAI o1系列,主打深入思考:月之暗面在Kimi全面上线一周年之际,推出了基于推理强化的数学模型 k0-math,并宣布 Kimi 探索版 的一系列新功能。k0-math 在中考、高考、考研和入门竞赛题的 MATH 基准测试中超越了 o1-mini 和 o1-preview 模型。尽管 k0-math 在数学问题上表现出色,但它在处理简单问题时可能会过度思考,这是后续需要解决的技术问题。Kimi 探索版的新功能包括意图增强、信源分析能力提升和链式思考能力,旨在增强模型的推理能力。在强化学习和数据处理方面,Kimi 正致力于解决数据和算法平衡问题,以及如何通过小规模数据和算力实现更多问题的解决。
市场
- 2024 数据智能与 LLM 定制化竞赛报告(Databricks),报告指出,AI 技术正从实验室走向生产环境,企业利用开源模型、RAG(Retrieval-Augmented Generation)和向量数据库等技术,将自有数据与 AI 能力结合,促进了数据智能的民主化。具体来看,生产环境中的 AI 模型数量同比增长了 11 倍,组织在将模型投入生产方面的效率提高了 3 倍,其中 NLP 是增长最快的机器学习应用。70% 使用生成式 AI 的公司正在使用工具和向量数据库来增强基础模型,向量数据库的使用量同比增长了 377%。在行业趋势方面,金融服务业是 GPU 使用量最大的行业,6 个月内增长了 88%,受监管行业如金融服务和医疗保健是生成式 AI 的早期采用者,制造业对 NLP 的采用增长最快,同比增长了 148%。关键发展方向包括企业从实验阶段转向生产部署,对数据治理和安全性的重视程度提高,开源工具的普及率持续上升,RAG 成为企业定制 LLM 的主要方式。效率提升方面,模型从实验到生产的比率从 16:1 改善到 5:1,Serverless 技术采用率大幅提升,统一数据和 AI 治理平台的需求增加。
- 语音AI赛道全解析:近一年,语音 AI 技术在研究、基础设施和应用方面取得了显著进展,推动了语音应用开发的热潮。语音到语音模型的出现,实现了低延迟、更拟人的交互体验。企业倾向于从低风险场景开始尝试语音 AI,但高价值场景对可靠性要求更高。语音 AI 开发者更关注业务逻辑和客户体验,而非底层基础设施和模型管理。许多公司推出平台和套件,简化了语音智能体的构建、测试、部署和监控。最具影响力的语音 AI 应用需要深度集成到特定行业工作流程中,如转录、呼入、呼出与筛选、培训和谈判等场景。文章还强调了语音 AI 技术的发展历程,包括 IVR 系统的不足、ASR 技术的进步、语音生成技术的突破以及语音原生模型的兴起。企业在采用语音智能体时面临的主要挑战是质量、信任度和可靠性。语音 AI 市场全景图涵盖了模型、开发者平台和应用层面的创新。文章最后提出了在语音 AI 产品中寻求投资的原则和标准,强调了产品质量、工程设计和关键绩效指标的重要性。
观点
什么样的AI才称得上“真”Open?:尽管 OpenAI 名义上提倡开源,但实际操作中并不总是开放。作者以 GPT-3 为例,提到 OpenAI 并未公开其完整代码和训练数据集。文章进一步分析了 Meta(Facebook)在开源 AI 方面的表现,指出 Meta 虽然也宣称开源,但实际上也有选择性地开放技术。文章认为,真正的开源 AI 应该包括开放的代码、数据集、训练模型和相关文档,以及对社会影响的考量。最后,作者提出了几个标准来评估 AI 的开放性,包括技术的可访问性、社区参与度、透明度和责任性。
你不需要招一个天才Prompt少年,也不需要玄幻的prompt来做开发:无法维护和稳定迭代的Promt,是无法进行工程化的。
Vol.28:从物理定律看视频生成离世界模型还有多远?