Vol.24:实测可灵、Luma、Runway 等13个视频生成模型,哪个更好?

大家好!Weekly Gradient 第 24 期内容已送达!

✉️ 免费订阅更新

订阅我的免费通讯,第一时间获取生成式 AI 领域优质内容

我承诺保护您的隐私,不会向第三方分享您的信息。
您可以随时取消订阅。

论文

  1. LightRAG:简单高效的 RAG 系统:这篇论文提出了一种名为LightRAG的检索增强生成(RAG)系统,通过将图结构整合到文本索引和检索过程中,显著提高了信息检索的准确性和效率。具体来说,

    • 图结构的文本索引:LightRAG通过将文档分割成更小的片段,利用大型语言模型(LLM)识别和提取实体及其关系,构建一个综合的知识图谱。

      img

    • 双层检索范式:其次,LightRAG采用双层检索策略,包括低级检索和高级检索。低级检索关注特定实体及其关联属性或关系,而高级检索则关注更广泛的主题和概念。通过结合这两种检索方式,LightRAG能够有效应对详细和抽象的查询。

    • 图结构与向量表示的集成:此外,LightRAG通过将图结构与向量表示相结合,实现了高效的相关实体和关系检索。具体步骤包括查询关键词提取、关键词匹配和高阶相关性整合。

      LightRAG如何通过图结构文本索引来增强信息检索的效率和准确性?

      LightRAG通过将文档分割成更小的片段,并利用大型语言模型(LLM)识别和提取实体及其关系,构建一个综合的知识图谱。具体步骤包括:

      1. 实体和关系提取:LLM用于识别文本中的实体(如人名、地点、日期等)及其关系(如“位于”、“创始人”等)。
      2. 键值对生成:LLM生成文本键值对,每个实体节点对应一个键和一个值,键是高效检索的词或短语,值是从外部数据中总结的相关文本段落。
      3. 去重操作:通过去重操作减少重复的实体和关系,优化知识图谱的结构,提高后续检索的效率。

      这种图结构的文本索引方法不仅增强了信息检索的全面性,还提高了检索性能。通过键值对和去重操作,LightRAG能够快速定位和提取与查询相关的信息,显著减少了计算开销。

      LightRAG的双层检索范式是如何设计的,它在处理不同类型查询时的优势是什么?

      LightRAG的双层检索范式包括低级检索和高级检索两个层次:

      1. 低级检索:关注特定实体及其关联属性或关系,适用于详细信息的查询。例如,查询“Who wrote ‘Pride and Prejudice’?”时,低级检索会精确查找与“Pride and Prejudice”相关的作者信息。
      2. 高级检索:涵盖更广泛的主题和概念,适用于抽象概念的查询。例如,查询“How does artificial intelligence influence modern education?”时,高级检索会聚合多个相关实体和关系,提供更高层次的见解和总结。

      这种双层检索范式的优势在于:

      • 全面性:结合了低级和高级检索,既能处理具体细节,也能把握整体概念。
      • 灵活性:能够根据查询的类型自动选择合适的检索层次,提供定制化的响应。
      • 效率:通过结合图结构和向量表示,LightRAG能够快速定位和提取相关信息,显著提高检索效率。

      LightRAG在处理动态数据变化时的表现如何,它是如何实现快速适应的?

      LightRAG通过增量更新算法实现快速适应动态数据变化:

      1. 增量更新过程:对于新加入的文档,LightRAG使用与原始数据相同的图构建步骤进行处理,生成新的知识图谱片段。
      2. 数据合并:将新生成的知识图谱片段与原有的知识图谱进行合并,保留节点和边的集合,避免重建整个索引图。
      3. 计算开销降低:通过消除重建整个索引图的需求,LightRAG显著降低了计算开销,加快了数据更新的速度。

      这种增量更新方法不仅确保了系统的及时性,还保持了高效的检索性能。即使在动态变化的数据环境中,LightRAG也能迅速适应新数据,确保生成的响应始终相关且准确。

  2. 使用 8000 多个案例实测 13 个类 Sora 视频生成模型:腾讯 AI Lab 联合中科大发布,旨在对当前最前沿的类 SORA 视频生成模型进行全面测评。报告重点评估了 13 个主流模型,包括 10 个闭源和 3 个最新开源模型,生成了超过 8000 个视频案例。测评从文生视频(T2V)、图生视频(I2V)以及视频到视频(V2V)生成模型全面能力评估,涵盖了从基础能力到应用和落地能力的多个维度。强调了人眼观感在评估中的重要性,并通过公开测评视频,让读者直观感受各模型的生成效果。此外,报告还探讨了模型在垂直领域中的应用,如以人为中心的视频生成、机器人、动画插帧等,并深入比较了开源和闭源模型的性能差距。最后,文章列举了视频生成领域面临的挑战和未来的研究方向,包括复杂动作理解与生成、概念理解、交互视频生成等前沿探索性问题。

  3. RMB: 一个全面、细粒度的奖励模型评估基准:复旦大学自然语言处理实验室开发了一个名为 RMB 的奖励模型评估基准,该基准覆盖了超过 49 个现实世界场景,并包含了三千条真实用户问题。RMB 不仅包括了传统的成对比较,还引入了 Best-of-N(BoN)评估范式,以更全面地评估奖励模型在引导对齐优化中的有效性。研究表明,RMB 基准测试与奖励模型在下游对齐任务上的表现呈正相关,并且对最先进的奖励模型进行了广泛分析,揭示了生成式奖励模型的潜力以及当前模型在不同场景中的泛化缺陷。通过对 RMB 提出的三个研究问题(RQ1、RQ2、RQ3)的回答,研究强调了奖励模型在 “有用性” 和 “无害性” 目标下的表现,以及 Best-of-N 评估方法相对于成对比较的优势。此外,研究还展示了数据构造过程、测试结果、以及 RMB 与下游任务的相关性,并对奖励模型在细粒度任务上的表现进行了分析。评估代码和数据集可在 GitHub 上获取:https://github.com/Zhou-Zoey/RMB-Reward-Model-Benchmark

  4. VisRAG: 基于视觉的多模态文档检索增强生成:论文介绍了 VisRAG,一种基于视觉语言模型(VLM)的检索增强生成(RAG)系统,旨在提高多模态文档处理的效率和准确性。与传统的文本 RAG 不同,VisRAG 直接将文档作为图像进行处理,避免了文本解析过程中的信息损失,更全面地保留了原始文档信息。VisRAG 由两个主要部分组成:检索器 VisRAG-Ret 和生成器 VisRAG-Gen。在检索阶段,VisRAG-Ret 利用 Bi-Encoder 架构将查询和文档图像映射到嵌入空间,实现高效检索。在生成阶段,VisRAG-Gen 通过视觉语言模型根据用户查询和检索出的页面生成答案,采用页面合并或加权筛选方法处理多页文档。实验结果显示,VisRAG 在检索和生成性能上均超越了现有的文本和视觉模型,特别是在跨领域数据集上,VisRAG-Ret 相比 MiniCPM (OCR) 和 SigLIP 分别实现了 15% 和 22% 的提升。整体性能上,VisRAG 流程使得整体准确率从 22.1% 提升至 42.7%。该研究展示了 VisRAG 在多模态文档处理领域的潜力,并为未来的研究提供了新的方向和基准。

工程

  1. F5-TTS:上海交通大学开源了一个高级的语音生成模型 F5-TTS,该模型具备零样本声音克隆、速度控制、情感表现控制、长文本合成、多语言支持(包括中英文),并在大规模数据上进行训练,同时支持商用。

    论文:arxiv.org
    模型下载:huggingface.co
    演示Demo:huggingface.co

  2. WhisperKit:WhisperKit 是一个专为 Apple Silicon 设备设计的本地语音识别解决方案,它将 OpenAI 的 Whisper 模型与 CoreML 框架结合,实现高效的本地语音转写。用户可以通过 Swift Package Manager 将 WhisperKit 集成到他们的 Swift 项目中,或者使用 Homebrew 安装 WhisperKit 命令行应用程序。项目支持自动下载推荐的模型,也允许用户选择特定的模型进行转写。

    开源的 Whisperkit, 在 M1 芯片上 whisper-large-v3 已经能做到实时的流式处理,意味着在端上实时处理的成本为零。

  3. UCL 教授汪军对 OpenAI 的o1推理方式的解读:UCL 的汪军教授在其发布的教程中,深入解释了 ο1 模型的工作原理以及如何利用这些模型进行逻辑推理。教程涵盖了从基础概念到实际应用的全面内容,包括 LLM 的基本架构、推理能力的增强、以及如何通过编程接口与这些模型交互。此外,教程还提供了实例和代码示例,帮助读者更好地理解和应用 LLM 推理方法。

  4. 从概念到代码:如何使用 AI 工具设计和构建 UI 组件:本文介绍了如何利用Sourcegraph 出品的AI辅助编码工具 Cody 和 Tailwind CSS 快速设计和构建 UI 组件,并通过具体的教程演示了在 React 项目中的应用。

  5. 音视频技术原理及应用:做支持语音交互的AI产品必备知识,由字节跳动技术团队撰写,详细介绍了音视频技术的多个关键领域,包括音频和视频的编码原理、压缩技术、优化方法以及新兴的编码标准。文章首先阐述了声音转数字信号的过程,包括采样、量化和编码,并介绍了音频压缩的分类和视频编码中的冗余信息去除方法。随后,文章深入探讨了帧间压缩技术、H.264 和 H.265 编码标准的具体实现和差异,以及音频去噪、回声消除和音量均衡等优化技术。此外,文章还介绍了响度测量标准 LKFS 和空间音频的实现原理,特别是杜比全景声的技术特点。最后,文章讨论了码率控制技术、音视频编码技术的发展历程,以及 AV1 和 AVS 系列视频编码标准的技术特点和应用前景。

  6. FLUX 模型在 Replicate 上是如何实现加速的?:FLUX 模型在 Replicate 上的加速主要通过以下两个方面实现:

    1. 模型优化:Replicate 使用了 Alex Redden 的 flux-fp8-api 作为起点,并进一步优化了模型。这包括使用 torch.compile 来提高代码执行效率,以及利用 fast CuDNN attention kernels 在 nightly Torch builds 中实现更快的注意力机制。

    2. 新的同步 HTTP API:Replicate 引入了一个新的同步 HTTP API,这大大提高了所有图像模型在其平台上的运行速度。

      这些优化使得 FLUX 模型能够在不同的分辨率和迭代步数下实现快速的运行时间。例如,在 512x512 分辨率和 4 步迭代下,FLUX.1 [schnell] 模型的处理时间为 0.29 秒(P90: 0.49 秒)。

产品

  1. Voyage AI : Voyage AI 是一家专注于搜索和检索非结构化数据的公司,最近宣布筹集了 2800 美元的基金,并提供一系列适用于不同目标应用场景的模型,以及高精度、低维性、低延迟、成本效益高、长上下文和模块化等特点的 AI 技术解决方案。Voyage AI 提供了一系列模型,包括通用模型、行业特定模型和公司特定模型。通用模型可以适用于各种语言和目的,而行业特定模型则针对特定行业的数据进行了优化,如金融、法律和代码等。公司特定模型则是针对企业的独特数据和术语进行定制。该公司的 AI 技术具有多项创新特性,包括高精度的上下文信息检索、3 倍到 8 倍更短的向量导致更便宜的向量搜索和存储、4 倍更小的模型、更快的推理速度和更优的准确性、2 倍便宜的推理成本、最长的商业上下文长度(32K 个令牌)以及与任何矢量数据库和大型语言模型(LLM)插拔式使用的模块化设计。
  2. 智谱模型更新:智谱以 GLM-4-Plus 为核心,推出了全家族的模型,并在 bigmodel.cn 上线。GLM-4-Plus 在多个语言文本能力数据集上表现优异,与 GPT-4o 和 405B Llama3.1 相当,新模型在代码计算、数据分析、图像 / 视频特征识别等领域显示出性能的提升和成本的降低。此外,智谱还推出了 GLM-4-Plus-VideoCall API,用于实现视频通话、语音多轮交互等跨模态能力。智谱开放平台目前已部署了 GLM-4-Plus、CogVideoX、GLM-4V-Plus、CogView-3-Plus 等模型,并提供了模型微调功能。
  3. 使用 Jina Reader 中的新事实验证 API 进行事实核查:Jina AI 推出了一款新的事实验证 API (g.jina.ai),通过利用实时网络搜索结果增强了大语言模型的事实核查能力(能够防止 LLMs 中的幻觉和不准确性,尤其是在处理超出其训练数据的信息时),与 GPT-4 和 Gemini 等模型相比,实现了更高的 F1 分数。
  4. Perplexity 推出了 Space 功能:Perplexity 的 Space 功能支持用户上传和存储文件,不仅可以搜索网络内容,还能搜索已上传的文件。用户可以根据个人喜好选择AI模型,并且可以为所需答案编写自定义说明。此外,Space 允许用户邀请他人共同协作进行搜索。对于企业级用户,Space 提供了内部知识搜索功能,能够搜索整个组织的文件和内部网络,但这一功能仅限于 Enterprise Pro 版本的用户。
  5. OpenAI 发布了 gpt-4o-audio-preview 的新模型:OpenAI 最新发布的 gpt-4o-audio-preview 模型主要功能包括生成语音响应、分析音频中的情感、语调和音调,以及支持语音到语音的互动。该模型的输入和输出都可以是音频形式,注重语音的细节处理。而 Realtime API侧重于实时数据处理,如实时语音转文本和即时翻译等应用。 gpt-4o-audio-preview 模型还支持多种模态组合,包括文本输入转换为文本和语音输出、音频输入转换为文本和语音输出、音频输入转换为文本输出、混合输入生成文本和语音输出,以及混合输入生成文本输出,价格方面:文本输入大约为每百万 tokens 5 美元,文本输出标记为每百万 tokens 15 美元,音频输入标记为每百万 tokens 100 美元,每分钟音频约为 0.06 美元,音频输出标记较高,为每百万 tokens 200 美元,每分钟音频约为 0.24 美元。
  6. 其他:OpenAI上线ChatGPT Windows 版本Anthropic升级Claude iOS 和 Android应用,并推出 iPad 应用

市场

  1. 中国AI内容创作类应用生态研究报告:AI 内容创作生态格局。

    AI 内容创作生态格局

  2. 阿里云&中国信通院-大模型安全研究报告:随着大模型商业化应用和产业化落地加速,大模型技术局限和恶意使用不仅加剧了原有人工智能安全风险,也引入了模型“幻觉”、指令注入攻击、网络攻击平民化等新型风险。面对这些挑战,国际组织和世界主要国家正通过制定治理原则、完善法律法规、研制技术标准等方式,积极开展大模型安全治理。同时,大模型在逻辑推理、任务编排等方面的卓越能力,为解决网络空间安全瓶颈问题带来了新的机遇。本报告聚焦当前大模型突出安全风险和网络空间安全瓶颈问题,从大模型自身安全和大模型赋能安全两个维度,提出涵盖安全目标、安全属性、保护对象、安全措施四个方面的大模型自身安全框架,以及大模型赋能安全框架。

  3. 中国信通院&华为-智能化软件开发落地实践指南报告:智能化软件开发落地面临很多挑战,如代码大模型选择困难、开发工具的工程化建设复杂、智能能化能力建设无参考、开发场景选择和落地难,以及与现有开发工具或流水线的集成难等问题。为此,本指南旨在为正在进行软件开发智能化转型的企业提供一份实用指南,为企业制定落地策略、建设智能开发能力体系提供有力参考。本指南系统梳理了智能化软件开发的发展历程、现状和面临的挑战,结合大模型和软件开发特点,提出了具体的落地方向、路径和框架,详细阐述了落地所需的核心能力和使能能力,并对多个行业的落地案例进行了深入剖析,最后对智能化软件开发的发展趋势进行了展望。

观点

  1. Machines of Loving Grace:Anthropic 的CEO Dario Amodei 在他最新的博客文章中提出了一个关于人工智能(AI)如何积极影响世界的宏大愿景。他认为,尽管存在风险,AI 有潜力带来前所未有的积极变化,包括医疗、神经科学、经济发展、和平与治理以及工作与意义方面的改进。AI 不仅能够提高生产效率和科学研究的速度,还能够帮助人类克服疾病、减少贫困,甚至延长寿命。他预测,AI 将能够加速基础科学的进步,例如通过 CRISPR 等技术在生物学和神经科学领域实现突破。此外,他相信 AI 能够促进经济增长,特别是在发展中国家,通过提高生产力和改善服务来减少贫困。在和平与治理方面,阿莫迪认为 AI 可以帮助推动民主与自由,并有助于解决全球性的问题,如气候变化。最后,他讨论了 AI 如何影响人类的工作和寻找生活意义,以及如何确保技术进步惠及所有人。

Vol.24:实测可灵、Luma、Runway 等13个视频生成模型,哪个更好?

https://liduos.com/the-memeber-newsletter-24.html

作者

莫尔索

发布于

2024-10-21

更新于

2025-06-25

许可协议

评论