Vol.32:AI Creativity 赛道有哪些机会?
大家好!Weekly Gradient 第 32 期内容已送达!
✉️ 免费订阅更新
订阅我的免费通讯,第一时间获取生成式 AI 领域优质内容
我承诺保护您的隐私,不会向第三方分享您的信息。
您可以随时取消订阅。
论文
RARE:通过检索增强推理(Retrieval-Augmented Reasoning Enhancement)的方法:RARE 框架基于现有的 rStar 框架,通过两个主要阶段工作:检索增强生成器生成候选推理轨迹,并通过检索增强评分器进行真实性评估。生成器通过两个新动作(A6 和 A7)动态融合外部信息,提升推理轨迹的相关性与准确性。A6 是基于初始问题生成搜索查询并进行信息检索,而 A7 是针对子问题进行信息检索并重新回答。评分器则用于评估每个推理轨迹的事实可靠性,选择最有事实依据的推理路径作为最终答案。实验结果显示,RARE 框架在医疗推理基准(MedQA、MedMCQA 和 MMLU-Medical)以及常识推理基准(StrategyQA、Commonsense QA、Social IQA 和 Physical IQA)上的性能优于基线方法。
HtmlRAG:对于 RAG 系统中检索的知识建模,HTML 比纯文本更好:HtmlRAG 项目旨在改善 RAG 系统的性能,通过直接使用 HTML 而非将其转换为纯文本,保留了原始网页的结构和语义信息。该项目提出了两个关键技术:无损 HTML 清理和基于两步块树的 HTML 修剪。无损 HTML 清理能够去除不相关内容并压缩冗余结构,同时保留所有语义信息,适用于具有长上下文理解能力的大语言模型(LLMs)。基于两步块树的 HTML 修剪则通过嵌入模型和路径生成模型两个步骤,对块树结构进行修剪,以提高信息检索的准确性。HtmlRAG 在六个不同的问答数据集上进行了实验,结果显示其性能优于或等于现有的基于纯文本的后检索处理方法,如 BM25、BGE、E5-Mistral、LongLLMLingua 和 JinaAI Reader。HtmlRAG 的相关研究的代码已经发布 GitHub 。https://github.com/plageon/HtmlRAG
大语言模型能打败华尔街吗?挖掘AI在选股中的潜力:MarketSenseAI 是一个基于 GPT-4 的金融投资分析工具,它通过模块化架构处理和分析包括市场趋势、新闻、基本面及宏观经济因素等多样的数据源。该框架模拟专家的投资决策流程,生成投资信号,并在标准普尔 100 指数股票上进行了 15 个月的实证测试。测试结果表明,MarketSenseAI 在此期间实现了 10% 至 30% 的超额阿尔法,累计回报高达 72%,同时风险状况与更广泛的市场相当。MarketSenseAI 的架构框架包括五个组件:新闻摘要组件、基本面总结模块、股票价格动态总结模块、宏观经济环境综述、以及信号生成组件。每个组件都负责不同的数据输入和处理,最终为特定股票提供全面的投资建议和详细的证据。通过 Bootstrapping 方法和多种普通策略的验证,MarketSenseAI 生成的信号在市场效果上显示出卓越的表现,不仅在总回报上超越了基准指数,而且在风险调整后的回报指标上也表现出色。
论文终究还是研究性质,但是框架很完善,思路也不错,也许可以基于此做个小工具。
RAG四个层次与技术实现: RAG的四个层次包括显性事实查询、隐性事实查询、可解释的推理查询和隐藏的推理查询,并探讨了微调 LLM 与 RAG 结合的优势。在显性事实查询阶段,强调了简单性和高效准确的检索,提出了数据预处理、索引构建、检索技术和答案生成的相关方法。隐性事实查询阶段涉及更复杂的推理和多步骤处理,提出了多跳检索和推理、问题分解、图结构或树结构的检索和推理以及使用 SQL 等结构化查询的方法。可解释的推理查询阶段要求模型应用领域特定的规则和指南,通过提示工程、链式思维(Chain-of-Thought, CoT)提示和遵循外部流程或决策树等方法来实现。隐藏的推理查询阶段是最复杂的,需要模型从数据中挖掘和应用隐含的逻辑,通过离线学习和经验积累、上下文学习(In-context Learning, ICL)以及模型微调等技术来提升模型的推理能力。微调 LLM 与 RAG 结合可以增强推理能力和实时访问知识的能力。
工程
- ChatBI 的几种技术路径探讨:ChatBI 的目标是让业务用户能够以低门槛使用数据分析产品,促进数据驱动决策。与传统的搜索式 BI 产品相比,ChatBI 利用生成式 AI 技术,具有更强的灵活性和泛化能力,能够动态生成内容,更好地理解自然语言,提供更有效益的信息整合。ChatBI 能够满足个性化需求,处理复杂查询,并且响应速度快,能够帮助企业实现敏捷看数,提升数据驱动文化。评估 ChatBI 产品时应关注其回答效果、企业级能力、成本、速度和安全性。效果是最重要的考量维度,包括对复杂场景个性化需求的满足能力、过滤条件测试、多表查询、模糊提问、范围外问题和多轮对话等。企业级能力包括可视化、数据源支持、权限管控、查询引擎性能和可用性以及企业内部集成能力。成本方面考虑大模型的采购和运维成本,以及冷启动和持续维护成本。速度方面虽然重要,但效果更为关键。
- LiveKit Agents:一个开源的实时多模态 AI 应用开发框架,它允许开发者构建能够同时实时看、听、说的 AI 应用。框架支持语音对话、视频处理和实时数据传输,并且可以在自己的服务器上运行整个技术栈。最新版本支持了 Google Gemini 2.0 模型,并推出了自研的语音终点检测模型以优化对话流程。核心集成能力包括语音转文字、文字转语音、大语言模型的支持,以及实时音视频传输和电话系统集成。框架具有灵活的插件系统,内置任务调度系统,支持与客户端进行数据交换,并提供多种示例应用。
- OpenAI 实时 API 的技术细节,该 API 通过 WebSocket 连接管理对话状态,提供了短语结束检测和语音活动检测(VAD)功能,大大简化了实时语音应用的开发。实时 API 支持函数调用和上下文管理,简化了多轮对话中的对话历史管理,自动缓存上下文,支持长时间对话,减少了成本。开发者可以通过 API 内置事件方便地管理语音输入、函数调用和音频转录。作者还讨论了实时 API 在延迟、VAD、函数调用、上下文管理、成本控制、网络协议选择和音频处理等方面的技术实现和最佳实践。此外,还提到了 Pipecat 开源项目,它是一个与供应商无关的 Python 框架,用于实时、多模态 AIAgent 和应用,支持 GPT-4o 和 GPT-4o 实时功能,兼容多种 AI API 和服务,提供了丰富的功能模块。
- AI数据中心历史、技术与关键企业:近一年内,顶尖大模型之间的性能差距因模型架构创新、更优质训练数据和更大算力规模而急剧缩小。随着 Scaling law 的有效性,为了进一步扩展模型规模与性能,通过获得更多算力来建造全新数据中心成为了确定性更高的收益方式。以马斯克的 xAI 为代表的大模型公司已经快速部署了 10 万台 GPU 集群,预计所需算力的数据还会成倍增长。文章接着比较了建设数据中心与人类最初构建电网的复杂性,并通过 Eric Flaningam 的视角从历史、技术及关键企业探讨了构建 AI 数据中心所需的基础设施。数据中心的价值链包括初期建设、工业设备、计算基础设施和能源供应。数据中心的规模化发展伴随着超大规模企业的巨大资本支出和 AI 计算成本的急剧下降。文章还回顾了数据中心的历史,从计算机和互联网的崛起,到数据中心的早期历史、互联网与云端的崛起,以及 AI 数据中心的发展。构建 AI 数据中心需要考虑计算服务提供商的建设需求、数据中心工业设备(电气和冷却设备)、计算基础设施(GPU 或加速器、CPU、存储设备、网络),以及能源供应链(来源、发电、传输、公用事业 / 分配)。数据中心的新变化包括规模、性能和成本的优化,以及对能源的需求增加。文章最后讨论了 AI 数据中心面临的瓶颈和潜在的受益者,包括电网扩展、能源基础设施的发展、审批流程的自动化、液体冷却技术的应用,以及计算公司的未来发展。文章强调,尽管数据中心建设似乎是新趋势,但它实际上是计算增长历史的一部分,与人工智能和计算的发展紧密相连。
产品
Meta 新推出的 Llama 3.3 模型:一个只支持文本的 70B 指令调整模型,性能优于 Llama 3.1 的 70B 模型,并且在仅文本应用场景下接近 Llama 3.1 的 405B 模型性能。Llama 3.3 70B 版本只提供指令调整后的模型,没有预训练版本。此外,Llama 3.3 支持与 Llama 3.1 相同的提示格式,且具备代码解释器和工具调用的能力。
DeepSeek 发布 DeepSeek-V2.5-1210,并支持了联网搜索功能:DeepSeek 公司宣布发布了 DeepSeek V2.5 系列的最终版本,即 DeepSeek-V2.5-1210。这个版本通过 Post-Training 优化,提升了模型在数学、代码、写作、角色扮演等多个领域的能力表现。同时,该模型优化了文件上传功能,并首次支持了联网搜索功能,可以为用户在各类工作生活场景中提供更加全面和准确的服务。
DeepSeek 推出的新一代视觉语言模型 DeepSeek-VL2,它采用了 MoE 架构和动态切图技术,支持高分辨率和长宽比极端的图像处理,并在多项视觉任务上展现出优异的性能。模型已经开源,并且在多项评测指标上取得了优异的成绩。
OpenAI 产品发布会本周发布内容
OpenAI 推出Sora正式版:Sora 的最新版本引入了五个创新的功能:Storyboard 允许用户通过时间轴和关键帧来控制视频动作;Recut 允许对生成的视频进行再生成和剪辑;Remix 能够对视频进行局部重绘;Loop 可以实现视频片段的无限循环;Blend 提供了视频过渡和融合的高度可控的效果。这些功能不仅提升了视频制作的灵活性,还能够激发用户的创意。Sora 的一些限制,如对版权内容的生成拒绝、对真实人物肖像和过于逼真效果的限制,以及 AI 视频生成可能带来的伦理和信任问题。
Canvas 工具全面开放给所有 ChatGPT 用户,新增了 Python 集成和在线代码修改功能:写作和编程工具 Canvas 将向所有 ChatGPT 用户开放,而不仅限于付费订阅用户。此次发布包括三个主要更新:首先,Canvas 现在集成到主要模型中,所有用户无需额外操作即可使用。其次,Canvas 支持直接运行 Python 代码,用户可以在界面中看到代码执行的结果。最后,Canvas 被集成到自定义 GPT 中,使得自定义 GPT 也具备了 Canvas 的强大功能。Canvas 的功能被比喻为 AI 增强的 Google Docs,它允许用户扩展故事创意、编辑文稿、调整文章长度、降低词汇难度等。此外,Canvas 的集成使得用户可以直接在 ChatGPT 中运行和修改 Python 代码,而不需要在本地系统中操作,这对于代码评审、转换编程语言、修复错误等工作非常有用。对于自定义 GPT 的用户,Canvas 将默认集成,但用户可以自由设置其使用情况。
OpenAI 与 Apple 合作,将 ChatGPT 深度整合到 iPhone、iPad 和 Mac 的操作系统中,实现与 Siri 和 Apple Intelligence 的智能协同,提供全新的用户体验。这次深度整合使得用户可以在苹果设备上通过简单操作与 ChatGPT 进行交互,无论是在办公、学习还是娱乐场景。ChatGPT 与 Siri 的整合使得用户可以通过语音命令调用 ChatGPT,并在 Siri 界面中直接展开对话。此外,ChatGPT 还被集成到 Apple Intelligence 中,扩展了视觉智能和上下文生成图像的功能,如分析图片内容并生成描述,以及在 Mac 上创建图像并直接分享或编辑。ChatGPT 还赋予了 Mac 上的 Siri 新的 PDF 文档分析能力,能够对文档进行详细解析,提取关键信息。这次集成还支持多设备协作,用户可以在不同的 Apple 设备之间无缝切换,享受连贯的用户体验。
OpenAI 宣布将在一周内为 Pro 和 Plus 用户全量上线春季发布会演示的 4o 视频通话功能,该功能能够实时理解视频通话中的连续性动作和内容,并且还推出了实时理解屏幕功能,可以辅助用户进行 PPT 设计、代码编写、数据分析等工作,同时还推出了圣诞老人限定语音。
OpenAI 推出了 ChatGPT 的新功能 “Projects In ChatGPT”,这一功能能够将 ChatGPT 的各种功能整合在一起,便于用户创建和管理项目,支持 Canvas 界面和 ChatGPT Search 功能。
谷歌发布了 Gemini 2.0,这是一款性能超越 1.5 Pro 的多模态 AI 模型,能够原生生成音频和图片,并支持 Agent 的功能。:谷歌宣布推出了 Gemini 2.0 Flash,这是第一款实现原生多模态输入输出的模型,其性能与 1.5 Pro 型号相当,但速度提升了一倍。Gemini 2.0 Flash 不仅能够执行以往版本的任务,还能生成音频和图像,并带来了新的多模态能力。本次发布包括四款产品:Gemini 2.0 Flash、通用助手 Project Astra 的新进展、Project Mariner 浏览器 Agent 助手、AI 代码助手 Jules。Gemini 2.0 Flash 可以在 Google AI Studio 和 Vertex AI 中使用,并将于 1 月份全面上市。Gemini 2.0 的特点包括原生多模态输入输出、速度是 1.5 Pro 的两倍、多语言原生音频输出、原生图像输出等。Project Astra 得到了更新,具备更流畅的对话、新工具的使用、更强的记忆力和更低的延迟。Project Mariner 是基于 Gemini 2.0 构建的早期原型,能够理解和推理浏览器页面中的信息。AI 代码助手 Jules 基于 Gemini 2.0,能够与用户的 GitHub 工作流程集成,处理 Bug 修复和其他耗时的任务。此外,谷歌还探索了 Gemini 2.0 在游戏 Agent、机器人领域以及深度研究新功能的应用。
可能 OpenAI 话题能得到更多流量,但是谷歌的这次更新,就目前来看,是比OpenAI 7 天内发布的内容含金量更高的,而且没有期货,免费体验额度很足,特别是 Project Mariner 实时理解页面中的信息的能力特别强,推荐体验。
其他
- 智谱发布免费多模态模型 GLM-4V-Flash
- 上海人工智能实验室开源多模态大模型书生・万象 2.5(InternVL2.5),该模型在多模态性能、多模态长链推理、通用能力和纯语言能力上取得了显著突破。
- 阶跃星辰推出端到端语音大模型Step-1o Audio(以下简称 Step-1o),能够提供更自然、高质量的语音交互体验,具备高情商和智商,能够理解和生成语音,处理复杂的人情世故,以及创作故事等功能。
市场
编码类 Agent 如何颠覆传统软件开发模式?:LLM 作为推理引擎,coding 是最好的应用场景:代码的逻辑比自然语言更清晰,执行的结果能由 AI 自动化验证。因此我们看到从 Sonnet 3.5 到 o1 pro,每一次模型能力的提升都会反映在 coding 能力的提升上,这一领域的应用进步就尤其显著。面向 professional developer(专业,包括企业和独立开发者), coding 能比其他垂直方向更快地从 copilot 进化到 agent,并且两者共存。现阶段 Cursor、Windsurf 等产品体验非常优秀的 copilot 对独立开发者的工作体验和生产力已经带来了巨大提升。而企业中有庞大的 codebase、复杂的 engineering context,以及严格的安全合规要求,这些短期之内很难快速解决。因此 agent 会在 testing、review、migration 等具体 use case 上落地,同时通用的 copilot IDE 仍能发挥价值成为 coding agent 的工作环境。对于 citizen developer(小白,泛知识工作者),我们期待软件生产方式有颠覆性的变革,出现新一代产品形态 task engine。AI coding 能使更多知识工作者的长尾需求被实现,生成出 disposable app:随用随抛的下一代软件,每一个 app 不需要满足大量 DAU,而是针对不同用户有自己个性化的体验,其中的内容甚至可以实时生成。UI/UX 交互层面的创新是必要的,交互门槛更低的产品能允许更多用户表达个性化需求,形成 coding agent 层面的新一代 OS。类比 PC 历史,现在的产品还在命令行时代,我们期待 AI coding 方向的“GUI 时刻“。
AI Creativity 赛道有哪些机会?:创意行业的工作流很长、行业细分,用 AI 去提效其中的每一个环节都有意义,持续有值得关注的创业公司出现。 今年八月份,Stability AI 核心 research 团队创立的新公司 Black Forest Lab 亮相并发布了 Flux1 系列 Sota 模型,Ideogram 发布 2.0 版模型,Midjourney 也终于推出了网页端产品。这三家的文生图模型各有所长,Flux 是目前的 Sota 模型,Ideogram2.0 最接近商业化可用,文字渲染能力极强,在商业广告、海报等场合表现最好。Midjourney 更擅长艺术创作,新推出来的网页端工具也是生成功能最丰富全面的。另外,为专业设计师搭建的、基于图像生成的工作流平台也在不断迭代产品,其中 Krea.ai MAU 已经到达了 142 万。 视频领域,OpenAI 发布 Sora Demo 后,不断出现新一代“媲美 Sora”的模型,包括国内刚刚发布的字节豆包视频模型、minimax 海螺大模型、快手 Kling,以及海外的 Meta moviegen,Luma、Runway Gen3 这些炙手可热的视频生成公司。同时,BFL、Ideogram、Midjourney 未来也将要发布自己的视频生成模型。技术路线还没有确定,每去很难做出谁会是最终赢家的判断。有一些 startup 不去卷模型,而是专注做应用。比如 Captions、Opusclip、Creatify 等产品专注于 AI 辅助的视频编辑。AI Creativity 领域逐渐演变出了两种形态的 Startup:一种专注提升模型能力,团队以 top researcher 为主;一种专注构建结合 AI feature 的产品,团队以产品、GTM 为主。
AI 行业这一年:比较系统的回顾了过去这一年AI行业的进展,从基础模型到应用,海内外资本市场情况等,PPT获取地址。
年底了,会有各类AI行业相关比较有价值年终报告发布,大家可以在「每周通讯/每周通讯附件/2024年度报告」目录下获取。
观点
Ilya Sutskever 在 NeurIPS 2024 上发表演讲,指出预训练模型时代即将结束,因为可用的数据已经接近极限,AI 行业将不得不寻找新的训练方法, 报告全文中文版。
接下来是:
- Agent(智能体)
- Synthetic data(合成数据)
- *Inference time compute ~ o1 (推理时计算)
未来是 Superintelligence(超级智能):
- Agentic(智能体)
- Reasons(推理)
- *Understands (理解)*
- Is self aware(自我意识)
Vol.32:AI Creativity 赛道有哪些机会?