Vol.27:如何定制 LLM 以更好地服务于特定领域的企业?
大家好!Weekly Gradient 第 27 期内容已送达!
✉️ 免费订阅更新
订阅我的免费通讯,第一时间获取生成式 AI 领域优质内容
我承诺保护您的隐私,不会向第三方分享您的信息。
您可以随时取消订阅。
论文
Ferret-UI 2: 掌握跨平台的通用用户界面理解:Ferret-UI 2 是由苹果公司开发的多模态大模型,旨在理解和交互移动用户界面。该模型能够识别和理解各种移动设备屏幕上的 UI 元素,执行复杂的用户指令,并实时观察用户在移动设备屏幕上的操作,随时准备提供帮助和执行任务。Ferret-UI 2 在高分辨率图像编码和先进的数据训练方法上进行了改进,提高了 UI 元素的识别精度和交互能力。
Ferret-UI 2 支持多平台,包括 iPhone、Android、iPad、Webpage 和 AppleTV 等,并且具备高分辨率图像感知、高级任务训练数据生成、用户中心交互和跨平台迁移能力。技术上,Ferret-UI 2 结合了视觉感知和语言处理能力,采用了自适应 N 网格机制、动态高分辨率图像编码、视觉采样器和 set-of-mark(SoM)视觉提示等技术,以及端到端训练方法。Ferret-UI 2 的应用场景包括智能手机和平板电脑、网络浏览、智能电视以及多任务环境,同时也可以集成到辅助技术中,帮助残障人士与设备交互。
X-Portrait 2:极具表现力的肖像动画:X-Portrait 2 是由字节跳动公司和清华大学合作开发的,它是基于先前的研究成果 X-Portrait,通过引入先进的表情编码器和生成性扩散模型,将肖像动画的表现力提升到了新的高度。该技术使用户只需提供一个静态肖像图像和一个驱动表演视频,就能生成具有驱动表情的视频,极大地简化了动作捕捉、角色动画和内容创作流程。X-Portrait 2 的表情编码器能够隐式编码输入中的微小表情,并且在大规模数据集上进行训练,以实现表情和动作的强解耦,从而在保持高度情感真实性的同时,适应广泛的使用场景,包括现实世界的故事讲述、角色动画、虚拟代理和视觉特效。与现有的最先进的方法相比,X-Portrait 2 能够更准确地转移快速的头部动作、微小的表情变化和强烈的个人情感,这对于高质量的动画内容创作至关重要。
Number Cookbook:语言模型的数字理解以及如何改进它:一篇关于大语言模型(LLM)在数值理解方面的局限性和改进方法的论文,提到了 LLM 在基础数值任务中的错误,如认为 9.11 > 9.9。论文首先指出现代 LLM 虽然在复杂数学推理任务上表现出色,但在基础数值理解和处理方面存在明显不足,例如会出现认为 9.11 > 9.9 的错误。为了解决这些问题,论文作者提出了一个全面的数值理解和处理能力评测基准(NUPA),该基准包含四种数字表示形式(整数、浮点数、分数、科学计数法)和 17 种基本任务,共有 41 种任务组合。在基准测试中,即使是最先进的 LLM,如 GPT-4 和 Llama 3,也表现出在简单任务上表现尚可,但在复杂任务上准确率显著下降,随着数字长度的增加,性能急剧下降,且在数位概念理解方面存在困难。论文接着探讨了改进 LLM 数值理解能力的方法,分为预训练阶段和微调阶段的改进尝试,以及思维链(CoT)方法。在预训练阶段,发现单数字分词效果最好,专门设计的位置编码可以作为长度正则化,数据格式的改进如反转和补零主要通过帮助数位对齐来提升性能。微调阶段的简单微调可以显著提升 NUPA 能力,但预训练阶段的特殊技巧在微调时反而会降低性能。思维链方法能显著提升准确率,但会大幅增加推理时间和上下文窗口需求,实用性受限。
HtmlRAG:HTML 比纯文本更适合在 RAG 系统中建模检索到的知识:HtmlRAG 是一种改进的知识RAG)系统,它提出了使用 HTML 而非纯文本作为检索知识的格式。该系统认为 HTML 能更好地保留文档中的结构和语义信息,而这些信息在传统的基于纯文本的 RAG 过程中往往会丢失。为了解决 HTML 中额外内容(如标签、JavaScript 和 CSS 规范)带来的问题,HtmlRAG 采用了 HTML 清洗、压缩和修剪策略,以缩短 HTML 长度并最小化信息损失。具体而言,HtmlRAG 设计了一种基于两步块树的修剪方法,用于去除无用的 HTML 块,并仅保留相关部分。实验结果在六个问答数据集上证实了使用 HTML 格式在 RAG 系统中的优越性。此外,论文还讨论了 HtmlRAG 与其他格式(如 Markdown)的比较,以及未来可能探索的 HTML 块表示策略。论文作者还回应了社区成员的提问,澄清了 HtmlRAG 与 Graph RAG 的区别,以及如何处理 HTML 数据的问题。
Foundations and Recent Trends in Multimodal Mobile Agents: A Survey:论文讨论了移动端智能体的背景、核心组件、分类以及未来研究方向。首先,介绍了移动端智能体的发展历程,从基于规则的系统到现在能够处理复杂任务的多模态模型的演变。接着,详细描述了移动端智能体的四大核心组件:感知(Perception)、规划(Planning)、行动(Action)和记忆(Memory),以及它们如何协同工作以在移动环境中进行感知、推理和执行任务。文章还分类讨论了基于提示的方法和基于训练的方法,并举例了当前的 21 个移动端智能体应用。此外,还介绍了用于评估移动智能体性能的测试基准数据集,包括静态数据集和交互式环境,以及评估方法。最后,提出了未来研究的关键方向,包括安全与隐私、适应动态环境和多智能体协作等。
工程
- RAG Context Refinement Agent:本文介绍了一个针对代码仓库的问题场景的 RAG上下文细化代理(Context Refinement Agent)的设计和实现,提出了一个针对代码仓库的 RAG 问题场景,即如何帮助支持工程师从众多的文档和代码中找到解决用户问题的相关信息。传统的 RAG 方法在处理代码仓库时可能会遇到上下文不足的问题,因此作者提出了一种新的方法,即在问题答案时部署一个 AI 代理,该代理能够通过多轮迭代来细化问题的上下文部分,直到包含足够的信息来回答用户的问题。该系统的设计包括一个用于存储问题特定上下文信息的草稿板(scratchpad),以及一个评估器(Evaluator)来决定是否需要进一步细化上下文。如果需要,系统会使用一系列工具来改进上下文,例如选择和过滤有用的仓库、总结文件和目录、引入整个代码文件、移除不相关的片段以及跟踪链接到其他文档。作者还提到了这种架构与经典的生产系统的关系,并强调了大语言模型(LLMs)在决策、模式匹配和概念抽象方面的优势。
- 如何定制 LLM 以更好地服务于特定领域的企业?:Wix 工程团队分享的一篇关于如何使用DAPT技术自定义大语言模型(LLMs)以适应企业数据的文章。文章首先介绍了 LLMs 的强大的通用能力,以及它们在文本分类、内容生成、问题回答和知识提取等多种用例中的应用。为了提高 LLMs 在特定领域的准确性,AI 工程师们采用了多种技术,包括提示工程、检索增强生成(RAG)和微调。然而,这些技术在实现完全领域适应时存在局限性。Wix 团队通过多任务监督微调(SFT)和使用全权重微调的领域适应(DAPT)来实现 LLMs 的完全领域适应。这些技术需要大量的数据收集、先进的建模过程和专门的评估基准。Wix 的自定义 LLM 在 Wix 特定任务上表现出比 GPT 3.5 更好的结果,并为组织内部的应用开辟了大门。文章还讨论了生成式 AI 项目的生命周期,以及不同自定义技术的优缺点。Wix 团队在自定义 LLM 的过程中面临的挑战和机遇,以及他们如何通过评估、建模和创建训练数据集来克服这些挑战。最后,文章强调了在 LLM 定制过程中需要的大量数据开发工作。
- 微软 GraphRAG v0.4.0 正式发布:微软 GraphRAG v0.4.0 版本正式发布,主要新增了基于 GraphRAG 技术改进的 DRIFT(动态推理和灵活遍历推理)新型搜索方法,由微软研究院与 Uncharted Software 合作开发。该版本支持增量索引、新增了 DRIFT 图推理查询模块和 DRIFT 搜索命令行界面(CLI)以及示例 notebook,并对嵌入向量工作流进行了优化。性能优化包括合并操作的优化、数据处理效率的提升,以及对多个工作流程的改进。DRIFT 搜索的创新点体现在融入社群信息、使用社群洞察来细化查询、处理不完全匹配的查询,并采用三步流程:Primer(初始阶段)、Follow-Up(跟进阶段)和 Output Hierarchy(输出层级)。性能表现方面,DRIFT 搜索在综合性和多样性方面均优于传统本地搜索。
- Elasticsearch 和 Vespa 两款企业级搜索引擎进行性能、成本和架构的全面对比分析:基于百万级数据的性能评测结果,指出 Vespa 在混合查询、向量搜索和词法搜索的查询吞吐量均显著高于 Elasticsearch,具体为:混合查询高 8.5 倍,向量搜索高出 12.9 倍,词法搜索高出 6.5 倍。此外,Vespa 的更新效率约为 Elasticsearch 的 4 倍。两者架构上的差异体现在 Elasticsearch 基于不可变的 Lucene 段,而 Vespa 采用可变和不可变数据结构的混合架构,后者避免了段合并的开销,提供了更好的实时性能。在成本影响方面,Vespa 能够降低约 5 倍的基础设施成本,具体案例显示,Vespa 相比 Elasticsearch 可以用更少的核心和更低的成本提供更高的性能。
- RAG 技术的五个实际应用案例:文章深入探讨了 RAG 技术在不同行业中的五个应用案例,包括提升客户支持聊天机器人的能力、增强 AI 虚拟人的个性化交互、加速新员工培训、提高内容创作的质量和效率,以及优化客户反馈分析。RAG 系统通过访问外部知识库并将检索到的信息用于生成模型,确保了生成的回答不仅连贯,而且是最新和准确的。文章还强调了 RAG 系统在保证数据完整性的同时,如何平衡生成模型的创造性输出,以及如何通过专家的帮助将 RAG 技术无缝集成到现有的商业流程中,从而为组织提供了一个更加强大和高效的解决方案。
产品
智谱推出AI生成视频新清影:智谱公司的 “新清影” 产品从今天开始支持 10s 时长、4K 分辨率、60 帧超高清画质的视频生成,同时支持任意尺寸和多通道生成能力,可以一次性生成 4 个视频。此外,新清影还集成了音效功能,可以生成与画面匹配的音效,音效功能将在本月上线公测。
腾讯开源大型MoE模型Hunyuan-Large:腾讯开源了 Hunyuan-Large 语言模型,该模型采用了 MoE 架构,总参数达到 3890 亿,活跃参数为 520 亿,是业界最大的开源 Transformer 型 MoE 模型。该模型通过使用高质量的合成数据、KV 缓存压缩、专家特定的学习率调整等技术,提高了长文本处理能力,并在多个语言和任务的基准测试中展现了优异的性能和安全性。Hunyuan-Large 支持的文本序列长度可达 256K,Instruct 版本支持 128K,显著提升了处理长文本任务的能力。该模型在 MMLU、MMLU-Pro、CMMLU 等聚合基准测试中表现最佳,特别是在数学和中文任务方面的性能突出。此外,Hunyuan-Large-Instruct 版本在多种任务上的性能得到了进一步提升,尤其在 MMLU 和 MATH 数据集上的表现优于其他竞争模型。
Google 推出的在线视频制作和编辑工具Vids:Google Vids 是 Google Workspace 的一部分,目前仅对 Workspace Labs 和 Gemini Alpha 用户开放,预计将于年底向所有用户普遍可用。该工具支持用户通过 Gemini 功能轻松创建和编辑视频,提供自动生成的视频大纲、场景建议、库存媒体资源等,并允许用户录制屏幕、自己的声音和视频,以及使用专业的语音旁白。用户无需设计技能,可以利用高质量的模板和丰富的媒体库来制作视频,包括无版权的图片、音乐和过渡效果。Google Vids 还支持团队协作,提供简单的共享控制和安全性设置,确保内容的安全。此外,Google Vids 还可以帮助不同部门如销售、市场营销、客户服务和人力资源等,通过视频内容提高工作效率。视频最长可以为 10 分钟,以最大化观众的参与度,目前 Google Vids 主要针对桌面端优化,AI 功能和模板仅支持英语。
Anthropic 的 Claude 3.5 Sonnet 模型能够理解文档中的文本和视觉内容:该模型能够处理标准 PDF 文件,并支持对文本、图片、图表和表格的分析,适用于金融报告分析、法律文档信息提取、文档翻译辅助以及将文档信息转换为结构化格式等多种用例。Claude 通过将 PDF 文档的每一页转换为图像,并提取文本内容,进行文档内容的分析。这种分析方式使得用户能够对 PDF 中的视觉元素(如图表、示意图等非文本内容)提出问题并获得洞察。Claude 的 PDF 支持功能与其他特性(如提示缓存、批量处理和工具使用)兼容,可以提高文档分析的性能和效率。然而,PDF 支持也有一些限制,例如请求大小不超过 32MB,单次请求中的页面数不超过 100 页,并且不支持带有密码或加密的 PDF 文件。
FLUX 1.1 Pro Ultra 发布:BlackForestLabs 宣布推出了 FLUX1.1 [pro] 的新功能,包括 Ultra 模式和 Raw 模式,支持更高分辨率的图像生成,同时保持快速的生成速度和更自然的图像风格。Ultra 模式能够生成高达 4MP 分辨率的图像,这是标准 FLUX1.1 [pro] 的四倍,同时保持了每张样本只需 10 秒的快速生成时间,这在不牺牲提示准确性的前提下实现了高分辨率的加速,性能基准测试显示它比其他高分辨率解决方案快 2.5 倍,且定价为每张图像 $0.06。而 Raw 模式则针对追求真实感的创作者,提供了更加真实和自然的照片风格,增强了人物多样性和自然景观的真实感。
在线体验:https://replicate.com/black-forest-labs/flux-1.1-pro-ultra
Recraft 宣布推出其最新的 Recraft V3 模型:Recraft V3 是一款在图像生成领域领先的 AI 模型,它在 Hugging Face 的行业领先的文本到图像模型排行榜上获得了最高的 ELO 评分 1172,超越了 Midjourney、OpenAI 等其他主要图像生成公司的模型。该模型在文本生成、注释准确性、命令遵循能力和美学价值方面表现出色,尤其在生成带有长文本的图像、注释正确性和美学价值上有显著优势。Recraft V3 还提供了更多的控制功能,包括文本在图像中的位置和大小精确控制、风格细致调整、改进的内画和新的外画功能。该模型支持向量图像生成,并提供了一整套 AI 图像编辑工具,如 AI 橡皮、修改区域、内画、外画、AI 模具器、创意和清晰度提升、AI 细微调整和背景移除器。
市场
“AI+代码”是暂存的假象,还是前途无量:文章首先指出,随着 AI 模型的发展,AI 生成代码的能力得到了显著提升,使得 AI + 代码的概念再次受到关注。Cursor 的爆火和 GitHub Universe 大会上的公告,以及 Google CEO Pichai 的表态,都证明了 AI 在代码生成方面的巨大潜力。AI 代码生成工具的普及,使得编程变得更加高效和质量更高,同时也让 “人人都会编程” 的理念有了新的可能性。然而,现实中存在着对 AI 能力的过度宣传和对于开发工作的误解。
红杉资本对谈企业级 AI 搜索独角兽 Glean CEO:Glean 是一家企业 AI 搜索公司,通过整合企业内部知识,构建了深度知识图谱,提高了搜索的准确性和用户体验。Glean 的 AI 搜索助手能够理解员工角色和文档关系,以更好的方式解决问题。Glean 使用 RAG(检索增强生成)技术,结合企业私有数据和语言模型,以解决特定问题。Glean 的 CEO Arvin Jane 认为,AI 助手将在未来五年内接管大部分知识工作者的工作,成为职场中的核心助手。Glean 不计划训练超大规模的模型,而是专注于为每个客户定制小语言模型,以满足特定需求,并与在大规模模型构建方面有专长的公司合作。Glean 的 AI 工具改变了支持团队和销售人员的工作方式,通过用户反馈和行为数据不断优化。Glean 的 AI 助手预计将能够为用户完成一半的工作,虽然目前只完成了 2% 的目标,但 AI 的潜力还有待进一步开发。
上周 Product Hunt 上的最佳产品介绍。
- TOP1:API Park - 一个开源平台,用于管理和部署 AI 和 API 服务,由经验丰富的团队开发,他们之前创建了拥有超过 100 万开发者用户的 API 开发和自动化测试平台 Eolink。
- TOP2:bolt.new - 一个 AI 驱动的全栈 Web 应用开发和部署平台,提供了基于浏览器的开发环境,结合了 AI 辅助编码和设计功能。
- TOP3:Vectorize - 一个数据平台,用于构建和优化 RAG(检索增强生成)管道,旨在自动化数据处理流程并提高 AI 应用的性能。
- TOP4:ReadKidz - 一个多媒体儿童故事创作平台,利用 AI 技术辅助故事创作、插图生成和内容制作,支持在亚马逊 KDP 和 YouTube 等平台上发布。
- TOP5:Zefi 1.0 - 一个自动化客户反馈分析平台,帮助企业通过分析来自各种渠道的客户反馈来提高用户满意度和收入。
- TOP6:Magic Notepad by timeOS - 一个 AI 驱动的智能会议笔记工具,旨在提升会议记录和笔记整理的效率。
- TOP7:Chat2DB Local - 一款 SQL 生成和数据分析工具,提供智能平台来生成优化的 SQL 查询并快速获取数据洞察,强调本地处理和开源透明。
- TOP8:Horse - 一款基于 Trails® 系统的组织型浏览器,重新定义网络浏览体验,提供更有组织、更高效的工作方式。
- TOP9:SwarmStack - 一个产品规划和推荐助手,简化和优化产品开发的整个生命周期,提供量身定制的创新和解决方案。
- TOP10:Fable - 一个交互式产品演示创建工具,帮助销售团队和产品经理快速生成高质量的演示。
观点
- 百度智能云黄锋:从企业视角如何运用大模型应用开发平台:黄锋介绍了百度智能云的千帆 AppBuilder 平台,强调了其企业级定位和对企业客户需求的理解,包括效果、效率、性能、稳定可靠性、开放性、动态扩缩容和可调配等方面。他还提到了大模型时代降低应用开发门槛和成本的重要性,以及大模型带来的泛化能力和新场景的探索。通过具体案例,黄锋展示了大模型在不同行业的应用,如 ASD 儿童的图像交流工具,以及大模型预算在企业 IT 总预算中比例的显著增加,反映了企业对大模型应用的重视。最后,黄锋提出了企业在选择直接使用通用基模与在此基础上加入自己数据训练行业模型之间的策略,并强调了技术服务于应用价值的重要性。
Vol.27:如何定制 LLM 以更好地服务于特定领域的企业?