Vol.31:AI Native 应用长什么样?
大家好!Weekly Gradient 第 31 期内容已送达!
✉️ 免费订阅更新
订阅我的免费通讯,第一时间获取生成式 AI 领域优质内容
我承诺保护您的隐私,不会向第三方分享您的信息。
您可以随时取消订阅。
论文
CriticAL: 基于 LLM 的模型评估智能助手:CriticAL 是一个基于大语言模型的模型评估智能助手,由斯坦福大学研究团队开发,旨在自动化科学模型的评估过程。该系统的创新之处在于将 LLM 与假设检验相结合,使其能够生成针对性的统计量来捕捉模型与数据之间的差异,并通过假设检验来验证这些差异的显著性,从而避免评估过程中出现的幻觉现象。CriticAL 能够输出可执行的 Python 代码和自然语言解释,使得评估过程具有高度的透明度和实用性。实验验证了该系统在合成和真实数据集上的准确性,并展示了其在改进模型性能方面的能力。
AnchorCrafter 是一个基于扩散模型的系统,旨在通过生成包含人类 - 物体交互的 2D 视频:AnchorCrafter 为用户提供一种自动化的生成产品宣传视频的解决方案。该系统能够自主创建视频内容,包括但不限于主播的动作、表情和语音,使得这些视频具有真实且专业的主播风格。AnchorCrafter 的技术突破在于它能够处理复杂的人物交互和动作控制问题,从而使得无需专业的动画制作技能,任何人都能制作高质量的产品推广视频。该工具的应用范围广泛,可以用于电商、品牌推广等领域,极大地提升了视频内容制作的效率和降低了成本。
这个项目实用性很强,主要场景时自动生成具有主播风格的产品宣传视频,但不成熟,探索方向很不错。
大模型幻觉现象解析:探讨了大语言模型(LLMs)存在的幻觉问题,即生成不准确或完全虚构的内容,以及如何通过技术策略减少这种现象,以提高 AI 的可靠性和信任度。导致LLMs幻觉的三个核心技术挑战:模型架构限制、概率生成的限制以及训练数据缺口。
模型架构限制包括设计和架构约束,如Transform基础的注意力机制的理论限制,以及序列生成的设计限制,这些都可能导致长文本输出中的不一致和幻觉。
概率生成的限制意味着LLMs可能会产生看似合理但实际上不正确的回答,尤其是在处理模糊或不明确的输入时。
训练数据缺口导致模型在面对不常见或边缘信息时产生幻觉,因为这些信息在训练数据中的覆盖不足。
为了减少AI幻觉,建议采用三层防御策略:输入层、设计层和输出层的控制措施。这些策略包括优化查询和上下文、增强模型架构和训练方法,以及验证和过滤输出。输入层的策略包括查询处理、上下文大小优化和上下文注入,以确保查询清晰、模型上下文充足。设计层的策略聚焦于改进模型的处理和生成信息的方式,如链式思维提示、检索增强生成(RAG)和微调。输出层的策略则涉及到过滤和验证生成的内容,确保最终用户收到的信息是准确和相关的。未来减少AI幻觉的研究方向,包括编码真实信息、基于熵的检测方法和自我改进模块。
DataLab:集成大语言模型(LLM)的统一商业智能平台:DataLab 通过融合 LLM 能力于笔记本界面,打造了支持数据准备至可视化全过程的一体化平台。这使得不同领域的数据专家能够在同一环境中通过自然语言协同工作,高效完成复杂的商业智能任务,从而大幅提升企业的数据分析效率。DataLab 的创新之处:
- 将 LLM 能力与笔记本界面融合,构建了统一的商业智能(BI)平台。
- 提供从数据准备到可视化的完整 BI 工作流。
- 使得数据工程师、科学家和分析师等多种角色能够在同一平台上协作。
主要技术特点:
- 自动化地从企业数据中提取与组织领域知识。
- 设计了结构化的信息共享机制,促进多个 LLM Agent 之间的协作。
- 采用基于单元的上下文管理,高效处理笔记本中的依赖关系与上下文。
实验成果:
- 在多个标准测试集上实现或超越现有最优水平。
- 在腾讯的实际业务数据上:
- 提升准确率至 58.58%。
- 减少 Token 成本至 61.65%。
- 显著提高了企业特定 BI 任务的性能。
工程
面向 LLM 的内容组织标准:
llms.txt
文件是一个标准化的文本文件,旨在帮助大语言模型(LLMs)在推理时更有效地使用网站内容。它采用 Markdown 格式编写,提供简洁的项目背景信息和指导,并包含指向更详细信息的链接,这些信息可以是内部链接也可以链接到外部网站。这种做法有助于 LLMs 快速访问和理解信息,一种面向AI搜索引擎的robots协议补充。
robots协议是网站和搜索引擎之间的协议,你可以在文件中规定哪些文件不想给搜索引擎爬取到,又或者那些可以给爬取到,每次搜索引擎爬取内容的时候,都会看当前网站有没有robots.txt的文件。
MegaParse:MegaParse 由 quivr (之前有介绍)开源,是一个为大模型设计的全能文档解析工具。它支持广泛的文件格式,包括 PDF、PPT、Word、Excel 和 CSV 文件,并能够解析文档中的表格、目录结构、页眉页脚、图片和文本内容。MegaParse 提供了三种解析模式:基础解析器 (UnstructuredParser)、视觉解析器 (MegaParseVision),以及通过 Llama Cloud 提供增强解析能力的 Llama 解析器 (LlamaParser)。其中,MegaParseVision 模式的性能表现卓越,基准测试显示其相似度比率达到 0.87。该工具适用于需要将各类文档导入到 LLM 系统中进行处理的场景,尤其是对文档格式和内容完整性要求高的批量文档处理任务。
co-op-translator:Co-op Translator 是一个开源工具,它通过 Azure AI Services(包括 Azure OpenAI 和 Azure Computer Vision)能够自动翻译 Markdown 文件和图片中的文本,并且能够自动调整链接,保持文档结构的完整性,大大节省了时间和精力。
What is AI Engineering?:本文介绍了AI工程的定义、AI 工程师的角色、技能要求、AI 系统的演进,以及 AI 工程的未来趋势。作者认为 AI 系统在大语言模型出现后,虽然并没有发生革命性的变化,但可以通过 LLMs 解决一些之前无法解决的复杂任务。AI 工程师的角色与机器学习和软件工程有所不同,他们需要具备规划、内容提取、内容生成、代码生成等技能,以及能够构建和部署生产级的 AI 系统。AI 工程师通常利用预训练的 LLMs 来解决实际业务问题,并且需要不断提升系统的自主性和鲁棒性。文章还讨论了 AI 工程师与 AI 研究人员、机器学习工程师和软件工程师的区别,以及如何从这些领域过渡到 AI 工程师的角色。为了成功在 AI 工程领域工作,需要具备研究、提示工程、软件开发、基础设施、数据工程和适应 AI 系统的 MLOps 等多方面的技能。最后,文章预测了 AI 工程的未来,认为 AI 工程师将成为最热门的职位之一,并且在未来几年内,每家公司都将需要 AI 工程师的技能来自动化流程和保持竞争力。
Elasticsearch vs 向量数据库:寻找最佳混合检索方案:通过混合检索方案实现语义理解和精确的关键字匹配,主要是通过以下步骤:
使用向量数据库进行语义检索:利用Embedding模型将原始数据(如文本、图片、语音)转化为密集向量,这些向量能够捕捉数据之间的语义关系。通过向量数据库(如Milvus)使用近似最近邻(ANN)算法,可以快速找到语义相关的内容。
使用全文检索系统进行关键字匹配:同时使用像Elasticsearch或OpenSearch这样的传统搜索引擎,它们基于倒排索引构建,能够提供精确的关键字匹配。
统一的混合检索解决方案:为了简化管理和提高效率,可以采用统一的混合检索解决方案,这样可以在同一个系统中同时处理密集向量和稀疏向量。例如,Milvus向量数据库通过Sparse-BM25算法实现了对稀疏向量的高效全文搜索功能,同时保留了对密集向量的强大支持。
合并数据管理:统一的表结构允许将密集和稀疏数据与共享元数据标签一起存储,这样可以在单个请求中执行语义和全文搜索任务,无需对单独的系统进行两次API调用。
优化查询性能:通过稀疏向量的数据剪枝和其他基于向量的优化技术(如图索引、乘积量化(PQ)/标量量化(SQ)),可以提高查询性能,同时保持准确性。
产品
- 亚马逊推出了 Nova 系列基础模型:包括 Amazon Nova Micro、Lite、Pro、Premier、Canvas 和 Reel,分别针对不同的任务和需求提供了性能和成本上的优化。这些模型支持 200 种语言,能够处理多种模态的输入,并且在 Amazon Bedrock 平台上通过单一 API 提供服务。Amazon Nova 模型支持自定义微调和知识蒸馏,可以根据客户的 proprietary data 进行定制,以提高准确性和效率。这些模型还支持检索增强的生成(RAG),可以将回答结果与组织的数据进行grounds,以确保准确性。Amazon Nova 模型在创意内容生成方面表现出色,如 Amazon Nova Canvas 和 Amazon Nova Reel 可以帮助广告商创造高质量的图像和视频广告。同时,Amazon Nova Pro 在视频理解方面展现了其分析和描述视频内容的能力。亚马逊计划在 2025 年推出更多 Amazon Nova 模型,包括语音到语音模型和任意模态到任意模态模型,以进一步简化应用开发。
- Hume AI 推出了 Voice Control 功能,通过 10 个可调节的语音维度,实现了 AI 语音的个性化定制:Hume AI 宣布推出 Voice Control 特性,这是一个实验性的功能,旨在通过可解释和连续的控制方式,彻底改变自定义 AI 声音的方式。该工具为开发者提供了对 10 个声音维度的控制,包括 “性别”、“自信”、“愉悦”、“自信”、“热情”、“鼻音”、“放松”、“平滑”、“温和” 和 “紧凑”。与基于提示的方法不同,Voice Control 允许在这些维度上进行连续调整,从而实现精确控制,并使声音修改在不同会话中可重复。该功能目前处于测试阶段,通过直观的无代码界面,开发者可以快速创建独特的声音,适用于各种应用。Hume AI 的研究目标是开发用于语音语言模型的解释性工具,以反映人类声音感知的细微差别,Voice Control 的每个声音属性都可以相对于基础声音的特征进行调整,值范围从 -100 到 100,默认值为 0。Hume AI 还在积极扩展基础声音的范围,引入额外的可解释维度,提高在极端修改下声音特征的保持能力,并开发高级工具进行分析和可视化。
- Cohere 推出新的搜索模型 Rerank3.5,旨在改善跨语言和复杂系统的数据检索,特别是对于非英语语言:Rerank 3.5 具备更高级的推理能力,能够理解复杂的用户问题,并且支持广泛的数据兼容性,包括长文档、半结构化数据和代码。此外,该模型在多语言性能上也有显著提升,支持超过 100 种语言,特别是在全球商务语言如阿拉伯语、中文、法语、日语和韩语等方面表现出色。Rerank 3.5 通过 “交叉编码” 方法为用户问题找到最相关的商业数据,并计算相关性得分,提高了搜索的准确性。Rerank 3.5 在特定行业的数据集上表现出与传统搜索方法相比的显著改进,在金融服务数据集上的性能优于混合搜索系统 23.4% 以及传统的 BM25 搜索算法 30.8%。该模型已经在 Cohere 平台、亚马逊 Bedrock 和亚马逊 SageMaker 上推出。
- HunyuanVideo:腾讯混元大模型宣布正式上线视频生成能力,并且开源了该大模型。该模型拥有 130 亿的参数量,目前在开源模型中是最大的。用户可以通过输入描述来生成视频,支持中英文双语输入,提供多种视频尺寸和清晰度选项。在与国内外其他模型的评测对比中,腾讯混元的视频生成模型在文本与视频的一致性、运动质量和画面质量方面表现出色,尤其在人物和人造场所的场景下。模型的演示表明,它能够实现超写实画质,生成高度符合描述词的视频画面,并确保画面的流畅性和对象的形状稳定性。此外,模型还能够在主角不变的情况下自动切换镜头。腾讯混元视频生成模型基于与 Sora 类似的 DiT 架构,并在架构设计上进行了多处升级。它适配了新一代文本编码器,提升了语义遵循能力,并具备强大的语义跟随能力,能够更好地处理多个主体描绘,以及实现更细致的指令和画面呈现。通过全注意力机制,模型能够实现更加流畅的视频帧衔接和主体一致的多视角镜头切换。同时,采用了先进的图像视频混合 VAE 技术,提升了对细节的表现,特别是在小人脸和高速镜头等场景下。腾讯已将该视频生成大模型的完整版本,包括模型权重、推理代码和算法,开源至 Hugging Face 平台及 GitHub 上,供企业和个人开发者免费使用和开发生态插件。
- OpenAI 推出了 o1、o1 Pro 以及 ChatGPT Pro 会员服务:OpenAI 正式发布了 o1 模型及其高级版本 o1 Pro,同时推出了 ChatGPT Pro 会员套餐。o1 模型相比于 o1-preview 版本在性能上有显著提升,包括更快的思考速度和更低的错误率,以及在高难度数学、编程和科学问题上的更高得分。此外,o1 支持图片上传功能,实现了视觉推理,增强了与用户的交互性和实用性。ChatGPT Pro 会员服务每月收费 200 美元,提供无限制访问 OpenAI 的先进模型,包括 o1、o1-mini、GPT-4o 和 Advanced Voice 等,以及 o1 pro 模式,后者能进一步提升问题解决的准确性和可靠性。
市场
OpenAI 计划从 12 月 5 日起,开启为期 12 天的「新品发布季」,期间将推出一系列新功能、产品和演示。据知情人士向 The Verge 透露,这些发布内容将包括 OpenAI 期待已久的文本转视频 AI 工具 Sora 以及一款新的推理模型。
根据《金融时报》的报道,OpenAI 设定了明年达到 10 亿活跃用户的目标,目前 ChatGPT 的周活跃用户数已经达到了 2.5 亿。该公司预计将通过与苹果的合作,利用全球超过 20 亿台的 iPhone 活跃设备来实现非线性的用户增长。OpenAI 向投资者展示了旨在与 Meta 和 Google 竞争的雄心壮志,强调只有达到 10 亿用户规模才能获得与之们同一张牌桌的入场券。尽管 OpenAI 今年的收入突破了 40 亿美金,但其成本也超过了 50 亿,导致了显著的亏损压力。OpenAI 的 API 业务为公司带来了大量收入,但利润率很低,因此公司更加关注直接从消费者(C 端)用户的订阅中获得利润,这也是公司推动提高活跃用户规模的主要原因。CFO 透露,OpenAI 正在考虑是否接受广告商业模式,并且公司高层中已有来自 Google 和 Instagram 广告业务的高管加入。至于如何设计与 AI 服务相符的广告产品,内部尚未做出决定,尽管 OpenAI 首席执行官 Sam Altman 曾反对加入广告,但他似乎已经被说服接受这一想法。OpenAI 明年最重要的产品更新之一是代理(Agentic)产品,它将赋予 AI 自动帮助用户完成各种在线任务的能力。
AI Native 应用长什么样?: AI-native应用是指那些将人工智能作为核心体验而非辅助功能的应用。这类应用以AI技术为基础,能够从大规模数据集中学习、理解上下文或生成新颖输出。它们不仅在技术架构上创新,还开创了全新的产品范式和商业模式。AI-native应用具备以下特征:
建立在基础AI能力之上,包括从大规模数据集中学习、理解上下文或生成新颖输出的能力。
能够突破传统的速度、规模和成本限制,开创全新的可能性。
具备持续改进的能力,既可以利用底层模型的进步,也可以通过真实世界数据的反馈循环来提升性能。
拥有一定程度的专有AI技术,而不是完全依赖现成的解决方案。
AI-native并不意味着应用必须从一开始就具备生成性AI(GenAI)功能。类似于一些传统软件巨头成功从单机版本过渡到云原生(Cloud-native)产品的例子,许多公司同样可以随时间推移,逐步从云原生演进为AI原生。
观点
- 为何大模型总是赚不到钱?:作者通过 “五力框架” 分析了大模型行业结构,指出大模型厂商面临的问题包括对 NVIDIA 的依赖、用户对大模型服务的高议价权、竞争对手的威胁以及新入局玩家面临的低竞争壁垒。最后讨论了 AI 时代是否会有自己的苹果和谷歌,以及国产大模型可能通过内容生态建立终极靠山。
- 如何成为一名 AI 产品经理?:基于 Lenny 和 Aman Khan 的播客采访,围绕 AI 产品经理的职业发展进行了深入探讨。首先,介绍了 AI 产品经理的三种类型:平台产品经理、AI Native 产品经理和 AI + 产品经理,强调 AI 产品经理的核心是解决问题。接着,讨论了成为 AI 产品经理的第一步是构建出自己的第一款 AI 产品,并强调 AI 时代对产品经理的需求。播客还提到了 AI 产品经理应该如何利用工具提高工作效率,以及如何通过构建产品组合集来脱颖而出。
Vol.31:AI Native 应用长什么样?