Vol.21:OpenAI o1合成数据与推理搜索

本期详细探讨了 OpenAI o1 模型的创新点,包括合成数据的使用和推理搜索的技术进展。论文部分提到了 RetrievalAttention 方法的提出,它通过将大部分 KV 向量卸载到 CPU 内存并构建近似最近邻搜索索引,以及采用 CPU-GPU 协同执行策略,来提高长上下文 LLM 的推理效率和准确性。此外,还介绍了 Large Language Monkeys 的研究,即通过重复采样扩展推理计算,提高大语言模型解决复杂任务的能力。还有一篇论文详细阐述了通用 OCR 理论和 OCR-2.0 模型 GOT 的研究成果。在工程方面,文章首先介绍了合成数据的概念和推理搜索的过程,强调了它们在提高模型泛化能力和解决实际问题中的重要性。Awesome-LLM-Strawberry 项目收集了与 OpenAI Strawberry (o1) 和逻辑推理相关的研究论文和博客,Anthropic 推出了上下文检索方法,提高了基于知识库的信息检索的准确性,Noam Brown 作为 OpenAI 的核心人物,在多 Agent、多步骤推理、强化学习等方面做出了贡献。Zep 项目通过持久化聊天历史记录和自动生成摘要,提高了从过去对话中检索相关上下文信息的能力。产品部分,Qwen2.5 系列模型开源,包括语言模型 Qwen2.5、Qwen2.5-Coder 和 Qwen2.5-Math,这些模型在多种语言和长上下文支持方面表现出色。Jina AI 推出了 Reader-LM,这是一种将原始 HTML 转换为 Markdown 的小语言模型,优化了 HTML 到 Markdown 的转换任务。DeepSeek-V2.5 在国内大模型竞技场中领先,超越了多个闭源模型。Napkin AI 提供了一个直接从文本生成视觉内容的平台,帮助用户更有效地分享和传达想法。市场分析方面,文章提供了中国政务行业大模型发展的洞察,以及 2024 年中国金融大模型产业发展报告和 AI 应用市场的分析。
阅读更多

OpenAI o1 模型是通往 AGI 之路吗?

大家好久不见,最近太忙,发现已经快断更三个月了,这期间写了一本 RAG 相关的书,估计年底可以和大家见面,可以期待下;同时搞了一个新产品,也快上线了,终于可以有时间继续更新,今天简单分享一些对 OpenAI 的 o1 模型的看法,o1 模型主要是利用强化学习优化大模型的思维链(Chain-of-Thought)推理过程,从而显著提升了模型的推理能力,我认为短期内对应用落地是利好,从长远来看,我认为这可能偏离了实现 AGI(通用人工智能)的正确路径,下面会详细展开。

阅读更多

Vol.15:大语言模型应用如何实现端到端优化?

⼤家好,会员计划第 15 期会员通讯已送达!
论文部分提到了一种优化查询生成的方法 QOQA,用于提升 RAG(Retrieval-Augmented Generation)中的文档检索准确性。AGENTPOISON 是一种针对 LLMs 代理的红队攻击方法,通过毒化记忆或知识库来实现攻击。另一篇论文探讨了在递归生成的数据上训练 AI 模型时可能出现的问题。微软亚洲研究院提出了 Parrot 系统,以优化 LLMs 应用的端到端性能。
在工程实践方面,文章详细分析了 RAG 技术的应用和挑战,以及 LangChain 博客中提出的增强代理规划的方法。WWDC 24 介绍了使用 Core ML 运行 Mistral 7B 的方法。微软推出了 MInference 工具,用于优化长上下文语言模型的推理过程。
产品发布部分包括了开源模型 Llama-3.1 的发布,Mistral Large 2 的推出,以及 OpenAI 宣布的 AI 搜索引擎产品 SearchGPT 的内测。智谱 AI 推出了新一代视频生成模型 CogVideoX,DeepSeek API 也进行了升级。
市场动态部分梳理了 15 家获得投资的 AI 搜索公司的情况,发布了《生成式 AI 商业落地白皮书》,并统计了六个城市在人工智能赛道的融资情况。还讨论了 Voice Agent 作为 AI 时代的交互界面。

阅读更多

Vol.14:如何改进大模型代码生成能力?

⼤家好,会员计划第 14 期会员通讯已送达!
论文部分介绍了几项研究成果,包括如何通过证明者 - 验证者游戏提高语言模型输出的可读性,以及如何结合传统关系提取方法和大型语言模型来提升小样本关系抽取的性能。还分析了大型模型生成代码时的常见错误类型,并提出了通过自我批评机制来改进代码生成的方法。此外,还提出了 Speculative RAG 框架,用于增强基于检索的生成模型的性能。
工程部分展示了一些实际应用,例如 Groq 宣布开源了 Llama3 8B/70B 模型的微调版本,阿里巴巴推出了语音模型 Qwen2-Audio,以及介绍了 PDF-Extract-Kit 和 LlamaParse 等工具。同时,还讨论了如何选择适合微调和推理的 GPU,以及如何将大型语言模型的上下文扩展至百万级别。
产品部分介绍了一些基于大型语言模型的产品,如知识管理系统 storm、AI 搜索产品 Exa、以及 Mem0 等,这些产品在不同的领域展示了大型模型的应用潜力。
市场部分分析了生成式 AI 推理企业的市场机遇、竞争与未来趋势,并对 OpenAI 发布的 GPT-4o mini 以及 GPT-3.5 模型的退出进行了说明。同时,还提供了对 2024AI 体验营销行业研究报告的概述,探讨了 AI 体验营销的发展趋势和市场规模。
观点部分提到了百度主任架构师李乐丁对于 AI 的实际认知,强调了大型模型的本质是深度学习驱动的数学公式,旨在打破对 AI 的不切实际幻想,并重建正确的认知。

阅读更多

Vol.13:如何验证模型是否被测试集污染?

⼤家好,会员计划第 13 期会员通讯已送达!
论文部分介绍了一种无需访问预训练数据或模型权重即可验证测试集污染的方法,通过对模型的测试问题进行有序和无序的展示,观察似然概率的统计显著差异来检测数据污染。同时,介绍了对话代理框架的提出,该框架能够实现对话控制和规划最优对话行动,以及提高 RAG(Retrieval-Augmented Generation)模型性能的 RankRAG 指令微调框架。最后,介绍了 NL2SQL 的 RB-SQL 框架,用于提高大型数据库和复杂多表查询的处理能力。
工程部分讨论了知识助手的未来发展趋势,包括 Agentic RAG 的流程和 PE-Rank 的开源,以及开源 TTS 项目的整理和评估。同时,提到了 Open AI 研究员 Lilian Weng 的文章,完整探讨了 LLM 产生幻觉的原因、检测方法和防止幻觉的方法。
产品部分展示了 Anthropic Console 的新功能,能以生成、测试和评估 prompt,以及 DeepSeekMath 这款数学推理能力接近 GPT-4 的 7B 模型。还提到了 Nexa AI 提供的 AI Agent 解决方案,以及 LanceDB 这种为 AI 多模态数据设计的数据库。
市场部分分析了 AI 医疗产业的发展现状和趋势,探讨了从云计算到大模型时代的数据库行业竞争,以及 OpenAI 推出的 AGI 五级路线图。

阅读更多