Vol.20:如何评估 Embedding 模型?

⼤家好,Weekly Gradient 第 20 期内容已送达!

✉️ 免费订阅更新

订阅我的免费通讯,第一时间获取生成式 AI 领域优质内容

我承诺保护您的隐私,不会向第三方分享您的信息。
您可以随时取消订阅。

论文

  1. Text2SQL is Not Enough: Unifying AI and Databases with TAG:Text2SQL 仅适用于关系代数表达的问题,而 RAG 限于简单查询。为了克服这些限制,本论文·研究团队提出了表增强生成(TAG),这是一个全新的通用框架,旨在结合语言模型的语义推理能力和数据库的计算优势,以处理更复杂的查询。TAG 的核心是三个步骤:查询合成、查询执行和答案生成。查询合成步骤将自然语言请求转换为可执行的数据库查询;查询执行步骤在数据库系统上执行查询以高效计算相关数据;答案生成步骤利用语言模型根据计算结果和原始请求生成自然语言答案。论文还介绍了 TAG 模型的设计思路,包括查询类型、数据模型形式的多样性、数据库执行引擎和 API 以及 LM 生成模式。最后,论文通过引入一个基准测试,展示了 TAG 模型在处理需要语义推理或世界知识的查询时的优势,并对其他方法如 Text2SQL、RAG 等在准确性和执行时间上的表现进行了评估。结果显示,手写的 TAG 实现在所有基线上表现最佳,不仅准确率高,而且执行效率更高。

  2. 大模型微调终极指南:大模型微调的最新综述,包括数据准备、模型初始化、训练环境配置、模型微调、模型评估与验证、模型部署以及模型监控与维护的七个阶段。

    数据准备:强调高质量数据的收集、有效的预处理、处理数据不平衡、数据增强和合成、道德数据处理,以及持续评估和迭代数据准备流程。

    模型初始化:涉及配置环境、安装依赖项、选择合适的大模型、下载模型以及预先在特定任务上执行模型。

    训练设置:介绍了优化器的选择、损失函数、参数调节、批大小、定期保存检查点、数据并行和模型并行、混合精度训练、评估和迭代,以及确保模型可重复性。

    微调技术:包括特定任务的微调、特定领域的微调、参数高效微调、半微调、偏好对齐、MoE、MOA 等。

    评估和验证:提出了评价大模型的多种指标,如困惑度、事实性、LLM 不确定性、提示困惑度、上下文相关性、完整性、Chunk 归属和利用、数据错误潜力和安全指标。

    模型部署:探讨了本地部署、云平台部署、分布式部署和模型量化等部署方式。

    模型监控:强调了性能监控、准确性监控、错误监控、日志分析、警报机制、反馈循环、安全监控、模型版本控制、提示词监控、输出结果监控和 LLM 知识更新等。

  3. 具有反思和记忆增强能力的自我进化Agent:这种 Agent 通过结合反思机制和记忆增强技术,能够在与环境的互动中自主学习。反思机制允许 Agent 回顾过去的经验,从中提取知识,并据此优化决策策略。记忆增强则是通过外部存储来扩展 Agent 的记忆能力,使其能够处理更复杂的任务。论文还讨论了这种 Agent 在实际应用中的潜力,以及它如何帮助人们解决复杂问题。

  4. MemLong:用于长文本建模的记忆增强检索:MemLong 是一种针对长文本生成任务的新型记忆增强检索机制。它通过一个可扩展的记忆库来存储和检索文本段落,以此来生成连贯、一致的长文本。该机制使用了一种特殊的检索方法,能够根据当前上下文动态地从记忆库中选择最合适的文本片段。此外,MemLong 还引入了一种预训练策略,通过在大规模文本数据集上进行预训练,使模型能够更好地理解和生成长文本。

  5. Tool-SQL:基于工具辅助Agent的SQL检测与优化:Tool-SQL 项目通过引入智能体(Agent)的概念,提出了一种新型的 Text2SQL 解决方案,该方案能够更有效地将自然语言描述的查询请求转换为结构化的 SQL 语句。Tool-SQL 通过结合语境理解、数据库模式分析以及查询优化等技术,提升了 Text2SQL 任务的准确性和鲁棒性。此外,该论文还强调了Agent在解决复杂查询和处理大规模数据时的优势。

工程

  1. LongLLaMA : 一个多模态大语言模型项目,旨在扩展多模态大型语言模型(MLLM)的长上下文能力。LongLLaVA 模型架构调整为 Mamba 和 Transformer 块的混合,使用多幅图像之间的时间和空间依赖性来构建数据,并采用渐进式训练策略。它在效率和有效性之间取得了更好的平衡。LongLLaVA不仅在各种基准测试中取得了有竞争力的结果,还保持了高吞吐量和低内存消耗。特别是在单个A100 80GB GPU上可以处理近千张图片,在广泛的任务中展现出良好的应用前景。
  2. Mini-Omni:Mini-Omni 是一个开源的多模态大语言模型,它不仅具备实时对话能力,还支持端到端的语音输入输出功能。通过其独特的文本指导并行生成方法,Mini-Omni 能够在不增加太多额外数据和模块的情况下,实现与文本能力一致的语音推理输出。此外,Mini-Omni 还提出了一种创新的 “任何模型都能说话” 的方法,这种方法允许通过最小的训练和修改,将其他模型的文本处理能力转换为语音交互能力,从而实现快速的模型升级和应用扩展。
  3. 如何评估 Embedding 模型:Embedding 模型用于将词汇、句子或文档转换为向量形式,评估这类模型时,通常考虑的维度包括模型的性能(如在下游任务中的表现)、可解释性(模型是否能提供可理解的结果)、以及是否能捕捉到数据中的相关结构。文章列举了多种评估 Embedding 模型的方法,包括内在评估和外在评估。内在评估主要是通过计算相似度来评价模型能否保留原始数据的特性,例如词汇的相似性或者分类性。外在评估则是将 Embedding 应用于具体的下游任务,如文本分类、情感分析等,通过任务的性能指标来间接评价 Embedding 的质量。此外,文章还强调了评估时需要考虑的一些实际因素,如计算资源的限制、数据集的选择以及模型的可扩展性。
  4. 跨越模态边界,探索原生多模态大语言模型:当前多模态模型大致分为两类,一类是专用多模态模型,如文本生成图像、文本生成视频等;另一类则是通用型多模态大语言模型,这类模型的目标是让人工智能具备自然语言理解和生成、图像识别,以及语音和视频的交互能力。近日,微软亚洲研究院又提供了一个新的选择——原生多模态大语言模型。它能够更深入地理解物理世界并执行多模态推理和跨模态迁移,其在不同模态的数据学习中还涌现出了新的能力。

产品

  1. 深度求索开源DeepSeek-V2.5模型:DeepSeek推出新的开源模型,它在原有的基础上进行了升级,融合了通用语言理解与代码能力。这一模型的设计目标是为了更好地理解和处理自然语言和编程代码,提升AI在软件开发、文档编写等领域的效率。DeepSeek-V2.5 不仅能够理解代码的逻辑结构,还能够处理自然语言中的复杂语义,这使得它在多种应用场景中都具有很高的实用性。
  2. 大模型相关的产品化路径思考:文章深入探讨了将大模型应用于产品的路径,从大模型的定义、产品化的意义和难点、以及如何将大模型融入到产品中进行了详细分析。首先,文章阐述了大模型的特点,即通过大量数据训练得到的模型,能够在多个领域和任务中表现出色。接着,讨论了产品化过程中的挑战,包括技术、成本、商业模式等方面的考量。文章强调,产品化不仅仅是技术的应用,更是对市场需求的理解和满足。文章还提出了一系列实用的建议,如如何选择合适的场景、如何优化模型以及如何进行有效的市场推广等。最后,文章预测了大模型在未来的发展趋势,并对其潜在的影响进行了展望。
  3. Unstructured.io:Unstructured.io 是一个致力于解决企业非结构化数据处理问题的公司,它通过精细的数据解析技术,提取并转换数据为 JSON 格式,以支持大型语言模型(LLM)的部署和使用。随着企业对 LLM 的渗透率不断增加,对高质量非结构化数据的需求也随之增长。Unstructured.io 的产品能够显著提高数据处理的效率,降低人力成本,并且在市场上面临着来自云厂商、上下游公司和其他初创公司的竞争。公司通过开源产品起步,逐步扩展到 SaaS、Serverless 和 Enterprise 平台,为不同规模的客户提供服务。Unstructured.io 的优势在于对数据处理的细致工程化处理,以及对大企业和政府需求的深刻理解,尤其是在数据分块、元数据生成和数据嵌入方面。
  4. 面壁智能发布新一代端侧大模型 MiniCPM 3.0:MiniCPM3-4B作为 MiniCPM 系列的三代产品,与之前的 MiniCPM1.0 和 MiniCPM2.0 相比,MiniCPM3-4B 具备更为强大和全面的功能,支持函数调用和代码解释。它拥有一个 32k 的上下文窗口,并通过 LLMxMapReduce 技术,理论上能够处理无限长度的上下文,且不依赖大量内存。

市场

  1. YC投资的400家AI初创公司:Scaler前数据科学与机器学习总监、LinkedIn最畅销课程作者Harshit Tyagi对 YC 在过去一年及今年投资的 417 家 AI 初创公司进行了深入分析。分析内容包括公司的业务范围、应用行业等。通过这些数据,可以观察到 AI 创业领域的几个趋势:首先,AI 技术正在被广泛应用于多个行业,尤其是金融、健康和教育等;其次,许多创始人具有丰富的技术背景和在顶尖公司的工作经验;第三,AI 初创公司在产品开发上更倾向于使用 Python 和 JavaScript 等流行语言;最后,AI 初创公司的创始人往往具有跨学科的背景,不仅限于技术领域。
  2. 阿里云2024年GenAI应用场景与落地路径白皮书

观点

Cursor创始人访谈:Cursor 是最近口碑飙升的 AI 代码类应用,本文是Cursor 联合创始人 Aman Sanger去年的一篇访谈文字稿。

Vol.20:如何评估 Embedding 模型?

https://liduos.com/the-memeber-newsletter-20.html

作者

莫尔索

发布于

2024-09-09

更新于

2025-06-30

许可协议

评论