盘点 12 款开源 PDF 解析工具和 5 家智能文档处理服务,优缺点比较,应用场景选择,功能解读

这是本系列的第二篇文章,聚焦于智能文档处理(特别是 PDF 及图像解析)。无论是在模型预训练的数据收集阶段,还是基于 RAG 的知识库构建阶段,大量高质量数据通常以 PDF 或扫描图像的形式出现。由于这些文件的排版多样、格式不一以及扫描质量参差不齐,利用这些数据极具挑战。主要难点在于:一是有效提取内容信息和版面信息(如正文、标题、图注、图片、表格、公式等);二是处理版面元素之间的关系。鉴于此领域的巨大需求,市场上既有开源框架,也不乏商业解决方案,涵盖了从传统 OCR 识别到新型多模态大模型,甚至两者的结合,本篇文章就对他们进行盘点并做功能解读,优缺点比较,应用场景选择推荐。

阅读更多

盘点 8 个流行的开源 RAG 项目,优缺点比较,应用场景分析,易用性解读

为了撰写开源中国即将发布的大模型生态 2024 年报告中关于开发者中间件和开源工具的年终总结,我回顾了过去一年所关注的开源项目,并计划将其整理成一系列文章。这些文章将涵盖从智能文档处理、生成式 AI 推理平台的对比,到大模型的结构化输出支持及 TTS 技术的选项等多个方面。这一系列文章既是我个人的年终总结,也旨在为感兴趣的读者提供有价值的信息。
这是该系列的第一篇文章,主题围绕 RAG 技术。在过去一年中,RAG 技术成为大模型应用中最热门的方向之一,开源社区因此涌现了许多相关项目,包括面向个人开发者的 SDK 集成、企业级框架以及面向普通用户的 RAG 应用。本文将重点介绍那些成熟度较高且专注于 RAG 技术的项目,所以像 FlashRAG(一个高效、模块化的开源工具包,用于复现现有 RAG 方法和开发新算法)和 GraphRAG(一种基于图的 RAG 方法,通过利用实体间的结构信息提高检索精度和生成更加符合上下文的响应)这类具有创新性的研究项目不在本文讨论范围内,同样,像 LangChain 这样包含 RAG 处理模块的综合框架也不在讨论之列。

阅读更多

GPT-4o 到底有多能打?设计一个报告生成类 AI Agent 测一测

在上一篇文章,分享了使用 DeepSeek-V2+LangGraph 编写了一个编码助手类 AI Agent ,这篇文章使用 OpenAI 最近上新的 GPT-4o,结合 LangGraph 编写一个能够撰写高质量研究报告的多智能体系统,实现机制参考 gpt-researcher,我会首先介绍下 gpt-researcher 这个项目的工作机制,然后使用 LangGraph 逐步进行实现。

阅读更多

DeepSeek-V2 到底有多强?写一个 AI 编码 Agent 测测看

深度求索昨晚宣布开源他们第二代 MoE 模型 DeepSeek-V2,支持 128K 上下文窗口,在主流的大模型能力测试集上都有不俗的表现,特别是知识、数学、推理、编程方面能力处于前列,而且成本直接低出一个数量级,到底表现怎么样,本着务实的态度,这篇文章结合 LangChain 的 LangGraph 组件库,编写一个编码类 AI Agent,来对其能力做下简单验证。
在这篇文章中,我会先介绍下 DeepSeek-V2 如何做到模型性能强的同时推理成本还低的,然后对 LangGraph 组件进行介绍,最后设计一个能够自动编写生产可用的单元测试代码的编码类 Agent 来验证下 DeepSeek-V2 的实际能力。

阅读更多

Llama 3 开启规模游戏的下一篇章(译)

目前,文本数据的规模可能已经达到了瓶颈,因为大部分易获取的网络文本数据(如 Common Crawl、Github、Arxiv 等)已经被广泛利用。规模游戏的第一篇章集中在扩展文本数据上,在 GPT-4 达到顶峰,并以 Llama 3 结束。该游戏的第二篇章将是统一的视频-语言生成建模和从 X 个反馈中进行迭代强化学习。

本文译自 Llama 3 Opens the Second Chapter of the Game of Scale

阅读更多

利用 Groq 体验 Llama 3 的4种方式,800 tokens/s 的推理速度真的太快了!

北京时间4月19日凌晨,Meta在官网上官宣了Llama-3,作为继Llama1、Llama2和CodeLlama之后的第三代模型,Llama3在多个基准测试中实现了全面领先,性能优于业界同类最先进的模型,你有没有第一时间体验上呢,这篇文章就分享下如何在Groq上以超过 800 tokens/s 的魔鬼推理速度体验Llama3,会同时分享Web端、移动端、API方式以及集成到LangChain中4种体验方案。

阅读更多

数据污染对大型语言模型的潜在影响(译)

大型语言模型(LLMs)中存在的数据污染是一个重要问题,可能会影响它们在各种任务中的表现。这指的是LLMs的训练数据中包含了来自下游任务的测试数据。解决数据污染问题至关重要,因为它可能导致结果偏倚,并影响LLMs在其他任务上的实际效果。通过识别和减轻数据污染,我们可以确保LLMs具有最佳性能并产生准确的结果。数据污染的后果可能非常严重,包括不准确的预测、不可靠的结果和数据偏倚。

本文译自 The Hidden Influence of Data Contamination on Large Language Models

阅读更多

如何评估一个RAG(检索增强生成)系统

写这篇文章的原因是我构建的 RAG 框架已经基本成型,现在只剩下最后一块拼图,即评估模块,这也是真正投入生产后,RAG 系统迭代的关键,本篇文章我将分享 3 种方案,第一种我自己跑出来的实践经验,第二种是比较成熟的框架 RAGAs,通过定量指标来评估,最后一种是则是通过噪声、拒答、反事实、信息整合等四大指标来定性分析,来自论文《在 RAG 中对大语言模型进行基准测试》,大家可以结合起来设计自己的方案。

本文首发自博客文章 如何评估一个RAG(检索增强生成)系统

阅读更多