GPT-4o 到底有多能打?设计一个报告生成类 AI Agent 测一测

在上一篇文章,分享了使用 DeepSeek-V2+LangGraph 编写了一个编码助手类 AI Agent ,这篇文章使用 OpenAI 最近上新的 GPT-4o,结合 LangGraph 编写一个能够撰写高质量研究报告的多智能体系统,实现机制参考 gpt-researcher,我会首先介绍下 gpt-researcher 这个项目的工作机制,然后使用 LangGraph 逐步进行实现。

阅读更多

DeepSeek-V2 到底有多强?写一个 AI 编码 Agent 测测看

深度求索昨晚宣布开源他们第二代 MoE 模型 DeepSeek-V2,支持 128K 上下文窗口,在主流的大模型能力测试集上都有不俗的表现,特别是知识、数学、推理、编程方面能力处于前列,而且成本直接低出一个数量级,到底表现怎么样,本着务实的态度,这篇文章结合 LangChain 的 LangGraph 组件库,编写一个编码类 AI Agent,来对其能力做下简单验证。
在这篇文章中,我会先介绍下 DeepSeek-V2 如何做到模型性能强的同时推理成本还低的,然后对 LangGraph 组件进行介绍,最后设计一个能够自动编写生产可用的单元测试代码的编码类 Agent 来验证下 DeepSeek-V2 的实际能力。

阅读更多

Llama 3 开启规模游戏的下一篇章(译)

目前,文本数据的规模可能已经达到了瓶颈,因为大部分易获取的网络文本数据(如 Common Crawl、Github、Arxiv 等)已经被广泛利用。规模游戏的第一篇章集中在扩展文本数据上,在 GPT-4 达到顶峰,并以 Llama 3 结束。该游戏的第二篇章将是统一的视频-语言生成建模和从 X 个反馈中进行迭代强化学习。

本文译自 Llama 3 Opens the Second Chapter of the Game of Scale

阅读更多

利用 Groq 体验 Llama 3 的4种方式,800 tokens/s 的推理速度真的太快了!

北京时间4月19日凌晨,Meta在官网上官宣了Llama-3,作为继Llama1、Llama2和CodeLlama之后的第三代模型,Llama3在多个基准测试中实现了全面领先,性能优于业界同类最先进的模型,你有没有第一时间体验上呢,这篇文章就分享下如何在Groq上以超过 800 tokens/s 的魔鬼推理速度体验Llama3,会同时分享Web端、移动端、API方式以及集成到LangChain中4种体验方案。

阅读更多

数据污染对大型语言模型的潜在影响(译)

大型语言模型(LLMs)中存在的数据污染是一个重要问题,可能会影响它们在各种任务中的表现。这指的是LLMs的训练数据中包含了来自下游任务的测试数据。解决数据污染问题至关重要,因为它可能导致结果偏倚,并影响LLMs在其他任务上的实际效果。通过识别和减轻数据污染,我们可以确保LLMs具有最佳性能并产生准确的结果。数据污染的后果可能非常严重,包括不准确的预测、不可靠的结果和数据偏倚。

本文译自 The Hidden Influence of Data Contamination on Large Language Models

阅读更多

如何评估一个RAG(检索增强生成)系统

写这篇文章的原因是我构建的 RAG 框架已经基本成型,现在只剩下最后一块拼图,即评估模块,这也是真正投入生产后,RAG 系统迭代的关键,本篇文章我将分享 3 种方案,第一种我自己跑出来的实践经验,第二种是比较成熟的框架 RAGAs,通过定量指标来评估,最后一种是则是通过噪声、拒答、反事实、信息整合等四大指标来定性分析,来自论文《在 RAG 中对大语言模型进行基准测试》,大家可以结合起来设计自己的方案。

本文首发自博客文章 如何评估一个RAG(检索增强生成)系统

阅读更多

开发者必读的国内大模型 API 能力解读(附大量图表分析)

由于要为公司产品接入 AI 能力,且政策原因只能使用国内大模型,所以过去一个月我仔细阅读了一遍国内 6 家(阿里、百度、MiniMax、智谱 AI、MoonShot、百川智能,没试用字节和腾讯家的原因末尾总结有吐槽)大模型厂商文档,逐个测试了不同的 API,发现相同的功能各家的叫法又不一样,使用起来很混乱,所以才有了这篇文章,本文我将以 OpenAI 提供的 API 能力(因为个人项目一直在使用 OpenAI)为基准,从 GPTs 能力、插件能力、Assistants API、基础 API 能力(基础大模型、微调支持等)四个方面展开,对国内各模型厂商的能力进行比较和统一定义,希望能给现阶段准备在产品中接入国内大模型的独立开发者和中小企业提供一点参考

阅读更多

基于大模型的Agent进行测试评估的3种方案

This content is also available in:English

大家好啊,好久不见,我们都知道当前基于大模型构建的 Agent 能力极不稳定,而今年我司产品又在规划接入 Agent 能力,所以在引入之前,需要先设计一套测试框架,来看看各种场景下容错率是否能达到目标阈值,所以我调研了几种测试方案,本篇来总结下。

阅读更多