DeepSeek-V2 到底有多强?写一个 AI 编码 Agent 测测看

深度求索昨晚宣布开源他们第二代 MoE 模型 DeepSeek-V2,支持 128K 上下文窗口,在主流的大模型能力测试集上都有不俗的表现,特别是知识、数学、推理、编程方面能力处于前列,而且成本直接低出一个数量级,到底表现怎么样,本着务实的态度,这篇文章结合 LangChain 的 LangGraph 组件库,编写一个编码类 AI Agent,来对其能力做下简单验证。
在这篇文章中,我会先介绍下 DeepSeek-V2 如何做到模型性能强的同时推理成本还低的,然后对 LangGraph 组件进行介绍,最后设计一个能够自动编写生产可用的单元测试代码的编码类 Agent 来验证下 DeepSeek-V2 的实际能力。

阅读更多

LIama 3 是大模型游戏规则改写者吗|莫尔索随笔 Vol.3

LIama 3 的影响还在持续,仅仅一周,社区已经冒出来超过 100 多个 LIama 3 微调和其他周边项目,Github 上的 AI 领域热门项目已经第一时间支持了 LIama 3,LIama 3 让企业低成本使用高质量模型成为可能。本期包括 3 篇论文分享、5 篇工程实践案例、3 条产品 tips 和两条市场信息,内容包括万字长文带你了解 Llama 模型生态的前世今生,如何提升 RAG 在领域专业知识上的准确性,AI Agent 的最新实现进展盘点,以及在实践中如何评估 LLM 产品,如何提高 AI 产品设计体验;最后对 ChatGPT 跨对话保持长期记忆的新特性进行解读,同时送上一份 Hume.AI 出品的语义空间理论,如何科学的测量和理解情感,做到让 AI 分析你的情绪,并根据你的情绪进行回答。
阅读更多

Llama 3 开启规模游戏的下一篇章(译)

目前,文本数据的规模可能已经达到了瓶颈,因为大部分易获取的网络文本数据(如 Common Crawl、Github、Arxiv 等)已经被广泛利用。规模游戏的第一篇章集中在扩展文本数据上,在 GPT-4 达到顶峰,并以 Llama 3 结束。该游戏的第二篇章将是统一的视频-语言生成建模和从 X 个反馈中进行迭代强化学习。

本文译自 Llama 3 Opens the Second Chapter of the Game of Scale

阅读更多

利用 Groq 体验 Llama 3 的4种方式,800 tokens/s 的推理速度真的太快了!

北京时间4月19日凌晨,Meta在官网上官宣了Llama-3,作为继Llama1、Llama2和CodeLlama之后的第三代模型,Llama3在多个基准测试中实现了全面领先,性能优于业界同类最先进的模型,你有没有第一时间体验上呢,这篇文章就分享下如何在Groq上以超过 800 tokens/s 的魔鬼推理速度体验Llama3,会同时分享Web端、移动端、API方式以及集成到LangChain中4种体验方案。

阅读更多

开源模型与闭源模型之间的差距有多大?|莫尔索随笔 Vol.2

开源模型部署需要的硬件配置,16 位浮点精度(FP16)的模型,推理所需显存(以 GB 为单位)约为模型参数量(以 10 亿 为单位)的两倍,据此,Llama 3 7B(70 亿)对应需要约 14GB 显存以进行推理(以普通家用计算机的硬件规格作为参考,一块 GeForce RTX 4060 Ti 16GB 显卡市场价超过 3000 元)。模型量化(quantization)技术可以很大程度上降低显存要求,以 4-bit 量化为例,其将原本 FP16 精度的权重参数压缩为 4 位整数精度,使模型权重体积和推理所需显存均大幅减小,仅需 FP16 的 1/4 至 1/3,意味着约 4GB 显存即可启动 7B 模型的推理(实际显存需求会随着上下文内容叠加而不断增大)...
阅读更多

数据污染对大型语言模型的潜在影响(译)

大型语言模型(LLMs)中存在的数据污染是一个重要问题,可能会影响它们在各种任务中的表现。这指的是LLMs的训练数据中包含了来自下游任务的测试数据。解决数据污染问题至关重要,因为它可能导致结果偏倚,并影响LLMs在其他任务上的实际效果。通过识别和减轻数据污染,我们可以确保LLMs具有最佳性能并产生准确的结果。数据污染的后果可能非常严重,包括不准确的预测、不可靠的结果和数据偏倚。

本文译自 The Hidden Influence of Data Contamination on Large Language Models

阅读更多

你支持AI“复活”逝者吗|莫尔索随笔 Vol.1

前段时间,音乐人包小柏用 AI 重现女儿的声音和形象,商汤科技创始人汤晓鸥被公司以数字人的形式现身年会,“AI 复活”走入现实。然而“AI 复活”展现出来的科技人文关怀,没几天就变味了。多位已故明星李玟、乔任梁、高以翔被“复活”,登上微博热搜,但这些网友擅自的复活遭到了明星亲属的极力反对,关于AI“复活”逝者,你怎么看?
阅读更多

AI 领域精选高质量信息源分享

我在这篇 ChatGPT 发布一周年的总结文章中大模型时代,程序员如何实现自我成长?——一名普通开发者的 ChatGPT 一周年记,已经推荐了不少优质的信息源,但主要还是偏技术向,随着我自己的身份从纯研发角色转变为产品,我的信息源也对应做了一次更新,增加了非技术部分,经过两个月的迭代,基本还算满意,所以这篇文章来总结下。

阅读更多

如何评估一个RAG(检索增强生成)系统

写这篇文章的原因是我构建的 RAG 框架已经基本成型,现在只剩下最后一块拼图,即评估模块,这也是真正投入生产后,RAG 系统迭代的关键,本篇文章我将分享 3 种方案,第一种我自己跑出来的实践经验,第二种是比较成熟的框架 RAGAs,通过定量指标来评估,最后一种是则是通过噪声、拒答、反事实、信息整合等四大指标来定性分析,来自论文《在 RAG 中对大语言模型进行基准测试》,大家可以结合起来设计自己的方案。

本文首发自博客文章 如何评估一个RAG(检索增强生成)系统

阅读更多