开源模型与闭源模型之间的差距有多大?|莫尔索随笔 Vol.2

开源模型部署需要的硬件配置,16 位浮点精度(FP16)的模型,推理所需显存(以 GB 为单位)约为模型参数量(以 10 亿 为单位)的两倍,据此,Llama 3 7B(70 亿)对应需要约 14GB 显存以进行推理(以普通家用计算机的硬件规格作为参考,一块 GeForce RTX 4060 Ti 16GB 显卡市场价超过 3000 元)。模型量化(quantization)技术可以很大程度上降低显存要求,以 4-bit 量化为例,其将原本 FP16 精度的权重参数压缩为 4 位整数精度,使模型权重体积和推理所需显存均大幅减小,仅需 FP16 的 1/4 至 1/3,意味着约 4GB 显存即可启动 7B 模型的推理(实际显存需求会随着上下文内容叠加而不断增大)...
阅读更多

数据污染对大型语言模型的潜在影响(译)

大型语言模型(LLMs)中存在的数据污染是一个重要问题,可能会影响它们在各种任务中的表现。这指的是LLMs的训练数据中包含了来自下游任务的测试数据。解决数据污染问题至关重要,因为它可能导致结果偏倚,并影响LLMs在其他任务上的实际效果。通过识别和减轻数据污染,我们可以确保LLMs具有最佳性能并产生准确的结果。数据污染的后果可能非常严重,包括不准确的预测、不可靠的结果和数据偏倚。

本文译自 The Hidden Influence of Data Contamination on Large Language Models

阅读更多

你支持AI“复活”逝者吗|莫尔索随笔 Vol.1

前段时间,音乐人包小柏用 AI 重现女儿的声音和形象,商汤科技创始人汤晓鸥被公司以数字人的形式现身年会,“AI 复活”走入现实。然而“AI 复活”展现出来的科技人文关怀,没几天就变味了。多位已故明星李玟、乔任梁、高以翔被“复活”,登上微博热搜,但这些网友擅自的复活遭到了明星亲属的极力反对,关于AI“复活”逝者,你怎么看?
阅读更多

AI 领域精选高质量信息源分享

我在这篇 ChatGPT 发布一周年的总结文章中大模型时代,程序员如何实现自我成长?——一名普通开发者的 ChatGPT 一周年记,已经推荐了不少优质的信息源,但主要还是偏技术向,随着我自己的身份从纯研发角色转变为产品,我的信息源也对应做了一次更新,增加了非技术部分,经过两个月的迭代,基本还算满意,所以这篇文章来总结下。

阅读更多

如何评估一个RAG(检索增强生成)系统

写这篇文章的原因是我构建的 RAG 框架已经基本成型,现在只剩下最后一块拼图,即评估模块,这也是真正投入生产后,RAG 系统迭代的关键,本篇文章我将分享 3 种方案,第一种我自己跑出来的实践经验,第二种是比较成熟的框架 RAGAs,通过定量指标来评估,最后一种是则是通过噪声、拒答、反事实、信息整合等四大指标来定性分析,来自论文《在 RAG 中对大语言模型进行基准测试》,大家可以结合起来设计自己的方案。

本文首发自博客文章 如何评估一个RAG(检索增强生成)系统

阅读更多

开发者必读的国内大模型 API 能力解读(附大量图表分析)

由于要为公司产品接入 AI 能力,且政策原因只能使用国内大模型,所以过去一个月我仔细阅读了一遍国内 6 家(阿里、百度、MiniMax、智谱 AI、MoonShot、百川智能,没试用字节和腾讯家的原因末尾总结有吐槽)大模型厂商文档,逐个测试了不同的 API,发现相同的功能各家的叫法又不一样,使用起来很混乱,所以才有了这篇文章,本文我将以 OpenAI 提供的 API 能力(因为个人项目一直在使用 OpenAI)为基准,从 GPTs 能力、插件能力、Assistants API、基础 API 能力(基础大模型、微调支持等)四个方面展开,对国内各模型厂商的能力进行比较和统一定义,希望能给现阶段准备在产品中接入国内大模型的独立开发者和中小企业提供一点参考

阅读更多

基于大模型的Agent进行测试评估的3种方案

This content is also available in:English

大家好啊,好久不见,我们都知道当前基于大模型构建的 Agent 能力极不稳定,而今年我司产品又在规划接入 Agent 能力,所以在引入之前,需要先设计一套测试框架,来看看各种场景下容错率是否能达到目标阈值,所以我调研了几种测试方案,本篇来总结下。

阅读更多

基于大模型的 Agent 进行任务规划的10种方式

基于大模型的 Agent 基本组成应该包含规划(planning),工具(Tools),执行(Action),和记忆(Memory)四个方面,上一篇中重点讲了进行长记忆管理的 8 种方案,本节将从 Agent 的概念、ReAct 框架、示例、以及一些论文思路来具体聊下任务规划的话题,同时会辅以代码帮助理解,欢迎大家一起探讨。

阅读更多

2024 年,基于大模型的 Agent 如何在企业落地?

如果说去年一年是自媒体的狂欢,还可以利用信息差赚知识付费和咨询费,那今年在技术普及已经差不多了,就要面对落地的挑战了,否则大多数人该怀疑这又是一场泡沫了,最近一个月,我自己的身份也从纯研发角色侧重为产品,虽然代码还在写,但关注重点不一样了,这篇文章我将从这一个月来的实践和调研的情况出发,尝试从个人角度阐述对 AI 产品经理的能力理解,以及对当下 toC 和 toB AI 产品落地现状的一些思考,欢迎大家一起探讨。

阅读更多

轻装上阵,加速商业化,LangChain 0.1 预发布看点

LangChain 在 0.1 版本发生了重要变更,官方还专门发了一篇博客,总体看下来可以概括为聚焦核心,共建生态,轻装上阵,加速商业化,我也在第一时间向官方申请试用了商业化产品,本篇文章从 LangChain 变更情况解读,商业化产品试用,以及类 LangChain 的 LLM 应用开发框架的发展三部分来谈谈。

阅读更多