Llama 3 开启规模游戏的下一篇章(译)

目前,文本数据的规模可能已经达到了瓶颈,因为大部分易获取的网络文本数据(如 Common Crawl、Github、Arxiv 等)已经被广泛利用。规模游戏的第一篇章集中在扩展文本数据上,在 GPT-4 达到顶峰,并以 Llama 3 结束。该游戏的第二篇章将是统一的视频-语言生成建模和从 X 个反馈中进行迭代强化学习。

本文译自 Llama 3 Opens the Second Chapter of the Game of Scale

阅读更多

利用 Groq 体验 Llama 3 的4种方式,800 tokens/s 的推理速度真的太快了!

北京时间4月19日凌晨,Meta在官网上官宣了Llama-3,作为继Llama1、Llama2和CodeLlama之后的第三代模型,Llama3在多个基准测试中实现了全面领先,性能优于业界同类最先进的模型,你有没有第一时间体验上呢,这篇文章就分享下如何在Groq上以超过 800 tokens/s 的魔鬼推理速度体验Llama3,会同时分享Web端、移动端、API方式以及集成到LangChain中4种体验方案。

阅读更多

数据污染对大型语言模型的潜在影响(译)

大型语言模型(LLMs)中存在的数据污染是一个重要问题,可能会影响它们在各种任务中的表现。这指的是LLMs的训练数据中包含了来自下游任务的测试数据。解决数据污染问题至关重要,因为它可能导致结果偏倚,并影响LLMs在其他任务上的实际效果。通过识别和减轻数据污染,我们可以确保LLMs具有最佳性能并产生准确的结果。数据污染的后果可能非常严重,包括不准确的预测、不可靠的结果和数据偏倚。

本文译自 The Hidden Influence of Data Contamination on Large Language Models

阅读更多

你支持AI“复活”逝者吗|莫尔索随笔 Vol.1

大家好,会员计划第1期会员通讯已送达!

每一期的会员通讯内容我将分为论文、工程、产品、市场四个栏目组织,在每一篇精选内容后面使用标签形式做更细粒度划分,同时标注我的总结或观点,会不定期增加观点栏目,提出一个议题供大家在群里讨论,或者是我最近关于AI行业的一些阶段性总结。

阅读更多

AI 领域精选高质量信息源分享

我在这篇 ChatGPT 发布一周年的总结文章中大模型时代,程序员如何实现自我成长?——一名普通开发者的 ChatGPT 一周年记,已经推荐了不少优质的信息源,但主要还是偏技术向,随着我自己的身份从纯研发角色转变为产品,我的信息源也对应做了一次更新,增加了非技术部分,经过两个月的迭代,基本还算满意,所以这篇文章来总结下。

阅读更多

如何评估一个RAG(检索增强生成)系统

写这篇文章的原因是我构建的 RAG 框架已经基本成型,现在只剩下最后一块拼图,即评估模块,这也是真正投入生产后,RAG 系统迭代的关键,本篇文章我将分享 3 种方案,第一种我自己跑出来的实践经验,第二种是比较成熟的框架 RAGAs,通过定量指标来评估,最后一种是则是通过噪声、拒答、反事实、信息整合等四大指标来定性分析,来自论文《在 RAG 中对大语言模型进行基准测试》,大家可以结合起来设计自己的方案。

本文首发自博客文章 如何评估一个RAG(检索增强生成)系统

阅读更多

开发者必读的国内大模型 API 能力解读(附大量图表分析)

由于要为公司产品接入 AI 能力,且政策原因只能使用国内大模型,所以过去一个月我仔细阅读了一遍国内 6 家(阿里、百度、MiniMax、智谱 AI、MoonShot、百川智能,没试用字节和腾讯家的原因末尾总结有吐槽)大模型厂商文档,逐个测试了不同的 API,发现相同的功能各家的叫法又不一样,使用起来很混乱,所以才有了这篇文章,本文我将以 OpenAI 提供的 API 能力(因为个人项目一直在使用 OpenAI)为基准,从 GPTs 能力、插件能力、Assistants API、基础 API 能力(基础大模型、微调支持等)四个方面展开,对国内各模型厂商的能力进行比较和统一定义,希望能给现阶段准备在产品中接入国内大模型的独立开发者和中小企业提供一点参考

阅读更多

基于大模型的Agent进行测试评估的3种方案

This content is also available in:English

大家好啊,好久不见,我们都知道当前基于大模型构建的 Agent 能力极不稳定,而今年我司产品又在规划接入 Agent 能力,所以在引入之前,需要先设计一套测试框架,来看看各种场景下容错率是否能达到目标阈值,所以我调研了几种测试方案,本篇来总结下。

阅读更多