OpenAI o1 模型是通往 AGI 之路吗?

大家好久不见,最近太忙,发现已经快断更三个月了,这期间写了一本 RAG 相关的书,估计年底可以和大家见面,可以期待下;同时搞了一个新产品,也快上线了,终于可以有时间继续更新,今天简单分享一些对 OpenAI 的 o1 模型的看法,o1 模型主要是利用强化学习优化大模型的思维链(Chain-of-Thought)推理过程,从而显著提升了模型的推理能力,我认为短期内对应用落地是利好,从长远来看,我认为这可能偏离了实现 AGI(通用人工智能)的正确路径,下面会详细展开。

阅读更多

GPT-4o 到底有多能打?设计一个报告生成类 AI Agent 测一测

在上一篇文章,分享了使用 DeepSeek-V2+LangGraph 编写了一个编码助手类 AI Agent ,这篇文章使用 OpenAI 最近上新的 GPT-4o,结合 LangGraph 编写一个能够撰写高质量研究报告的多智能体系统,实现机制参考 gpt-researcher,我会首先介绍下 gpt-researcher 这个项目的工作机制,然后使用 LangGraph 逐步进行实现。

阅读更多

DeepSeek-V2 到底有多强?写一个 AI 编码 Agent 测测看

深度求索昨晚宣布开源他们第二代 MoE 模型 DeepSeek-V2,支持 128K 上下文窗口,在主流的大模型能力测试集上都有不俗的表现,特别是知识、数学、推理、编程方面能力处于前列,而且成本直接低出一个数量级,到底表现怎么样,本着务实的态度,这篇文章结合 LangChain 的 LangGraph 组件库,编写一个编码类 AI Agent,来对其能力做下简单验证。
在这篇文章中,我会先介绍下 DeepSeek-V2 如何做到模型性能强的同时推理成本还低的,然后对 LangGraph 组件进行介绍,最后设计一个能够自动编写生产可用的单元测试代码的编码类 Agent 来验证下 DeepSeek-V2 的实际能力。

阅读更多

Llama 3 开启规模游戏的下一篇章(译)

目前,文本数据的规模可能已经达到了瓶颈,因为大部分易获取的网络文本数据(如 Common Crawl、Github、Arxiv 等)已经被广泛利用。规模游戏的第一篇章集中在扩展文本数据上,在 GPT-4 达到顶峰,并以 Llama 3 结束。该游戏的第二篇章将是统一的视频-语言生成建模和从 X 个反馈中进行迭代强化学习。

本文译自 Llama 3 Opens the Second Chapter of the Game of Scale

阅读更多

利用 Groq 体验 Llama 3 的4种方式,800 tokens/s 的推理速度真的太快了!

北京时间4月19日凌晨,Meta在官网上官宣了Llama-3,作为继Llama1、Llama2和CodeLlama之后的第三代模型,Llama3在多个基准测试中实现了全面领先,性能优于业界同类最先进的模型,你有没有第一时间体验上呢,这篇文章就分享下如何在Groq上以超过 800 tokens/s 的魔鬼推理速度体验Llama3,会同时分享Web端、移动端、API方式以及集成到LangChain中4种体验方案。

阅读更多

记录智能阅读助手 ReaderGPT 开发过程

这篇文章是关于智能阅读助手 ReaderGPT 开发过程的记录,尽管本地玩了很多项目 demo,AutoGPT、JARVIS (HuggingGPT) 、知识库之类的,但一直未正式开发一个端到端服务。直到上个月申请到 Azure OpenAI,我想是时候开发一个完整的应用了,可以给朋友直接上手使用,并且确实可以大幅节省时间的工具,所以才有了这个和信息处理相关的智能阅读助手,我将从需求思考,应用架构,功能特性及后续迭代计划四部分来进行说明。

阅读更多

OpenAI Function Calling 特性有什么用

OpenAI最近发布了一次更新,3.5可以支持16k的token,更新了gpt-3.5-turbo-0613 和 gpt-4-0613两个模型,同时这两个模型在chat completion的api中增加了一个叫 Function Calling 的新功能,本篇文章对其功能进行探究,并分析其作用。

阅读更多

大语言模型的安全问题探究

提示攻击是一种利用 LLM 漏洞的攻击方式,通过操纵输入或提示来实现。与传统黑客攻击(通常利用软件漏洞)不同,提示攻击依赖于精心设计的提示,欺骗LLM执行非预期的操作。提示攻击主要分为三种类型:提示注入、提示泄露和越狱。随着大语言模型的广泛应用,安全必定是一个非常值得关注的领域,下面这篇文章对当前已知的攻击方式进行梳理,希望对大家的工程落地有一定帮助!

阅读更多