分类: LLM 应用开发实践

2025-06-17发表LLM 应用开发实践20 分钟读完 (大约2976个字)

如何以及何时构建多智能体系统

本文译自 How and when to build multi-agent systems

上周晚些时候发布了两篇标题看似相左的精彩博文：Cognition 团队的《不要构建多智能体》与 Anthropic 团队的《我们如何构建多智能体研究系统》。

尽管标题对立，但两者实则存在诸多共识，并揭示了构建多智能体系统的关键原则：

上下文工程至关重要
以”读”为主的多智能体系统比以”写”为主的更易实现

2025-04-08发表LLM 应用开发实践36 分钟读完 (大约5453个字)

对话 MCP 团队：MCP 的起源、技术细节与设计思路、与 Agent 的关系及未来迭代方向

上一篇文章《MCP 的应用场景，其实是一个巨大的赚钱机会》发出后，后台接到很多读者留言，询问能否写一篇文章再详细介绍下 MCP 设计细节，本来想动笔，不过凑巧的是，搜索过程中发现 AI Engineer 频道刚好在上周五（4 月 4 日，新鲜热乎的 🤙）采访了MCP 团队的两位发起工程师，基本涉及到了 MCP 的方方面面。本篇内容是访谈的脱水版文字稿，移除了和 MCP 无关的话题和口头表达时的语癖，基本能够解答大家对 MCP 的起源、技术细节与设计思路、与 Agent 的关系及未来迭代方向的疑问，也比大多数能读到的二手内容权威多了。

2025-04-02发表LLM 应用开发实践23 分钟读完 (大约3438个字)

模型上下文协议（MCP）的现状、问题与掘金机会

模型上下文协议(Model Context Protocol, 简称 MCP)是一种正在迅速普及的协议，它允许模型客户端与外部服务和工具服务器进行交互，让模型客户端不再局限于对话和信息检索，而是能够采取实际行动，比如发送邮件、部署代码、或发布文章等，我在周刊的 30、35、43、44、45 期都曾介绍过。关于 MCP 介绍的文章已经很多了，本篇不再赘述，这里我想重点谈谈深度使用下来发现的一些问题，以及这些问题带来的潜在掘金机会。

2025-01-13发表LLM 应用开发实践1 小时读完 (大约6910个字)

2024 年大模型基础设施与中间件工具链生态演进—— ChatGPT 发布两周年记

原本计划写一篇《ChatGPT 发布两周年记》的文章，以呼应去年的总结性文章 ChatGPT 发布一周年记，但最近太太忙了，现在都快 1 月中旬了，这个题目已经不太严谨了：），决定换个题目，从开发者角度聊聊过去一年从基础模型到开发者工具生态的个人观察，文章会分为三部分：

基础模型：总结一年来基础模型层面的发展，这个是基本。

开发者工具生态：聊聊大模型开发者工具生态系统的发展，涵盖基础模型服务商、中间层产品以及标志性开源项目。

2025 年关注方向：最后延伸浅谈一下 2025 年个人重点关注的 AI 发展方向。

2024-12-31发表LLM 应用开发实践32 分钟读完 (大约4809个字)

2024开源大模型盘点：Llama、Qwen、Mistral AI、DeepSeek全解析

This content is also available in：English。

文章介绍了 Qwen 系列模型，包括 Qwen 1.5、Qwen 2 和 Qwen 2.5，这些模型在不同时间发布，提供了多种规模的模型选择，并在性能、多语言能力、上下文长度和安全性方面取得了显著进展。此外，Qwen 还推出了专门针对视觉语言、多模态推理、音频处理的模型，如 Qwen2-VL、QVQ-72B-Preview 和 Qwen2-Audio，进一步扩展了模型的应用范围。Llama 系列模型，从 Llama 3 开始，到 Llama 3.1、Llama 3.2 和 Llama 3.3，这些模型在参数规模、上下文长度和性能上不断突破，特别是 Llama 3.1 405B 版本成为了最大的开源大型语言模型之一。DeepSeek 系列模型的介绍，包括 DeepSeek LLM、DeepSeek-Coder、DeepSeekMath、DeepSeek-VL、DeepSeek-V2、DeepSeek-Coder-V2、DeepSeek-VL2 和 DeepSeek-V3 等，这些模型在多语言、代码生成、数学推理、视觉语言处理等方面展现了卓越的能力，并且在性能和效率上都取得了显著的提升。Mistral AI 系列模型，包括 Mistral Large、Mistral Small、Pixtral Large、Mixtral 8x22B、Mistral NeMo、Codestral Mamba 和 Mathstral 等，这些模型在多语言推理、多模态处理、编程任务和数学推理等方面表现出色，并且在成本和性能之间取得了平衡。

2024-12-18发表LLM 应用开发实践17 分钟读完 (大约2569个字)

别再用智能体忽悠用户了，应用场景化才是大模型落地的关键

这是一篇吐槽文，缘于今天详细体验一款低代码的大模型应用开发工具，没想到设计的真不错，但是一搜相关介绍，看到官方 PR 稿和自媒体广告文铺天盖地都在夸的是什么智能体，什么 AI 原生应用，就是不讲能解决哪些实实在在的问题，支持的实际场景。所以本篇想聊聊「智能体平台」的话题，先叠个甲，这些产品并不是一无是处，毫无疑问确实是方便用户快速用上大模型的能力，也提升了工作效率和生活体验，但这里面噱头大于实际，其中忽悠的内容太多了，本文不会出现具体的产品：）

2024-12-10发表LLM 应用开发实践22 分钟读完 (大约3294个字)

AI开发者工具(3)——2024 年 6 个开源 AI 网页爬虫框架对比：功能解读、应用场景分析

This content is also available in：English.

这是本系列的第三篇文章，重点介绍如何从网络抓取数据以丰富大模型的上下文。无论是个人使用的 AI 搜索引擎，还是企业级的知识库应用，获取实时网络数据都是关键功能，特别是网页信息的更新，有助于提高大模型回答的准确性和时效性。关于本地文档（尤其是 PDF 文件、扫描印影件、图像等）的处理方法，已在上一篇文章中详细讨论。

2024-12-07发表LLM 应用开发实践1 小时读完 (大约7450个字)

AI开发者工具(2)——2024 年 12 个开源文档解析项目的选型对比评测：PDF解析、OCR识别功能解读、应用场景分析及优缺点比较

This content is also available in：English.

这是本系列的第二篇文章，聚焦于智能文档处理（特别是 PDF 及图像解析）。无论是在模型预训练的数据收集阶段，还是基于 RAG 的知识库构建阶段，大量高质量数据通常以 PDF 或扫描图像的形式出现。由于这些文件的排版多样、格式不一以及扫描质量参差不齐，利用这些数据极具挑战。主要难点在于：一是有效提取内容信息和版面信息（如正文、标题、图注、图片、表格、公式等）；二是处理版面元素之间的关系。鉴于此领域的巨大需求，市场上既有开源框架，也不乏商业解决方案，涵盖了从传统 OCR 识别到新型多模态大模型，甚至两者的结合，本篇文章就对他们进行盘点并做功能解读，优缺点比较，应用场景选择推荐。

2024-11-26发表LLM 应用开发实践37 分钟读完 (大约5614个字)

AI开发者工具(1)——2024 年 8 个开源 RAG 项目对比：功能解读、应用场景分析及优缺点比较

This content is also available in：English.

为了撰写开源中国即将发布的大模型生态 2024 年报告中关于开发者中间件和开源工具的年终总结，我回顾了过去一年所关注的开源项目，并计划将其整理成一系列文章。这些文章将涵盖从智能文档处理、生成式 AI 推理平台的对比，到大模型的结构化输出支持及 TTS 技术的选项等多个方面。这一系列文章既是我个人的年终总结，也旨在为感兴趣的读者提供有价值的信息。
这是该系列的第一篇文章，主题围绕 RAG 技术。在过去一年中，RAG 技术成为大模型应用中最热门的方向之一，开源社区因此涌现了许多相关项目，包括面向个人开发者的 SDK 集成、企业级框架以及面向普通用户的 RAG 应用。本文将重点介绍那些成熟度较高且专注于 RAG 技术的项目，所以像 FlashRAG（一个高效、模块化的开源工具包，用于复现现有 RAG 方法和开发新算法）和 GraphRAG（一种基于图的 RAG 方法，通过利用实体间的结构信息提高检索精度和生成更加符合上下文的响应）这类具有创新性的研究项目不在本文讨论范围内，同样，像 LangChain 这样包含 RAG 处理模块的综合框架也不在讨论之列。

2024-06-12发表LLM 应用开发实践1 小时读完 (大约7071个字)

豆包系列大模型能力深度体验，除了便宜，还有哪些亮点？

离开模型能力谈API价格都是耍流氓，豆包大模型作为API最便宜的模型之一，最近向个人开发者开放了，花了300元和一些时间对模型的API吞吐、函数调用能力、长上下文能力等进行了深度测试，看看它的能力究竟适合做 AI 应用开发吗？