莫尔索随笔

2025-06-17发表LLM 应用开发实践20 分钟读完 (大约2976个字)

如何以及何时构建多智能体系统

本文译自 How and when to build multi-agent systems

上周晚些时候发布了两篇标题看似相左的精彩博文：Cognition 团队的《不要构建多智能体》与 Anthropic 团队的《我们如何构建多智能体研究系统》。

尽管标题对立，但两者实则存在诸多共识，并揭示了构建多智能体系统的关键原则：

上下文工程至关重要
以”读”为主的多智能体系统比以”写”为主的更易实现

2025-04-08发表LLM 应用开发实践36 分钟读完 (大约5453个字)

对话 MCP 团队：MCP 的起源、技术细节与设计思路、与 Agent 的关系及未来迭代方向

上一篇文章《MCP 的应用场景，其实是一个巨大的赚钱机会》发出后，后台接到很多读者留言，询问能否写一篇文章再详细介绍下 MCP 设计细节，本来想动笔，不过凑巧的是，搜索过程中发现 AI Engineer 频道刚好在上周五（4 月 4 日，新鲜热乎的 🤙）采访了MCP 团队的两位发起工程师，基本涉及到了 MCP 的方方面面。本篇内容是访谈的脱水版文字稿，移除了和 MCP 无关的话题和口头表达时的语癖，基本能够解答大家对 MCP 的起源、技术细节与设计思路、与 Agent 的关系及未来迭代方向的疑问，也比大多数能读到的二手内容权威多了。

2025-04-03发表14 分钟读完 (大约2067个字)

没有人知道“他妈的” 智能体到底是什么（译）

本文译自 No one knows what the hell an AI agent is，通读下来，同样符合国内的情况，吐槽的深得我心，故转译过来。

2025-04-02发表LLM 应用开发实践23 分钟读完 (大约3438个字)

模型上下文协议（MCP）的现状、问题与掘金机会

模型上下文协议(Model Context Protocol, 简称 MCP)是一种正在迅速普及的协议，它允许模型客户端与外部服务和工具服务器进行交互，让模型客户端不再局限于对话和信息检索，而是能够采取实际行动，比如发送邮件、部署代码、或发布文章等，我在周刊的 30、35、43、44、45 期都曾介绍过。关于 MCP 介绍的文章已经很多了，本篇不再赘述，这里我想重点谈谈深度使用下来发现的一些问题，以及这些问题带来的潜在掘金机会。

2024-12-18发表LLM 应用开发实践17 分钟读完 (大约2569个字)

别再用智能体忽悠用户了，应用场景化才是大模型落地的关键

这是一篇吐槽文，缘于今天详细体验一款低代码的大模型应用开发工具，没想到设计的真不错，但是一搜相关介绍，看到官方 PR 稿和自媒体广告文铺天盖地都在夸的是什么智能体，什么 AI 原生应用，就是不讲能解决哪些实实在在的问题，支持的实际场景。所以本篇想聊聊「智能体平台」的话题，先叠个甲，这些产品并不是一无是处，毫无疑问确实是方便用户快速用上大模型的能力，也提升了工作效率和生活体验，但这里面噱头大于实际，其中忽悠的内容太多了，本文不会出现具体的产品：）

2024-09-20发表33 分钟读完 (大约4908个字)

OpenAI o1 模型是通往 AGI 之路吗?

大家好久不见，最近太忙，发现已经快断更三个月了，这期间写了一本 RAG 相关的书，估计年底可以和大家见面，可以期待下；同时搞了一个新产品，也快上线了，终于可以有时间继续更新，今天简单分享一些对 OpenAI 的 o1 模型的看法，o1 模型主要是利用强化学习优化大模型的思维链（Chain-of-Thought）推理过程，从而显著提升了模型的推理能力，我认为短期内对应用落地是利好，从长远来看，我认为这可能偏离了实现 AGI（通用人工智能）的正确路径，下面会详细展开。

2024-05-11发表17 分钟读完 (大约2539个字)

LangChain 宣布推出 LangChain v0.2 版本（译）

LangChain 宣布推出 LangChain v0.2 预发布版本，这个版本提高了 LangChain 的稳定性和安全性，本篇译自官方博客。

2024-03-21发表LLM 应用开发实践36 分钟读完 (大约5447个字)

如何评估一个RAG（检索增强生成）系统

写这篇文章的原因是我构建的 RAG 框架已经基本成型，现在只剩下最后一块拼图，即评估模块，这也是真正投入生产后，RAG 系统迭代的关键，本篇文章我将分享 3 种方案，第一种我自己跑出来的实践经验，第二种是比较成熟的框架 RAGAs，通过定量指标来评估，最后一种是则是通过噪声、拒答、反事实、信息整合等四大指标来定性分析，来自论文《在 RAG 中对大语言模型进行基准测试》，大家可以结合起来设计自己的方案。

本文首发自博客文章如何评估一个RAG（检索增强生成）系统

2024-03-12发表LLM 应用开发实践38 分钟读完 (大约5676个字)

开发者必读的国内大模型 API 能力解读（附大量图表分析）

由于要为公司产品接入 AI 能力，且政策原因只能使用国内大模型，所以过去一个月我仔细阅读了一遍国内 6 家（阿里、百度、MiniMax、智谱 AI、MoonShot、百川智能，没试用字节和腾讯家的原因末尾总结有吐槽）大模型厂商文档，逐个测试了不同的 API，发现相同的功能各家的叫法又不一样，使用起来很混乱，所以才有了这篇文章，本文我将以 OpenAI 提供的 API 能力（因为个人项目一直在使用 OpenAI）为基准，从 GPTs 能力、插件能力、Assistants API、基础 API 能力（基础大模型、微调支持等）四个方面展开，对国内各模型厂商的能力进行比较和统一定义，希望能给现阶段准备在产品中接入国内大模型的独立开发者和中小企业提供一点参考。

2024-02-27发表LLM 应用开发实践15 分钟读完 (大约2205个字)

基于大模型的Agent进行测试评估的3种方案

This content is also available in：English。

大家好啊，好久不见，我们都知道当前基于大模型构建的 Agent 能力极不稳定，而今年我司产品又在规划接入 Agent 能力，所以在引入之前，需要先设计一套测试框架，来看看各种场景下容错率是否能达到目标阈值，所以我调研了几种测试方案，本篇来总结下。

订阅我的免费通讯

我的作品

最新文章

归档

标签