盘点20种 LLM 应用开发者工具,墙裂推荐你使用这三款!

当大模型成本逐渐降低,可靠性提升后,越来越多的业务应用将与LLM结合。为此,需要开发结合内部基础设施的SDK,更友好的prompt管理工具,能够快速构建RAG相关概念证明的平台。总之,需要一些封装好的框架快速调试应用,以支撑LLM应用开发的快速开发。

我的新书《LangChain编程从入门到实践》 已经开售!推荐正在学习AI应用开发的朋友购买阅读!
LangChain编程从入门到实践

LLM 应用开发框架

首先,聊聊开源的 LLM 应用开发框架,这些框架能够帮助我们快速搭建起 AI 应用,让开发过程变得更加高效。

  • **Langflow**:这是一个无代码编排工具,许多平台都在使用它,可以帮助你轻松地将不同的模块拼接起来,让它们协同工作。
  • **Deepset Haystack**:这是一个开源框架,它基于 Hugging Face Transformers,提供了丰富的工具来查询和理解文本数据。你可以用它来构建由 LLM、Transformer 模型和向量搜索等技术驱动的应用。
  • **LlamaIndex**:这是一个数据框架,它可以轻松地将大型语言模型连接到你的自定义数据源,方便你进行数据的存储、查询和索引。
  • **LangChain**:对于 LLM 应用开发入门者来说,这是一个必选的工具。
  • **Prompt flow**:这是微软开源的一套开发工具,旨在简化基于 LLM 的应用的开发周期。它让提示工程变得更加容易,并帮助你构建具有生产质量的 LLM 应用。

LLM 应用开发平台

接下来,我们来看看一些 LLM 驱动的知识库和聊天机器人平台。这些平台可以帮助你通过导入文档或已有的问答对来训练 AI 模型,使其能够以交互式对话的方式回答问题。

国内版:Apache License 2.0 协议开源

FastGPT

FastGPT 是一个基于 LLM 大语言模型的知识库问答系统,提供开箱即用的数据处理、模型调用等能力。同时可以通过 Flow 可视化进行工作流编排,从而实现复杂的问答场景!

  1. 通过导入文档或已有问答对进行训练,让 AI 模型能根据你的文档以交互式对话方式回答问题。
  2. FastGPT 采用直观的可视化界面设计,为各种应用场景提供了丰富实用的功能。通过简洁易懂的操作步骤,可以轻松完成 AI 客服的创建和训练流程。
  3. 提供手动输入、直接分段、LLM 自动处理和 CSV 等多种数据导入途径,其中“直接分段”支持通过 PDF、WORD、Markdown 和 CSV 文档内容作为上下文。FastGPT 会自动对文本数据进行预处理、向量化和 QA 分割,节省手动训练时间,提升效能。
  4. 基于 Flow 模块的工作流编排,可以帮助你设计更加复杂的问答流程。例如查询数据库、查询库存、预约实验室等
  5. FastGPT 对外的 API 接口对齐了 OpenAI 官方接口,可以直接接入现有的 GPT 应用,也可以轻松集成到企业微信、公众号、飞书等平台。

Dify

集成了第三方 API 插件能力,

  1. 数据准备:平台提供数据收集和预处理工具,简化了数据清洗和标注的工作,最小化甚至消除了编码工作。

  2. Prompt Engineering:所见即所得的 Prompt 编辑和调试,可根据用户输入的数据进行实时优化和调整。

  3. 嵌入和上下文管理:自动处理长上下文的嵌入、存储和管理,提高效率和扩展性,无需编写大量代码。

  4. 应用监控与维护:实时监控性能数据,快速发现和处理问题,确保应用程序的稳定运行,提供完整的日志记录。

  5. 模型微调:平台提供一键微调功能,基于过去已标注的真实使用数据进行训练,提高模型性能,减少编程工作。

  6. 系统和运营:易用的界面,非技术人员也可参与,支持多人协同,降低开发和维护成本。与传统开发方式相比,Dify 提供了更加透明和易于监控的应用管理,让团队成员更好地了解应用的运行情况。

毕昇

一个基于大语言模型的应用开发运维一体化平台,赋能和加速大模型应用开发落地,帮助用户以最佳体验进入下一代应用开发模式。包括:聊天机器人和工作助手,文档处理,知识管理,专业内容创作,在这些场景上,企业内的数据质量参差不齐,想要真正把所有数据利用起来,关键是需要有完备的非结构化数据治理能力,该项目团队是是第四范式的智能文档产品事业部独立出来的,在这方面积累了核心能力,值得看下实现。

完成度的顺序 Dify > FastGPT > 毕昇

国外版:商业化闭源产品

Baseplate

Connect Your Data to LLM Apps,Baseplate 是一种为 LLM 应用优化的后端。团队可以使用我们的多模态上下文数据库通过简单的电子表格界面构建丰富的用户体验。这意味着您不需要再维护和管理矢量和常规数据的分开的数据库了!使用 Baseplate,团队可以部署一个聊天 GPT 应用程序,从文档、缩略图、链接、图片等中获取特定领域的信息。(谁知道,也许下一个 GPT 模型也是多模态的)主要特点包括:灵活的混合数据库、数据库管理、智能搜索、应用程序构建器和端点。

入选了 YC W23(Y Combinator 2023 年冬季批次)

Stack AI

是一种无代码工具,允许使用 ChatGPT 等模型设计、测试和部署 AI 工作流程,设计并测试工作流程后,可以一键将其发布为 Wechat,Web Chat API,此外还可以优化提示、收集数据并微调 LLM 工作流程,已经有付费企业用户在使用了,完成度最好的同类产品。

  • 聊天机器人和助手:使用内部数据和 API 与用户交互、回答问题并完成任务。
  • 文档处理:从任何文档中提取见解、提供摘要并回答问题,无论其长度如何。
  • 回答有关数据库的问题:将 ChatGPT 等模型连接到 Notion、Airtable 或 Postgres 等数据库,以获得有关您的组织的宝贵见解。
  • 内容创建:生成标签、摘要,并在文档和数据源之间无缝传输样式或格式。

Relevance AI

服务了 20 多家企业级客户,包括联合利华这样的公司。

  • 构建能与任何东西交互的 AI 应用:不再受文件限制和复杂模板的约束。轻松将 ChatGPT 等语言模型与向量数据库、PDF OCR 等技术整合。
  • 利用链条自定义每一个细节:通过链式提示和转换,从模板到自适应链条,构建定制的 AI 体验。
  • 独特的 LLM 优先功能:通过质量控制、语义缓存等独特 LLM 功能,防止脱离现实,节省成本。
  • 无模型供应商锁定:在 OpenAI、Cohere、Anthropic 等顶级 LLM 提供商中随意切换。
  • 完全托管服务:我们负责基础设施管理、托管和扩容。

LLMOps 平台

广义上的 LLMOps 其实就是 MLOps 的一个子类别,大部分环节重叠,LLMOps 关注的是调整现有基础大型语言模型所需的运营能力和基础设施,并将这些优化后的大模型部署为产品的一部分。

LLMOps 的初创公司主要关注 LLM 应用栈的开发,可以大致分为以下几类:

  • 提示管理和评估(提示工程、审核、跟踪、A/B 测试、提示链接、调试提示、评估等),包括跨多个基础模型提供商进行提示链接;
  • 无代码/低代码微调/嵌入管理(包括用于在特定数据集上重新训练通用模型的工具,标记、清洗等)
  • 代理集成/基于行动的 LLM 决策,执行行动,目标规划,与外部世界接口等;
  • 分析/可观察性——成本、延迟、速率限制管理、可解释性等

下面是一些符合狭义层面要求的一些 LLMOps 平台

星环科技

这是一个国内的 LLMOps 平台,它提供了提示管理和评估、无代码/低代码微调/嵌入管理等功能。

Humanloop

帮助开发者在大型语言模型(如 GPT-3)之上构建高性能应用程序。您可以使用它来尝试新的提示,收集模型生成的数据和用户反馈,并对模型进行微调以提高性能并优化成本,以及有多邻国,LightOn 等十几个的企业付费用户

Playground(协作提示工作区,整个团队一起迭代提示)、检测、部署、A/B 测试、提示词管理、评估(在交付到生产环境之前调试提示、链或代理)、数据存储、连接私有数据并进行微调,以实现差异化的模型性能

HoneyHive

Slogan 是帮你构建用户信赖的可靠 AI 产品,一款监控和评估工具,目前还处于 beta 版本,但是已经有了 FIXIE 这样的内测用户,个人比较关注的产品。

  1. 内置版本控制和日志记录: 可以在 Playground 中进行实验,并记录每次的变化和修改,以便跟踪模型的演化过程。
  2. 试验新的提示、模型和超参数设置: 在 Playground 中尝试不同的提示文本、模型架构和超参数设置,以寻找最佳的组合。
  3. 使用 NLP 指标、基于 LLM 的评估模块、单元测试和人工反馈: 使用自然语言处理(NLP)指标对模型性能进行评估,利用基于语言模型的评估模块,执行单元测试以确保模型质量,并结合人工反馈进行优化。
  4. 测试提示模型变体: 针对专有数据集测试不同的提示模型变体,以确定哪种模型变体在特定任务上表现最佳。
  5. 可视化自定义指标、比较数据切片、检测异常: 可以根据需要定制指标并对其进行可视化,比较不同数据切片的性能,识别异常情况。
  6. 找到改进生产中模型的方法: 通过检测最终用户与软件开发工具包(SDK)的交互,找到改进生产中模型的方法。
  7. 微调所有主要模型提供商的自定义模型: 通过微调各种主要模型提供商的自定义模型,优化模型的成本、延迟和性能。
  8. 添加对生产数据的更正: 在生产环境中,可以轻松添加对实际生产数据的更正,以提高模型的准确性。
  9. 被动收集高质量数据集: 通过被动地收集高质量数据集,用于进一步的微调和模型蒸馏(distillation)。

LLMOps Tool kit

最后,我们来看看一些 LLMOps 工具包。这些工具包提供了可观测性、模型管理和提示词管理等功能,帮助你更好地监控和管理你的 LLM 应用。

  • **traceloop**:这是一个提高 LLM 应用可观察性的工具,它基于 OpenTelemetry 构建,可以让你在 LLM 应用上实现完全可观测性。
  • **Helicone**:这是一个开源的可观测性平台,用于记录所有请求到 OpenAI 的日志,并提供用户友好的 UI 界面。
  • **Portkey**:这个工具提供了模型管理和可观测性功能,帮助你管理模型(提示、参数、引擎、版本),查看模型和版本之间的流量和延迟。

此外,还有一些提示词交流社区和交易平台,例如PromptBaseFlowGPTPromptHero,它们为普通用户提供了自己的提示词管理工具。

这是我目前的选择

我选择开源工具组合:prompttools用于试验、测试和评估 LLM,矢量数据库召回内容,以及使用 Agenta 作为提示词管理工具进行评估测试,还有 Helicone 用于运行过程监控。
希望这些信息能够帮助你更好地理解和选择适合你的工具。

不可错过 👉:我创建了【AI 产品】【AI 开发】 交流群,用于 AI 产品构建和分享交流,如果你负责的工作和这个领域强相关并且感兴趣,欢迎后台【点击入群】加入交流 ,备注信息务必做简单自我介绍,否则不予通过!

盘点20种 LLM 应用开发者工具,墙裂推荐你使用这三款!

https://liduos.com/best-tools-application-develop.html

作者

莫尔索

发布于

2023-09-25

更新于

2024-12-18

许可协议

评论