莫尔索随笔

2024-12-31发表LLM 应用开发实践32 分钟读完 (大约4809个字)

2024开源大模型盘点：Llama、Qwen、Mistral AI、DeepSeek全解析

This content is also available in：English。

文章介绍了 Qwen 系列模型，包括 Qwen 1.5、Qwen 2 和 Qwen 2.5，这些模型在不同时间发布，提供了多种规模的模型选择，并在性能、多语言能力、上下文长度和安全性方面取得了显著进展。此外，Qwen 还推出了专门针对视觉语言、多模态推理、音频处理的模型，如 Qwen2-VL、QVQ-72B-Preview 和 Qwen2-Audio，进一步扩展了模型的应用范围。Llama 系列模型，从 Llama 3 开始，到 Llama 3.1、Llama 3.2 和 Llama 3.3，这些模型在参数规模、上下文长度和性能上不断突破，特别是 Llama 3.1 405B 版本成为了最大的开源大型语言模型之一。DeepSeek 系列模型的介绍，包括 DeepSeek LLM、DeepSeek-Coder、DeepSeekMath、DeepSeek-VL、DeepSeek-V2、DeepSeek-Coder-V2、DeepSeek-VL2 和 DeepSeek-V3 等，这些模型在多语言、代码生成、数学推理、视觉语言处理等方面展现了卓越的能力，并且在性能和效率上都取得了显著的提升。Mistral AI 系列模型，包括 Mistral Large、Mistral Small、Pixtral Large、Mixtral 8x22B、Mistral NeMo、Codestral Mamba 和 Mathstral 等，这些模型在多语言推理、多模态处理、编程任务和数学推理等方面表现出色，并且在成本和性能之间取得了平衡。

2024-05-06发表LLM 应用开发实践38 分钟读完 (大约5670个字)

DeepSeek-V2 到底有多强？写一个 AI 编码 Agent 测测看

深度求索昨晚宣布开源他们第二代 MoE 模型 DeepSeek-V2，支持 128K 上下文窗口，在主流的大模型能力测试集上都有不俗的表现，特别是知识、数学、推理、编程方面能力处于前列，而且成本直接低出一个数量级，到底表现怎么样，本着务实的态度，这篇文章结合 LangChain 的 LangGraph 组件库，编写一个编码类 AI Agent，来对其能力做下简单验证。
在这篇文章中，我会先介绍下 DeepSeek-V2 如何做到模型性能强的同时推理成本还低的，然后对 LangGraph 组件进行介绍，最后设计一个能够自动编写生产可用的单元测试代码的编码类 Agent 来验证下 DeepSeek-V2 的实际能力。

订阅我的免费通讯

我的作品

最新文章

归档

标签