2024开源大模型盘点:Llama、Qwen、Mistral AI、DeepSeek全解析
文章介绍了 Qwen 系列模型,包括 Qwen 1.5、Qwen 2 和 Qwen 2.5,这些模型在不同时间发布,提供了多种规模的模型选择,并在性能、多语言能力、上下文长度和安全性方面取得了显著进展。此外,Qwen 还推出了专门针对视觉语言、多模态推理、音频处理的模型,如 Qwen2-VL、QVQ-72B-Preview 和 Qwen2-Audio,进一步扩展了模型的应用范围。Llama 系列模型,从 Llama 3 开始,到 Llama 3.1、Llama 3.2 和 Llama 3.3,这些模型在参数规模、上下文长度和性能上不断突破,特别是 Llama 3.1 405B 版本成为了最大的开源大型语言模型之一。DeepSeek 系列模型的介绍,包括 DeepSeek LLM、DeepSeek-Coder、DeepSeekMath、DeepSeek-VL、DeepSeek-V2、DeepSeek-Coder-V2、DeepSeek-VL2 和 DeepSeek-V3 等,这些模型在多语言、代码生成、数学推理、视觉语言处理等方面展现了卓越的能力,并且在性能和效率上都取得了显著的提升。Mistral AI 系列模型,包括 Mistral Large、Mistral Small、Pixtral Large、Mixtral 8x22B、Mistral NeMo、Codestral Mamba 和 Mathstral 等,这些模型在多语言推理、多模态处理、编程任务和数学推理等方面表现出色,并且在成本和性能之间取得了平衡。
Qwen
Qwen 1.5 系列模型
发布时间: 2024年2月4日。
模型型号:
- Qwen1.5-0.5B
- Qwen1.5-1.8B
- Qwen1.5-4B
- Qwen1.5-7B
- Qwen1.5-14B
- Qwen1.5-32B
- Qwen1.5-72B
- Qwen1.5-110B
- Qwen1.5-MoE。
详细信息:
Qwen 1.5 系列模型在农历新年之际发布,旨在提供更卓越的模型性能和提升开发者的使用体验。这一系列模型包括了多种不同规模的 Base 和 Chat 模型,以及一个 MoE 模型。所有模型均支持 32K tokens 的上下文长度。此外,Qwen 1.5 系列模型在多语言能力方面表现出色,支持包括阿拉伯语、西班牙语、法语、日语、韩语、泰语等多种语言。
Qwen 2 系列模型
发布时间: 2024年6月7日。
模型型号:
- Qwen2-0.5B
- Qwen2-1.5B
- Qwen2-7B
- Qwen2-57B-A14B
- Qwen2-72B。
- Qwen2-VL(Qwen2-VL 可理解长视频,并将其用于基于视频的问答、对话和内容创作等应用中。)
- Qwen2-Audio(能够接受音频和文本输入,并生成文本输出。Qwen2-Audio 具有以下特点:语音聊天:用户可以使用语音向音频语言模型发出指令,无需通过自动语音识别(ASR)模块。)
详细信息:
Qwen 2 系列模型是 Qwen 1.5 到 Qwen 2 的重大升级,增加了对 27 种语言的支持,并在多个评测基准上取得了领先表现。Qwen 2 系列模型在代码和数学能力上显著提升,支持的上下文长度最高达到 128K tokens(Qwen2-72B-Instruct)。此外,Qwen 2 系列模型在安全性方面的表现与 GPT-4 相当,并且显著优于其他模型。
Qwen 2.5 系列模型
发布时间: 2024年9月19日。
模型型号:
- Qwen2.5-0.5B
- Qwen2.5-1.5B
- Qwen2.5-3B
- Qwen2.5-7B
- Qwen2.5-14B
- Qwen2.5-32B
- Qwen2.5-72B
- Qwen2.5-Coder(包括1.5B、7B、32B)
- Qwen2.5-Math(包括1.5B、7B、72B)
详细信息:
Qwen 2.5 系列模型在性能上超越了 Llama,特别是在编程能力(HumanEval 85+)和数学能力(MATH 80+)方面。Qwen2.5 系列模型支持高达 128K 的上下文长度,可生成最多 8K 内容。此外,Qwen2.5-72B 在多个核心任务上的表现超过了拥有 4050 亿参数的 Llama3.1-405B。Qwen2.5 系列模型还包括专门针对编程和数学任务的子系列 Qwen2.5-Coder 和 Qwen2.5-Math。
延伸开源模型
Qwen2-VL-72B 视觉语言模型:
- 发布时间: 2024年8月29日。
- 模型型号: Qwen2-VL-72B。
- 详细信息: Qwen2-VL-72B 是一个视觉语言模型,能够识别不同分辨率和长宽比的图片,理解 20 分钟以上长视频,具备自主操作手机和机器人的视觉智能体能力。在 LMSYSChatbotArenaLeaderboard 中,Qwen2-VL-72B 成为全球得分最高的开源模型。
QVQ-72B-Preview 多模态推理模型:
- 发布时间: 2024年12月25日。
- 模型型号: QVQ-72B-Preview。
- 详细信息: QVQ-72B-Preview 是一个开源多模态推理模型,它在人工智能的视觉理解和复杂问题解决能力方面实现了重大突破。在 MMMU 评测中,QVQ 取得了 70.3 的优异成绩,并且在各项数学相关基准测试中相比 Qwen2-VL-72B-Instruct 都有显著提升。
Qwen2-Audio
- 发布时间:2024年 8 月9日。
- 模型型号:Qwen2-Audio-7B 以及 Qwen2-Audio-7B-Instruct。
- 详细信息:它能够接受音频和文本输入,并生成文本输出。以下是Qwen2-Audio的一些关键特点:
- 语音聊天:用户可以使用语音向音频语言模型发出指令,无需通过自动语音识别(ASR)模块。
- 音频分析:该模型能够根据文本指令分析音频信息,包括语音、声音、音乐等。
- 多语言支持:该模型支持超过8种语言和方言,例如中文、英语、粤语、法语、意大利语、西班牙语、德语和日语。
Llama
Llama 3 8B/70B
发布时间: 2024年4月18日。
模型型号: Llama 3 8B和Llama 3 70B。
详细信息: Llama 3系列包括8B和70B参数的预训练和指令微调文本生成模型。这些模型在技术上大幅超越了Llama 2,重新定义了大型语言模型的性能标准。
Llama 3.1 8B/70B/405B
发布时间: 2024年7月23日。
模型型号: Llama 3.1 8B、Llama 3.1 70B和Llama 3.1 405B。
详细信息: Llama 3.1系列包括8B、70B和405B参数的模型,最大上下文窗口提升至128K。Llama 3.1 405B是迄今为止最大的开源大型语言模型,在多语言支持、推理能力和复杂数学问题解决方面表现出色。
Llama 3.2 1B/3B/11B/90B
发布时间: 2024年9月26日。
模型型号: Llama 3.2 1B、Llama 3.2 3B、Llama 3.2 11B和Llama 3.2 90B。
详细信息: Llama 3.2发布了小型和中型视觉LLM(11B和90B),以及适用于边缘和移动设备的轻量级纯文本模型(1B和3B),包括预训练和指令微调版本。这些模型支持128K的上下文长度,并针对Arm处理器进行了优化,适用于本地摘要、指令遵循和重写任务等应用。
Llama 3.3 70B
发布时间: 2024年12月7日。
模型型号: Llama 3.3 70B 。
详细信息: Llama 3.3是Llama系列的最新版本,进一步提升了模型的效率和性能。Llama 3.3在多语言能力、代码生成和复杂数学问题解决方面取得了显著进展,参数规模达到405B,接近或超过市场上其他领先模型的表现。
这些开源模型的发布,体现了Meta对开放AI生态系统的承诺,为研究人员和开发者提供了强大的工具,推动了人工智能技术的进步。
DeepSeek
DeepSeek LLM
发布时间: 2024年1月5日。
模型型号: DeepSeek LLM 7B/67B Base和DeepSeek LLM 7B/67B Chat。
详细信息:
DeepSeek LLM是深度求索的第一个大模型,包含670亿参数。它从零开始在一个包含2万亿token的数据集上进行了训练,数据集涵盖中英文。DeepSeek LLM 67B Base在推理、编码、数学和中文理解等方面超越了Llama2 70B Base。DeepSeek LLM 67B Chat在编码和数学方面表现出色,展现了显著的泛化能力,在匈牙利国家高中考试中取得了65分的成绩。此外,它还精通中文:DeepSeek LLM 67B Chat在中文表现上超越了GPT-3.5。
DeepSeek-Coder
发布时间: 2024年1月25日。
模型型号: DeepSeek Coder 1B到33B版本。
详细信息:
DeepSeek Coder由一系列代码语言模型组成,每个模型均从零开始在2万亿token上训练,数据集包含87%的代码和13%的中英文自然语言。代码模型尺寸从1B到33B版本不等。每个模型通过在项目级代码语料库上进行预训练,采用16K的窗口大小和额外的填空任务,以支持项目级代码补全和填充。DeepSeek Coder在多种编程语言和各种基准测试中达到了开源代码模型的最先进性能。
DeepSeekMath
发布时间: 2024年2月5日。
模型型号: DeepSeekMath 7B。
详细信息:
DeepSeekMath以DeepSeek-Coder-v1.5 7B为基础,继续在从Common Crawl中提取的数学相关token以及自然语言和代码数据上进行预训练,训练规模达5000亿token。DeepSeekMath 7B在竞赛级MATH基准测试中取得了51.7%的优异成绩,且未依赖外部工具包和投票技术,接近Gemini-Ultra和GPT-4的性能水平。
DeepSeek-VL
发布时间: 2024年3月11日。
模型型号: DeepSeek-VL 1.3B和7B模型。
详细信息:
DeepSeek-VL是一个开源的视觉-语言(VL)模型,采用了混合视觉编码器,能够在固定的token预算内高效处理高分辨率图像(1024 x 1024),同时保持相对较低的计算开销。这一设计确保了模型在各种视觉任务中捕捉关键语义和细节信息的能力。DeepSeek-VL系列在相同模型尺寸下,在广泛的视觉-语言基准测试中达到了最先进或可竞争的性能。
DeepSeek-V2
发布时间: 2024年5月7日。
模型型号: DeepSeek-V2。
详细信息:
DeepSeek-V2是一个强大的混合专家(MoE)语言模型,以经济高效的训练和推理为特点。它包含2360亿个总参数,其中每个token激活210亿个参数。与DeepSeek 67B相比,DeepSeek-V2不仅实现了更强的性能,同时还节省了42.5%的训练成本,将KV缓存减少了93.3%,并将最大生成吞吐量提升至5.76倍。在一个包含8.1万亿token的多样化且高质量的语料库上对DeepSeek-V2进行了预训练。
DeepSeek-Coder-V2
发布时间: 2024年6月17日。
模型型号: DeepSeek-Coder-V2。
详细信息:
DeepSeek-Coder-V2是一个开源的混合专家(MoE)代码语言模型,在代码特定任务中达到了与GPT4-Turbo相当的性能。DeepSeek-Coder-V2是从DeepSeek-V2的一个中间检查点开始,进一步预训练了额外的6万亿token,显著增强了DeepSeek-V2的编码和数学推理能力,同时在通用语言任务中保持了相当的性能。并在代码相关任务、推理能力和通用能力等多个方面都取得了显著进步。此外,DeepSeek-Coder-V2将支持的编程语言从86种扩展到338种,并将上下文长度从16K扩展到128K。
DeepSeek-VL2
发布时间: 2024年12月13日。
模型型号: DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2。
详细信息:
DeepSeek-VL2是一个先进的大型混合专家(MoE)视觉-语言模型系列,相较于其前身DeepSeek-VL有了显著改进。DeepSeek-VL2在多种任务中展现了卓越的能力,包括但不限于视觉问答、光学字符识别、文档/表格/图表理解以及视觉定位。模型系列由三个变体组成:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2,分别具有10亿、28亿和45亿激活参数。与现有的开源密集模型和基于MoE的模型相比,DeepSeek-VL2在相似或更少的激活参数下实现了具有竞争力或最先进的性能。
DeepSeek-V3
发布时间: 2024年12月26日。
模型型号: DeepSeek-V3。
详细信息:
DeepSeek-V3是一个强大的混合专家(MoE)语言模型,总参数为6710亿,每个token激活370亿参数。为了实现高效的推理和经济高效的训练,DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeek MoE架构,这些架构在DeepSeek-V2中得到了充分验证。此外,DeepSeek-V3首创了一种无辅助损失的负载均衡策略,并设定了多token预测训练目标以提升性能。团队在14.8万亿个多样化且高质量的token上对DeepSeek-V3进行了预训练,随后通过监督微调和强化学习阶段充分释放其潜力。综合评估表明,DeepSeek-V3超越了其他开源模型,并达到了与领先闭源模型相当的性能。
Mistral AI
Mistral Large
发布时间: 2024年2月26日。
模型型号: Mistral Large。
详细信息:
Mistral Large是Mistral AI的旗舰模型,具有强大的推理能力,适用于复杂的多语言推理任务,包括文本理解、转换和代码生成。Mistral Large在常用基准测试中取得了强大的结果,成为世界上通过API普遍可用的第二名模型(仅次于GPT-4)。Mistral Large具有以下特点:
- 多语言能力: 精通英语、法语、西班牙语、德语和意大利语,对语法和文化背景有细致的理解。
- 32K tokens上下文窗口: 允许从大型文档中精确回忆信息。
- 精确的指令遵循: 使开发者能够设计他们的内容审核政策。
- 原生函数调用能力: 结合在la Plateforme上实现的受限输出模式,可以大规模启用应用程序开发和技术堆栈现代化。
Mistral Small
发布时间: 2024年9月18日。
模型型号: Mistral Small。
详细信息:
Mistral Small是一个优化的模型,针对延迟和成本进行了优化。Mistral Small在性能上超越了Mixtral 8x7B,并且具有更低的延迟,使其成为介于开放权重产品和旗舰模型之间的精致中间解决方案。Mistral Small具有以下特点:
- 22B参数: 提供了介于Mistral NeMo 12B和Mistral Large 2之间的中间点。
- 32768词汇量: 支持更丰富的语言表达。
- 支持函数调用: 使模型能够与内部代码、API或数据库进行更复杂的交互。
- 128k序列长度: 允许处理更长的文本输入。
Pixtral Large
发布时间: 2024年11月18日。
模型型号: Pixtral Large。
详细信息:
Pixtral Large是一个124B开放权重的多模态模型,基于Mistral Large 2构建。Pixtral Large展示了前沿级别的图像理解能力,能够理解文档、图表和自然图像,同时保持Mistral Large 2的领先纯文本理解能力。Pixtral Large具有以下特点:
- 前沿级多模态性能: 在MathVista、DocVQA、VQAv2等任务上达到SOTA水平。
- 1230亿参数的多模态解码器,10亿参数的视觉编码器: 提供强大的图像和文本处理能力。
- 128K上下文窗口长度: 可容纳至少30张高分辨率图像。
- 多语言OCR和推理能力: 能够处理多语言文本和执行复杂的推理任务。
Mixtral 8x22B
发布时间: 2024年4月17日。
模型型号: Mixtral 8x22B。
详细信息:
Mixtral 8x22B是一个稀疏Mixture-of-Experts (SMoE)模型,拥有1410亿参数,但仅激活390亿个参数。它在多语言、数学和编码任务上表现出色,并支持原生函数调用和64K tokens上下文窗口。Mixtral 8x22B在Apache 2.0许可证下发布,允许广泛使用。
Mistral NeMo
发布时间: 2024年7月19日。
模型型号: Mistral NeMo。
详细信息:
Mistral NeMo是Mistral AI与NVIDIA合作开发的12B模型,具有128k tokens的上下文窗口,支持FP8推理。Mistral NeMo在多语言支持、数学推理和代码生成方面表现出色,特别在中文处理上有显著提升。
Codestral Mamba
发布时间: 2024年7月17日。
模型型号: Codestral Mamba。
详细信息:
Codestral Mamba是一个开源编程模型,基于新型架构,能够处理高达256,000个token的输入文本,速度和效率显著提升。Codestral Mamba在编程任务上表现出色,支持多种编程语言,并能够执行复杂的代码生成和推理任务。
Mathstral
发布时间: 2024年7月17日。
模型型号: Mathstral。
详细信息:
Mathstral是专注于数学推理和科学发现的7B模型,旨在解决需要复杂、多步骤逻辑推理的高级数学问题。Mathstral基于Mistral 7B构建,支持STEM学科,并在多个行业标准基准测试中表现出色。
2024开源大模型盘点:Llama、Qwen、Mistral AI、DeepSeek全解析
https://liduos.com/open-source-ai-models-2025-llama-qwen-mistral-deepseek.html