2024开源大模型盘点:Llama、Qwen、Mistral AI、DeepSeek全解析

This content is also available in:English

文章介绍了 Qwen 系列模型,包括 Qwen 1.5、Qwen 2 和 Qwen 2.5,这些模型在不同时间发布,提供了多种规模的模型选择,并在性能、多语言能力、上下文长度和安全性方面取得了显著进展。此外,Qwen 还推出了专门针对视觉语言、多模态推理、音频处理的模型,如 Qwen2-VL、QVQ-72B-Preview 和 Qwen2-Audio,进一步扩展了模型的应用范围。Llama 系列模型,从 Llama 3 开始,到 Llama 3.1、Llama 3.2 和 Llama 3.3,这些模型在参数规模、上下文长度和性能上不断突破,特别是 Llama 3.1 405B 版本成为了最大的开源大型语言模型之一。DeepSeek 系列模型的介绍,包括 DeepSeek LLM、DeepSeek-Coder、DeepSeekMath、DeepSeek-VL、DeepSeek-V2、DeepSeek-Coder-V2、DeepSeek-VL2 和 DeepSeek-V3 等,这些模型在多语言、代码生成、数学推理、视觉语言处理等方面展现了卓越的能力,并且在性能和效率上都取得了显著的提升。Mistral AI 系列模型,包括 Mistral Large、Mistral Small、Pixtral Large、Mixtral 8x22B、Mistral NeMo、Codestral Mamba 和 Mathstral 等,这些模型在多语言推理、多模态处理、编程任务和数学推理等方面表现出色,并且在成本和性能之间取得了平衡。

阅读更多

Llama 3 开启规模游戏的下一篇章(译)

目前,文本数据的规模可能已经达到了瓶颈,因为大部分易获取的网络文本数据(如 Common Crawl、Github、Arxiv 等)已经被广泛利用。规模游戏的第一篇章集中在扩展文本数据上,在 GPT-4 达到顶峰,并以 Llama 3 结束。该游戏的第二篇章将是统一的视频-语言生成建模和从 X 个反馈中进行迭代强化学习。

本文译自 Llama 3 Opens the Second Chapter of the Game of Scale

阅读更多

利用 Groq 体验 Llama 3 的4种方式,800 tokens/s 的推理速度真的太快了!

北京时间4月19日凌晨,Meta在官网上官宣了Llama-3,作为继Llama1、Llama2和CodeLlama之后的第三代模型,Llama3在多个基准测试中实现了全面领先,性能优于业界同类最先进的模型,你有没有第一时间体验上呢,这篇文章就分享下如何在Groq上以超过 800 tokens/s 的魔鬼推理速度体验Llama3,会同时分享Web端、移动端、API方式以及集成到LangChain中4种体验方案。

阅读更多