会员计划说明

我要推出一个为期一年的会员计划,这篇文章我想从会员计划介绍、面向人群、会员权益、会员定价四个方面来介绍下,希望大家理性消费,务必先看权益部分的内容是否是自己未来一年内要聚焦和关注的,然后再看定价是否满足自己当前的消费能力。

阅读更多

2024 年大模型领域的发展趋势和竞争格局全面回顾|莫尔索随笔 Vol.35

本期内容通过论文、工程、产品和市场四个部分,在论文方面,涉及了多模态信息转换为 tokens 并通过上下文预测下一个 token 的技术,微软披露了 GPT-4 系列模型的参数规模,探讨了样本比例和样本长度对微调大型预训练语言模型的影响,以及提出了 HybGRAG 方法以处理半结构化知识库中的问题检索。工程部分,Anthropic 发布了 MCP 2025 年上半年的发展路线图,SuperSonic 项目提升了数据查询和可视化的效率,以及对 2024 年大模型领域的发展趋势和竞争格局的回顾。产品部分,介绍了 Product Hunt 本周最佳产品,AI 搜索引擎的现状和未来发展趋势,Butterflies AI 社交媒体产品的特点,以及智谱发布的基于扩展强化学习技术训练的推理模型 GLM-Zero-Preview。市场部分,a16z 分析了 2025 年科技领域的大趋势,特别是 AI 领域的观点,以及 LangChain 发布的关于 AI 代理的报告。最后,提出了关于信息内容的抽象层次转换的观点。
阅读更多

2024开源大模型盘点:Llama、Qwen、Mistral AI、DeepSeek全解析

This content is also available in:English

文章介绍了 Qwen 系列模型,包括 Qwen 1.5、Qwen 2 和 Qwen 2.5,这些模型在不同时间发布,提供了多种规模的模型选择,并在性能、多语言能力、上下文长度和安全性方面取得了显著进展。此外,Qwen 还推出了专门针对视觉语言、多模态推理、音频处理的模型,如 Qwen2-VL、QVQ-72B-Preview 和 Qwen2-Audio,进一步扩展了模型的应用范围。Llama 系列模型,从 Llama 3 开始,到 Llama 3.1、Llama 3.2 和 Llama 3.3,这些模型在参数规模、上下文长度和性能上不断突破,特别是 Llama 3.1 405B 版本成为了最大的开源大型语言模型之一。DeepSeek 系列模型的介绍,包括 DeepSeek LLM、DeepSeek-Coder、DeepSeekMath、DeepSeek-VL、DeepSeek-V2、DeepSeek-Coder-V2、DeepSeek-VL2 和 DeepSeek-V3 等,这些模型在多语言、代码生成、数学推理、视觉语言处理等方面展现了卓越的能力,并且在性能和效率上都取得了显著的提升。Mistral AI 系列模型,包括 Mistral Large、Mistral Small、Pixtral Large、Mixtral 8x22B、Mistral NeMo、Codestral Mamba 和 Mathstral 等,这些模型在多语言推理、多模态处理、编程任务和数学推理等方面表现出色,并且在成本和性能之间取得了平衡。

阅读更多

对OpenAI o3模型的看法、思考与反思|莫尔索随笔 Vol.34

本期内容通过论文、工程、产品和市场四个部分,论文部分讨论了多模态大语言模型(MLLMs)在视觉空间智能、数学语音到公式转换、AI 代理在自治云环境中的应用、以及 LLM 幻觉现象的研究。工程部分介绍了 NVIDIA GPU 在 LLM 推理任务中的应用指南、多模态大模型在表格解析任务的效果、Hugging Face 的评估方法指南书、开源视觉推理模型 QVQ-72B-Preview 的性能、智谱技术开源的 GLM-PC 基座模型 CogAgent-9B,以及无问芯穹开源的端侧全模态理解模型 Megrez-3B-Omni。产品部分展示了 DeepSeek 新系列模型 DeepSeek-V3、百川智能的金融大模型 Baichuan4-Finance、Kimi 视觉思考模型 k1、AI 病历助手 Freed AI、以及利用 AI Agent 技术帮助企业在售前阶段找到潜在客户的 Clay。市场部分报告了阶跃星辰、像素绽放 PixelBloom 和 xAI 的融资情况,以及 2024 年 AI 应用开发平台的发展趋势和 AI 领域的整体发展情况。最后提供了两篇关于 OpenAI o3 模型的观点文章,分析了 o3 模型在编程竞赛、软件开发测试、数学测试和图形逻辑推理任务中的表现,并对其技术特性和未来发展进行了探讨。
阅读更多

如何避免成为NPC:揭示五种常见的认知陷阱及解决方法

最近,美国发生了一起引起轰动的枪击事件,联合健康保险CEO被人当街击杀,媒体在调查嫌疑人 Luigi Mangione 背景时发现,他是一位作家的粉丝,并且与作家进行了多次视频通话。在这些通话中,Luigi Mangione 表达了对作家文章《为什么你可能是一个 NPC》的认同,我读完原文,也十分收益,故将文章分享于此。本文译自《Why You Are Probably An NPC》

“敌人就是留声机式的心智,无论你是否认同正在播放的唱片。” —— 奥威尔

阅读更多

为什么视频生成模型比文本生成模型发展速度更快?|莫尔索随笔 Vol.33

本期内容通过论文、工程、产品和市场四个部分,论文部分,在视频理解模型 Apollo 中,研究揭示了帧率(fps)采样与 token 数量(tps)之间的权衡,以及在视频编码器上的微调可以进一步提高性能。此外,论文还探讨了 OmniParser 在 OCR 领域的应用,以及 OCR 对 RAG 系统性能的影响。在多智能体大语言模型的研究中,提出了四种不同的范式,并讨论了其在对话任务中的应用。还有,研究团队提出了在潜在空间中进行推理的方法,以提高大语言模型在数学和逻辑推理任务中的性能。在工程方面,介绍了 Rockset 的混合搜索架构,以及 MarkitDown 和 PipeCat 等开源工具。PromptWizard 作为一个提示词自动优化框架,也被提及。产品部分,Google 发布了 Veo 2 和 Imagen 3,以及新工具 Whisk,提升了视频和图像生成的质量。GitHub Copilot 推出了免费版本,而 OpenAI 发布了 o1 模型的 API 以及最新的 o3 模型。Remento 和 DeepSeek-VL2 等新产品也被介绍。市场方面,智谱和爱诗科技完成了大规模融资,Perplexity 收购了 Carbon,以及 2024 年语音 AI 行业现状报告的内容也被总结。最后,网页提出了视频生成模型发展速度快的原因,并预测了 2025 年 AI 的六大趋势。
阅读更多

别再用智能体忽悠用户了,应用场景化才是大模型落地的关键

这是一篇吐槽文,缘于今天详细体验一款低代码的大模型应用开发工具,没想到设计的真不错,但是一搜相关介绍,看到官方 PR 稿和自媒体广告文铺天盖地都在夸的是什么智能体,什么 AI 原生应用,就是不讲能解决哪些实实在在的问题,支持的实际场景。所以本篇想聊聊「智能体平台」的话题,先叠个甲,这些产品并不是一无是处,毫无疑问确实是方便用户快速用上大模型的能力,也提升了工作效率和生活体验,但这里面噱头大于实际,其中忽悠的内容太多了,本文不会出现具体的产品:)

阅读更多

AI Creativity 赛道有哪些机会?|莫尔索随笔 Vol.32

本期内容通过论文、工程、产品和市场四个部分,全面展示了 AI 技术在各个领域的应用和影响。在论文部分,包括基于检索增强推理的 RARE 框架,提升了推理轨迹的准确性和相关性;HtmlRAG 项目,通过使用 HTML 而非纯文本来改善问答系统的性能;以及 MarketSenseAI,一个基于 GPT-4 的金融投资分析工具,实现了显著的投资回报。在工程方面,提到了 ChatBI 的技术路径,旨在通过生成式 AI 技术促进数据驱动决策;LiveKit Agents,一个开源的实时多模态 AI 应用开发框架;以及 OpenAI 实时 API 的技术细节,包括对话状态管理和实时语音应用的开发简化。产品部分,Meta 推出了新的 Llama 3.3 模型,提升了文本应用场景的性能;DeepSeek 发布了 DeepSeek-V2.5-1210 并支持联网搜索功能;OpenAI 举办了产品发布会,推出了多个新功能和产品,如 Sora 正式版和 Canvas 工具的全面开放。谷歌发布了性能超越 1.5 Pro 的多模态 AI 模型 Gemini 2.0,支持 Agent 功能,并探讨了其在游戏、机器人和深度研究方面的应用。市场动态方面,探讨了编码类 Agent 如何颠覆传统软件开发模式,以及 AI Creativity 赛道的机会,包括 Flux1、Ideogram 和 Midjourney 等公司的最新进展,以及视频生成领域的新趋势和产品形态。最后观点不,AI 行业正面临一个转折点,随着可用数据的接近极限,行业需要寻找新的训练方法,预训练模型时代即将结束,未来将进入超级智能时代。
阅读更多

AI开发者工具(3)——2024 年 6 个开源 AI 网页爬虫框架对比:功能解读、应用场景分析

This content is also available in:English.

这是本系列的第三篇文章,重点介绍如何从网络抓取数据以丰富大模型的上下文。无论是个人使用的 AI 搜索引擎,还是企业级的知识库应用,获取实时网络数据都是关键功能,特别是网页信息的更新,有助于提高大模型回答的准确性和时效性。关于本地文档(尤其是 PDF 文件、扫描印影件、图像等)的处理方法,已在上一篇文章中详细讨论。

阅读更多

AI Native 应用长什么样?|莫尔索随笔 Vol.31

本期内容通过论文、工程、产品和市场四个部分,全面展示了 AI 技术在各个领域的应用和影响。在论文部分,介绍了基于大语言模型(LLM)的模型评估智能助手CriticAL,以及基于扩散模型的系统 AnchorCrafter,用于生成包含人类 - 物体交互的 2D 视频。文章还探讨了大模型幻觉现象的原因和解决策略,以及集成 LLM 的统一商业智能平台 DataLab。在工程部分,提到了面向 LLM 的内容组织标准、全能文档解析工具 MegaParse、开源工具 Co-op Translator,以及 AI 工程的定义和未来趋势。产品部分详细介绍了亚马逊推出的 Nova 系列基础模型、Hume AI 推出的 Voice Control 功能,以及 Cohere 推出的新的搜索模型 Rerank3.5,以及腾讯推出的混元大模型 HunyuanVideo。最后,在市场部分,讨论了 OpenAI 计划推出的新品和服务,以及 AI Native 应用的特征和发展趋势。
阅读更多