莫尔索随笔

2025-01-06发表会员计划31 分钟读完 (大约4694个字)

Vol.35：2024 年大模型领域的发展趋势和竞争格局全面回顾

大家好！Weekly Gradient 第 35 期内容已送达！

2025-01-01发表微型SaaS产品6 分钟读完 (大约847个字)

2025年的产品构建路线图

从三个方向进行产品规划和迭代，既是服务自己，也是服务需要的用户。本计划会随着每个月进度进行更新。

2024-12-31发表LLM 应用开发实践32 分钟读完 (大约4809个字)

2024开源大模型盘点：Llama、Qwen、Mistral AI、DeepSeek全解析

This content is also available in：English。

文章介绍了 Qwen 系列模型，包括 Qwen 1.5、Qwen 2 和 Qwen 2.5，这些模型在不同时间发布，提供了多种规模的模型选择，并在性能、多语言能力、上下文长度和安全性方面取得了显著进展。此外，Qwen 还推出了专门针对视觉语言、多模态推理、音频处理的模型，如 Qwen2-VL、QVQ-72B-Preview 和 Qwen2-Audio，进一步扩展了模型的应用范围。Llama 系列模型，从 Llama 3 开始，到 Llama 3.1、Llama 3.2 和 Llama 3.3，这些模型在参数规模、上下文长度和性能上不断突破，特别是 Llama 3.1 405B 版本成为了最大的开源大型语言模型之一。DeepSeek 系列模型的介绍，包括 DeepSeek LLM、DeepSeek-Coder、DeepSeekMath、DeepSeek-VL、DeepSeek-V2、DeepSeek-Coder-V2、DeepSeek-VL2 和 DeepSeek-V3 等，这些模型在多语言、代码生成、数学推理、视觉语言处理等方面展现了卓越的能力，并且在性能和效率上都取得了显著的提升。Mistral AI 系列模型，包括 Mistral Large、Mistral Small、Pixtral Large、Mixtral 8x22B、Mistral NeMo、Codestral Mamba 和 Mathstral 等，这些模型在多语言推理、多模态处理、编程任务和数学推理等方面表现出色，并且在成本和性能之间取得了平衡。

2024-12-30发表会员计划41 分钟读完 (大约6144个字)

Vol.34：对OpenAI o3模型的看法、思考与反思

大家好！Weekly Gradient 第 34 期内容已送达！

2024-12-28发表日常随笔1 小时读完 (大约9409个字)

如何避免成为NPC：揭示五种常见的认知陷阱及解决方法（译）

最近，美国发生了一起引起轰动的枪击事件，联合健康保险CEO被人当街击杀，媒体在调查嫌疑人 Luigi Mangione 背景时发现，他是一位作家的粉丝，并且与作家进行了多次视频通话。在这些通话中，Luigi Mangione 表达了对作家文章《为什么你可能是一个 NPC》的认同，我读完原文，也十分收益，故将文章分享于此。本文译自《Why You Are Probably An NPC》。

“敌人就是留声机式的心智，无论你是否认同正在播放的唱片。” —— 奥威尔

2024-12-23发表会员计划44 分钟读完 (大约6653个字)

Vol.33：为什么视频生成模型比文本生成模型发展速度更快？

大家好！Weekly Gradient 第 33 期内容已送达！

2024-12-18发表LLM 应用开发实践17 分钟读完 (大约2569个字)

别再用智能体忽悠用户了，应用场景化才是大模型落地的关键

这是一篇吐槽文，缘于今天详细体验一款低代码的大模型应用开发工具，没想到设计的真不错，但是一搜相关介绍，看到官方 PR 稿和自媒体广告文铺天盖地都在夸的是什么智能体，什么 AI 原生应用，就是不讲能解决哪些实实在在的问题，支持的实际场景。所以本篇想聊聊「智能体平台」的话题，先叠个甲，这些产品并不是一无是处，毫无疑问确实是方便用户快速用上大模型的能力，也提升了工作效率和生活体验，但这里面噱头大于实际，其中忽悠的内容太多了，本文不会出现具体的产品：）

2024-12-16发表会员计划43 分钟读完 (大约6453个字)

Vol.32：AI Creativity 赛道有哪些机会？

大家好！Weekly Gradient 第 32 期内容已送达！

2024-12-10发表LLM 应用开发实践22 分钟读完 (大约3294个字)

AI开发者工具(3)——2024 年 6 个开源 AI 网页爬虫框架对比：功能解读、应用场景分析

This content is also available in：English.

这是本系列的第三篇文章，重点介绍如何从网络抓取数据以丰富大模型的上下文。无论是个人使用的 AI 搜索引擎，还是企业级的知识库应用，获取实时网络数据都是关键功能，特别是网页信息的更新，有助于提高大模型回答的准确性和时效性。关于本地文档（尤其是 PDF 文件、扫描印影件、图像等）的处理方法，已在上一篇文章中详细讨论。

2024-12-09发表会员计划41 分钟读完 (大约6095个字)

Vol.31：AI Native 应用长什么样？

大家好！Weekly Gradient 第 31 期内容已送达！

订阅我的免费通讯

我的作品

最新文章

归档

标签