Vol.43 什么样的 Agent 会在 2025 年脱颖而出?
本期内容通过论文、工程、产品和市场四个部分, 内容涵盖了 AI 代理技术的最新研究成果,包括 LaRA、CodeAct、ViDoRAG 和 Visual-RFT 等论文,这些研究探讨了如何通过 RAG 与长文本语言模型、代码执行能力、视觉文档检索增强生成以及视觉强化微调等技术手段提升 AI 代理的性能和应用范围。在工程方面,介绍了如何使用 Cursor 和 Claude AI 工具高效管理和维护大型项目,以及谷歌发布的新的文本嵌入模型 gemini-embedding-exp-03-07。此外,还讨论了 MCP 的实用性和潜力、Manus 的开源项目 OpenManus 和 OWL 技术实现,以及 OpenAI 发布的 Agents SDK。产品部分,推荐了 Meta FAIR AI Demos 和 Google Labs,介绍了 Google 的 Gemma 3 系列模型和 Gemini 2.0 Flash,Cloudflare Media Transformations 功能,以及 Product Hunt 上的最佳产品。市场方面,提到了 OpenAI 与 CoreWeave 的合作协议,SSI 通过再融资达到 300 亿美元估值,以及 AI 代理定义的模糊性和行业应用。最后,网页提供了 Cartesia 创始人的访谈和对未来 25 年 AI 代理发展趋势的预测。
阅读更多