Vol.25:AI像人一样使用计算机可信吗?

大家好!Weekly Gradient 第 25 期内容已送达!

✉️ 免费订阅更新

订阅我的免费通讯,第一时间获取生成式 AI 领域优质内容

我承诺保护您的隐私,不会向第三方分享您的信息。
您可以随时取消订阅。

论文

  1. Sketch2Code 是一个新的基准测试,用于评估最先进的视觉语言模型(VLMs)在将简陋的草图自动转换为网页原型方面的能力,同时还支持模拟真实世界设计工作流程的交互式代理评估:Sketch2Code 旨在评估 VLMs 在将草图转换为网页原型的能力,特别是在交互式设计环境中。该基准测试不仅提供了端到端的评估框架,而且还支持模拟设计师与代理之间的交互过程。在基准测试中,代理可以通过与模拟用户的交互来改进其生成的结果,无论是通过被动接收反馈指令还是主动提出澄清问题。研究人员对十种商业和开源的模型进行了全面分析,发现即使是最强大的模型也难以准确解释草图并提出有效的问题以实现持续改进。然而,用户研究表明,专业 UI/UX 设计师更偏好代理主动提问的行为,而不是仅仅被动接收反馈。这一发现强调了开发更有效的多轮对话代理的必要性。
  2. Class-RAG:通过RAG 提高内容审核性能:论文首先介绍了内容审核领域的背景和存在的问题,如标注数据的主观性和模型微调的困难。随后,详细描述了 Class-RAG 系统的架构,包括嵌入模型、检索库、检索模块以及微调的大语言模型(LLM)分类器。其中,嵌入模型采用了 DRAGON RoBERTa,检索库由安全和不安全用例子库构成,检索模块使用 Faiss 库进行相似性搜索,以高效地检索与输入最相似的参考案例。论文还报告了一系列实验结果,证明了 Class-RAG 在分类性能、对抗性攻击的稳健性、适应外部数据源的能力、遵循指令的能力以及性能可扩展性方面的优势。此外,论文探讨了检索库大小和参考样本数量对性能的影响,以及不同嵌入模型对性能的影响。
  3. 大模型数据合成和增强技术最新综述:随着 LLMs 的快速发展,高质量数据的获取速度远不及模型需求的增长,因此数据合成和增强技术成为了解决方案。本综述详细回顾了 LLMs 整个生命周期中的数据生成技术,包括数据准备、预训练、微调、指令调优、偏好对齐和应用。数据生成主要分为数据增强和数据合成两大类。数据增强包括数据标注、数据重构和共同标注三个子类别,旨在增加数据的多样性和数量,而数据合成则是从头开始或基于生成模型创建全新的数据,包括通用模型蒸馏、领域模型蒸馏和模型自我改进三个子类别。在数据准备阶段,论文探讨了如何利用数据合成和增强技术生成多样化和高质量的数据集,以应对真实世界数据稀缺的挑战。例如,TinyStories 通过指令 LLM 生成故事来训练和评估语言模型,而 FullAnno 利用 LLM 获取图像的全面标注。在预训练阶段,数据合成和增强技术提供了丰富、多样化且可控制的训练数据,以提升模型性能并减少偏见。论文以模型自我改进、通用模型蒸馏和数据增强三个角度讨论了现有的方法,并给出了具体的研究案例,如 VILA-2 和 TinyDialogues。在微调阶段,通过生成的数据对 LLMs 进行微调,以提升模型在特定任务上的表现。论文从模型自我改进、通用模型蒸馏和数据增强三个角度探讨了现有的方法,例如 STaR 和 LLM2LLM。在指令调优阶段,数据合成和增强技术帮助生成高质量的指令遵循数据,以此来提升模型的指令遵循能力。论文分别从通用模型蒸馏、模型自我改进和数据增强三个类别探讨了现有的方法,如 Alpaca 和自我指导方法。在偏好对齐阶段,论文讨论了如何通过数据合成和增强技术优化 LLMs 以符合复杂的人类偏好,包括通用模型蒸馏、领域模型蒸馏、模型自我改进和数据增强。最后,在应用阶段,论文探讨了 LLMs 在特定应用领域中如何通过数据合成和增强技术来提升性能,涵盖了数学、科学、编程、医疗和法律等领域。
  4. ComfyGen: Prompt-Adaptive Workflows for Text-to-Image Generation:ComfyGen 能够根据用户的特定提示自动定制和优化生成 Comfyui 工作流,通过组合多个专门的组件,如改进的输入处理、精细的解码器和超分辨率模块,提高了生成图像的质量和细节。ComfyGen 的核心功能是选择最适合用户需求的工作流组件,实现更高质量和更精确对齐的图像输出。文章还提到了 Comfyui 随着时间的成熟,出现了越来越多的节点,但这也导致了使用难度的增加。而 ComfyGen 的出现,通过简单的描述自动选择合适的工作流节点,解决了这一问题。此外,文章还对 ComfyGen 的技术特点进行了详细介绍,包括提示适应性生成、组件化工作流、基于 LLM 的决策支持、质量驱动的输出以及训练与无训练方法并行等。

工程

  1. OmniParser:微软推出了 OmniParser,这是一款新的开源屏幕解析工具,旨在提高机器对图形用户界面的理解和交互能力。OmniParser 在处理复杂的屏幕内容时表现出色,甚至在某些任务上超越了 GPT-4V 的性能。此外,该工具还可以集成到 Agent 中,为用户提供更加智能化的电脑控制体验。

  2. Jina AI 推出了一种新的分类器 API,支持零样本(zero-shot)和少样本(few-shot)分类,适用于文本和图像内容,可即时开始分类内容,并且可以通过提供新的示例进行增量更新:Jina AI 的 Search Foundation 发布了新的分类器 API,该 API 支持零样本和少样本在线分类,基于最新的嵌入模型构建,如 jina-embeddings-v3 和 jina-clip-v1。用户可以立即使用零样本分类器,并随着新数据的提供或概念漂移的发生进行增量更新,实现高效、可扩展的跨内容类型分类,而无需大量初始标记数据。此外,用户还可以发布他们的分类器供公众使用。随着新嵌入模型的发布,如即将推出的多语言 jina-clip-v2,用户可以通过分类器 API 立即访问最新的分类能力。分类器 API 提供了强大的零样本分类能力,允许用户在没有预先训练的标记数据的情况下对文本或图像进行分类。每个分类器都从零样本能力开始,随后可以通过额外的训练数据或更新进行增强。例如,API 可以用于路由 LLM 查询、跨媒体类型的内容分类、监测网站可访问性以及将声明性文本与意见分离等应用场景。少样本分类允许用户通过少量标记数据创建和更新分类器,提供 trainclassify 两个主要的端点。用户可以通过提供 classifier_id 和新示例来更新分类器,使其适应新的数据模式和类别,而无需从头开始。在分类过程中,用户只需提供输入文本和 classifier_id,API 将处理输入与之前训练的类别之间的映射。Jina AI 进行了基准测试,比较了零样本和少样本分类方法在多种数据集上的性能,包括情感检测和垃圾邮件检测等文本分类任务,以及 CIFAR10 等图像分类任务。结果显示,零样本分类在没有训练数据的情况下提供了可靠的性能,适用于最多 256 个类别的分类任务。少样本学习在有训练数据的情况下可以实现略高的准确性,但需要一定数量的训练示例来超过零样本分类的性能。

  3. Genmo 发布了全球最大的开源视频生成模型 Mochi 1,该模型拥有 100 亿个参数:Mochi 1 是 Genmo 推出的开源视频生成模型通过提供逼真的运动效果,尊重物理定律,并且在细节上非常精确,解决了人工智能视频领域的基础问题。Mochi 1 还提供了对角色、场景和动作的详细控制,能够与文本提示高度对齐,生成的视频与之高度一致。例如,当用户提供一个描述有关空天人和他的冒险故事的复杂文本提示时,Mochi 1 能够生成相应的视频内容。此外,Mochi 1 在生成连贯、流畅的人类动作和表情方面取得了进展。

  4. Meta发布Llama 3.2 1B/3B:这些模型采用了量化技术,大小平均减少56% ,使得模型在不牺牲太多性能的情况下,大幅度减少了内存占用(平均减少41% )和推理时间(2-4 倍的加速)。Llama 3.2 在多项自然语言处理任务上表现出色,尤其是在理解和生成文本方面。此外,Meta 还提供了模型的开源代码和预训练权重。

  5. LangChain 开源两周年:在这段时间里,LangChain 从一个简单的库发展成为一个公司,同时推出了两个新产品:LangGraph 和 LangSmith。LangChain 的使命一直是使得构建上下文感知和有代理性的应用程序变得尽可能简单。随着时间的推移,LangChain 的工具和生态系统得到了显著的改进和增强,从而能够支持更高质量的应用程序发展。LangChain 社区也有了显著的增长,贡献者数量翻了一番,应用数量和下载量也大幅增加。未来,LangChain 将继续致力于构建工具,以帮助开发者创造改变游戏规则的应用。

    • LangChain 最初的口号是连接大型语言模型(LLMs)到外部计算和数据源,随着时间的推移,LangChain 从一个库发展成为一个公司,推出了 LangGraph 和 LangSmith 两个新产品。
    • 随着大语言模型应用的不断成熟,LangChain 发现了从原型到生产环境的转变,这促使他们开发了 LangSmith 和 LangGraph 来解决生产环境中的问题。
    • LangSmith 旨在通过可观测性和评估来帮助开发者解决 LLM 应用的不可靠性问题,并确保应用的持续改进。
    • LangGraph 提供了一个灵活的编排框架,允许开发者根据自己的需求定制代理应用的认知架构,从而在生产环境中提供更可靠的应用。
    • LangChain 开源包随着生态系统的稳定和大语言模型生态系统的爆炸性增长而变得更加稳定和全面,同时也更加适合生产环境。
  6. 深入浅出,一文理解LLM的推理流程:首先介绍了 LLM 推理流程的基本概念,指出输入的 prompt 越多,推理反应越慢,显存占用也越大。接着详细描述了 prefill 和 decode 两个推理阶段的特点和资源需求。Prefill 阶段处理输入的所有 token,并生成 cache,而 decode 阶段利用这些 cache 以及新生成的 token。文章还强调了 KV 缓存在推理过程中的重要性,它能够显著降低显存的压力和计算负担。继而介绍了 Chunked Prefill 技术,这是一种能够提高 GPU 利用率和推理效率的方法,尤其是在处理长序列时。此外,文章还讨论了 LLM 推理运行时的显存使用情况,指出大模型的显存占用主要集中在 prefill 和 decode 阶段。

    最后,文章提到了评测 LLM 推理性能的几个关键指标,如 Time to First Token(TTFT)、Time per Output Token(TPOT)和 Inter-token Latency(ITL),并解释了它们之间的差异和应用场景。

    本文来源自Pytorch Conference 2024的talking —— Understanding the LLM Inference Workload,由NVIDIA的高级解决方案架构师讲述,感兴趣的可以看原演讲视频:

产品

  1. Anthropic 宣布了升级版的 Claude 3.5 Sonnet 和新型号 Claude 3.5 Haiku,以及公测版的计算机使用功能,允许 AI 像人类一样操作计算机,同时在Claude 上推出了一个内置的分析工具,,使得 Claude 能够编写和执行 JavaScript 代码,从而实现数据处理、分析和生成实时洞察。这个分析工具类似于一个内置的代码沙盒,可以进行复杂的数学运算、数据分析,并在分享答案之前对不同的想法进行迭代。这一能力使得 Claude 能够提供更准确的答案,并且在处理信息和运行代码方面更加高效。用户可以通过上传 CSV 文件来分析和可视化数据,Claude 能够像真正的数据分析师一样,系统地处理数据,包括数据清洗、探索和分析,直到得出正确结果。
  2. Hugging Face 宣布推出了 HUGS(Hugging Face Generative AI Services),这是一套优化且无需配置的推理微服务,旨在简化和加速使用开源模型构建 AI 应用的过程:Hugging Face 于 2024 年 10 月 23 日宣布推出 HUGS,这是一套针对开源模型优化的零配置推理微服务。HUGS 旨在简化 AI 应用程序的开发,并允许在自己的基础设施中高效地扩展 AI。它支持多种硬件加速器,包括 NVIDIA GPU、AMD GPU,以及即将支持的 AWS Inferentia 和 Google TPU。HUGS 提供了与 OpenAI API 兼容的接口,可以快速替换现有的基于模型提供商 API 的生成式 AI 应用程序。HUGS 的优势包括:在自己的基础设施中部署开源模型、零配置部署、硬件优化的推理、硬件和模型的灵活性、符合行业标准的 API、企业级分发和合规性。HUGS 通过云服务提供商市场、DigitalOcean 以及企业版 Hub 提供。它采用按需定价模式,并提供了一个为期 5 天的免费试用期。HUGS 支持多种开源模型,并提供了详细的文档和指南,以帮助用户开始使用。
  3. Google NotebookLM 是一个基于大语言模型的 AI 笔记工具,前段时间时间很火,这篇文章对其设计进行了深入介绍: Google NotebookLM是一个新型的笔记工具,它将 AI 技术融入到记笔记的过程中,利用如 OpenAI 的 GPT 等大型语言模型(LLMs),为学生、研究人员和专业人士提供了一个提升工作流程的平台。NotebookLM 能够快速总结复杂主题、理解笔记内容的上下文、智能格式化和结构化笔记、为笔记制作音频概述、以及在实时笔记中提供编辑建议和深入见解。此外,它还能够帮助用户创建报告、演示文稿和学习指南,并且支持多种创新使用方式,如学术研究、播客摘要、初创企业工作流程优化、开发者编程研究以及创业者项目管理。NotebookLM 不仅是一个笔记应用,它还是一个 AI 驱动的研究助手和生产力工具,能够与 Google Workspace 中的其他应用(如 Google Docs 和 Google Slides)无缝集成。
  4. 阶跃星辰推出了视频理解模型 step-1.5v-turbo:阶跃星辰开放平台发布了新的视频理解模型 step-1.5v-turbo,该模型在视频内容理解、指令跟随和多轮对话等方面表现出色。模型已经在 MVBench-16、TempCompass 和 Dream 1k 等评测榜单上展现了与国际一流水平相当的整体能力,特别是在视频中的事件和时序理解上表现突出。此外,阶跃星辰的多模态大模型在 SuperCLUE 和 OpenCompass 的评测中位列国内首位。模型的能力包括:突出的指令跟随能力,能够准确理解并执行指令,进行多任务指令遵行,并稳定格式化输出;准确的视频理解能力,能够生成贴合视频内容的回答,并对视频中的文字信息进行准确感知;深度推理与分析能力,能够识别视频中的潜在关系和情境,进行情境分析,帮助用户更深入地理解视频内容。官方还提供了几个具体的场景示例,展示了 step-1.5v-turbo 在内容解析、课程培训、巡检监控、宣传文案创作和内涵解读等方面的应用。这些示例展示了模型如何帮助用户提高学习效率、实现智能巡检、创作文案和挖掘视频内涵。
  5. 智谱技术团队发布了新一代端到端语音大模型 GLM-4-Voice:GLM-4-Voice 是智谱技术团队最新推出的端到端语音大模型,它能够直接理解和生成中英文语音,并且支持情感表达和共鸣、调节语速、随时打断并灵活输入指令,以及多语言和多方言支持。该模型已经集成到清言 APP 中,使其成为国内首个具有高级语音能力的大模型产品。GLM-4-Voice 的开源代码已经发布在 GitHub 上,这是智谱首次开源的端到端多模态模型。GLM-4-Voice 的技术细节包括它的模型架构由三个部分组成:GLM-4-Voice-Tokenizer、GLM-4-Voice-9B 和 GLM-4-Voice-Decoder。这个模型采用了音频 token 的端到端建模方法,通过有监督的方式训练了音频 Tokenizer,并采用 Flow Matching 模型流式合成音频,以最低只需 10 个 token 就能开始生成,大大降低了对话延迟。预训练过程中,模型使用了 Speech2Text 和 Text2Speech 两种预训练目标,并通过数百万小时音频和数千亿 token 的音频文本交错数据进行了预训练,以提升音频理解和建模能力。
  6. 智谱技术团队推出了基于 GLM 大模型的 AutoGLM,这是一个能够通过文字 / 语音指令模拟人类操作手机的智能体,旨在在日常生活和工作中辅助人类:AutoGLM 能够接收简单的文字 / 语音指令,模拟人类操作手机,完成包括在微信上点赞和评论、在淘宝上购买商品、在携程上预订酒店、在 12306 上购买火车票以及在美团上点外卖等任务。用户可以通过安装「智谱清言」插件在 Chrome 或 Edge 浏览器上体验 AutoGLM-Web,或者在安卓手机上通过内测申请体验。智谱还与荣耀等手机厂商基于 AutoGLM 进行了深度合作。

市场

  1. 不只是YC、a16z,硅谷的投资基金怎么投AI?:文章首先介绍了硅谷基金 Foothill Ventures 的背景,接着,详细阐述了美国早期投资机构的数量、基金规模、投资回报率的预期、小型基金的存续周期、退出路径以及不同轮次的投资金额等内容。文章还分析了美国和中国市场对同一轮次项目的估值差异,以及创业公司在美国融资时如何寻找投资人、合投的普遍性、沟通成本、融资时长以及尽调中的重点因素。最后,文章针对华人背景的创业团队在美国融资时可能遇到的问题提供了建议。

    在 AI 创业浪潮中,众多公司正将目光投向海外,试图拓展市场,获取融资。然而,从北美到亚洲,从欧洲到中东,不同地区的海外基金,有着各自的行业格局、投资喜好、行为理念。对于许多创业者来说,洞察海外基金行业的基本面貌,更有助于获得融资的可能性。

  2. 2024年AI代码平台及产品发展简报:旨在探讨 AI 与代码领域的最新变化,展示最近的技术突破和商业实践,预测未来行业趋势。

Vol.25:AI像人一样使用计算机可信吗?

https://liduos.com/the-memeber-newsletter-25.html

作者

莫尔索

发布于

2024-10-28

更新于

2025-06-25

许可协议

评论