The Connector 周刊#20:大模型时代,开发者应该如何成长?

The Connector 每周会选取我从信息流里获取的有价值内容,包括 AI 探索专题、Github 开源库推荐、工具介绍和一些文章书籍等,目标是链接互联网上的优质内容,获得更多的灵感和知识,从而激发彼此的创造力。

我的新书《LangChain编程从入门到实践》 已经开售!推荐正在学习AI应用开发的朋友购买阅读!
LangChain编程从入门到实践

AI 探索

  1. Create an Azure OpenAI, LangChain, ChromaDB, and Chainlit Chat App in Container Apps using Terraform:本文介绍了如何使用Python以及OpenAI ChatGPT模型、嵌入模型、LangChain框架、ChromaDB向量数据库和Chainlit开源Python包快速构建聊天应用程序。这些应用程序托管在Azure容器应用程序(ACA)上,可以在无服务器平台上运行微服务和容器化应用程序。文章详细说明了如何创建两种聊天应用程序:简单聊天应用和文档问答聊天应用,并介绍了这些应用程序如何使用用户定义的托管标识来验证和授权Azure OpenAI服务和Azure容器注册表,并使用Azure私有端点安全地连接这些服务。此外,文章提供了两套Terraform模块来部署基础设施和应用程序,并详细列出了部署基础设施的具体资源。最后强调,通过遵循提供的例子,可以迅速创建利用尖端技术的复杂聊天应用程序。相关代码和Visio图表可以在配套的GitHub仓库中找到。Zilliz Cloud提供全托管Milvus服务,简化了部署和扩展向量搜索应用程序的过程,无需创建和维护复杂的数据基础设施。Weaviate是一个开源向量数据库,可以从ML模型存储数据对象和向量嵌入,并且支持结合关键词和向量搜索技术。此外,ChromaDB向量数据库及Azure Cache for Redis Enterprise可以用来存储向量嵌入,进行高性能、低延迟的向量相似性计算。LangChain是一个软件框架,旨在简化使用大型语言模型的应用程序开发,支持多种服务和语言模型集成。Chainlit是一个专为AI应用设计的Python包,用于构建交互式聊天和界面,并提供Chain of Thought功能以提高透明度。部署基础设施时,需要在Terraform模块中指定变量,并确保选在支持Azure OpenAI服务模型如gpt-35-turbo-16k和text-embedding-ada-002的区域。此外,提供了Terraform模块用于部署Azure OpenAI服务,以及创建Azure私有端点和Azure私有DNS区域,确保每个资源的自定义子域名能够唯一识别并启用如Azure AD的认证功能。该文本描述了一个Terraform配置,其中包含两个容器化的聊天应用程序的定义。这些应用程序使用Azure OpenAI服务、Azure Container Registry、Azure Container Apps环境、Azure日志分析和用户定义的托管身份。配置文件中定义了端口号为8000,超时设置为30秒的HTTP传输。

  2. 使用Stable Diffusion和LoRA制作自画像:文章作者通过Fine-tuning Stable Diffusion搭配LoRA(低秩适应)技术,探索了创建定制化肖像和自拍的简便方法。这些技术具备高度的灵活性,LoRA训练时间短,文件体积小,能轻松整合多种概念和风格。作者演示了基于个人照片来Fine-tune稳定扩散模型的过程,包括选择训练集图片、准备图片数据压缩包、上传并训练、下载权重文件以及生成定制化肖像。最后作者分享了对未来艺术家和设计师运用此类工具以创作优秀作品的乐观预期,并介绍了尝试将图片生成模型整合到如Photoshop、Procreate等工具中的可能性。

  3. 别像其他人那样去构建AI产品:如果你想构建AI产品,建议采取类似Builder的方法:尽可能避免在项目中使用AI。当你遇到标准编码解决不了的特殊问题时,利用现成的工具生成自己的数据并训练自己的模型,只在需要的地方连接模型和代码,重点是尽可能少地产生作用。

开源推荐

  1. EmotiVoice:一个强大的开源TTS引擎,支持中英文双语,包含2000多种不同的音色,以及特色的情感合成功能,支持合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音。EmotiVoice同时提供一个易于使用的web界面,还有用于批量生成结果的脚本接口。

  2. 最全中华古诗词数据库:唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人,21050首词,利用这些内容fine-tune一个大模型,妥妥大文豪。

  3. Context:一个Python命令行工具,包含了1218个Python库的400万个高质量嵌入表示。开发者可以通过简单的命令安装这个工具,然后就能在命令行界面中搜索和学习这些库的用法,就像跟聊天机器人对话一样。这个项目旨在利用LLMs为开发者提供服务,使他们能够更好地理解和使用Python库,更快地找到他们需要的信息,提高编程效率。

工程师工具

  1. ResourcesSaverExt:一个一键下载所有资源文件并保持原始文件结构的Chrome插件,可以下载前端源码,可以自己魔改,特别是tailwind写的网站,很好用,并且开源。

  2. OpenDigger:OpenDigger是X-lab发起的针对所有开源数据的开源分析报告项目,该项目旨在结合全球开发者的智慧,共同分析和洞察与开源相关的数据,以帮助每个人更好地理解和参与到开源中,可以追踪项目与项目,开发者与项目,以及开发者与开发者之间的关系,可以用作衡量开源项目的北极星指标。

值得一看

  1. How to be a Programmer 中文版:如何成为一名优秀的程序员,开发者不止编程,还有很多编程之外的软技能需要持续修炼。

  2. 大模型时代,开发者成长指南:GPT 系列的面世影响了全世界、各个行业,对于开发者们的感受则最为深切。以 ChatGPT、Github Copilot 为首,各类 AI 编程助手层出不穷。编程范式正在发生前所未有的变化,从汇编到 Java 等高级语言,再到今天以自然语言为特征的 Prompt 工程,编程的门槛进一步降低,让很多开发者也不由得思考,编程的未来究竟会如何演化,在这大模型时代,开发者又该何去何从?

The Connector 周刊#20:大模型时代,开发者应该如何成长?

https://liduos.com/the-connector-weekly-20.html

作者

莫尔索

发布于

2023-11-12

更新于

2024-05-24

许可协议

评论