The Connector 周刊#16:谷歌搜索引擎首页排名与哪些因素相关?

The Connector 每周会选取我从信息流里获取的有价值内容,包括 AI 探索专题、Github 开源库推荐、工具介绍和一些文章书籍等,目标是链接互联网上的优质内容,获得更多的灵感和知识,从而激发彼此的创造力。

我的新书《LangChain编程从入门到实践》 已经开售!推荐正在学习AI应用开发的朋友购买阅读!
LangChain编程从入门到实践

AI 探索

  1. 从企业搜索到 RAG:新一代人工智能模型(LLM)如ChatGPT正在带来变革,被认为可以取代传统搜索引擎。LLM分为通用LLM、行业LLM和企业LLM,但将LLM直接用于企业内部仍需依赖RAG(检索增强的内容生成)解决问题。传统搜索引擎和LLM类似,但LLM返回的是生成的答案,可以提高搜索体验,但由于代价高昂,返回的答案通常是过去的内容。在企业内部搜索中,需要解决数据访问、权限管理等问题,可以通过外挂向量数据库实现。用户的提问转化为向量后,从数据库中返回最接近的文本,由LLM生成最终答案。垂直搜索引擎和企业搜索引擎之间的差异在于数据输入源和企业特定需求。由于企业内部数据缺乏超链接和权限控制等特点,企业搜索引擎需要考虑这些因素。通用语言模型(LLM)常以通用模型为基础进行行业训练或微调,而行业LLM相对于企业更易于实施。向量数据库和中间件,如LangChain和Llama Index,可以用于构建RAG引擎,但向量数据库的功能有限,无法提供精确召回和语义查询。对于企业需求,需要更复杂的搜索引擎结合向量数据库能力,而非简单拼接。目前,中间件用于将文本分块并转化为向量存储,在处理复杂企业文档时仍存在挑战。企业的RAG解决方案需要对各种格式数据进行文档语义匹配,并对数据进行处理和向量化,然后交给向量数据库或其他召回引擎。文本分块策略需要考虑处理内容的性质、组织形式、向量化需求以及用户查询的长度和复杂性。同时,需要建立全文索引并确定与向量召回的排序方式。微软和惠普收购了企业搜索引擎公司FAST和Autonomy,而开源Elasticsearch市值达到80亿美元。现在,随着新一代人工智能LLM的发展,企业搜索进一步发展为RAG方案,引领新的浪潮。
  2. LLVM之父Chris Lattner:我的AI基础设施软件构建理念:Modular是一个旨在解决人工智能开发中庞大、单一、分散的平台问题的AI引擎。它由LLVM的创始人Chris Lattner和TensorFlow的前产品同事Tim Davis创立。Modular的目标是构建一个统一的AI引擎,以加速AI的开发和推理,并探索利用多种计算资源来满足不同应用和需求下的AI计算需求。Modular包含了一个新型的AI编程语言Mojo,它是Python的超集,支持所有现有的PyPi包,并可以显著提高代码的运行速度。编译器和编程语言的目标是让事物更容易表达,并通过抽象化减少非核心复杂性,从而使人们能够解决问题的本质复杂性,高级抽象还带来了其他能力,例如对计算进行转换。作者还谈到了AI引擎和CPU之间的关系,以及在构建AI系统时需要关注的工作步骤,强调了CPU的重要性,指出现代AI系统是一个大规模异构的并行计算问题,并且CPU是驱动GPU所必需的。同时还提到了现有工具的不足之处,包括缺乏可编程性和扩展性,以及在许多情况下速度较慢和难以进行分布式处理的问题。最后,作者也提到了CPU的发展趋势,即CPU变得更加并行化和可编程,并表示希望看到这项技术得到更广泛的应用和普及。

开源推荐

  1. olive:一款直播录制引擎,会时刻监控着主播的直播状态,并在主播上线时自动开启录制。
  2. omnivore:一个开源的稍后读软件,具有许多功能,包括高亮、注释、搜索和共享文章,以及全键盘导航、自动保存阅读进度、通过电子邮件添加文章、PDF支持等。还提供了网页应用、iOS和Android应用、浏览器扩展等多种方式使用。此外,还支持标签、离线阅读、iOS上的文字转语音等功能。
  3. Memex:一个开源的浏览器扩展,可以保存或标记的所有网页,并可以在网页上直接做笔记,支持全文搜索书签、高亮注释网页内容、并且还可以直接在线提问。所有个人数据都存储和处理在自己的本地电脑上,隐私安全,除非自己选择共享、同步或备份到外部云端,初次之外还有AI功能。

工程师工具

  1. 每天一本编程书,每天进步一点点:一个电子书存档网站,网站包括一些最新出版的技术类书籍,全部为英文原版,PDF、EPUB、MOBI、AZW3等多种格式免费下载,持续更新中。
  2. I Miss My Bar:一个令人难以忘怀的在线服务,让你仿佛置身于酒吧的氛围中。这个网站借助Spotify,为你提供了一系列适合酒吧播放的音乐,作为酒吧氛围的主要背景音乐。同时,它还通过环境声音的模拟,让你身临其境地感受酒吧的真实场景,包括调酒师工作的声音、人们的交谈声、雨滴声、夜晚的气氛、饮料供应的声音以及街道的气氛等。你可以根据自己的喜好,调整每种环境声音的大小,以打造出最逼真的酒吧氛围。无论是进行聚会还是独自小酌,只要连接上你的音箱,让I Miss My Bar为你播放,都能为你营造出令人陶醉的酒吧体验。
  3. Built At Lightspeed:一个集UI组件,Web站点模板,登陆页模板的收藏汇集网站,内容足够丰富,部分是免费和开源的,需要的可以嗖嗖看,基本可以满足小项目的快速上线。
  4. Open Peeps :一套免费可商用的人物插画集,包括半身和全身两种类型,人物的动作、表情、五官均可自定义,提供了 Sketch、Figma、Adobe XD、Invision Studio 源文件。

值得一看

  1. 生日周回顾:我们宣布的所有内容,以及为初创企业提供的 AI 驱动机会:Cloudflare 为AI 应用开发者提供的基础设施产品介绍博客汇总,包括Workers AI:用于 AI 的无服务器 GPU 云;Vectorize:矢量数据库;AI Gateway:管理 AI 应用的成本和可观察性等等。
  2. 如何制作登陆页:保姆级实操指南:这篇文章拆解了国内外 117 个优秀的登陆页案例,总结提炼出的保姆级入门指南,对于那些希望尽快上手登陆页的小伙伴会非常有帮助。
  3. 谷歌搜索引擎首页排名与哪些因素相关?:作者分析了 1180 万个 Google 搜索结果,试图说明哪些因素与首页搜索引擎排名相关?
    • 网站的整体链接权限与排名密切相关;
    • 具有大量反向链接的页面排名高于没有那么多反向链接的页面;
    • 具有高“内容等级”的综合内容明显优于未深入涵盖主题的内容;
    • 页面加载速度与排名无关;
    • 从多个不同的网站获取反向链接对SEO很重要;
    • 谷歌的标题标签与排名的关键字匹配;
    • 但在标题标签中使用关键字与高排名无关;
    • 页面权限与排名的相关性较弱;
    • 前10个结果中字数分布均匀,平均包含1,447个单词;
    • HTML页面大小与排名无关;
    • 网址长度与排名之间有轻微的相关性;
    • 架构标记的使用与排名无关;
    • 网站停留时间高于平均水平的网站排名更高,增加3秒与排名相关性更高。
  4. 12种提高SEO排名的最佳实践:ahrefs出品的2023年最新的SEO最佳实践建议。
    • 将内容与搜索意图相匹配
    • 创建值得点击的标题标签和元描述
    • 改善网站的用户体验
    • 定位具有搜索流量潜力的主题
    • 在标题标签、标题、网址中使用目标关键字
    • 使用简短的描述性网址
    • 优化 SEO 图像以获得额外流量
    • 添加来自其他相关页面的内部链接
    • 涵盖搜索者想知道的一切
    • 获得更多反向链接以建立权威
    • 提高核心网页的性能指标
    • 使用 HTTPS

The Connector 周刊#16:谷歌搜索引擎首页排名与哪些因素相关?

https://liduos.com/the-connector-weekly-16.html

作者

莫尔索

发布于

2023-10-15

更新于

2024-11-18

许可协议

评论