WEB语义化的新探索:浅析LLMs.txt

【引】有人迷恋使用大模型生成各种有趣的内容, 有人沉醉于大模型相关技术的探索,没有对错,只在于你的乐趣所在。

一项名为 llms.txt 的新提案标志了一些非同寻常的东西的出现: 一个Web网站不仅为人类读者服务,而且为人工智能提供服务。这不仅仅是一种新的技术标准,而是我们对数字基础设施的看法发生根本性转变的开始。

robots.txt 和 sitemap.xml 是为搜索引擎设计的,而 LLMs.txt 是面向推理引擎优化,它以 LLM 可以轻松理解的格式向 LLM 提供有关网站的信息。那么,LLMs.txt 能否从W3C的提案变成行业趋势的呢?

今年11月14日,Mintlify 公司将 LLMs.txt 支持添加到了他们的文档平台上,使数以千计的开发工具的文档对 LLM 友好,如 Anthroic 和 Cursor。Anthroic 和其他公司很快在 X 上发布了他们对 LLMs.txt 的支持。这一势头激发了新的社区网站和工具。@ ifox 创建 directory.llmstxt.cloud 来索引 LLM 友好的技术文档。@ screen fluent 很快又添加了 llmstxt.directory。Mot 为 dotenvx 站点构建可 docs 并共享了一个开源生成器工具。Firecrawl 的 Eric Ciarla 也创建了一个工具,可以帮助网站创建文件LLMs.txt。

e37df749421bf43c695e60340353b100.jpeg

1. LLMs.txt的诞生

Answer.AI的联合创始人 Jeremy Howard 率先提出了 LLMs.txt,来解决网站与大模型应用关系的技术挑战。人工智能系统只能处理有限的上下文窗口,因此很难理解大型文档站点。传统的 SEO 技术是针对搜索爬虫而非推理引擎进行优化的,因此无法解决这一局限性。

当人工智能系统试图直接处理 HTML 页面时,它们会陷入导航元素、 JavaScript、 CSS 和其他非必要信息的泥潭,这些非必要信息会减少实际内容的可用空间。LLMs.txt 解决了这个问题,它以一种人工智能能够理解的格式提供人工智能所需要的确切信息。

Jeremy Howard 提出的 llms.txt 标准是一个复杂问题的优雅解决方案: 我们如何帮助人工智能代理有效地处理网页内容,同时保持人类的可读性?该标准提出了一种简单但强大的方法ーー在网络服务器的根目录上建立一个降价文件,提供人工智能友好的关键内容版本。

9e5666e44c275e6c12baa6b0d2f2e35a.jpeg

2. 什么是 LLMs.txt

LLMs.txt是一个具有特定结构的markdown文件, 由两类文件构成:

  • /llms.txt: 简化的文档导航视图,帮助 AI 系统快速理解站点的结构

  • /llms-full. txt: 在一个包含所有文档的综合文件

llms.txt该文件必须以 H1项目名称开始,后面跟着一个描述摘要块。真正的创新在于如何处理内容组织。在初始摘要之后,文件可以包含由 H2标头描述的多个部分。每个部分都包含一个标记超链接列表,可以选择后跟描述性说明。这种结构同时考虑了分层组织和平面的可访问性ーー人工智能代理可以处理整个文档或快速定位感兴趣的特定部分。

也许最巧妙的是,llms.txt还包括一个可选的“可选”部分。这个特性允许内容提供者指出哪些信息是补充信息,帮助 AI 代理在其上下文限制范围内对内容处理做出智能决策。


一个简单示例如 llmtxt.org 自己的 LLM.txt所示:

# Project Name
> Brief project summaryAdditional context and important notes## Core Documentation
- [Quick Start](url): Description of the resource
- [API Reference](url): API documentation details## Optional
- [Additional Resources](url): Supplementary information

llms.txt 文件提供了网站的导航和结构,而/llms-full.txt 则在 markdown 中包含了完整的文档内容。下面的代码示例来自 Cursor 的/llms-full.txt 文件。

# AI Review (Beta)AI Review is a feature that allows you to review your recent changes in your codebase to catch any potential bugs.<Frame><img src="https://mintlify.s3-us-west-1.amazonaws.com/cursor/images/advanced/review.png" alt="AI Review" />
</Frame>You can click into individual review items to see the full context in the editor, and chat with the AI to get more information.### Custom Review InstructionsIn order for AI Review to work in your favor, you can provide custom instructions for the AI to focus on. For example,
if you want the AI to focus on performance-related issues, you could put:####
focus on the performance of my code
####This way, AI Review will focus on the performance of your code when scanning through your changes.### Review OptionsCurrently, you have a several options to choose from to review:*   `Review Working State`*   This will review your uncommitted changes.
*   `Review Diff with Main Branch`*   This will review the diff between your current working state and the main branch.
*   `Review Last Commit`*   This will review the last commit you made.

另外,llms.txt 还建议将.md附加 到 URL, 进而创建了一个平行的内容结构,既为AI消费网站的数据内容进行了优化,又保持了所有网站中丰富的格式,同时继承了传统网页的人机互动。

2.1 LLMs.txt 的特点

llms.txt 代表的不仅仅是一种新的文件格式ーー它让我们得以一窥网络架构是如何演变的,以适应作为一等公民的人工智能代理。传统的 Web 体系结构将人类消费作为主要用例,事后再考虑机器可读性。新兴的体系结构将人类和人工智能的消费同等重要,从而导致了我们如何构建和服务内容的新模式。

LLMs.txt 的主要特点如下:

  • 结构化权限: 像一个AI访问行为的蓝图,LLMs.txt 清楚地说明了站点的哪些部分对人工智能索引开放,哪些部分应该保持禁止。

  • 透明度: 通过提供清晰的指令,可以建立人工智能系统和人类访问者的信任和清晰度。

  • 面向未来: 随着人工智能驱动的搜索成为常态,实现 LLMs.txt 文件可以使网站的内容与最新技术保持一致。

2.2 LLMs.txt 与搜索引擎的关系

与 sitemap.xml 和 robots.txt 等现有 Web 标准相比,LLMs.txt 的用途完全不同。

sitemap.xml 列出了所有可索引的页面,但对内容处理没有帮助。人工智能系统仍然需要解析复杂的 HTML 并处理额外的信息,把上下文窗口弄得乱七八糟。

robots.txt 面向搜索引擎的爬虫访问,但也不能帮助理解内容。

我们可以把llms.txt 想象成 robots.txt 的下一个进化,它不是指导传统的搜索引擎,而是指导人工智能驱动的爬虫。这个简单的文件确保我们可以控制先进的 AI 工具如何与网站的数据交互,促进更好的内容理解并改进的搜索结果。llms.txt 在尝试解决人工智能相关的挑战,有助于克服上下文窗口的限制,删除非必要的标记和脚本,并面向 AI 处理来优化网站结构的显示内容。

LLMs.txt 确保了大模型能够掌握站点的结构和访问规则,这将导致更准确、上下文丰富的结果。通过构建数据以获得最佳人工智能解释,可以提高在下一波人工智能驱动的搜索界面中出现显著位置的可能性。网站的数据是有价值的,llms.txt 可以帮助保护内容,确保它只按照网站所有的意愿使用AI。

但是,与搜索引擎主动抓取web的内容不同,当前的 LLM 尚不会直接自动发现和索引 LLMs.txt 文件,还需要手动向 AI 系统提供文件内容。这可以通过粘贴链接,复制文件内容直接作为提示语,或使用 AI 工具的文件上传功能。

3. 如何生成 LLMs.txt 文件

由于使用了 LLMs.txt 生成器,开始工作非常简单。几分钟之内,您就可以创建一个定制的 LLMs.txt 文件,以满足您网站的需要。目前,有几种不同的工具可以用来创建LLMs.txt:

  • Mintlify: 为托管文档自动生成/llms.txt 和/llms-full.txt

  • Dotenv 的 llmstxt: 使用站点的 sitemap.xml 生成 llms.txt 的工具。

  • Firecrawl 的 llmstxt: Firecrawl 来生成 llms.txt 文件。

LLMs.txt 代表了向文档的AI-first 转变。和SEO 类似,具有AI可读的内容将成为至关重要的开发工具和文档。随着越来越多的网站采用这个文件,我们可能会看到新的工具和最佳实践出现,使内容可访问的网站成为人工智能助手。

目前,LLMs.txt 提供了一个实用的解决方案来帮助 AI 系统更好地理解和利用 Web 内容,特别是技术文档和 API。

97849f0a5c7bd26f487ae4e28155f8b4.jpeg

4. 一句话小结

LLMs.txt 是一种标准化的文件格式,旨在帮助大模型(LLM)如何访问和使用网站的内容。在一个由越来越复杂的 AI 驱动服务的世界里,LLMs.txt 生成器可以成为一个重要的工具,帮助网站保持优化、相关性和易于发现。

【参考资料与关联阅读】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/64184.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

YOLOv10改进,YOLOv10利用DLKAttention融合DCNv3、DCNv4形成全新的可变形大核注意力,并二次创新C2f结构,全网首发

理论介绍 完成本篇需要参考以下三篇文章,并已添加到YOLOv10代码中 YOLOv10改进,YOLOv10添加DCNv3可变性卷积与C2f结构融合(无需编译)YOLOv10改进,YOLOv10添加DCNv4可变性卷积(windows系统成功编译),全网最详细教程YOLOv10改进,YOLOv10添加DLKA-Attention可变形大核注意力…

信奥赛CSP-J复赛集训(bfs专题)(5):洛谷P3395:路障

信奥赛CSP-J复赛集训(bfs专题-刷题题单及题解)(5):洛谷P3395:路障 题目描述 B 君站在一个 n n n\times n n

SSM 技术驱动的垃圾分类系统,引领绿色风尚

第1章 概述 1.1 研究背景 随着现代网络技术发展&#xff0c;对于垃圾分类系统现在正处于网络发展的阶段&#xff0c;所以对它的要求也是比较严格的&#xff0c;要从这个系统的功能和用户实际需求来进行对系统制定开发的发展方式&#xff0c;依靠网络技术的的快速发展和现代通讯…

【从零开始的LeetCode-算法】1338. 数组大小减半

给你一个整数数组 arr。你可以从中选出一个整数集合&#xff0c;并删除这些整数在数组中的每次出现。 返回 至少 能删除数组中的一半整数的整数集合的最小大小。 示例 1&#xff1a; 输入&#xff1a;arr [3,3,3,3,5,5,5,2,2,7] 输出&#xff1a;2 解释&#xff1a;选择 {3,7…

【机器学习】【无监督学习——聚类】从零开始掌握聚类分析:探索数据背后的隐藏模式与应用实例

从零开始掌握聚类分析&#xff1a;探索数据背后的隐藏模式与应用实例 基本概念聚类分类聚类算法的评价指标&#xff08;1&#xff09;内部指标轮廓系数&#xff08;Silhouette Coefficient&#xff09;DB指数&#xff08;Davies-Bouldin Index&#xff09;Dunn指数 &#xff08…

git的卸载与安装

目录 一、Git的卸载 二、Git的安装 2.1.1 官网下载 2.1.2 镜像下载 ​编辑 2.2 安装 2.3 检验否安装成功 三、Git使用配置 一、Git的卸载 1.找到程序&#xff0c;卸载程序 2.找到Git&#xff0c;右键卸载 卸载完成&#xff01; 二、Git的安装 2.1.1 官网下载 网址&…

java+springboot+mysql高校社团网

项目介绍&#xff1a; 使用javaspringbootmysql开发的高校社团网&#xff0c;系统包含管理员、学生角色&#xff0c;功能如下&#xff1a; 管理员&#xff1a;登录系统&#xff1b;首页&#xff1b;用户管理&#xff1b;社团分类管理&#xff1b;社团信息管理&#xff08;社团…

Linux24.04 安装企业微信

今天工作需要把windows系统换成了linux&#xff0c;但是公司的沟通工具是企业微信。去企业微信官网看了&#xff0c;没有linux版本&#xff0c;只能想办法解决了&#xff0c;不然再换回去就太坑了。 方案 1、使用docker容器&#xff0c;2、使用deepin-wine 本人对docker不太熟…

C语言刷题

1. 题目描述 根据给出的三角形3条边a:b.c(a.b,c<100.000)&#xff0c;计算三角形的周长和面积。 输入描述: 一行&#xff0c;三角形3条边(能构成三角形)&#xff0c;中间用一个空格隔开. 输出描述: 一行&#xff0c;三角形周长和面积保留两位小数&#xff0c;中问用一个空…

React第十九章(useContext)

useContext useContext 提供了一个无需为每层组件手动添加 props&#xff0c;就能在组件树间进行数据传递的方法。设计的目的就是解决组件树间数据传递的问题。 用法 const MyThemeContext React.createContext({theme: light}); // 创建一个上下文function MyComponent() {…

【密码学】AES算法

一、AES算法介绍&#xff1a; AES&#xff08;Advanced Encryption Standard&#xff09;算法是一种广泛使用的对称密钥加密&#xff0c;由美国国家标准与技术研究院&#xff08;NIST&#xff09;于2001年发布。 AES是一种分组密码&#xff0c;支持128位、192位和256位三种不同…

AIGC---------AIGC在数字孪生中的应用

跨越虚拟与现实&#xff1a;AIGC在数字孪生中的应用 引言 近年来&#xff0c;人工智能生成内容&#xff08;AIGC&#xff0c;Artificial Intelligence Generated Content&#xff09;与数字孪生&#xff08;Digital Twin&#xff09;的结合&#xff0c;成为科技界的热点。AIGC…

金仓数据库全攻略:简化部署,优化管理的全流程指南

金仓数据库 人大金仓&#xff08;KING BASE&#xff09;是一家拥有20多年数据库领域经验的公司&#xff0c;专注于数据库产品的研发和服务。公司曾参与多项国家级重大课题研究&#xff0c;如"863"计划、电子发展基金、信息安全专项等。其核心产品是金仓数据库管理系…

讯飞智文丨一键生成WordPPT

在当今数字化办公的浪潮中,Word和PPT已经成为职场人士日常工作的标配工具。然而,面对繁琐的内容编辑和格式调整任务,如何提升效率成了每个人的追求。而讯飞智文,一款结合人工智能技术的文字处理与演示文稿工具,正逐渐成为用户的得力助手。本文将详细介绍讯飞智文的功能特点…

2024数据库国测揭晓:安全与可靠的新标准,你了解多少?

2024年数据库国测的结果&#xff0c;于9月份的最后一天发布了。 对于数据库行业的从业者来说&#xff0c;国测是我们绕不过去的坎儿。那么什么是国测&#xff1f;为什么要通过国测&#xff0c;以及国测的要求有哪些&#xff1f; 这篇文章带大家一探究竟。 国测 自愿平等、客…

VMware ubuntu12.04怎么设置静态IP联网

记得刚开始学习嵌入式就是从ubuntu12.04的环境开始学习的C语言&#xff0c;当时没有弄清楚怎么设置静态IP联网&#xff0c;现在写一篇文章。 1.首先&#xff0c;关闭ubuntu的网络&#xff1b; 2.电脑使用的是wifi,将VMware桥接到该网卡上&#xff1b; 3.在虚拟机设置里面选择桥…

python 基于 docx 文件模板生成 docx 或 PDF 文件

需求背景 提供一个Word文档模板&#xff0c;使用python程序替换里边的占位符&#xff0c;替换内容包括文本和图片&#xff0c;然后输出docx或者PDF文件。 功能演示 输入示例 输出示例 实现程序 import os import shutil import subprocess import timefrom docx import Doc…

【Python篇】PyQt5 超详细教程——由入门到精通(序篇)

文章目录 PyQt5 超详细入门级教程前言序篇&#xff1a;1-3部分&#xff1a;PyQt5基础与常用控件第1部分&#xff1a;初识 PyQt5 和安装1.1 什么是 PyQt5&#xff1f;1.2 在 PyCharm 中安装 PyQt51.3 在 PyCharm 中编写第一个 PyQt5 应用程序1.4 代码详细解释1.5 在 PyCharm 中运…

【Axure教程】动态统计字数

动态统计字数通常用于文本编辑、编程、社交媒体、写作工具、SEO优化、表单与调查以及数据分析等场景&#xff0c;帮助用户实时跟踪文字量&#xff0c;保证内容符合特定的格式或要求&#xff0c;提高工作效率和质量。 今天我们就来学习&#xff0c;怎么在Axure中制作能根据输入…

【YashanDB知识库】oracle与yashanDB的jdbc返回常量列“0.00“的精度和刻度不一致

本文内容来自YashanDB官网&#xff0c;原文内容请见 https://www.yashandb.com/newsinfo/7610110.html?templateId1718516 问题现象 客户预期常量列"0.00"应该映射到java里的浮点类型&#xff0c;结果却是跑到整型。 1、应用的sql 2、应用的java代码 3、执行结果…