【引】有人迷恋使用大模型生成各种有趣的内容, 有人沉醉于大模型相关技术的探索,没有对错,只在于你的乐趣所在。
一项名为 llms.txt 的新提案标志了一些非同寻常的东西的出现: 一个Web网站不仅为人类读者服务,而且为人工智能提供服务。这不仅仅是一种新的技术标准,而是我们对数字基础设施的看法发生根本性转变的开始。
robots.txt 和 sitemap.xml 是为搜索引擎设计的,而 LLMs.txt 是面向推理引擎优化,它以 LLM 可以轻松理解的格式向 LLM 提供有关网站的信息。那么,LLMs.txt 能否从W3C的提案变成行业趋势的呢?
今年11月14日,Mintlify 公司将 LLMs.txt 支持添加到了他们的文档平台上,使数以千计的开发工具的文档对 LLM 友好,如 Anthroic 和 Cursor。Anthroic 和其他公司很快在 X 上发布了他们对 LLMs.txt 的支持。这一势头激发了新的社区网站和工具。@ ifox 创建 directory.llmstxt.cloud 来索引 LLM 友好的技术文档。@ screen fluent 很快又添加了 llmstxt.directory。Mot 为 dotenvx 站点构建可 docs 并共享了一个开源生成器工具。Firecrawl 的 Eric Ciarla 也创建了一个工具,可以帮助网站创建文件LLMs.txt。
1. LLMs.txt的诞生
Answer.AI的联合创始人 Jeremy Howard 率先提出了 LLMs.txt,来解决网站与大模型应用关系的技术挑战。人工智能系统只能处理有限的上下文窗口,因此很难理解大型文档站点。传统的 SEO 技术是针对搜索爬虫而非推理引擎进行优化的,因此无法解决这一局限性。
当人工智能系统试图直接处理 HTML 页面时,它们会陷入导航元素、 JavaScript、 CSS 和其他非必要信息的泥潭,这些非必要信息会减少实际内容的可用空间。LLMs.txt 解决了这个问题,它以一种人工智能能够理解的格式提供人工智能所需要的确切信息。
Jeremy Howard 提出的 llms.txt 标准是一个复杂问题的优雅解决方案: 我们如何帮助人工智能代理有效地处理网页内容,同时保持人类的可读性?该标准提出了一种简单但强大的方法ーー在网络服务器的根目录上建立一个降价文件,提供人工智能友好的关键内容版本。
2. 什么是 LLMs.txt
LLMs.txt是一个具有特定结构的markdown文件, 由两类文件构成:
/llms.txt: 简化的文档导航视图,帮助 AI 系统快速理解站点的结构
/llms-full. txt: 在一个包含所有文档的综合文件
llms.txt该文件必须以 H1项目名称开始,后面跟着一个描述摘要块。真正的创新在于如何处理内容组织。在初始摘要之后,文件可以包含由 H2标头描述的多个部分。每个部分都包含一个标记超链接列表,可以选择后跟描述性说明。这种结构同时考虑了分层组织和平面的可访问性ーー人工智能代理可以处理整个文档或快速定位感兴趣的特定部分。
也许最巧妙的是,llms.txt还包括一个可选的“可选”部分。这个特性允许内容提供者指出哪些信息是补充信息,帮助 AI 代理在其上下文限制范围内对内容处理做出智能决策。
一个简单示例如 llmtxt.org 自己的 LLM.txt所示:
# Project Name
> Brief project summaryAdditional context and important notes## Core Documentation
- [Quick Start](url): Description of the resource
- [API Reference](url): API documentation details## Optional
- [Additional Resources](url): Supplementary information
llms.txt 文件提供了网站的导航和结构,而/llms-full.txt 则在 markdown 中包含了完整的文档内容。下面的代码示例来自 Cursor 的/llms-full.txt 文件。
# AI Review (Beta)AI Review is a feature that allows you to review your recent changes in your codebase to catch any potential bugs.<Frame><img src="https://mintlify.s3-us-west-1.amazonaws.com/cursor/images/advanced/review.png" alt="AI Review" />
</Frame>You can click into individual review items to see the full context in the editor, and chat with the AI to get more information.### Custom Review InstructionsIn order for AI Review to work in your favor, you can provide custom instructions for the AI to focus on. For example,
if you want the AI to focus on performance-related issues, you could put:####
focus on the performance of my code
####This way, AI Review will focus on the performance of your code when scanning through your changes.### Review OptionsCurrently, you have a several options to choose from to review:* `Review Working State`* This will review your uncommitted changes.
* `Review Diff with Main Branch`* This will review the diff between your current working state and the main branch.
* `Review Last Commit`* This will review the last commit you made.
另外,llms.txt 还建议将.md附加 到 URL, 进而创建了一个平行的内容结构,既为AI消费网站的数据内容进行了优化,又保持了所有网站中丰富的格式,同时继承了传统网页的人机互动。
2.1 LLMs.txt 的特点
llms.txt 代表的不仅仅是一种新的文件格式ーー它让我们得以一窥网络架构是如何演变的,以适应作为一等公民的人工智能代理。传统的 Web 体系结构将人类消费作为主要用例,事后再考虑机器可读性。新兴的体系结构将人类和人工智能的消费同等重要,从而导致了我们如何构建和服务内容的新模式。
LLMs.txt 的主要特点如下:
结构化权限: 像一个AI访问行为的蓝图,LLMs.txt 清楚地说明了站点的哪些部分对人工智能索引开放,哪些部分应该保持禁止。
透明度: 通过提供清晰的指令,可以建立人工智能系统和人类访问者的信任和清晰度。
面向未来: 随着人工智能驱动的搜索成为常态,实现 LLMs.txt 文件可以使网站的内容与最新技术保持一致。
2.2 LLMs.txt 与搜索引擎的关系
与 sitemap.xml 和 robots.txt 等现有 Web 标准相比,LLMs.txt 的用途完全不同。
sitemap.xml 列出了所有可索引的页面,但对内容处理没有帮助。人工智能系统仍然需要解析复杂的 HTML 并处理额外的信息,把上下文窗口弄得乱七八糟。
robots.txt 面向搜索引擎的爬虫访问,但也不能帮助理解内容。
我们可以把llms.txt 想象成 robots.txt 的下一个进化,它不是指导传统的搜索引擎,而是指导人工智能驱动的爬虫。这个简单的文件确保我们可以控制先进的 AI 工具如何与网站的数据交互,促进更好的内容理解并改进的搜索结果。llms.txt 在尝试解决人工智能相关的挑战,有助于克服上下文窗口的限制,删除非必要的标记和脚本,并面向 AI 处理来优化网站结构的显示内容。
LLMs.txt 确保了大模型能够掌握站点的结构和访问规则,这将导致更准确、上下文丰富的结果。通过构建数据以获得最佳人工智能解释,可以提高在下一波人工智能驱动的搜索界面中出现显著位置的可能性。网站的数据是有价值的,llms.txt 可以帮助保护内容,确保它只按照网站所有的意愿使用AI。
但是,与搜索引擎主动抓取web的内容不同,当前的 LLM 尚不会直接自动发现和索引 LLMs.txt 文件,还需要手动向 AI 系统提供文件内容。这可以通过粘贴链接,复制文件内容直接作为提示语,或使用 AI 工具的文件上传功能。
3. 如何生成 LLMs.txt 文件
由于使用了 LLMs.txt 生成器,开始工作非常简单。几分钟之内,您就可以创建一个定制的 LLMs.txt 文件,以满足您网站的需要。目前,有几种不同的工具可以用来创建LLMs.txt:
Mintlify: 为托管文档自动生成/llms.txt 和/llms-full.txt
Dotenv 的 llmstxt: 使用站点的 sitemap.xml 生成 llms.txt 的工具。
Firecrawl 的 llmstxt: Firecrawl 来生成 llms.txt 文件。
LLMs.txt 代表了向文档的AI-first 转变。和SEO 类似,具有AI可读的内容将成为至关重要的开发工具和文档。随着越来越多的网站采用这个文件,我们可能会看到新的工具和最佳实践出现,使内容可访问的网站成为人工智能助手。
目前,LLMs.txt 提供了一个实用的解决方案来帮助 AI 系统更好地理解和利用 Web 内容,特别是技术文档和 API。
4. 一句话小结
LLMs.txt 是一种标准化的文件格式,旨在帮助大模型(LLM)如何访问和使用网站的内容。在一个由越来越复杂的 AI 驱动服务的世界里,LLMs.txt 生成器可以成为一个重要的工具,帮助网站保持优化、相关性和易于发现。
【参考资料与关联阅读】
https://llmstxt.org/
https://mintlify.com/blog/simplifying-docs-with-llms-txt
https://www.firecrawl.dev/blog/How-to-Create-an-llms-txt-File-for-Any-Website
https://www.answer.ai/posts/2024-09-03-llmstxt.html
https://www.ikangai.com/the-llms-txt-standard-and-the-rise-of-human-ai-infrastructure/
大模型应用的10种架构模式
7B?13B?175B?解读大模型的参数
解读文本嵌入:语义表达的练习
解读知识图谱的自动构建
“提示工程”的技术分类
大模型系列:提示词管理
提示工程中的10个设计模式
大模型微调:RHLF与DPO浅析
Chunking:基于大模型RAG系统中的文档分块
大模型应用框架:LangChain与LlamaIndex的对比选择
在大模型RAG系统中应用知识图谱
面向知识图谱的大模型应用
让知识图谱成为大模型的伴侣
如何构建基于大模型的App
Qcon2023: 大模型时代的技术人成长(简)
论文学习笔记:增强学习应用于OS调度
LLM的工程实践思考
大模型应用设计的10个思考
基于大模型(LLM)的Agent 应用开发
解读大模型的微调
解读向量索引
解读ChatGPT中的RLHF
解读大模型(LLM)的token
解读提示词工程(Prompt Engineering)
解读Toolformer
解读TaskMatrix.AI
解读LoRA
解读RAG
大模型应用框架之Semantic Kernel
浅析多模态机器学习
深度学习架构的对比分析
老码农眼中的大模型(LLM)