Cloudflare推出了“Markdown for Agents”这一功能,该功能允许人工智能爬虫通过Accept: text/markdown头部请求网页的Markdown格式版本。该公司还将这一功能与“内容信号”机制相结合,使发布者能够明确说明自己的内容是否可用于人工智能训练、搜索索引或推理分析。虽然这一举措旨在让大型语言模型更容易处理网页内容,但它也引发了关于究竟应该是重新设计互联网以适应人工智能的需求,还是应该让人工智能企业调整自身以符合现有的互联网标准的争论。

Cloudflare认为,HTML页面中包含的导航结构、样式设置和脚本对大型语言模型来说几乎没有实际意义。一个简单的Markdown标题大约只需要3个标记,而相应的HTML代码则需要12到15个标记。该公司表示,一篇在HTML格式下需要16,180个标记的博客文章,转换成Markdown格式后只需约3,150个标记。

人工智能代理会通过在Accept头部请求“text/markdown”来触发这种转换过程;Cloudflare的边缘服务器会获取原始HTML内容,将其转换为Markdown格式,并返回结果,同时还会附带一个x-markdown-token count头部字段,显示转换后所需的标记数量。这样做的目的是为了提高基于检索数据的生成流程的效率。

BLOG-3162 2

“内容信号”机制增加了一层同意机制。发布者可以在robots.txt文件的注释中添加三种信号:search、ai-inputai-training,以此说明自己的内容是否可以被用于搜索索引、作为实时人工智能输入数据,或被纳入模型训练过程中。“yes”表示允许使用,“no”则表示禁止使用,而未设置这些选项则表示发布者没有明确偏好。Cloudflare指出,这些信号仅仅是一种偏好设定,并不具有强制力,而且目前它提供的Markdown响应默认会包含Content-Signal: ai-training=yes, search=yes, ai-input=yes这一字段。该公司还表示,许多客户已经使用了经过管理的robots.txt文件,这些文件允许内容被用于搜索,但不允许用于模型训练,这说明用户确实希望能够对内容的用途进行更精细的控制。

这一举措引发了搜索引擎支持者的反对。谷歌的约翰·穆勒质疑,大型语言模型爬虫是否会将Markdown格式视为除了纯文本之外的其他形式,以及它们是否能够正确地跟随链接和导航结构。在Bluesky平台上,他称将网页转换为Markdown格式供机器人使用是“一个愚蠢的想法”,因为这种转换会破坏页面的上下文结构和层次关系,而实际上大型语言模型已经能够解析HTML甚至图像内容了。

对于如何处理人工智能爬取行为,各出版商的态度并不一致。Medium在2023年采取了禁止利用其内容进行人工智能训练的默认政策,同时更新了服务条款及robots.txt文件,以阻止人工智能爬虫访问其网站。该平台还与路透社、《纽约时报》和CNN等媒体一道,全面禁止OpenAI的爬取程序访问其网站。Medium的首席执行官指出,这些人工智能公司是在未经作者同意且未支付任何费用的情况下使用他们的内容的。Cloudflare也尝试了一种按次收费的模式:当人工智能爬虫试图访问其网站时,会收到HTTP 402“需要付费”的响应。出版商可以根据自己的需求,允许某些特定的爬虫访问其网站、向它们收取费用,或者完全阻止它们访问,从而为自己获取收益。随着越来越多的出版商开始阻止人工智能爬虫的访问,或者探索付费访问模式,围绕用户同意、补偿措施以及技术适配方案等方面的争论很可能会加剧。至于“Markdown-for-Agents”这一格式是否会成为被广泛采用的标准,还是会仅仅作为一种可选的优化选项,这将取决于人工智能平台会对这些趋势作出怎样的反应,也取决于出版商是否认为提供适合机器处理的文件格式具有实际价值。

Comments are closed.