Cloudflare 推出一款免费对抗 AI 机器人的可防止抓取数据工具

上市云服务提供商Cloudflare推出了一种新的免费工具,可防止机器人抓取其平台上托管的网站以获取数据以训练AI模型。

一些人工智能供应商,包括谷歌、OpenAI 和苹果,允许网站所有者通过修改他们网站的robots.txt来阻止他们用于数据抓取和模型训练的机器人,该文本文件告诉机器人他们可以在网站上访问哪些页面。但是,正如Cloudflare在宣布其机器人对抗工具的帖子中指出的那样,并非所有AI抓取工具都尊重这一点。

喜好儿网

“客户不希望人工智能机器人访问他们的网站,尤其是那些不诚实地这样做的人,”该公司在其官方博客上写道。“我们担心,一些意图规避规则访问内容的人工智能公司将持续适应以逃避机器人检测。”

因此,为了解决这个问题,Cloudflare 分析了 AI 机器人和爬虫流量,以微调自动机器人检测模型。除其他因素外,这些模型还考虑了人工智能机器人是否可能试图通过模仿使用网络浏览器的人的外表和行为来逃避检测。

“当不良行为者试图大规模抓取网站时,他们通常会使用我们能够指纹识别的工具和框架,”Cloudflare写道。“根据这些信号,我们的模型能够适当地将来自规避AI机器人的流量标记为机器人。

Cloudflare 为主机设置了一个表格,用于报告可疑的 AI 机器人和爬虫,并表示随着时间的推移,它将继续手动将 AI 机器人列入黑名单。

随着生成式人工智能的热潮推动了对模型训练数据的需求,人工智能机器人的问题已经得到了极大的缓解。

许多网站对 AI 供应商在其内容上训练模型而不发出警报或补偿持谨慎态度,因此选择阻止 AI 抓取器和爬虫。根据一项研究,网络上排名前1,000的网站中约有26%阻止了 OpenAI 的机器人;另一项研究发现,超过600家新闻出版商已经阻止了该机器人。

然而,阻止并不是万无一失的保护措施。如前所述,一些供应商似乎忽略了标准的机器人排除规则,以在人工智能竞赛中获得竞争优势。AI 搜索引擎 Perplexity 最近被指控冒充合法访问者从网站上抓取内容,据说 OpenAI 和 Anthropic 有时会无视robots.txt规则。

在上个月给出版商的一封信中,内容许可初创公司TollBit表示,事实上,它看到“许多人工智能代理”忽视了robots.txt标准。

像Cloudflare这样的工具可以提供帮助,但前提是它们被证明可以准确检测秘密的AI机器人。而且,它们无法解决更棘手的问题,即出版商冒着牺牲来自谷歌的人工智能概览等人工智能工具的推荐流量的风险,如果它们阻止特定的人工智能爬虫,这些工具就会将网站排除在外。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/40827.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Hutool构建树结构

引入依赖 <dependency><groupId>cn.hutool</groupId><artifactId>hutool-all</artifactId><version>${hutool.version}</version> </dependency>测试 SpringBootTest public class HutoolTest {private List<Menu> me…

Word “当前页“ 与 “前一页“ (含部分内容)间有大半页空白,删除空白方法

鼠标光标选中需要向上移的句子&#xff0c;右键点击“段落”&#xff0c;然后在跳出的窗口中按照“换行和分页”中的红色方框内取消勾选后&#xff0c;点击确定即可。

预定义函数和自定义函数

预定义函数 理解&#xff1a;MySQL提供的函数&#xff0c;直接调用即可 注意1&#xff1a;函数使用select调用 注意2&#xff1a;函数必须有返回值 数学类函数 SELECT ABS(-100);# 获取绝对值 SELECT SQRT(9);# 获取平方根 SELECT MOD(10,3);# 获取余数 SELECT POW(3,3);#…

@化工人|人员定位系统如何选择?从了解定位技术开始

提及化工安全管理所面临的主要难题&#xff0c;大家往往会想到”人难管、事难办、责难负“这三难&#xff0c;而每一难都离不开”人“这个主体。因此&#xff0c;在企业日渐实现数字化转型的今天&#xff0c;越来越多的化工企业选择建设以人员定位系统为核心的企业安全生产信息…

实时数仓Hologres OLAP场景核心能力介绍

作者&#xff1a;赵红梅 Hologres PD OLAP典型应用场景与痛点 首先介绍典型的OLAP场景以及在这些场景上的核心痛点&#xff0c;OLAP典型应用场景很多&#xff0c;总结有四类&#xff1a;第一类是BI报表分析类&#xff0c;例如BI报表&#xff0c;实时大屏&#xff0c;数据中台等…

基于Python+Pytest+Playwright的UI自动化测试框架

文章目录 一、框架介绍二、实现功能三、框架目录结构四、依赖库五、安装教程六、如何创建用例1. 修改配置文件 `config.settings.py`2.删除框架中的示例用例数据3. 编写测试用例七、运行自动化测试方式一:使用pipenv管理虚拟环境1. 激活已存在的虚拟环境2. 运行方式二:依赖包…

Linux--V4L2应用程序开发(二)获取数据

一、采集数据流程 申请buffer用来放置摄像头数据 ioctl VIDIOC_REQBUFS&#xff1a;申请buffer&#xff0c;APP可以申请很多个buffer&#xff0c;但是驱动程序不一定能申请到 ioctl VIDIOC_QUERYBUF和mmap&#xff1a;查询buffer信息、映射 如果申请到了N个buffer&#xff0c…

Web前端开发——HTML快速入门

HTML&#xff1a;控制网页的结构CSS&#xff1a;控制网页的表现 一、什么是HTML、CSS &#xff08;1&#xff09;HTML &#xff08;HyperText Markup Languaqe&#xff1a;超文本标记语言&#xff09; 超文本&#xff1a;超越了文本的限制&#xff0c;比普通文本更强大。除了…

Aigtek高压功率放大器主要应用场景是什么

高压功率放大器是一种关键的电子设备&#xff0c;其主要功能是将低电压信号放大到较高电压水平&#xff0c;以满足特定应用的需求。这种类型的放大器在各种领域都发挥着至关重要的作用。安泰电子官网将为大家介绍高压功率放大器的主要应用场景&#xff0c;并介绍其在这些领域中…

关于Web开发的详细介绍

目录 一、什么是Web&#xff1f; 二、Web网站的工作流程和开发模式 &#xff08;1&#xff09;简单介绍 &#xff08;2&#xff09;工作流程 1、第一步 2、第二步 &#xff08;3&#xff09;Web网站的开发模式 1、前后端分离开发模式 ​编辑2、混合开发模式 三、开发W…

数据库设计 物理模型和逻辑模型

在数据库设计中&#xff0c;物理模型和逻辑模型是两个关键阶段&#xff0c;它们分别代表了数据库设计的不同层面和细节。以下是对这两个模型的详细解释及涉及到的内容&#xff1a; 逻辑模型&#xff08;Logical Data Model, LDM&#xff09; 定义与概述&#xff1a; 逻辑数据…

智慧矿山:EasyCVR助力矿井视频多业务融合及视频转发服务建设

一、方案背景 随着矿井安全生产要求的不断提高&#xff0c;视频监控、数据传输、通讯联络等业务的需求日益增长。为满足矿井生产管理的多元化需求&#xff0c;提高矿井作业的安全性和效率&#xff0c;TSINGSEE青犀EasyCVR视频汇聚/安防监控综合管理平台&#xff0c;旨在构建一…

一款优秀、亮眼的开源堡垒机

介绍 在运维的日常工作中&#xff0c;登陆服务器操作不可避免&#xff0c;为了更安全的管控服务器&#xff0c;但凡有点规模的公司都会上线堡垒机系统&#xff0c;堡垒机能够做到事前授权、事中监控、事后审计&#xff0c;同时也可以满足等保合规要求。 提到堡垒机&#xff0…

Go语言中的时间与日期处理:time包详解

在Go语言中&#xff0c;time包提供了丰富而强大的功能来处理时间和日期&#xff0c;这对于构建精确计时、定时任务、日期格式化等应用场景至关重要。本文将深入浅出地探讨time包的核心概念、常见问题、易错点及其规避策略&#xff0c;并通过实用代码示例加深理解。 一、时间与…

3D虚拟会议室打破传统会议局限,提供沉浸式会议体验

一、身临其境的虚拟会议体验 1、沉浸感提升参会效果 3D虚拟会议室借助虚拟现实技术为用户创造出一个仿佛置身真实会议场所的感觉。用户可以进入一个虚拟的会议室&#xff0c;感受到空间的深度和互动性。这种身临其境的体验&#xff0c;使得参会者不仅仅是被动地观看屏幕&…

音乐剪辑免费软件有哪些?7个音频剪辑技巧!

音乐剪辑免费软件有很多&#xff0c;但是适合自己或适合剪辑小白的却屈指可数。 音频剪辑软件千千万&#xff0c;如果是没有任何剪辑经验的小白用户&#xff0c;个人建议使用知名度较高的音频剪辑软件。不管是免费还是收费的音频剪辑软件&#xff0c;只要能够解决问题&#xf…

[Mysql] 的基础知识和sql 语句.教你速成(下)——数据库的约束篇

目录 前言 约束 一.我们为什么需要约束 二.常见的约束类型 NOT NULL 约束 UNIQUE 约束 DEFAULT 约束 PRIMARY KEY FOREIGN KEY CHECK约束 原因&#xff1a; 结尾 前言 距离上篇的更新已经快两周了,这个时候大伙都已经考完了吧!现在更新多少有点马后炮,但是没办法呀…

gin框架解决跨域问题

文章目录 前言一、使用github.com/gin-contrib/cors 前言 今天遇到了前后端跨域问题&#xff0c;前后端跨域解决蛮简单的&#xff0c;下面是解决方案 一、使用github.com/gin-contrib/cors go get github.com/gin-contrib/cors在路由的地方 r : gin.Default()corsConfig : c…

Spring源码十:BeanPostProcess

上一篇Spring源码九&#xff1a;BeanFactoryPostProcessor&#xff0c;我们看到ApplicationContext容器通过refresh方法中的postProcessBeanFactory方法和BeanFactoryPostProcessor类提供预留扩展点&#xff0c;他可以在Spring容器的层面对BeanFactroy或其他属性进行修改&#…

科技赋能智慧应急:“数字孪生+无人机”在防汛救灾中的应用

近期&#xff0c;全国多地暴雨持续&#xff0c;“麻辣王子工厂停工”“水上派出所成水上的派出所了”等相关词条冲上热搜&#xff0c;让人们看到了全国各地城市内涝、洪涝带来的严重灾情。暴雨带来的影响可见一斑&#xff0c;潜在的洪水、泥石流、山体滑坡等地质灾害更应提高警…