知乎正通过乱码来干扰必应/谷歌等爬虫,从而限制中文数据集被用于AI训练

有用户反馈称使用微软必应搜索和谷歌搜索发现存在不少知乎乱码内容,即搜索结果里知乎内容的标题和正文内容都可能是乱码的,但抓取的正文前面一些段落内容可以正常查看。考虑到此前知乎已经屏蔽除百度和搜狗以外的所有搜索引擎爬虫 (蜘蛛 / 机器人),蓝点网猜测知乎应该是想通过乱码来干扰搜索引擎和其他爬虫,避免这些搜索引擎和爬虫抓取知乎内容拿去训练人工智能模型。

这种猜测现在基本已经坐实,因为有网友发现只要用户代理字符串 (UserAgent) 中包含爬虫类关键词例如 spider 和 bot,那么知乎就会返回乱码内容,如果不包含这些关键词则返回正常内容。

值得注意的是在测试百度搜索的爬虫也就是 Baiduspider 也返回乱码内容,那这岂不是影响百度抓取吗?这个也可以通过技术手段解决,即服务器为百度爬虫提供了专门的索引通道类似白名单,可以随意抓取任何不受限的内容。这种方式还可以用来对抗某些恶意抓取者冒充百度爬虫来抓取内容,因此从网站角度来说也是个不错的防御方式。

测试中还有个有趣的情况是 OpenAI 的 GPT 爬虫也就是 GPTBot 有时候不会乱码有时候会乱码,不过大多数情况下也都是乱码的,因为 UA 匹配到了关键词 bot 所以返回乱码内容,这不太可能是知乎也允许 OpenAI 抓取内容。

从最开始知乎屏蔽其他搜索引擎只允许百度和搜狗到必应搜索结果里出现乱码内容以及现在的关键词匹配,这些情况基本说明了知乎确实不希望自己的内容被抓取,对知乎来说现有的内容是个巨大的金矿,如果人工智能公司不花钱来买的话那肯定不能提供这些数据,所以接下来可能某个时候就会传出某某公司与知乎达成协议可以获取内容用于 AI 模型训练。

测试1:正常浏览器UA可以返回正确内容

在这里插入图片描述

测试2:测试 test-bing-bot 命中关键词 bot 返回乱码内容

在这里插入图片描述

测试3:测试 test-google-spider 命中关键词 spider 返回乱码
在这里插入图片描述

测试4 GPTBot命中关键词但意外没有乱码,这种情况出现的概率极低,大部分还是乱码
在这里插入图片描述

测试5 baiduspider因为命中关键词也乱码
在这里插入图片描述

测试6:这是百度爬虫渲染的完整UA
在这里插入图片描述

测试7:GPTBot大多数时候也是乱码的
在这里插入图片描述

感谢大家花时间阅读我的文章,你们的支持是我不断前进的动力。期望未来能为大家带来更多有价值的内容,请多多关注我的动态!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/36841.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

酣客的“FFC模式”|白酒商业模式|分润制度顶层架构设计

酣客公社摒弃传统商业模式,提出“心联网”及“FFC模式”的商业模式。 坐标:厦门,我是肖琳 深耕社交新零售行业10年,主要提供新零售系统工具及顶层商业模式设计、全案策划运营陪跑等。 今天和大家分享“酣客”的营销模式&#xff…

检信智能推出我国首款Allemotion OS基于AI生理心理参数服务开发者平台

检信Allemotion OS生理心理开发者平台是根据世界人工智能高速发展的特点,为实现脑机交互的行业需求,由检信智能推出我国首款检信Allemotion OS生理心理开发者平台。检信Allemotion OS生理心理开发者平台集成了振动影像心理情绪20项情绪参数、11项生理相关参数&#…

知识图谱——Neo4j数据库实战

数据与代码链接见文末 1.Neo4j数据库安装 JDK 安装:https://www.oracle.com/java/technologies/javase-downloads.html Neo4j 安装:https://neo4j.com/download-center/ 配置好 JDK 和 Neo4j 的环境变量

2、Redis持久化与高可用架构

一、Redis 持久化 RDB 快照(Snapshot) 基本概念:RDB(Redis DataBase)快照是将 Redis 内存中的数据在某个时间点保存到磁盘中的一种持久化方式,默认保存到 dump.rdb 的二进制文件中。通过 RDB 快照&#xff…

C# 中的 StreamReader 和 StreamWriter 类

在这里插入代码片StreamReader 和 StreamWriter 位于 System.IO 命名空间中。当您想要读取或写入基于字符的数据时,这两个类都很有用。这两个类都处理 Unicode 字符。 StreamReader 派生自抽象类“TextReader”,StreamWriter 派生自“TextWriter”。 下…

Python处理Excel 的常用操作详解

要在Python中处理Excel文件,可以使用openpyxl库来处理.xlsx文件,或者使用xlrd和xlwt(或其升级版openpyxl)来处理.xls文件。 请注意,你需要先安装 pandas 和 openpyxl 库才能运行代码。可以使用以下命令安装&#xff1a…

静态类和静态构造函数

静态类 概念 用static修饰的类。 特点 只能包含静态成员,不能被实例化。 作用 1.将常用的静态成员写在静态类中方便使用。 2.静态类不能被实例化,更能体现工具类的唯一性。 比如:Console就是一个静态类。 静态构造函数 概念 在构造…

springboot系列七: Lombok注解,Spring Initializr,yaml语法

老韩学生 LombokLombok介绍Lombok常用注解Lombok应用实例代码实现idea安装lombok插件 Spring InitializrSpring Initializr介绍Spring Initializr使用演示需求说明方式1: IDEA创建方式2: start.spring.io创建 注意事项和说明 yaml语法yaml介绍使用文档yaml基本语法数据类型字面…

C# 日志框架Serilog使用

1、框架和说明 C#日志框架Serilog支持多种场景输出,简单验证了一下,比较方便 包的安装,推荐直接使用“推荐NuGet包管理器”安装Serilog.AspNetCore,常见的组件都已经集成在一个包中,使用比较方便 2、配置文件 Serilog…

Rethinking Semantic Segmentation: A Prototype View 2022CVPR Oral

流行的语义分割方案的掩码解码策略(基于参数softmax或基于像素查询)视为可学习的类原型。本研究揭示了这种参数分割策略的几个局限性,并提出了一种基于不可学习原型的非参数替代方案。与之前的方法以完全参数化的方式为每个类学习单个权重/查…

【代码随想录算法训练营第五十二天|647.回文子串、516.最长回文子序列】

文章目录 647.回文子串动态规划双指针法 516.最长回文子序列 647.回文子串 动态规划 dp[i][j]指的是s[i:j1]这段是否是回文串,如果s[i]s[j]需要分三种情况来判断,如果ij或者ji1,那么就是回文串,否则还要看这中间的是否是回文串&…

Kubernetes面试整理-如何利用PodSecurityPolicies来提高集群的安全性?

PodSecurityPolicy (PSP) 是 Kubernetes 中用于定义和控制 Pod 安全配置的策略。通过 PSP,可以设置对 Pod 的一些安全约束条件,从而提高集群的安全性。虽然 PSP 从 Kubernetes 1.21 开始已被弃用,并在 1.25 版本中移除,但在一些旧版 Kubernetes 集群中,PSP 仍然是一个重要…

ubuntu22.04编译安装tesseract

1、 为什么用自己编译安装,而不采用apt安装? 由于tesseract有很多依赖包,直接用deb包或者rpm包等安装包安装很复杂,不一定能成功安装。 2、安装基本的依赖包 sudo apt update sudo apt install g autoconf automake libtool pkg…

Docker-Compose一键部署项目

Docker-Compose一键部署项目 目录 Docker-Compose一键部署项目介绍部署Django项目项目目录结构 docker-compose.ymlnginx的default.conf文件后端Dockerfile文件mysql.env一键部署DNS域名解析引起的跨域问题 介绍 Docker Compose 是一个用于定义和运行多容器 Docker 应用程序的…

如何排查Java应用的死锁

排查Java应用中的死锁问题是一个复杂但重要的任务,因为死锁会导致应用程序停止响应,影响用户体验和系统稳定性。以下是一些方法和步骤,帮助你排查Java应用中的死锁。 1. 理解死锁的概念 在计算机科学中,死锁是指两个或多个线程相…

新手向导:掌握Axure RP的第一步

其实很多时候,我们很容易把教程做得太复杂,让学生失去重点被复杂的理论吓到。入门基础的时候只需要先弄清楚两个核心内容,学起来就容易多了:一是简单了解这个软件,二是学习这个软件的基本操作。所以如果你问我什么是好的 Axure RP…

cesium升级到116版本后底图和地形加载问题

cesium在2023-07-03 升级到了107版本,107版本加载底图和地形方式做了变更,之前的imageryProvider 和 CesiumTerrainProvider方式被remove掉了,换了另外方式。变更如下所示: cesium/CHANGES.md at 1.116 CesiumGS/cesium GitHub…

【QCustomPlot实战系列】QCPGraph折线图的渐变

包含折线图渐变效果以及QCPAxisTickerDateTime的使用 static QBrush GenerateLinearBrush(Qt::Orientation orientation) {qreal x 1;qreal y 0;if (orientation Qt::Vertical) {x0;y1.5;}QLinearGradient gradient(0, y, x, 0);gradient.setCoordinateMode(QLinearGradie…

USB描述符的一些解释

USB设备描述符、配置描述符和一些数据缓冲区的数组。让我们逐步解析这些数组中的值。 设备描述符 (Device Descriptor) UINT8C DevDesc[18] = {0x12, 0x01, 0x10, 0x01, 0xff, 0x00, 0x02, 0x08,0x86, 0x1a, 0x23, 0x55, 0x04, 0x03, 0x00, 0x00,0x00, 0x01};0x12 (18): 设备…

Spring Boot中的分布式缓存方案

Spring Boot中的分布式缓存方案 大家好,我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编,也是冬天不穿秋裤,天冷也要风度的程序猿!今天我们将探讨在Spring Boot应用中实现分布式缓存的方案,以提升系统…