【那些反爬与反反爬】网页中嵌入随机不可见字符的解决方法

关于部分网页p标签下嵌入随机不可见字符导致爬取的数据中包含大量无意义字符的解决办法:
示例网站:https://www.psychspace.com/psych/category-333

<p>
<span style="display:none"> H1zZ y&}%pBD iluo</span>
剑桥大学发表的一项新的研究表明,父母和孩子之间的爱会显著增加孩子的
<a href="∠psych/action-tag-tagname-%C7%D7%C9%E7%BB%E1%D0%DO%CE%AA.html">亲社会行为</a>
(prosociality)倾向、对他人表现出善意和同理心。这项研究使用了2000-02年间出生的10000多人的数据,以了解幼儿与父母的早期关系、亲社会性和心理健康之间的长期相互作用。
<span style="display:none">y&}%p   H1z*&$(&%%jfjs</span>
</p>

在上述html示例中,我需要的是p标签下的a标签中的text和p标签本身的text,过滤掉span标签下的无意义字符,最后拼接的效果期望如下:

剑桥大学发表的一项新的研究表明,父母和孩子之间的爱会显著增加孩子的亲社会行为(prosociality)倾向、对他人表现出善意和同理心。这项研究使用了2000-02年间出生的10000多人的数据,以了解幼儿与父母的早期关系、亲社会性和心理健康之间的长期相互作用。

几种解决方法和思路:

  1. re暴力过滤
    这个思路是直接获取每一页的网页源代码,然后通过re.sub(r'<span\s+style="display:none">[^<]*</span>', '', text)洗掉所有style="display:none"<span>标签,然后就可以愉快地使用xpath、beautifulsoup等html解析库获取p标签下的列表进行字符串拼接啦。
import requests
from lxml import etreetext = '''<p><span style="display:none">ES"|#jed3dez)~a@ero</span><a href="/psych/action-tag-tagname-%C8%CF%D6%AA%D0%D0%CE%AA%C1%C6%B7%A8.ht ml">认知行为疗法</a>"认为,抑郁症患者会出现「认知歪曲」的现象,这也是抑郁症的认知行为治疗中的一个关键挑战所在。“认知歪曲”会经常影响抑郁症患者的思维模式。其形式还包括仓促下结论、灾难化、非黑即白思维或自责,并可能给经历过这些的人带来如其所愿的痛苦。"<span style="display:none">心理学空间 g6HBa,_,tBz:f</span></p>
'''
# 清洗掉p标签下的span标签内的特殊字符
text2 = re.sub(r'<span\s+style="display:none">[^<]*</span>', '', text)
# print(text2)html = etree.HTML(text2)
texts = []
for p in html.xpath('//p'):text = ''.join(p.xpath('.//text()'))# 这里可以加一些字符串处理的过程text = text.strip().replace('\n', '').replace('"', '')texts.append(text)result = ''.join(texts)
print(result)
  1. xpath对p标签进行逐个解析
    这个思路就是获取p标签下所有内容的字符串形式,然后写正则去掉不要的字符串就可以,主要用到html.xpath('//p/node()')etree.tostring()两个方法。
import requests
from lxml import etreeurl = 'https://www.example.com'
response = requests.get(url)
html = etree.HTML(response.text)# 获取p标签下的所有内容,包括标签和文本
contents = html.xpath('.//p/node()')output = ''
for item in contents:output += etree.tostring(item, encoding='unicode')print(output)

.//p/node() 的 XPath 表达式可以获取到 <p> 标签下的所有节点,包括标签节点和文本节点。然后,我们通过遍历这些节点,并使用 etree.tostring() 方法将每个节点转换成字符串形式,并将其追加到 output 变量中。以上代码可<p> 标签下的所有内容组成的字符串output,其中包括了标签和文本。

获取字符串形式的文本后,编写正则表达式进行文本的进一步清洗。

注意<p>标签内部可能包含其他标签,如果编写的正则表达式没有遍历所有情况,可能导致获取到的文本带有为过滤掉的其他标签(如<img><video>)。如果只想获取纯文本内容,可以考虑其他方法代替正则表达式,比如去除 HTML 标签的函数库(这个我也还没探索过)。

  1. xpath的remove函数
    大致思路是先通过xpath定位到<p>标签下的<span>标签,然后使用getparent().remove(span)代码删除了span标签。
text = '''<p><span style="display:none">ES"|#jed3dez)~a@ero</span><a href="/psych/action-tag-tagname-%C8%CF%D6%AA%D0%D0%CE%AA%C1%C6%B7%A8.ht ml">认知行为疗法</a>"认为,抑郁症患者会出现「认知歪曲」的现象,这也是抑郁症的认知行为治疗中的一个关键挑战所在。“认知歪曲”会经常影响抑郁症患者的思维模式。其形式还包括仓促下结论、灾难化、非黑即白思维或自责,并可能给经历过这些的人带来如其所愿的痛苦。"<span style="display:none">心理学空间 g6HBa,_,tBz:f</span></p>
'''# 解析HTML文本
html = etree.HTML(text)# 清洗掉p标签下的span标签内的特殊字符
for span in html.xpath('//p/span'):span.getparent().remove(span)# 提取a标签内的文本,拼接到p标签内的文本
texts = []
for p in html.xpath('//p'):text = ''.join(p.xpath('.//text()')).strip()    # 去除开头结尾的换行符text = re.sub(r'\s+|"', '', text)   # 去除引号和空格texts.append(text)result = ''.join(texts)
print(result)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/103466.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Selenium浏览器启动方式

Chromedriver所有版本下载 原文链接 浏览器的基本操作 普通方式启动浏览器&#xff1a; from selenium import webdriver # 启动Chrom浏览器 browser webdriver.Chrome() # 启动Edge浏览器 browser webdriver.Edge() # 启动Firefox浏览器 browser webdriver.Firefox() br…

协同育人|电巢携手武汉软件工程职业学院项目实训顺利开班!

为深化校企合作&#xff0c;产教融合助力新工科建设&#xff0c;提升学生工程实践能力&#xff0c;电巢工程能力实训班按照不同岗位类别&#xff0c;匹配对应的企业岗位任职能力要求对学生开展分级培养&#xff0c;以产业需求为导向&#xff0c;培养创新型、应用型人才。 10月…

实战一:Http轮询弹幕拦截

系列文章目录 训练地址:https://www.qiulianmao.com websocket逆向http拦截websocket拦截视频号直播弹幕采集实战一:Http轮询更新中实战一:Http轮询 系列文章目录前言一、判断消息传输技术二、用户进入直播间三、 用户发言四、 用户送礼五、点赞事件六、用户唯一id的获取七…

vscode中注释多行bash脚本

选择你要注释的行&#xff0c;右击所选的行&#xff0c;从命令调色板中选择添加行注释。 选择后&#xff0c;所选的行将被注释为#&#xff0c;如下图所示。 选择你想取消注释的行&#xff0c;在所选行上点击右键&#xff0c;从命令调色板中选择删除区块注释&#xff0c;就可以从…

无人值守配电室变电所运维解决方案

随着电力系统数字化、智能化的不断发展&#xff0c;无人值守配电室变电所已经成为一种趋势。为了确保变电所的安全稳定运行&#xff0c;本文提出了一种无人值守配电室变电所运维解决方案。 一、背景介绍 力安科技电易云无人值守配电室变电所是指通过远程监控和智能化电力数…

如何在一个传统的html中,引入vueJs并使用vue复制组件?

如何在一个传统的html中&#xff0c;引入vueJs并使用vue复制组件&#xff1f; 1.1 引言1.2 背景1.3 解决方案1.3.1 解决方案一&#xff1a;直接使用clipboard(不推荐仅供参考学习)1.3.2 解决方案二&#xff1a;封装指令js库后使用 (推荐) 1.1 引言 这篇博文主要分享如何在一个…

Newtonsoft.Json use

private void button3_Click(object sender, EventArgs e) { List<Student> students new List<Student>(); students.Add(new Student { Id 1, Name "张三", Sex "男", Description "班长" }); students.…

【AUTOSAR中断管理】TC3XX中断系统介绍

摘要 这段文本主要介绍了AURIX TC3XX的中断系统(Interrupt Router,简称IR)以及中断注册的过程以及举例说明中断机制。 AURIX TC3XX 中断系统(Interrupt Router)介绍 流程图描述中断路由器(IR)处理服务请求并与服务提供者交互。 中断系统的作用是将service request进行…

【ivX】低调且强大的低代码平台

目录 前言 一、低代码那么多 为什么选择iVX&#xff1f; 二、“拼”出来的低代码平台&#xff0c;真的好用吗&#xff1f; 前言 首先我们应该明白自动编程突破可能是&#xff1a;领域内Mini LLM 现在的思路都是搞LLM&#xff0c;几乎像“大跃进”一样全民都在修炼“大模型”…

UE4和C++ 开发-C++绑定widget的方式和初始化UI

C绑定widget的方式有两种&#xff0c;一种是使用meta (BindWidget)&#xff0c;一种是使用GetWidgetFromName(TEXT("")),两种方式都可以。一、meta BindWidget方式 注意这种绑定的方式UMG里面的空间名称需要与C里面声明的变量名称相同 Btn_StartU 二、GetWidge…

京东官方平台API接口获得JD商品详情页信息数据采集产品价格、原价、销量、商品属性名等

京东商品详情API接口的作用是获取京东平台上某个商品的详细信息&#xff0c;包括商品标题、价格、图片、规格、参数、店铺信息等。开发者可以通过该接口获取到商品的原始数据&#xff0c;方便进行数据分析、价格比较、爬取等操作。 通过该接口获取到的商品详情数据可以结合其他…

运维 | 解决 CentOS 终端主机名显示-bash-4.2 问题

运维 | 解决 CentOS 终端主机名显示-bash-4.2 问题 问题描述 登录 linux 系统过后&#xff0c;发现显示的是 -bash-4.2# 而不是 root主机名 路径 的显示方式 内容分析 根目录缺少文件配置&#xff0c;如&#xff1a;.bashrc .bash_profile切换到有故障的用户导致 解决办法…

java学习笔记001

java基础 java语言特点 面向对象&#xff0c;强类型&#xff0c;跨平台&#xff0c;解释型 基本概念&#xff08;JVM、JRE、JDK&#xff09; JVM java虚拟机 作用&#xff1a;加载.class文件 JRE Java运行环境 JREJVMJava系统类库 JDK Java开发工具包 JDKJRE编译&a…

后端:推荐 2 个 .NET 操作的 Redis 客户端类库

目录 Redis特点 Redis场景 1. StackExchange.Redis 2. FreeRedis &#x1f680; 快速入门 &#x1f3a3; Master-Slave (读写分离) &#x1f4bb; Pipeline (管道)示例 &#x1f30c; Redis Cluster (集群) Redis &#xff0c;是一个高性能(NOSQL)的key-value数据库,Re…

docker安装sql-server数据库,使用navicat实现备份数据库导入

docker安装sql-server&#xff0c;使用navicat实现备份数据库导入 1、docker安装sql-server数据库2、使用navicat连接sql-server3、使用navicat导入备份数据库1、第一步&#xff1a;选择需要备份的数据源2、第二步 &#xff08;选择备份计划&#xff0c;设置还原文件位置信息&a…

WSL2 ubuntu18.04安装ROS

前期准备 在Windows 10上启用WSL&#xff08;Windows Subsystem for Linux&#xff09;的步骤如下&#xff1a; 打开“控制面板”并选择“程序和功能”选项。单击左侧的“启用或关闭Windows功能”链接。滚动到底部并选中“适用于Linux的Windows子系统”复选框。单击“确定”按钮…

写csv相关操作

std::ios::in&#xff1a;输入模式&#xff0c;表示以读取方式打开流。 std::ios::out&#xff1a;输出模式。 std::ios::app&#xff1a;追加模式&#xff0c;表示以写入方式打开流&#xff0c;并将数据追加到文件末尾而不清除原有内容。 std::ios::trunc&#xff1a;截断模式…

『Linux小程序』进度条

文章目录 缓冲区问题回车与换行的区别进度条小程序 缓冲区问题 假设有一段代码为: #include<iostream> #include<unistd.h> int main() …

Apache Spark 的基本概念和在大数据分析中的应用 103.219.31.8

Apache Spark是一款基于内存的通用大数据处理框架&#xff0c;旨在加速数据处理速度。它包含了大规模数据处理&#xff0c;机器学习&#xff0c;图计算等组件。以下是几个 Apache Spark 的基本概念&#xff1a; Resilient Distributed Datasets (RDDs)&#xff1a;RDDs是一个分…

【已解决】Vue全局引入scss 个别页面不生效 / 不自动引入全局样式

项目里配置了全局样式的引入&#xff0c;今天新建了 demo 页面去修改 element 的样式&#xff0c;发现全局的样式没有引入进来。 问题原因 在此页面 没有任何样式导致的 项目在编译的时候&#xff0c;会把 .vue 文件的样式抽离到单独的 css 文件中。 当该页面没有css代码的时…