Python爬虫html网址实战笔记

仅供学习参考

一、获取文本和链接

import requests
from lxml import htmlbase_url = "https://abcdef自己的网址要改"
response = requests.get(base_url)
response.encoding = 'utf-8'  # 指定正确的编码方式tree = html.fromstring(response.content, parser=html.HTMLParser(encoding='utf-8'))# 固定部分XPath,只有最后一个div的索引会变化,自己修改,复制网址的xpath路径
fixed_xpath = "/html/body/div[4]/div[2]/ul/li[{div_index}]/a"filename = "现TXT文本内容.txt"with open(filename, "w", encoding="utf-8") as f:for div_index in range(1, 100):  # 假设有100个人# 构建完整的XPathxpath = fixed_xpath.format(div_index=div_index)# 使用XPath定位每个人员信息的元素person_elements = tree.xpath(xpath)for person_element in person_elements:# 获取网址路径和姓名信息url_path = person_element.get("href")full_url = base_url + url_path if url_path else ""name = person_element.xpath('string()').strip()  # 提取文本内容并去除空格# 仅输出网址中的路径部分url_path = full_url.replace(base_url, "")output_str = f"网址路径:{url_path}\n姓名:{name}\n\n"print(output_str)f.write(output_str)print(f"输出已保存到文件 {filename}")
结果:现TXT文本内容网址路径:http://abc.html
姓名:abc

二、根据现有的TXT文本,打开链接找到需要的内容

import re
import requests
from lxml import html# 读取文件内容
with open("现TXT文本内容.txt", "rb") as file:content = file.read().decode('utf-8', 'ignore')lines = content.splitlines()email_xpath = '/html/body/div[4]/div/div/div/div/div[2]/div[1]/div[2]/div[4]/div[1]/text()'filename = "现TXT文本内容邮箱.txt"with open(filename, "w", encoding="utf-8") as f:for i in range(0, len(lines), 1):url_line = lines[i]name_line = lines[i + 1]url_match = re.search(r"https?://[^\s]+", url_line)name_match = re.search(r"姓名:(.+)", name_line)if url_match and name_match:url = url_match.group()name = name_match.group(1)response = requests.get(url)tree = html.fromstring(response.content)email = tree.xpath(email_xpath)email = email[0] if email else "未找到邮箱地址"output_str = f"{name}:{email}\n"print(output_str)f.write(output_str)print(f"输出已保存到文件 {filename}")
输出TXT文本内容
abc:abc@aa.com
...
...

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/684947.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【数据结构】12 堆栈应用:表达式求值

表达式类型 后缀表达式 有一个常量表达式的中缀表达式为:5 6 / 2 - 3 * 4,其后缀形式表示为: 5 6 2 / 3 4 -。后缀表达式的特点是运算符位于两个预算数之后。其前缀表达式为: - 5 / 6 2 3 4。 后缀表达式相比于中缀表达式的…

彻底理解无刷电机

前言 现在很多设备都是搭载的无刷电机而不是有刷电机了,为啥?性能好啊! 引入 同性相斥异性相吸 可以看出,只要改变磁铁的极性,电机就能转起来 那 怎么改变磁铁极性呢? 右手螺旋定则可以根据电流的流向…

LeeCode 546 区间 DP

题意 传送门 LeeCode 546 移除盒子 题解 难以顺序处理,故考虑不断拓展区间。令 d p l , r dp_{l, r} dpl,r​ 为 [ l , r ) [l,r) [l,r) 的答案,当 b l b_{l} bl​ 与 b r − 1 b_{r-1} br−1​ 不在同一轮被移除,则可以枚举分界点更新…

可变参数(c/c++)

目录 一、C语言版本 二、C的实现方法 2.1数据包 2.2sizeof...运算符 2.3可变参数模板的使用 2.4emplace_back() 有时候我们在编写函数时,可能不知道要传入的参数个数,类型 。比如我们要实现一个叠加函数,再比如c语言中的printf,c中的emp…

2024年2月份实时获取地图边界数据方法,省市区县街道多级联动【附实时geoJson数据下载】

首先,来看下效果图 在线体验地址:https://geojson.hxkj.vip,并提供实时geoJson数据文件下载 可下载的数据包含省级geojson行政边界数据、市级geojson行政边界数据、区/县级geojson行政边界数据、省市区县街道行政编码四级联动数据&#xff0…

Springboot+vue的大学生智能消费记账系统的设计与实现(有报告)。Javaee项目,springboot vue前后端分离项目

演示视频: Springbootvue的大学生智能消费记账系统的设计与实现(有报告)。Javaee项目,springboot vue前后端分离项目 项目介绍: 本文设计了一个基于Springbootvue的大学生智能消费记账系统的设计与实现,采…

回溯题中借助哈希法来巧妙去重的操作

今天总结一下回溯法以来做过的这些题,我又发现一个困扰了我的问题,就是在491. 非递减子序列、46. 全排列、47. 全排列 II中都有涉及到用哈希法,去记录曾经用过的元素,下面来总结一下吧。 首先得知道,为什么会用到哈希法…

wordpress外贸成品网站模板

首页大图slider轮播,橙色风格的wordpress外贸网站模板 https://www.zhanyes.com/waimao/6250.html 蓝色经典风格的wordpress外贸建站模板 https://www.zhanyes.com/waimao/6263.html

RapidMiner数据挖掘2 —— 初识RapidMiner

本节由一系列练习与问题组成,这些练习与问题有助于理解多个基本概念。它侧重于各种特定步骤,以进行直接的探索性数据分析。因此,其主要目标是测试一些检查初步数据特征的方法。大多数练习都是关于图表技术,通常用于数据挖掘。 为此…

【INTEL(ALTERA)】错误 (293007): 当前模块quartus_ipgenerate意外退出代码 0 终止。这可能是因为某些系统资源已耗尽

说明 由于 Windows* 操作系统的限制,当您的 英特尔 Quartus Prime Pro Edition 软件项目目录的路径长度超过 260 个字符时,您可能会看到此错误消息。 解决方法 要变通解决此问题,请执行以下操作之一 将新的驱动器号映射到路径中的较低目录…

【复现】cellinx摄像设备 未授权漏洞_50

目录 一.概述 二 .漏洞影响 三.漏洞复现 1. 漏洞一: 四.修复建议: 五. 搜索语法: 六.免责声明 一.概述 cellinx是一家韩国的摄像设备 二 .漏洞影响 通过未授权访问可以创建用户进入后台,可能造成系统功能破坏。 三.漏洞复…

holidaywork13

任务调度算法: FreeRTOS采用抢占式优先级调度算法。每个任务都有一个优先级,优先级越高的任务将优先执行。当一个优先级更高的任务就绪时,FreeRTOS会暂停当前正在运行的任务,并将CPU分配给优先级更高的任务。任务的调度是基于任务…

1002: 【C1】【一维数组】【入门】数组逆序

题目描述 给你n个整数&#xff0c;将其逆序输出 输入 第一行&#xff1a;一个整数n。(1<n<100) 第二行&#xff1a;n个空格隔开的整数。 输出 n个空格隔开的整数 样例输入 3 1 7 5 样例输出 5 7 1 提示 来源 Code: #include<bits/stdc.h> using names…

多线程面试题汇总

多线程面试题汇总 一、多线程1、线程的生命周期2、线程的创建&#xff08;函数创建&#xff09;3、线程的创建&#xff08;使用类&#xff09;4、守护线程 二、全局解释器锁1、使用单线程实现累加到5000000002、使用多线程实现累加到5000000003、总结 三、线程安全1、多线程之数…

Python循环语句——continue和break

一、引言 在Python编程中&#xff0c;循环是常见的控制流语句&#xff0c;它允许我们重复执行一段代码&#xff0c;直到满足某个条件为止。而在循环中&#xff0c;continue和break是两个非常重要的控制语句&#xff0c;它们可以帮助我们更加灵活地控制循环的行为。 二、contin…

SQL的1999语法

目录 交叉连接 实现交叉连接 自然连接 实现自然连接&#xff08;实际上就是内连接&#xff09; ON和USING 使用自然连接时要求两张表的字段名称相同&#xff0c;但是如果不相同或者两张表中有两组字段是重名,这时就要利用 ON 子句指定关联条件&#xff0c;利用 USING 子句…

【Android】使用Apktool反编译Apk文件

文章目录 1. 下载Apktool1.1 Apktool官网下载1.2 百度网盘下载 2. 安装Apktool3. 使用Apktool3.1 配置Java环境3.2 准备Apk文件3.3 反编译Apk文件3.3.1 解包Apk文件3.3.2 修改Apk文件3.3.3 打包Apk文件3.3.4 签名Apk文件 1. 下载Apktool 要使用Apktool&#xff0c;需要准备好 …

算法训练day31贪心算法理论基础Leetcode455分发饼干376摆动序列53最大子序和

贪心算法理论基础 文章链接 代码随想录 (programmercarl.com) 说实话贪心算法并没有固定的套路。最好用的策略就是举反例&#xff0c;如果想不到反例&#xff0c;那么就试一试贪心吧。 面试中基本不会让面试者现场证明贪心的合理性&#xff0c;代码写出来跑过测试用例即可&…

OpenSource - 一站式自动化运维及自动化部署平台

文章目录 orion-ops 是什么重构特性快速开始技术栈功能预览添砖加瓦License orion-ops 是什么 orion-ops 一站式自动化运维及自动化部署平台, 使用多环境的概念, 提供了机器管理、机器监控报警、Web终端、WebSftp、机器批量执行、机器批量上传、在线查看日志、定时调度任务、应…

2.14:二维数组、非函数实现strcat、strcmp、strcpy、strlen

1.编程实现二维数组的杨辉三角 程序代码&#xff1a; 1 #include<stdio.h>2 #include<string.h>3 #include<stdlib.h>4 int main(int argc, const char *argv[])5 {6 int n;7 printf("please enter n:");8 scanf("%d",&…