python selenium.webdriver 爬取政策文件

文章目录

- - - 获取文章链接
    - 批量爬取政策文件
    - - 应用selenium爬取文件信息
      - 数据处理
      - 导出为excel

获取文章链接

获取中央人民政府网站链接，进入国务院政策文件库，分为国务院文件和部门文件（发改委、工信部、交通运输部、市场监督局、商务部等）
在这里插入图片描述
搜索关键词——汽车，即可得到按照相关度或者时间排列的政策文件。

批量爬取政策文件

批量获取文件链接并存入列表

应用selenium爬取文件信息

利用xpath定位链接、索引号、标题、发文机关、发文字号、主题分类、成文日期、发布日期、文件内容等信息。

右侧通过光标定位各部分信息，右键点击 copy 并选择 copy xpath即可复制xpath路径。
在这里插入图片描述

完整代码

from selenium import webdriver
from urllib.error import HTTPError
from selenium.webdriver.common.by import By   #selenium新版本写法
import warnings
warnings.filterwarnings('ignore')"""
爬虫国务院文件
传入链接，返还链接内的全部内容，生成字典
"""
def get_info(id,url):options = webdriver.ChromeOptions()options.add_argument('--headless')options.add_argument('--no-sandbox')options.add_argument('--disable-dev-shm-usage')driver = webdriver.Chrome(options=options)link = {}driver.get(url)try:link['文章ID'] = id  # 序列ID，从0—现有的文件数link['链接'] = url  # 原文链接#time.sleep(3)link['索引号'] = driver.find_element(By.XPATH,'/html/body/div[4]/div/div[2]/div[1]/table/tbody/tr/td/table/tbody/tr[1]/td[2]').text  # 索引号link['标题'] = driver.find_element(By.XPATH,"/html/body/div[4]/div/div[2]/div[1]/table/tbody/tr/td/table/tbody/tr[3]/td[2]").text  # 标题link['发文机关'] = driver.find_element(By.XPATH,"/html/body/div[4]/div/div[2]/div[1]/table/tbody/tr/td/table/tbody/tr[2]/td[2]").text  # 发文机关link['发文字号'] = driver.find_element(By.XPATH,"/html/body/div[4]/div/div[2]/div[1]/table/tbody/tr/td/table/tbody/tr[4]/td[2]").text  # 发文字号link['主题分类'] = driver.find_element(By.XPATH,"/html/body/div[4]/div/div[2]/div[1]/table/tbody/tr/td/table/tbody/tr[1]/td[4]").text  # 主题分类link['成文日期'] = driver.find_element(By.XPATH,"/html/body/div[4]/div/div[2]/div[1]/table/tbody/tr/td/table/tbody/tr[2]/td[4]").text  # 成文日期link['发布日期'] = driver.find_element(By.XPATH,'/html/body/div[4]/div/div[2]/div[1]/table/tbody/tr/td/table/tbody/tr[4]/td[4]')   # 发布日期link['文件内容'] = driver.find_element(By.XPATH,"//*[@id='UCAP-CONTENT']").text  # 内容with open('汽车/国务院文件/'+link['标题']+'.txt','w',encoding='utf-8') as file:file.write(link['文件内容'])except HTTPError:return Nonedriver.quit()return link

数据处理

每次爬取单一文件信息并整理为dataframe，之后按行合并。

import pandas as pddf = pd.DataFrame()
with open('link1.txt','r',encoding='utf-8') as f:links = f.readlines()for id,url in enumerate(links):url = url.strip('\n')print(url)result = get_info(id,url)df1 = pd.DataFrame.from_dict(result,'index').Tdf = pd.concat([df,df1],axis=0)df

在这里插入图片描述

导出为excel

df.to_excel('汽车行业政策文本研究.xlsx',index=False)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/1232.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

python selenium.webdriver 爬取政策文件

文章目录

获取文章链接

批量爬取政策文件

应用selenium爬取文件信息

数据处理

导出为excel

相关文章

2023网络安全常见面试题汇总（附答案解析+配套资料）

【Python】PyCharm中调用另一个文件的函数或类

Kafka 源码编译部署包

Linux Shell 脚本编程学习之【第2章 Linux文件系统和文本编辑器（第一部分）】

数据分析案例-数据分析师岗位招聘信息可视化

LLM - Hugging Face 工程 BERT base model (uncased) 配置

MySQL：聚合函数（全面详解）

积分图像、图像分割、Harris角点检测

Matlab实现周期卷积

分类预测 | MATLAB实现基于Attention-GRU的数据多特征分类预测(门控循环单元融合注意力机制分类预测，含混淆矩阵图、分类图)

Antd List组件增加gutter属性后出现横向滚动，如何解决

用宏定义完成整数的二进制位的奇偶位互换

MySQL数据备份与还原、索引、视图

解决 Ruoyi 框架中提示认证失败，无法访问系统资源的问题

统计页面左右+上下自适应布局

微信小程序用户登录及头像昵称设置教程（前后端）

论文解读｜VoxelNet:基于点云的3D物体检测的端到端学习

01 - 如何制定性能调优标准？

linux之Ubuntu系列（三）远程管理指令☞FileZilla

Linux —— 进程状态