从工标网网站解析行业标准

#运行前,先删除data.csv文件
import requests
from bs4 import BeautifulSoup
import time
import pandas as pd

创建data_list空列表,用于存储网站解析出来的标准信息

data_list = []

从工标网网站http://www.csres.com/sort/industry.jsp查询不同行业标准的网址头

#url1 = “http://www.csres.com/sort/industry/002009_” #建筑工业标准网址头,目前共41页,1620条
url1 = “http://www.csres.com/sort/industry/002007_” #化工标准网址头,目前共128页,5102条
#url1 = “http://www.csres.com/sort/industry/002061_” #建筑材料行业标准网址头,目前共33页,1307条

从工标网网站http://www.csres.com/sort/industry.jsp查询不同行业标准的网址页面数量,生成url,便利所有url

for i in range(1,129): #结束值要比网页数量值+1
url = f"{url1}{i}.html"
#print(url)

#使用BeautifulSoup解析工标网网站,需要设置请求头
# 设置请求头,模拟浏览器访问
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}
# 发送请求获取网页内容
response = requests.get(url, headers=headers)
html_content = response.text# 使用BeautifulSoup解析网页
soup = BeautifulSoup(html_content, 'html.parser')
#print(soup)# 找到对应的tr标签
tr_tags = soup.find_all('tr', attrs={'bgcolor': '#FFFFFF'})# 提取各个单元格的文本内容,以列表形式存储for tr_tag in tr_tags:data = []td_tags = tr_tag.find_all('td')data.append(td_tags[0].text.strip())data.append(td_tags[1].text.strip())data.append(td_tags[2].text.strip())data.append(td_tags[3].text.strip())data.append(td_tags[4].text.strip())data_list.append(data)#打印显示data_list的内容
for item in data_list:print(item)# 将data_list列表中内容,存储到csv文件中
column_names = ["标准编号", "标准名称", "发布部门", "实施日期", "状态"]
df = pd.DataFrame(data_list, columns=column_names)# 等待页面加载完成,可根据实际情况调整等待时间
time.sleep(5)

#将df中的内容写入data.csv文件
df.to_csv(‘data.csv’, index = False, encoding=‘utf-8-sig’,mode = ‘a’)
print(df)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/889602.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

玩转Python中的JSON:从基础到进阶

在Python中处理JSON数据是日常开发中的常见任务之一。JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,在Web开发、数据存储等多个领域得到了广泛应用。本文将详细介绍如何在Python中处理JSON对象,包括基础操作、数据…

在Liunx中安装JDK、Tomcat、mysql、lrzsz、Nginx

一.软件安装方式 在Linux系统中,安装软件的方式主要有四种,这四种安装方式的特点如下: 二.安装JDK 上述我们介绍了Linux系统软件安装的四种形式,接下来我们就通过第一种(二进制发 布包)形式来安装JDK。 在/下创建soft目录&…

神经网络基础-初识神经网络

人工神经网络( Artificial Neural Network, 简写为ANN)也简称为神经网络(NN),是一种模仿生物神经网络结构和功能的计算模型。人脑可以看做是一个生物神经网络,由众多的神经元连接而成。各个神经…

Python中PyTorch详解

文章目录 Python中PyTorch详解一、引言二、PyTorch核心概念1、张量(Tensor)1.1、创建张量1.2、张量操作 2、自动求导(Autograd)2.1、自动求导示例 三、构建神经网络1、使用nn模块2、优化器(Optimizer) 四、…

云服务器挖矿程序占用资源处理

云服务器挖矿程序占用资源处理 文章目录 云服务器挖矿程序占用资源处理top查看服务器后台运行情况关闭病毒删除病毒文件top 云服务器通过手机短信发送了多次预警,疑似出现挖矿程序,登录口令可能已经被暴力破解。处理方法是立即更改口令,然后处…

电脑文件夹打不开了,能打开但是会闪退,提示“找不到iUtils.dll”是什么原因?

电脑运行时常见问题解析:文件夹打不开、闪退及“找不到iUtils.dll”报错 在使用电脑的过程中,我们可能会遇到文件夹打不开、软件闪退或系统报错等问题,特别是提示“找不到iUtils.dll”的报错,更是让人困惑不已。今天我将为大家详…

【教程】让Jupyter支持打开CSV和Excel(xlsx)文件

转载请注明出处:小锋学长生活大爆炸[xfxuezhagn.cn] 如果本文帮助到了你,欢迎[点赞、收藏、关注]哦~ 支持CSV JupyterLab本身支持直接打开CSV文件,因此只需要在JupyterLab的文件浏览器中找到CSV文件并双击它,就可以在JupyterLab的…

在SQL Server中使用hash join来提高表连接的性能

在SQL Server中使用hash join来提高表连接性能时,需要考虑数据集的大小、索引情况以及查询的具体需求。 在SQL Server中使用hash join来提高表连接性能的情况主要包括以下几种: • 两个表都没有合适的索引:Hash join通常适合当两个表都没有索…

FFmpeg 实战解复用与复用

FFmpeg FFmpeg 是一个功能强大、广泛使用的多媒体处理工具,可以处理音频、视频、字幕以及多种容器格式的操作。它支持解码、编码、复用、解复用、流式传输、过滤等功能。以下是关于 FFmpeg 的一些核心信息和操作说明: 核心组件 FFmpeg 是由以下几个主要库组成的: libavcode…

自动驾驶域控制器简介

汽车智能驾驶功能持续高速渗透,带来智能驾驶域控制器市场空间快速增 长。智驾域控制器是智能驾驶决策环节的重要零部件,主要功能为处理感知 信息、进行规划决策等。其核心部件主要为计算芯片,英伟达、地平线等芯 片厂商市场地位突出。随着消费…

Debezium Oracle CTAS 解析器实现:基于 ANTLR 的 CREATE TABLE AS SELECT 语句解析

Debezium Oracle CTAS 解析器实现:基于 ANTLR 的 CREATE TABLE AS SELECT 语句解析 本文详细介绍了 Debezium Oracle 连接器中如何解析 CREATE TABLE AS SELECT (CTAS) 语句,通过具体的实现代码帮助读者理解 ANTLR 监听器在复杂 SQL 解析中的应用。 文章目录 Debezium Oracle…

dfs_bool_void 两种写法感悟

dfs 的两种写法 在看之前实现图的遍历 dfs 和拓扑排序 dfs 实现的代码的时候的感悟 图的遍历 dfs 和拓扑排序 dfs 的区别 0 → 1 ↓ ↓ 2 → 3图的邻接表表示: adjList[0] {1, 2}; adjList[1] {3}; adjList[2] {3}; adjList[3] {};正常的 DFS 遍历&#x…

SurfaceFlinger layers合成

HWC(Device)合成的源码分析 GPU合成源码分析:显示框架之SurfaceFlinger GPU合成 - 简书 不支持device合成的layer,SurfaceFlinger会采用GPU来合成,然后与device合成的layer在hwc进行同步再送给屏幕 8295芯片合成规则…

计算机网络-传输层 TCP协议(上)

目录 报头结构 TCP的可靠传输机制 核心机制一:确认应答 TCP的序号和确认序号 核心机制二:丢包重传 核心机制三:连接管理 建立连接-三次握手 断开连接-四次挥手 核心机制四:滑动窗口 数据包已经抵达, ACK被丢了 数据包就…

5.2章节python字符串的格式化三种方式

在Python中,格式化字符串是编程中常见的任务,它用于将变量或表达式的值嵌入到字符串中。以下是三种常见的格式化字符串的方式: 1.百分号(%)格式化: 这是Python早期版本中常用的字符串格式化方法。通过在字…

反向传播算法的原理与应用

反向传播算法的原理与应用 反向传播算法是神经网络中用于训练的关键技术,它通过计算代价函数关于网络权重的梯度来更新网络参数。本文将介绍反向传播算法的基本原理和应用。 反向传播算法的基本原理 反向传播算法的核心是链式法则,它允许我们从输出层开…

【经验分享】容器云运维的知识点

最近忙于备考没关注,有次点进某小黄鱼发现首页出现了我的笔记还被人收费了 虽然我也卖了一些资源,但我以交流、交换为主,笔记都是免费给别人看的 由于当时刚刚接触写的并不成熟,为了避免更多人花没必要的钱,所以决定公…

蓝卓生态说 | 东实总经理张岑:以行业、产品、服务为关键词,持续提升用户体验

成功的产品离不开开放式创新和生态协同的力量。近年来,蓝卓坚持“平台生态”战略,不断加码生态,提出三个层次的开源开放生态计划,举办“春风行动”、“生态沙龙”等系列活动,与生态伙伴共生、共创、共同推动工业互联网…

Spring Boot 集成 MyBatis 全面讲解

Spring Boot 集成 MyBatis 全面讲解 MyBatis 是一款优秀的持久层框架,与 Spring Boot 集成后可以大大简化开发流程。本文将全面讲解如何在 Spring Boot 中集成 MyBatis,包括环境配置、基础操作、高级功能和最佳实践。 一、MyBatis 简介 1. SqlSession …

OpenGL ES详解——glUniform1i方法是否能用于设置纹理单元

glUniform1i 方法确实可以用于设置纹理单元(texture unit)。在OpenGL中,纹理单元是图形硬件的一部分,它允许你同时绑定多个纹理,并在着色器程序中通过uniform变量来选择使用哪个纹理。 通常,纹理单元通过整…