【实战selenium框架下在爱企查爬取企业的历史变更信息】文末附Google浏览器和驱动的下载

代码如下

# 导入包
import random
import time
from tkinter import filedialog
import tkinter as tk
import xlrd
import os
import datetime
import csv
from selenium import webdriver
from selenium.webdriver import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as ECdef chooseFile():# 实例化root = tk.Tk()root.withdraw()# 获取文件夹路径f_path = filedialog.askopenfilename(title='选择公司列表文件', filetypes=[('xlsx', '*.XLSX'), ('xls', '*.xls')])if f_path == '':return f_pathprint('\n获取的文件地址:', f_path)# 打开文件with xlrd.open_workbook(f_path, formatting_info=False) as workbook:sheet1 = workbook.sheet_by_index(0)return f_pathdef DList(tagList):nList = []if len(tagList) == 0:nList.append(" ")nList.append(" ")nList.append(" ")else:nList.append(tagList[0])nList.append(tagList[1])nList.append(tagList[2])return nListdef main():# 文件路径# xlsFile = "data//default_data_file.xlsx"xlsFile = chooseFile()if xlsFile == '':return# 打开文件workbook = xlrd.open_workbook(xlsFile, formatting_info=False)sheet1 = workbook.sheet_by_index(0)iIndex = 0allUrls = []while iIndex < sheet1.nrows:commodityId = str(sheet1.cell_value(iIndex, 0))allUrls.append([commodityId])iIndex = iIndex + 1currentDir = os.getcwd()  # "C:/scrapy" #os.path.dirname(os.path.abspath(__file__))dirName = currentDir + "//ouput//"curr_time = datetime.datetime.now()strNow = datetime.datetime.strftime(curr_time, '%Y%m%d%H%M%S')dirName = dirName + strNowos.makedirs(dirName)outCsv = dirName + "/out.csv"# region 定义浏览器# http请求头userAgent = ["Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.5735.289 Safari/537.36","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36 Edg/122.0.0.0","Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.5735.289 Safari/537.36","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36 SE 2.X MetaSr 1.0","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36 SLBrowser/9.0.3.1311 SLBChan/128","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36","Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.5735.289 Safari/537.36","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36 SE 2.X MetaSr 1.0"]# 指定谷歌的位置-- 本项目目录内,如果机器已经安装了Google浏览器。需要先卸载掉chrome_location = r'Chrome-bin\chrome.exe'# 定义options对象options = webdriver.ChromeOptions()options.binary_location = chrome_location# 1、禁止浏览器自动关闭options.add_experimental_option('detach', True)# 2、禁用测试控制options.add_experimental_option('excludeSwitches', ['enable-automation'])options.add_argument("--disable-blink-features")options.add_argument("--disable-extensions")options.add_argument("--disable-blink-features=AutomationControlled")options.add_argument('disable-infobars')options.add_argument('user-agent=%s' % userAgent[random.randint(1, 7)])  # 添加user-agentdriver = webdriver.Chrome(options=options)driver.maximize_window()# 打开登录页driver.get("https://aiqicha.baidu.com/")# 随机等待1-3秒time.sleep(random.randint(799, 1999) / 1000)locator = (By.CLASS_NAME, 'login')try:WebDriverWait(driver, 25, 5.98).until(EC.presence_of_element_located(locator))# 找到登录按钮# driver.find_element(By.CLASS_NAME, "login").click()# time.sleep(random.randint(12799, 19999) / 1000)except Exception as e:print(f"打开爱企查首页发生异常{e}")# endregionwith open(outCsv, "w") as csvfile:  # ,encoding='utf8' 增加编码csvwriter = csv.writer(csvfile, lineterminator='\n')outItems = {}outItems["公司名称"] = "公司名称"outItems["变更记录前-名称变更"] = "变更记录前-名称变更"outItems["变更记录后-名称变更"] = "变更记录后-名称变更"outItems["变更记录前-经营范围"] = "变更记录前-经营范围"outItems["变更记录后-经营范围"] = "变更记录后-经营范围"outItems["变更记录前-主要人员"] = "变更记录前-主要人员"outItems["变更记录后-主要人员"] = "变更记录后-主要人员"outItems["变更记录前-股东变更"] = "变更记录前-股东变更"outItems["变更记录后-股东变更"] = "变更记录后-股东变更"outItems["变更记录前-法定代表人"] = "变更记录前-法定代表人"outItems["变更记录后-法定代表人"] = "变更记录后-法定代表人"outItems["变更记录前-注册资金"] = "变更记录前-注册资金"outItems["变更记录后-注册资金"] = "变更记录后-注册资金"outItems["行政处罚"] = "行政处罚"csvwriter.writerow(outItems.values())for url in allUrls:lName1 = []lFanWei2 = []lMainMan3 = []lGuDong4 = []lFanRen5 = []lMoney6 = []outItems = {}commName = url[0]outItems["公司名称"] = commNametry:# 确定搜索框元素search_box = driver.find_element(By.ID, "aqc-search-input")# 输入搜索关键词search_box.send_keys(commName)# 添加回车键进行搜索search_box.send_keys(Keys.RETURN)time.sleep(random.randint(12799, 19999) / 1000)title_list = WebDriverWait(driver, 10).until(EC.presence_of_all_elements_located((By.CSS_SELECTOR,"body > "" div.base.page-search.has-search-tab >"" div.aqc-content-wrapper.has-footer >"" div > "" div.main >"" div.list-wrap > "" div.company-list > "" div.wrap > "" a.card")))print("enen", title_list)# 点击条目title_list[0].click()# 获取driver的句柄n = driver.window_handles# driver切换至最新生产的页面driver.switch_to.window(n[-1])# 等一会time.sleep(3)## 获取企业详情detailInfo = driver.find_elements(By.ID, "basic-change")[0].text.split('\n')for i in range(len(detailInfo)):print(detailInfo[i])################名称变更if len(detailInfo[i].split(' ')) == 3 and "名称变更" in detailInfo[i] and len(lName1) == 0:lName1.append(1)lName1.append(detailInfo[i + 1])lName1.append(detailInfo[i + 2])continue################注册资本变更if len(detailInfo[i].split(' ')) == 3 and "注册资本" in detailInfo[i] and len(lMoney6) == 0:lMoney6.append(6)lMoney6.append(detailInfo[i + 1])lMoney6.append(detailInfo[i + 2])continue################主要人员变更if len(detailInfo[i].split(' ')) == 3 and "主要人员" in detailInfo[i] and len(lMainMan3) == 0:lMainMan3.append(3)lMainMan3.append(detailInfo[i + 2])lMainMan3.append(detailInfo[i + 3])continue################股东信息变更if len(detailInfo[i].split(' ')) == 3 and "股东" in detailInfo[i] and len(lGuDong4) == 0:lGuDong4.append(4)lGuDong4.append(detailInfo[i + 1])lGuDong4.append(detailInfo[i + 2])continue################经营范围变更if len(detailInfo[i].split(' ')) == 3 and "经营范围变更" in detailInfo[i] and len(lFanWei2) == 0:lFanWei2.append(2)lFanWei2.append(detailInfo[i + 1])lFanWei2.append(detailInfo[i + 2])continue################法定代表人变更if len(detailInfo[i].split(' ')) == 3 and "法定代表人" in detailInfo[i] and len(lFanRen5) == 0:lFanRen5.append(5)lFanRen5.append(detailInfo[i + 1])lFanRen5.append(detailInfo[i + 2])continuetime.sleep(3.7)try:# 看看有没有下一页m = 0while True:m = m + 1print("开始翻页", m)driver.find_element(By.CLASS_NAME, "ivu-page-next").click()detailInfo = driver.find_elements(By.ID, "basic-change")[0].text.split('\n')for i in range(len(detailInfo)):print(detailInfo[i])################名称变更if len(detailInfo[i].split(' ')) == 3 and "名称变更" in detailInfo[i] and len(lName1) == 0:lName1.append(1)lName1.append(detailInfo[i + 1])lName1.append(detailInfo[i + 2])continue################注册资本变更if len(detailInfo[i].split(' ')) == 3 and "注册资本" in detailInfo[i] and len(lMoney6) == 0:lMoney6.append(6)lMoney6.append(detailInfo[i + 1])lMoney6.append(detailInfo[i + 2])continue################主要人员变更if len(detailInfo[i].split(' ')) == 3 and "主要人员" in detailInfo[i] and len(lMainMan3) == 0:lMainMan3.append(3)lMainMan3.append(detailInfo[i + 2])lMainMan3.append(detailInfo[i + 3])continue################股东信息变更if len(detailInfo[i].split(' ')) == 3 and "股东" in detailInfo[i] and len(lGuDong4) == 0:lGuDong4.append(4)lGuDong4.append(detailInfo[i + 1])lGuDong4.append(detailInfo[i + 2])continue################经营范围变更if len(detailInfo[i].split(' ')) == 3 and "经营范围变更" in detailInfo[i] and len(lFanWei2) == 0:lFanWei2.append(2)lFanWei2.append(detailInfo[i + 1])lFanWei2.append(detailInfo[i + 2])continue################法定代表人变更if len(detailInfo[i].split(' ')) == 3 and "法定代表人" in detailInfo[i] and len(lFanRen5) == 0:lFanRen5.append(5)lFanRen5.append(detailInfo[i + 1])lFanRen5.append(detailInfo[i + 2])continuetime.sleep(3.7)except Exception as ppa:print(f"点击到下一页异常{ppa}")except Exception as eep:print(f"获取公司信息异常{eep}")# 保存数据outItems["变更记录前-名称变更"] = DList(lName1)[1]outItems["变更记录后-名称变更"] = DList(lName1)[2]outItems["变更记录前-经营范围"] = DList(lFanWei2)[1]outItems["变更记录后-经营范围"] = DList(lFanWei2)[2]outItems["变更记录前-主要人员"] = DList(lMainMan3)[1]outItems["变更记录后-主要人员"] = DList(lMainMan3)[2]outItems["变更记录前-股东变更"] = DList(lGuDong4)[1]outItems["变更记录后-股东变更"] = DList(lGuDong4)[2]outItems["变更记录前-法定代表人"] = DList(lFanRen5)[1]outItems["变更记录后-法定代表人"] = DList(lFanRen5)[2]outItems["变更记录前-注册资金"] = DList(lMoney6)[1]outItems["变更记录后-注册资金"] = DList(lMoney6)[2]try:driver.find_element_by_xpath("//span[text()='行政处罚']").click()outItems["行政处罚"] = "是"except Exception as eep:outItems["行政处罚"] = "否"csvwriter.writerow(outItems.values())csvfile.flush()time.sleep(random.randint(5000, 10000) / 1000)# 返回首页driver.find_element(By.CLASS_NAME, "header-img").click()# 主函数
if __name__ == '__main__':main()

一口气搞定,功能算是实现了,细节有空再优化

Google浏览器和驱动下载点这里

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/838049.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

图搜索算法-最小生成树问题-普里姆算法(prim)

相关文章&#xff1a; 数据结构–图的概念 图搜索算法 - 深度优先搜索法&#xff08;DFS&#xff09; 图搜索算法 - 广度优先搜索法&#xff08;BFS&#xff09; 图搜索算法 - 拓扑排序 图搜索算法-最短路径算法-戴克斯特拉算法 图搜索算法-最短路径算法-贝尔曼-福特算法 图搜索…

Flutter 中的 AlertDialog 小部件:全面指南

Flutter 中的 AlertDialog 小部件&#xff1a;全面指南 在Flutter中&#xff0c;AlertDialog是一个用于显示警告、错误、信息或者确认消息的模态对话框。它提供了一种简单而直接的方式与用户进行交流&#xff0c;通常用于需要用户注意的重要信息或者需要用户做出决策的场合。本…

【069】基于SpringBoot+Vue实现的企业资产管理系统

系统介绍 基于SpringBootVue实现的企业资产管理系统管理员功能有个人中心&#xff0c;用户管理&#xff0c;资产分类管理&#xff0c;资产信息管理&#xff0c;资产借出管理&#xff0c;资产归还管理&#xff0c;资产维修管理。用户可以对资产进行借出和归还操作。因而具有一定…

计算机类的英语

Algorithm&#xff08;算法&#xff09;Binary code&#xff08;二进制代码&#xff09;Byte&#xff08;字节&#xff09;Cache&#xff08;缓存&#xff09;Database&#xff08;数据库&#xff09;Encryption&#xff08;加密&#xff09;Firewall&#xff08;防火墙&#x…

软考-下午题-试题一

1、概念 2、答题技巧和规范 问题1、2&#xff1a;直接看 格式&#xff1a; 问题3&#xff1a; 格式&#xff1a; 3、例题 eg2&#xff1a;可以以后写完问题4之后&#xff0c;把问题3补充完整 问题4&#xff1a; 问题4 官方解释&#xff1a; 问题4&#xff08;3‘&#xff09; 2…

如何玩转github

如何玩转github 很多的小伙伴&#xff0c;经常会有这样的困惑&#xff0c;我看了很多技术的学习文档、书籍、甚至视频&#xff0c;我想动手实践&#xff0c;于是我打开了GitHub&#xff0c;想找个开源项目&#xff0c;进行学习&#xff0c;获取项目实战经验。这个时候很多小伙…

FDA认证的相关流程以及基本要求

一、FDA认证是什么&#xff1f; FDA认证&#xff0c;全称为"美国食品药品监督管理局认证"&#xff08;U.S. Food and Drug Administration&#xff09;&#xff0c;是美国政府机构负责确保食品、药品、医疗器械和化妆品等产品的质量、安全和有效性。FDA认证是基于美…

在做题中学习(58):和为K的子数组

560. 和为 K 的子数组 - 力扣&#xff08;LeetCode&#xff09; 因为是判断子数组的和 要返回 k 的次数&#xff0c;所以 解法&#xff1a;前缀和 哈希表 提出一个概念&#xff1a;以下标i为结尾的所有子数组 那要找出所有和 k的子数组 就相当于&#xff1a;找出所有值为…

SD8002 集成电路芯片IC高电源输出功率1W功率音频放大器

对于SD8002A的表面级封装&#xff0c;日JA140℃/W&#xff0c;TJMAX150℃。依赖于系统工作的环境温度TA&#xff0c;(2)可 用于计算由芯片封装所能承受的内部最大功耗。如果式(1)的结果比式(2)大&#xff0c;此时就需要降低电 源电压或者提高负载阻值。在5V电源和8Ω负载的典型…

JAVA实验项目(二): 抽象类、接口的定义与使用

实验项目二 抽象类、接口的定义与使用 Tips&#xff1a;"分享是快乐的源泉&#x1f4a7;&#xff0c;在我的博客里&#xff0c;不仅有知识的海洋&#x1f30a;&#xff0c;还有满满的正能量加持&#x1f4aa;&#xff0c;快来和我一起分享这份快乐吧&#x1f60a;&…

C#实现多线程的几种方式

前言 多线程是C#中一个重要的概念&#xff0c;多线程指的是在同一进程中同时运行多个线程的机制。多线程适用于需要提高系统并发性、吞吐量和响应速度的场景&#xff0c;可以充分利用多核处理器和系统资源&#xff0c;提高应用程序的性能和效率。 多线程常用场景 CPU 密集型任务…

Andrew Ng 吴恩达的深度学习课程作业 TensorFlow Tutorial (TF2兼容)

使用TensorFlow 2.6.0版本改写TensorFlow 1的代码&#xff0c;使用TF2兼容TF1的API。 1 - Exploring the Tensorflow Library 1.1 导入相关库 import math import h5py import matplotlib.pyplot as plt import numpy as np import tensorflow as tf from tensorflow.python…

物联网促进信息化——​青创智通工业物联网解决方案​

随着传感器网络&#xff08;WSN)、无线射频识别&#xff08;RFID&#xff09;以及微电子机械系统(MEIVIS&#xff09;等技术的不断成熟,扩展了人们对信息获取和使用的能力&#xff0c;并将提高制造效率、改善产品质量、降低产品成本和资源消耗、为用户提供更加透明和个性化的服…

玩转Matlab-Simscape(初级)- 05 - 基于Solidworks、Matlab Simulink、COMSOL的协同仿真(理论部分1)

** 玩转Matlab-Simscape&#xff08;初级&#xff09;- 05 - 基于Solidworks、Matlab Simulink、COMSOL的协同仿真&#xff08;理论部分1&#xff09; ** 目录 玩转Matlab-Simscape&#xff08;初级&#xff09;- 05 - 基于Solidworks、Matlab Simulink、COMSOL的协同仿真&am…

AutoX.js入门教程

要使用AutoX.js创建一个自动化脚本&#xff0c;自动打开网易云音乐&#xff0c;搜索张学友的歌曲&#xff0c;并随机循环播放&#xff0c;然后将该脚本打包成APK文件&#xff0c;以下是实现这一过程的大致步骤&#xff1a; ### 步骤1&#xff1a;编写AutoX.js脚本 首先&#…

网关过滤器实现接口签名检验

背景 往往项目中的开放接口可能被别有用心者对其进行抓包然后对请求参数进行篡改&#xff0c;或者重复请求占用系统资源为此我们行业内使用比较多的策略是接口签名校验。签名校验的实现可以用注解aop的形式实现&#xff0c;也可以使用过滤器统一拦截校验实现&#xff0c;此篇文…

图形化编程桌面 跨部门协作的新工具

中午&#xff0c;阳光洒满大地&#xff0c;微风轻拂&#xff0c;给人带来温暖和活力。卧龙和凤雏在享用过午餐后&#xff0c;决定到公司附近的湖边散步&#xff0c;享受这难得的宁静时光。 卧龙望着湖面泛起的波光&#xff0c;顺手折下一根嫩绿的柳枝&#xff0c;在手中不停地摆…

运维别卷系列 - 云原生监控平台 之 04.prometheus 查询语句 promql 实践

文章目录 [toc]PromQL 简介什么是时间序列 PromQL 数据类型即时向量 Instant vector范围向量 Range vectorTime DurationsOffset modifier modifier 浮点值 Scalar字符串 String PromQL FUNCTIONSfloor()irate()rate()round()sort()sort_desc() PromQL 运算符算术运算符比较运算…

TortoiseGit的安装

TortoiseSvn和TortoiseGit都是针对代码进行版本管理的工具&#xff0c;又俗称小乌龟&#xff0c;简洁而可视化的操作界面&#xff0c;免去繁琐的命令行输入。只需要记住常用的几个操作步骤就能快速上手。 TortoiseGit安装 1、TortoiseGit作为git的版本管理工具 &#xff0c;但…

【PMP各章节易错的知识点记录】

PMP各章节易错的知识点记录 文章目录 PMP各章节易错的知识点记录前言第1-3章第4章 整合第5章 范围第6章 进度第7章 成本第8章 质量第9章 资源第10章 沟通第11章 风险第12章 采购第13章 相关方 前言 PMP各章节易错的知识点记录 第1-3章 一、商业论证、效益管理计划、成本效益分…