Day:006(1) | Python爬虫:高效数据抓取的编程技术(爬虫工具)

selenium介绍与安装

        Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。

        Selenium 可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。

        Selenium 自己不带浏览器,不支持浏览器的功能,它需要与第三方浏览器结合在一起才能使用。但是我们有时候需要让它内嵌在代码中运行,所以我们可以用一个叫 PhantomJS 的工具代替真实的浏览器。

PyPI网站下载 Selenium库https://pypi.org/simple/selenium/,也可以用 第三方管理器

Selenium 官方参考文档:https://selenium-python.readthedocs.io/index.html 

安装

pip install selenium

安装Firefox geckodriver 

安装firefox最新版本,添加Firefox可执行程序到系统环境变量。记得关闭firefox的自动更新

firefox下载地下:https://github.com/mozilla/geckodriver/releases

将下载的geckodriver.exe 放到path路径下 D:\Python\python_version\

安装ChromeDriver

http://chromedriver.storage.googleapis.com/index.html

注意
版本号要对应

下载下来的文件解压到 python_version\Scripts 

测试代码

# 导入 webdriver
from selenium import webdriver
# 要想调用键盘按键操作需要引入keys包
from selenium.webdriver.common.keys import Keys
# 调用环境变量指定的PhantomJS浏览器创建浏览器对象
driver = webdriver.Chrome()
# 如果没有在环境变量指定PhantomJS位置
# driver =webdriver.Chrome(executable_path="./phantomjs"))
# get方法会一直等到页面被完全加载,然后才会继续程序,通常测试会在这里选择 time.sleep(2)
driver.get("http://www.baidu.com/")
# 打印网页渲染后的源代码
print(driver.page_source)
# 生成新的页面快照
driver.save_screenshot("python爬虫.png")
# 获取当前url
print(driver.current_url)
# 关闭浏览器
driver.quit()

selenium 控制浏览器

最大化窗口

我们知道调用启动的浏览器不是全屏的,这样不会影响脚本的执行,但是有时候会影响我们“观看”脚本的执行。

browser = webdriver.Chrome()url= 'http://www.baidu.com'
browser.get(url)borwser.maximize_window()
 设置宽与高

最大化还是不够灵活,能不能随意的设置浏览的宽、高显示?当然是可以的。

browser = webdriver.Chrome()url= 'http://www.baidu.com'
browser.get(url)borwser.set_window_size(500,600)
 浏览器前进、后退

浏览器上有一个后退、前进按钮,对于浏览网页的人是比较方便的;对于做web自动化测试的同学来说应该算是一个比较难模拟的问题
其实很简单,下面看看python的实现方式

browser = webdriver.Chrome()#访问百度首页
first_url= 'http://www.baidu.com
browser.get(first_url)
time.sleep(2)#访问新闻页面
second_url='http://news.baidu.com
browser.get(second_url)
time.sleep(2)#返回(后退)到百度首页print "backto %s "%(first_url)
browser.back()
time.sleep(1)#前进到新闻页print "forward to %s"%(second_url)
browser.forward()
time.sleep(2)
browser.quit()

selenium元素定位

对象的定位应该是自动化的核心,要想操作一个对象,首先应该识别这个对象。

一个对象就是一个人一样,他会有各种的特征(属性),如比我们可以通过一个人的身份证号,姓名,或者他住在哪个街道、楼层、6门牌找到这个人。

对象定位

webdriver提供了对象定位方法

  • find_element(type,value)
  • find_elements(type,value)
利用 By 类来确定哪种选择方式 
from selenium.webdriver.common.by import By
chrome.find_element(by=By.ID,value='su')

By 类的一些属性如下 :

  • ID = "id"
  • NAME = "name"
  • XPATH = "xpath"
  • LINK_TEXT = "link text"
  • PARTIAL_LINK_TEXT = "partial link text"
  • TAG_NAME = "tag name"
  • CLASS_NAME = "class name"
  • CSS_SELECTOR = "css selector"
操作元素 

前面讲到了不少知识都是定位元素,定位只是第一步,定位之后需要对这个原素进行操作。

鼠标点击呢还是键盘输入,这要取决于我们定位的是按钮还输入框。

一般来说,webdriver中比较常用的操作对象的方法有下面几个:

  • click 点击对象
  • send_keys 在对象上模拟按键输入
  • clear 清除对象的内容,如果可以的话
from selenium import webdriver
from selenium.webdriver.chrome.service
import Service
from time import sleep
from selenium.webdriver.common.by import Bydef test_element():# 创建驱动对象s =
Service(executable_path='./chromedriver.exe'
)# 创建一个浏览器driver = webdriver.Chrome(service=s)# 打个百度driver.get('https://cn.bing.com/')sleep(2)# 获取 搜索框,并输出“百战”driver.find_element(By.ID,'sb_form_q').send
_keys('百战')sleep(1)# 获取 搜索按钮,并点击driver.find_element(By.ID,'search_icon').cl
ick()
if __name__ =='__main__':test_element()

selenium定位下拉菜单

包含下拉菜单页面

<html><head><meta http-equiv="content-type"
content="text/html;charset=utf-8" /><title>Level Locate</title>    <script type="text/javascript"
src="https://cdn.jsdelivr.net/npm/jquery@1.1
2.4/dist/jquery.min.js"></script><link
href="https://cdn.jsdelivr.net/npm/@bootcss/
v3.bootcss.com@1.0.9/dist/css/bootstrap.min.
css" rel="stylesheet" />        </head><body><h3>Level locate</h3><div class="span3 col-md-3">        <div class="well"><div class="dropdown"><a class="dropdowntoggle" data-toggle="dropdown"href="#">Link1</a><ul class="dropdownmenu" role="menu" aria-labelledby="dLabel"
id="dropdown1" ><li><a tabindex="-1"
href="http://www.bjsxt.com">Action</a></li><li><a tabindex="-1"
href="#">Another action</a></li><li><a tabindex="-1"
href="#">Something else here</a></li><li class="divider">
</li><li><a tabindex="-1"
href="#">Separated link</a></li></ul></div>                </div> </div><div class="span3 col-md-3">        <div class="well"><div class="dropdown"><a class="dropdowntoggle" data-toggle="dropdown"
href="#">Link2</a><ul class="dropdownmenu" role="menu" aria-labelledby="dLabel" ><li><a tabindex="-1"
href="#">Action</a></li><li><a tabindex="-1"
href="#">Another action</a></li><li><a tabindex="-1"
href="#">Something else here</a></li><li class="divider">
</li><li><a tabindex="-1"
href="#">Separated link</a></li></ul></div>                </div>            </div></body><scriptsrc="https://cdn.jsdelivr.net/npm/@bootcss/v3.bootcss.com@1.0.9/dist/js/bootstrap.min.js">
</script>
</html>
from selenium import webdriver
11from selenium.webdriver.chrome.service
import Service
from selenium.webdriver.common.by import By
import os
from time import sleepdef test_down_menu():# 创建一个驱动s = Service(executable_path='./chromedriver.exe')# 创建浏览器driver = webdriver.Chrome(service=s)# 设置方位的文件地址file_path ='file:///'+os.path.abspath('./html/test01.html')# 访问页面driver.get(file_path)# 定位父级元素driver.find_element(By.LINK_TEXT,'Link1').click()# 找到要移动的位置menu =
driver.find_element(By.LINK_TEXT,'Action')# 做一个移动光标的动作# 定义一个动作在driver移动到     menu的位置     执行动作#webdriver.ActionChains(driver).move_to_element(menu).perform()# sleep(2)# 定位子级元素menu.click()# 睡眠2秒sleep(2)# 关闭浏览器driver.quit()
if __name__ == '__main__':test_down_menu()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/807019.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++11 设计模式1. 模板方法(Template Method)模式学习。UML图

一 什么是 "模板方法&#xff08;Template Method&#xff09;模式" 在固定步骤确定的情况下&#xff0c;通过多态机制在多个子类中对每个步骤的细节进行差异化实现&#xff0c;这就是模板方法模式能够达到的效果。 模板方法模式属于&#xff1a;行为型模式。 二 &…

2024-4-10-day13-实战:商城首页(上)

个人主页&#xff1a;学习前端的小z 个人专栏&#xff1a;HTML5和CSS3悦读 本专栏旨在分享记录每日学习的前端知识和学习笔记的归纳总结&#xff0c;欢迎大家在评论区交流讨论&#xff01; 文章目录 ✍作业 ✍作业 .bg-backward {width: 60px; height: 60px;background: url(..…

Unity 通过权重做随机

我们可以通过Random.Range方法结合权重来实现随机选择。具体步骤如下&#xff1a; 首先&#xff0c;创建一个数组&#xff0c;其中包含你要选择的项目&#xff0c;并为每个项目分配一个权重值。 计算所有权重值的总和。 使用Random.Range生成一个介于0和总权重之间的随机数。…

常见分类算法

一、ChatGPT 在人工智能和机器学习领域&#xff0c;分类算法是一种监督学习技术&#xff0c;用来识别输入数据所属的类别。以下是一些常见的分类算法&#xff1a; 1. 决策树&#xff08;Decision Trees&#xff09;: 决策树通过创建一系列的问题或决策&#xff0c;来将数据…

让我看看谁还在用conda?

目录 前言下载方式安装命令使用方式及小技巧一些常用的命令安装软件小技巧一些关于conda环境的建议 最后 前言 相信大家在用conda的时候都遇到过各种各样的问题吧&#xff0c;比如创建环境非常缓慢、安装软件并解析依赖的速度非常感人等&#xff0c;有时候等待半小时甚至更久最…

mysql查询某条记录所在的行号

有时候我们想知道某条记录在表中的多少行&#xff0c;这样我们就可以开始继续上一次的任务了。 下面是SQL&#xff0c;可以直接执行&#xff0c;把表名改成自己真实的表名就好了&#xff0c;还得注意下子查询的排序&#xff0c;也得按自己真实需求来即可&#xff1a; SET row…

Mongodb入门--头歌实验MongoDB数据库安全

MongoDB 默认的启动是不验证用户名和密码的&#xff0c;启动 MongoDB 服务后&#xff0c;可以直接用命令 mongo 连接上来&#xff0c;对所有的库具有 root 权限。 这种情况下数据就像在“裸奔”一样&#xff0c;任何人都能修改我们的数据&#xff0c;所以我们要添加一些限制&a…

小样本计数网络FamNet(Learning To Count Everything)

小样本计数网络FamNet(Learning To Count Everything) 大多数计数方法都仅仅针对一类特定的物体&#xff0c;如人群计数、汽车计数、动物计数等。一些方法可以进行多类物体的计数&#xff0c;但是training set中的类别和test set中的类别必须是相同的。 为了增加计数方法的可拓…

构建你的第一个知识图谱项目:从零开始

构建你的第一个知识图谱项目&#xff1a;从零开始 引言 在数据驱动的世界中&#xff0c;知识图谱不仅仅是一个概念上的创新&#xff0c;它已经成为了连接复杂信息、提供深入见解的强大工具。无论您是数据科学家、软件开发人员还是业务分析师&#xff0c;构建知识图谱可以帮助您…

二百三十、MySQL——MySQL表的索引

1 目的 梳理一下目前MySQL维度表的索引情况&#xff0c;当然网上也有其他博客专门讲MySQL索引的&#xff0c;我这边只是梳理一下目前的索引状况而已 2单列索引 2.1 索引截图 2.2 建表语句 3 联合索引 3.1 索引截图 3.2 建表语句 4 参考的优秀博客 http://t.csdnimg.cn/ZF7…

Ubuntu Desktop:创建桌面启动图标

Ubuntu Desktop&#xff1a;创建桌面启动图标 在Ubuntu Desktop上创建桌面启动图标是一个相对简单的过程&#xff0c;可以帮助用户快速访问他们最常用的应用程序。本文旨在指导你完成创建一个桌面启动图标的步骤&#xff0c;从而使你能够轻松启动你的应用程序。 为什么创建桌…

网络IO模型以及实际应用

网络IO模型 本文主要介绍了几种不同的网络IO模型&#xff0c;以及实际应用中使用到的Reactor模型等。 我们常说的网络IO模型&#xff0c;主要包含阻塞IO、非阻塞IO、多路复用IO、信号驱动IO、异步IO。 根据第一个阶段&#xff1a;是否需要阻塞&#xff0c;分为阻塞和非阻塞IO。…

Linux双网卡默认路由优先级设置不正确,导致网络不通问题定位

问题描述 RHEL9 双网卡环境&#xff0c;两个网卡配置如下&#xff1a;(eth0 走内网&#xff0c;eth1 走外网) eth0 192.168.10.20/24 网关: 192.168.10.254 eth1 10.206.216.92/24 网关: 10.206.216.254配置完成后&#xff0c;curl https://www.baidu.com访问百度失…

国税发票查验接口、电子增值税发票查验接口、数电票查验接口

翔云发票查验接口支持增值税发票管理系统开具发票的真伪&#xff0c;通过发票代码、号码、日期、金额、校验码四要素信息进行真伪的查验&#xff0c;支持返回全票面信息&#xff0c;API接口便于集成&#xff0c;可适用于多种应用场景。 发票查验接口python调用示例&#xff1a;…

外包干了17天,技术倒退明显

先说情况&#xff0c;大专毕业&#xff0c;18年通过校招进入湖南某软件公司&#xff0c;干了接近6年的功能测试&#xff0c;今年年初&#xff0c;感觉自己不能够在这样下去了&#xff0c;长时间呆在一个舒适的环境会让一个人堕落&#xff01; 而我已经在一个企业干了四年的功能…

web自动化测试系列-selenium xpath定位方法详解(六)

1.xpath介绍 XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。而html中也应用了这种语言 &#xff0c;所以 &#xff0c;我们定位html页面元素时也会用到xpath这种方法 。 2.xpath定位方式 xpath主要通过以下四种方法定位 &#…

白帽工具箱:Metasploit框架中的db_nmap扫描艺术

&#x1f31f;&#x1f30c; 欢迎来到知识与创意的殿堂 — 远见阁小民的世界&#xff01;&#x1f680; &#x1f31f;&#x1f9ed; 在这里&#xff0c;我们一起探索技术的奥秘&#xff0c;一起在知识的海洋中遨游。 &#x1f31f;&#x1f9ed; 在这里&#xff0c;每个错误都…

有趣的css - 太极八卦图

大家好&#xff0c;我是 Just&#xff0c;这里是「设计师工作日常」&#xff0c;今天分享的是用css 实现一个动态的太极八卦图。 《有趣的css》系列最新实例通过公众号「设计师工作日常」发布。 目录 整体效果核心代码html 代码css 部分代码 完整代码如下html 页面css 样式页面…

Netty出坑记

NIO&#xff1a; 一个线程处理多个请求 BIO&#xff1a; 阻塞 netty 编码解码 TFO&#xff1a; 校验cookie合法性&#xff0c;不合法 TCP流程 设计QQ&#xff1a; 登录过程&#xff0c;client TCP协议向server发送信息&#xff0c;HTTP协议下载信息 发消息&#xff1a;clie…

云服务器上Docker启动的MySQL会自动删除数据库的问题

一、问题说明 除了常见的情况&#xff0c;例如没有实现数据挂载&#xff0c;导致数据丢失外&#xff0c;还需要考虑数据库是否被攻击&#xff0c;下图 REVOVER_YOUR_DATA 就代表被勒索了&#xff0c;这种情况通常是数据库端口使用了默认端口&#xff08;3306&#xff09;且密码…