在我们爬虫爬网过程中,我们需要用到Python3+selenium,Selenium是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等操作。对于一些JavaScript渲染的页面来说,这种抓取方式非常有效。
文章参考了博主崔庆才的文章:https://cuiqingcai.com/5052.html,在此表示感谢!
Selenium的安装
1.相关链接
官方网站:http://www.seleniumhq.org
GitHub:https://github.com/SeleniumHQ/selenium/tree/master/py
PyPI:https://pypi.python.org/pypi/selenium
官方文档:http://selenium-python.readthedocs.io
中文文档:http://selenium-python-zh.readthedocs.io
2.windows环境通过cmd命令行方式安装
pip3 install selenium
ChromeDriver驱动的安装
安装好了Selenium后,我们还需要浏览器来配合使用,因为它只是一个自动化测试工具,这里主要介绍ChromeDriver驱动的安装,安装好后可以打开Chrome浏览器。
1.相关链接
官方网站:https://sites.google.com/a/chromium.org/chromedriver
下载地址:https://chromedriver.storage.googleapis.com/index.html
2.安装Chrome浏览器
安装了Chrome浏览器后,点击Chrome菜单“帮助”→“关于Google Chrome”,查看Chrome的版本号,如图所示:
本人的版本号为64.0,需要去找到能够匹配这个版本浏览器的驱动。
3.下载ChromeDriver
打开ChromeDriver的官方网站,发现v2.35能够支持版本号为64.0,随后到ChromeDriver镜像站下载对应的安装包即可:https://chromedriver.storage.googleapis.com/index.html
为了方便查找驱动ChromeDriver能够支持的版本,可以查看以下selenium之chromedriver与chrome版本映射表
(参考博主huilan_same文章:http://blog.csdn.net/huilan_same/article/details/51896672)
chromedriver版本 | 支持的Chrome版本 |
---|---|
v2.35 | v62-64 |
v2.34 | v61-63 |
v2.33 | v60-62 |
v2.32 | v59-61 |
v2.31 | v58-60 |
v2.30 | v58-60 |
v2.29 | v56-58 |
v2.28 | v55-57 |
v2.27 | v54-56 |
v2.26 | v53-55 |
v2.25 | v53-55 |
v2.24 | v52-54 |
v2.23 | v51-53 |
v2.22 | v49-52 |
v2.21 | v46-50 |
v2.20 | v43-48 |
驱动的配置
在Windows下,将下载的ChromeDriver可执行文件chromedriver.exe拖到Python的Scripts目录下
然后通过以下代码在python环境测试是否安装成功
from selenium import webdriver
driver = webdriver.Chrome()
driver.maximize_window() # 最大化浏览器
driver.implicitly_wait(8) # 设置隐式时间等待
driver.get("https://www.baidu.com")
配置好相关环境后,以后爬虫相关操作需要用到Python3+selenium。