系列学习笔记参考:python3网络爬虫开发实战
requests
# pip install requests
import requests
selenium
Selenium是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等 操作 。 对于一些 JavaScript谊染的页面来说,这种抓取方式非常有效.
# pip install selenium
import selenium
ChromDriver
点击 Chrome菜单“帮助”→“关于 GoogleChrome”,即可查看 Chrome 的版本号.
在网站:http://chromedriver.chromium.org/downloads下载对应版本的文件,下载后解压文件到/usr/bin 里面
解决方法参考:https://www.cnblogs.com/silentdoer/p/8946946.html,感觉挺靠谱,不过我本机上没成功,没敢在捣鼓
尝试其他方式:
将当前可执行文件放在/usr/local/chromedriver 目录下(没有就自己新建一个),接下来可以修改~/.profile文件,
export PATH=” $PATH:/usr/local/chromedriver" 保存后执行如下命令:
source ~/. profile
报错:
解决参考:https://stackoverflow.com/questions/40157445/mac-terminal-error-bash-users-tim-profile-no-such-file-or-directory
touch ~/.profile
配置完成后,就可以在命令行下直接执行 chromedriver命令了:
chromedriver
在python编辑器上执行
from selenium import webdriver
browser = webdriver.Chrome()
闪退,报错,提示版本对不上(之前装过73版本的,在/usr/bin路径上),需要把该路径上的文件删除了。
解决方法,修改/usr/bin 下面的权限,参考:https://www.jianshu.com/p/c658973eb122,修改后重启,记得修改回来,修改回来脚本:csrutil enable
替换掉旧的就可以了
GeckoDriver
Firefox来说, 也可以使用同样的方式完成 Selenium的对接,这时需要安装另一个驱动GeckoDriver
下载地址:https://github.com/mozilla/geckodriver/releases
步骤和上面一样,也是修改/usr/bin 的权限
from selenium import webdriver
brower = webdriver.Firefox()
PhantomJS
PhantomJS是一个无界面的、可脚本编程的 WebKit浏览器引擎,它原生支持多种 Web标准: DOM操作、 css选择器、 JSON、 Canvas以及 SVG。
Selenium支持 PhantomJS,这样在运行的时候就不会再弹出 一个浏览器了
不过鉴于目前selenium不在支持PhantomJS,这里不在进行安装。
相关新闻查看:http://www.sohu.com/a/224999034_100122143
pyquery
pyquery同样是一个强大的网页解析工具,它提供了和jQuery类似的语法来解析HTML文梢, 支 持 css选择器。
pip install pyquery
tesserocr
在 Mac下,我们首先使用 Homebrew安装 ImageMagick和 tesseract库 :
brew install imagemagick
brew install tesseract --all-languages
接下来再安装 tesserocr即可: pip3 install tesserocr pillow
这样我们便完成了 tesserocr的安装
在用homebrew 安装的时候如果遇到update brew,解决方式参考:https://learnku.com/articles/18908
安装好后,试验下下面的图片,图片地址:
https://raw.githubusercontent.com/Python3WebSpider/TestTess/master/image.png
到图片路径下面,执行:
tesseract image.png result -l eng && cat result.txt
结果:
嗷嗷