python爬虫第一课 开发环境配置

一、Python3的安装

二、请求库的安装

1、requests的安装

直接pip安装:pip3 install requests

2、Selenium的安装

selenium是一个自动测试化工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等操作。

直接pip安装:pip install selenium

3、ChromeDriver的安装

首先下载Chrome浏览器,并记住Chrome的版本号。然后下载ChromDriver,下载完成之后需要进行环境变量的配置,直接将chromedriver.exe复制到python的Scripts目录下。

当然,可以在命令行下进行验证:chromedriver。

4、PhantomJS的安装

百度下载安装包之后,将其exte文件放在python3的Scripts目录下,安装之后进行在命令行下进行测试:phantomjs。

5、aiohttp的安装

直接进行 pip3 install aiohttp

此外同时推荐安装两个库,一个是字符编码检测库cchardet,另一个是加速DNS的解析库aiodns。

直接进行 pip3 install cchardet aiodns

三、解析库的安装

1、lxml的安装

直接进行 pip install lxml

lxml是python的一个解析库,支持HTML和XML的解析,支持XPath的解析方式,而且解析效率非常高。

2、Beautiful Soup的安装

Beautiful Soup是python的HTML或XML的解析库,可以用来方便的从网页上提取数据。注意:Beautiful Soup的HTML和XML的解析器是依赖于lxml库的。

3、pyquery的安装

同样是一个强大的网页解析工具,它提供了和jQuery类似的语法来解析HTML文档,支持CSS选择器,使用非常方便。

直接进行 pip3 install pyquery 

4、tessserocr的安装

--------------待续。。。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/273972.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

用JSLint精炼提升JavaScript代码

由于移动应用的盛行和HTML5的广泛运用,JavaScript正越来越流行。JavaScript受欢迎的部分原因是因为它的灵活便捷,你可以快速上手,它不需要重量级的开发环境,也不需要第三方应用支持,只要你打开一个文本编辑器&#xff…

pymssql出现的错误

安装pymssql出现的错误:如下:---------------------------------------- Failed building wheel for pymssqlRunning setup.py clean for pymssql Failed to build pymssql Installing collected packages: pymssqlRunning setup.py install for pymssq…

javascript设计思维

//一.把参数当作私有变量使用 (function (a, b) {//把参数当作私有变量使用,省略了var,也节省了行数console.log(b) //undefined,所有未赋值的变量均为undefined })(window);//二.把参数作为参数使用 var obj_init function (b, d, f) {//1…

linux第一章简答

linux第一章简答题: 1、你在你的主机上面安装了一张网卡,但是开机之后,系统却无法使用,你确定网卡是好的,那么可能的问题出在哪里?该如何解决? 答:因为所有的硬件都没有问题&#xf…

(原创)一个和c#中LazyT类似的c++ LazyT类的实现

在.net 4.0中增加一个延迟加载类Lazy<T>&#xff0c;它的作用是实现按需延迟加载&#xff0c;也许很多人用过。一个典型的应用场景是这样的&#xff1a;当初始化某个对象时&#xff0c;该对象引用了一个大对象&#xff0c;需要创建&#xff0c;这个对象的创建时需要较长的…

网页选项卡的应用

&#xff08;1&#xff09;功能描述&#xff1a; 在页面中&#xff0c;设置三个不同名称的选项卡&#xff0c;当单机某个选项卡时&#xff0c;下面相对应的区域显示其内容信息&#xff0c;同时选项卡的背景色与内容信息的背景色浑然一体&#xff0c;并且字体加粗&#xff0c;表…

python 爬虫-beautifulsoup4

利用它可以不用编写正则表达式即可方便的实现网页信息的提取。 pip3 install beautifulsoup4 用法讲解&#xff1a;常用解析库&#xff1a; lxml HTML解析器 lxml XML解析器 from bs4 import BeautifulSoup soup BeautifulSoup(html,lxml) print(soup.prettify()) #格式化代…

魔兽控制命令ID

来源:http://tieba.baidu.com/p/1084211586本次技能ID大全共收录ID368条不包括重复的ID&#xff0c;物品类技能的ID使用必须将物品技能单独抽离出来并设置“物品技能false”&#xff0c;拥有命令字符串的物品请参考拥有相同字符串的4族中立技能。P.S所有ID都是按照从小到大的顺…

python爬虫框架--scrapy 基本使用

流程框架&#xff1a; 1、抓取第一页&#xff1a;请求第一页的URL并得到源代码&#xff0c;进行下一步分析。 2、获取内容和下一页链接&#xff1a;分析源代码&#xff0c;提取首页内容&#xff0c;获取下一页链接等待进一步爬取。 3、保存爬取结果&#xff1a;将爬取结果保存为…

jsp页面的使用

public void doGet(HttpServletRequest request, HttpServletResponse response)throws ServletException, IOException {//1.获取资源文件 InputStream isthis.getServletContext().getResourceAsStream("/WEB-INF/classes/db.properties"); Str…

python爬虫安装错误与解决方式

# 安装错误&#xff1a; error:Microsoft Visual C 14.0 is required... 下载地址&#xff1a;http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted pip install xxx.whl # 运行错误 1&#xff1a; from .. Import etree ImportError:DLL load failed pip uninstall lx…

工欲善其事必先利其器系列之:在VS里面折叠js代码

之前用vs写js的时候经常因为js代码过长而且不能像cs文件里面的方法一样进行折叠而抓狂,直到在扩展库发现了这款插件有了它就可以把代码进行折叠了 插件地址转载于:https://www.cnblogs.com/Chendaqian/p/3396702.html

python- 基础 map方法

python中map()函数 map()是 Python 内置的高阶函数&#xff0c;它接收一个函数 f 和一个 list&#xff0c;并通过把函数 f 依次作用在 list 的每个元素上&#xff0c;得到一个新的 list 并返回。 例如&#xff0c;对于list [1, 2, 3, 4, 5, 6, 7, 8, 9] 如果希望把list的每个…

C算法编程题(二)正螺旋

前言 上一篇《C算法编程题&#xff08;一&#xff09;扑克牌发牌》 写东西前总是喜欢吐槽一些东西&#xff0c;还是多啰嗦几句吧&#xff0c;早上看了一篇博文《谈谈外企涨工资那些事》&#xff0c;里面楼主讲到外企公司包含的五类人&#xff0c;其实不只是外企如此&#xff0c…

同时获取同一等级下多个class值的节点的方法

方法&#xff1a; tr_ soup.find("div", class_"mod_cont fcolor30").find_all("tr", attrs{"class":["md_tr font14 bgcolor-s","md_tr font14 bgcolor"]}) 同时获取两个不同的class.例如&#xff1a; 当Beauti…

【循序渐进学Python】6.Python中的函数

1. 创建函数 一个函数代表一个行为并且返回一个结果(包括None)&#xff0c;在Python中使用def关键字来定义一个函数&#xff0c;如下&#xff1a; def hello(name):print hello, name ! 接下来调用函数&#xff0c;并查看其返回值&#xff1a; # output: # hello,gy! # None …

求子数组的最大和

穷举法&#xff1a; int MaxSubArraySum(int a[], int n) { int i, j, MaxSum 0, tmpSum, cnt; for (i1; i<n; i) { for (j0; ji<n; j) { cnt 0; tmpSum 0; while (cnt < i) { tmpSum a[jcnt]; cnt; } if (MaxSum < tmpSum) { MaxSum tmpSum; } } } return Ma…

scrapy框架-post使用

scrapy中使用FormRequest向网页提交数据 Scrapy post使用 如何post data&#xff1a; http://httpbin.org/post FormRequest : post请求 GitHub Login 借助浏览器分析登陆行为。 分析post的内容先尝试一次错误的登陆&#xff1a;如下&#xff1a;分析&#xff1a;需要post…

duilib进阶教程 -- 改进窗口拖动 (12)

现在大家应该都知道caption"0,0,0,32"&#xff0c;是指示标题栏区了吧&#xff0c;如果想要整个窗口都能拖动呢&#xff1f; 那直接把高度改成和窗口一样不就得了~O(∩_∩)O~ 嗯&#xff0c;这样是可以&#xff0c;比如窗口高度是600&#xff0c;那么我们指定caption…

python- 基础 range方法的使用

1、第一种用法 index[1,2,0,5,9,8,10,6,4,7] for i in range(len(index)): print(index[i]) 结果&#xff1a; λ py test.py 1 2 0 5 9 8 10 6 4 7 2、第二种用法&#xff1a; index[1,2,0,5,9,8,10,6,4,7] for i in range(0,len(index),2): print(index[i]) 运…