爬虫学习的一点心得
登陆主要有3种方法:使用selenium,cookies,模拟表单登陆
个人对于一般情况使用cookies登陆
可以实现一次手动,长期自动,可以绕过登陆(登陆的相关信息密码,账号等会存于cookies中)
注意:get网页信息时候最好是先建立一个session,不要直接requests.get(),否则对服务器而言相当于每次新开一个浏览器来访问容易被识别,不符合用户行为
先创建一个session,然后每次都用同一个session去访问,注意对于HTTPS的网站,需要带上参数verify=False,否则爬虫会报错!