python算法详解豆瓣_豆瓣爬虫实践-python版

豆瓣登录,无验证码版:

import requests

#starturl = "https://www.douban.com/accounts/login"

loginurl = "https://accounts.douban.com/login"

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36',

'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',

}

fromdata ={'source':'None',

'redir':'https://shanghai.douban.com/',

'form_email':'yourAccount',

'form_password':'password',

'login':'登录'}

s = requests.Session()

s.headers.update(headers)

resp = s.post(loginurl,fromdata)

with open('douban.html','wb') as f:

f.write(resp.text.encode('utf-8'))

print(resp.status_code)

print(resp.cookies)

s.close()

豆瓣TOP250电影爬虫

import requests

from bs4 import BeautifulSoup

def getContent(bsItem):

content=[]

content.append(item.find('a')['href'])

film=item.find_all('span',{'class':'title'})

film[0]=film[0].string

if len(film) > 1:

film[1]=film[1].string.replace(u'\xa0','').replace(r'/','')

else:

film.append('无外语名')

content.append(film)

content.append(item.find('span',{'class':'rating_num'}).string)

content.append(item.find('span',{'class':'','property':''}).string)

return content

starturl = 'https://movie.douban.com/top250'

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36',

'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',

}

params={'start':0}

s = requests.Session()

s.headers.update(headers)

curpage = 0

with open('doubanfilm.txt','w',encoding='utf-8') as f:

while(curpage<250):

params['start'] = curpage

resp = s.get(starturl,params=params)

bs = BeautifulSoup(resp.text,'html.parser')

for item in bs.find_all('div',{"class":'info'}):

f.write(str(getContent(item))+'\n')

curpage += 25

print('bug end')

s.close()

python,生活因你而精彩!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/563473.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python项目打包部署到ios_Python iOS 自动打包脚本(包含上传到fir)

Python iOS自动打包脚本使用说明1.1 使用python3编写&#xff0c;没有python3 环境的需要下载python3python官网下载1.2 通过Homebrew安装Python31.2.1 先搜索$ brew search python输出&#xff1a;app-engine-python micropython python3boost-python python wxpythongst-pyth…

stlink 升级固件以后失败_ST-Link不能下载程序的几种解决办法

一直在用J-LINK&#xff0c;最近改用ST-Link&#xff0c;出现了不少无法下载程序的情况&#xff0c;这里列出几种解决的办法(针对STM32F103系列)&#xff1a;1#是不是你没有选择Flash算法&#xff1f;什么都没有加的话&#xff0c;会提示“找不到Flash算法”的哦2#是不是你JTAG…

cnsl是什么意思_VS2010下创建静态链接库和动态链接库

VS2010下创建静态链接库和动态链接库类封装成dll如果你的工作长期与某个领域相关&#xff0c;比如说长期做直接体绘制 (DVR)方面的开发&#xff0c;那么你可能经常使用自己的传递函数类&#xff0c;如果每一个工程你都把传递函数类的.h和.cpp文件添加进去会比较麻烦&#xff0c…

java hash取余_为什么Java的hash表的长度一直是2的指数次幂?为什么这个(hash(h-1)=hash%h)位运算公式等价于取余运算?...

1.什么是hash表&#xff1f;答&#xff1a;简单回答散列表&#xff0c;在hash结构散列(分散)存放的一种数据集结构。2.如何散列排布&#xff0c;如何均匀排布&#xff1f;答&#xff1a;取余运算3.Java中如何实现&#xff1f;答&#xff1a;hash&(h-1)4.为什么hash&(h-…

java .net 3des_Java.net3DES差异及互通

主要差异如下&#xff1a;1、 对于待加密解密的数据&#xff0c;各自的填充模式不一样C#的模式有&#xff1a;ANSIX923、ISO10126、None、PKCS7、Zero&#xff0c;而Java有&#xff1a;NoPadding、PKCS5Padding、SSL3Padding2、 各自默认的3DES实现&#xff0c;模式和填充方式…

生产调度java程序原码_Rxjava的线程调度源码解析

代码调用Observable.just(1).subscribeOn(Schedulers.io()).observeOn(AndroidSchedulers.mainThread()).subscribe(new Consumer() {Overridepublic void accept(Integer integer) throws Exception {}});直接进入主题&#xff0c;先看subscribe中调用了哪些方法//Observable.…

linux 触摸屏测试源码_Linux触摸屏驱动

问题二&#xff1a;echo "ac_cv_func_malloc_0_nonnullyes" >arm-linux.cache//避免检查ac_cv_func_malloc_0_nonnull若出现提示: undefined reference to rpl_malloc解决&#xff1a;发现config.h.in和config.h里定义了#undef malloc#undef realloc把这两个用//注…

java有没有number数据类型_Java基本数据类型之Number

数据类型byte&#xff1a;byte数据类型是8位、有符号的&#xff0c;以二进制补码表示的整数&#xff1b;最小值是-128(-2^7)&#xff1b;最大值是127(2^7-1)&#xff1b;byte类型用在大型数组中节约空间&#xff0c;主要代替整数&#xff0c;因为byte变量占用的空间只有int类型…

java中main缺少主体_缺少方法主体,或声明了摘要

我收到此错误消息&#xff1a;线程“主”中的异常java.lang.RuntimeException&#xff1a;无法编译的源代码-错误的符号类型&#xff1a;PetTest.main(PetTest.java:18)上的Pet.saySomething Java结果&#xff1a;1这是我所拥有的&#xff1a;对于Speak课堂&#xff0c;public …

java获取b站动态列表地址_爬虫入门(三)爬取b站搜索页视频分析(动态页面,DBUtils存储)...

这一次终于到了分析b站视频了。开始体会到写博客非常占用学技术的时间&#xff0c;但是还是希望能总结&#xff0c;沉淀下来。工具&#xff1a;使用Webmaigc框架&#xff0c;DBUtils&#xff0c;C3P0连接池。分析过程&#xff1a;b站的搜索页面是这样的。如果浏览器右键查看源代…

python a和b字符串和占位符输出_Python占位符的使用与format函数字符串格式化详解...

Python字符串格式化01字符串的格式化分类字符串的格式化方法共两种&#xff1a;占位符(%)与format方式。占位符方式在Python2比较常见&#xff0c;随着Python3到来&#xff0c;format方式变得广泛起来&#xff0c;format函数常与print()函数结合使用&#xff0c;具备很强的格式…

python list tuple 消耗_Python内存消耗:dict VS元组列表

在这种情况下&#xff0c;你实际上得到了一个不完整的内存使用图片。字典的总大小以不规则的间隔增加一倍以上&#xff0c;如果在字典大小增加后比较这两个结构的大小&#xff0c;它会再次变大。一个带有递归大小函数的简单脚本(见下面的代码)显示了一个非常清晰的模式&#xf…

python 项目构建工具_GitHub - shjlone/emake: 你见过的最简单的 GCC/CLANG 项目构建工具(python3版本)...

python3实现版本PrefaceGNU Make 太麻烦&#xff1f;Makefile 写起来太臃肿&#xff1f;头文件依赖生成搞不定&#xff1f;多核同时编译太麻烦&#xff1f;Emake 帮你解决这些问题&#xff1a;使用简单&#xff1a;设定源文件&#xff0c;设定编译参数和输出目标就行了&#xf…

18135usm_佳能PZ-E1+EF-S 18-135mm f/3.5-5.6 IS USM镜头 小型工作室的利器

EF-S 18-135mm f/3.5-5.6 IS USM 在大神眼里据对是属于狗头系列的 哈哈哈 但是这货如果搭配佳能的 PZ-E1 在配合佳能80D 那绝对是小型视频工作室的首选 &#xff01;&#xff01;&#xff01;mxcpTB2rqUOg80kpuFjSsppXXcGTXXa_!!104284319.jpg (156.5 KB, 下载次数: 1)2017-3-…

开启php缩略图,PHP生成缩略图

//参数1 文件名 参数2 缩放比例function _thumb($_filename,$_percent){ob_clean();//生成png标头文件header(Content-type:image/png);$_nexplode(., $_filename);//获取文件的信息,宽和高list($_width,$_height)getimagesize($_filename);//生成缩略后的大小$_new_wid…

php项目中sql,php – 大括号{}在SQL查询中做了什么?

有关双引号字符串语法,请参见http://www.php.net/manual/de/language.types.string.php#language.types.string.parsing.花括号用于复杂的变量表达式.它们由PHP解释,而不是由SQL接口解释.$query "SELECT * FROM users WHERE user$_POST[username] AND password$_POST[pas…

php获取本机ip外网地址,php获取本机ip(远程IP地址)

例子&#xff0c;php获取用户IP地址。复制代码 代码示例:// 111111111111echo $_SERVER[REMOTE_ADDR];// 2222222222222function get_local_ip() {$preg "/\A((([0-9]?[0-9])|(1[0-9]{2})|(2[0-4][0-9])|(25[0-5]))\.){3}(([0-9]?[0-9])|(1[0-9]{2})|(2[0-4][0-9])|(25…

php打png图片水印颜色失真,ThinkPHP水印功能实现修复PNG透明水印并增加JPEG图片质量可调整...

/**———————————————————-* 为图片添加水印———————————————————-* static public———————————————————-* param string $source 原文件名* param string $water 水印图片* param string $$savename 添加水印后的图片名…

java服务器要二次编译,ecology项目二次开发环境搭建

ecology项目二次开发环境搭建Submitted By Weaver文档版本控制文档简要信息&#xff1a;文档主题(Title)ecology项目二次开发环境搭建作者(Author)审批者 (To Be Approved By)说明 (Comments)ecology项目二次开发环境搭建文件名称 (File Name)文档版本历史&#xff1a;序号日期…

matlab基础试题,MATLAB基础试题题目及答案,课程2020最新期末考试题库,章节测验答案...

【判断题】手指第一关节应该始终保持支撑。【单选题】如果陈先生购买了一套 200 万的住房(家庭首套住房)&#xff0c;房屋面积为 105 平方米&#xff0c;容积率为 3.0&#xff0c; 房价低于当地平均价格&#xff0c;则他要缴纳的契税为( )万元。在做高抬指练习时注意下键速度要…