1什么是正则表达式
正则表达式,也称规则表达式(Regular Expression,在代码中常简写为RE)。
2为什么使用
用来匹配、替换一类具有相同规则字符串
3使用规则
3.1单字符:
3.2数量修饰:
3.3边界:
3.4分组:
3.5贪婪模式与非贪婪模式
贪婪模式:.* (匹配>=0次) .+ (匹配>=1次)
非贪婪模式:.*? .+?(加问号就是非贪婪)
3.6 匹配
3.6.1 re.I-忽略大小写
3.6.2 re.M-匹配多行
3.6.3 re.S-单行匹配
3.7 正则表达式函数
3.7.1 re.match()
3.7.2 re.search()
3.7.3 re.findall()
3.7.4 re.sub()
4 案例演示(爬取糗事百科图片)
4.1 爬虫思路:
① 确定网址
② 确定初始结束页
③ 发送请求获取内容
④ 获取图片列表
⑤ 写入文件并且下载单个图片
4.2 案例代码