爬虫5-BeautifulSoup模块简解2

1.BeautifulSoup简解2 

from bs4 import BeautifulSoup
import re
file = open("./baidu.html",'rb')
html = file.read()
bs = BeautifulSoup(html,"html.parser")  # 解析内容 解析器# 1 Tag 标签及其内容:拿到它所找到的第一个内容
print(bs.title)  # <title>Title</title>
print(bs.title.string)  # Title
print(bs.a)  # 拿到第一个出现的标签及所有内容
print(type(bs.a))  # Tag html里的标签# # 2 NavigableString  标签里的内容
print(bs.a.attrs)
print(bs.a.string)# 3 BeautifulSoup 表示整个文档
print(type(bs))
print(bs.name)
print(bs.attrs)
print(bs)# 4Comment 是一个特殊的NavigableString 输出的内容不包含注释符号
print(type(bs.a.string))# ------------------------------应用----------------------------------# 文档的遍历
print(bs.head.contents)  # 获取Tag的所有子节点,返回一个list
print(bs.head.contents[3])  # 获取内容# 文档的搜索
# (1)find_all()
# 字符串过滤,会查找与字符串完全匹配的内容
t_list= bs.find_all('a')
print(t_list)# 正则表达式搜索 :使用search()方法来匹配内容
t_list = bs.find_all(re.compile("a"))  # 包含a的所有标签及其字样的所有内容
print(t_list)# # 用方法:传入一个函数,根据函数要求搜索
def name_is_exists(tag):return tag.has_attr("name")
t_list = bs.find_all(name_is_exists)
print(t_list)# kwargs 参数
t_list = bs.find_all(id="head")
for i in t_list:print(i)t_list = bs.find_all(class_=True)
print(t_list)
t_list = bs.find_all(href="http://news.baidu.com")
print(t_list)# 3.text参数
t_list = bs.find_all(text='hao123')
print(t_list)
t_list = bs.find_all(text=['hao123','地图','贴吧'])
print(t_list)
t_list = bs.find_all(text=re.compile("\d"))# 用正则表达式来查找包含特定文本的内容
print(t_list)# 4.limit
t_list = bs.find_all('a',limit=3)
print(t_list)# CSS 选择器
print(bs.select('title'))  # 通过标签来查找
print(bs.select('.mnav'))  # 通过类名来查找
print(bs.select('#ul'))  # 通过id来查找
print(bs.select("a[class='bri']"))  # 通过属性来查找
t_list = bs.select("head > title")
print(t_list[0])   # <title>Title</title>
print(t_list[0].get_text())  # Title

2、应用

from bs4 import BeautifulSoup
import re
import urllib
findLink = re.compile(r'<a href=(.*?)>')
findimg = re.compile(r'<img.*src="(.*?)"', re.S)
findtitle = re.compile(r'<span class="title">(.*?)</span>', re.S)
findscore= re.compile(r'<span class="rating_num" property="v:average">(.*?)</span>', re.S)
findjudge = re.compile(r'<span>(\d+)人评价</span>', re.S)
findInq = re.compile(r'<span class="inq">(.*)</span>', re.S)
findBd = re.compile(r'<p class="">.*?</p>',re.S)
def main():baseurl = "http://movie.douban.com/top250?start="# 1.爬取网页datalist = getData(baseurl)# 3.保存数据savepath =r'.\\豆瓣电影top250.xls'# saveData(savepath)# askURL("http://movie.douban.com/top250?start=0")# 爬取网页
def getData(baseurl):datalist = []for i in range(0,1):url = baseurl + str(i*25)html = askURL(url)  # 保存获取到的网页源码# 2.逐一进行解析soup = BeautifulSoup(html,"html.parser")for item in soup.find_all('div',class_="item"):  # 查找符合要求的字符串 形成列表# print(item)data = []  # 保存一部电影的所有信息# 影片详情的链接item = str(item)link = re.findall(findLink,item)[0]   #通过正则表达式查找指定的字符串data.append(link)imgsrc = re.findall(findimg,item)data.append(imgsrc)titles = re.findall(findtitle, item)if len(titles)==2:ctitle=titles[0]data.append(ctitle)otitle = titles[1].replace("/","")data.append(otitle)else:data.append(titles[0])data.append(' ')  #  留空score = re.findall(findscore, item)[0]    # 评分data.append(score)judgenum = re.findall(findjudge, item)[0]    # 评价人数data.append(judgenum)inq = re.findall(findInq, item)  # 概述if len(inq)!=0:inq = inq[0].replace(". ","")data.append(inq)else:data.append(" ")bd = re.findall(findBd, item)[0]  # 导演bd  = re.sub('<br(\s+)?/>(\s+)?'," ",bd)bd =  re.sub('/', "", bd)data.append(bd.strip()) # 去掉前后的空格print(data)datalist.append(data)return datalistdef askURL(url):head = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)"" Chrome/89.0.4389.128 Safari/537.36"}  #用户代理 我们是什么类型的机器(本质告诉浏览器 我们接收什么样的信息)request = urllib.request.Request(url, headers=head)html = ""try:response = urllib.request.urlopen(request)html = response.read().decode('utf-8')# print(html)except urllib.error.URLError as e:if hasattr(e,"code"):print(e.code)if hasattr(e,"reason"):print(e.reason)return html# 3.保存数据
def saveData(savepath):passif __name__=="__main__":main()

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/567624.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python lxml xpath_Python/lxml/Xpath:如何找到包含特定文本的行?

例如&#xff0c;要获得一个类似以下内容的输出&#xff0c;需要什么“现金和短期投资144841 169760 189252 86743 57379”&#xff1f;或者类似“物业、厂房和设备-总价值725104 632332 571467 538805 465493”&#xff1f;在我已经通过siteshttp://www.techchorus.net/web-sc…

数据清洗-python实践

# -*- coding: utf-8 -*-import pymysql import numpy as npy import pandas as pda import matplotlib.pylab as pyl import matplotlib.pyplot as plt#导入数据 connpymysql.connect(host"127.0.0.1",user"root",passwd"123456",db"爬虫1…

mockito mock void方法_一文让你快速上手 Mockito 单元测试框架

前言在计算机编程中&#xff0c;单元测试是一种软件测试方法&#xff0c;通过该方法可以测试源代码的各个单元功能是否适合使用。为代码编写单元测试有很多好处&#xff0c;包括可以及早的发现代码错误&#xff0c;促进更改&#xff0c;简化集成&#xff0c;方便代码重构以及许…

爬虫-淘宝

import bs4 import requests import xlwt import datetime params{ user-agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36 } date datetime.datetime.now().strftime(%Y-%m-%d) # 给文件打上时间戳…

vs winform常用函数_使用.net core3.0 正式版创建Winform程序

前阵子一直期待.net core3.0正式版本的出来&#xff0c;以为这个版本出来&#xff0c;Winform程序又迎来一次新生了&#xff0c;不过9.23日出来的马上下载更新VS&#xff0c;创建新的.net core Winform项目&#xff0c;发现并没有Winform窗体设计器。而微软目前则是通过插件的方…

VScode中编写运行C/html文件

VScode运行C程序的所需配置 VScode只是一个编辑器&#xff0c;并不自带C编译器&#xff0c;所以需要 下载mingw 下载安装版本或者压缩文件&#xff0c;解压缩后&#xff0c;配置系统的环境变量。 path中添加mingw/bin的路径 新建include变量&#xff0c;添加mingw/include的路径…

linq结果转换object_你知道Object.entries(),但你还知道有Object.fromEntries()吗?

我们得到 object.entries()&#xff0c;它转换一个object → array。但是&#xff0c;如果您想做相反的事情怎么办&#xff1f;不用再想了&#xff01; 使用 Object.fromEntries() 来array → object 。const keyValuePair [ [cow, ], [pig, ],];Object.fromEntries(keyValu…

C语言中数组越界访问造成死循环现象

大家请看这样一段代码&#xff08;工具&#xff1a;VC6.0&#xff09;&#xff1a; #include <stdio.h> int main(int argc, char *argv[]) { int i; int arr[10];/* 这里注意循环变量i与数组arr的定义顺序 */ for(i 0; i < 10; i)/* 这里越界了 */ …

java 同步锁_Java多线程:synchronized同步锁的使用和实现原理

作用和用法在多线程对共享资源进行并发访问方面&#xff0c;JDK提供了synchronized关键字来进行线程同步&#xff0c;实现多线程并发访问的线程安全。synchronized的作用主要体现在三个方面&#xff1a;(1)确保线程互斥地访问同步代码&#xff1b;(2)保证共享变量的线程可见性&…

Apache shutdown unexpectedly启动错误解决方法

xampp启动时显示的错误为&#xff1a; 9:52:41 [Apache] Attempting to start Apache app... 9:52:41 [Apache] Status change detected: running 9:52:42 [Apache] Status change detected: stopped 9:52:42 [Apache] Error: Apache shutdown unexpectedly. 9:52:42 …

java基础代码实例_基础篇:详解JAVA对象实例化过程

1 对象的实例化过程对象的实例化过程是分成两部分&#xff1a;类的加载初始化&#xff0c;对象的初始化要创建类的对象实例需要先加载并初始化该类&#xff0c;main方法所在的类需要先加载和初始化类初始化就是执行方法&#xff0c;对象实例化是执行方法一个子类要初始化需要先…

搭建webUI自动化及问题解决:Message: ‘chromedriver‘ executable needs to be in PATH.解决办法

搭建webUI自动化环境 1、conda install selenium即可。 若出现&#xff1a;Message: chromedriver executable needs to be in PATH.Please see https://sites.google.com/a/chromium.org/chromedriver/home。 报错原因&#xff1a;没有配置chrome浏览器的chromedriver 解决…

python内置输入函数_python内置函数 print()

英文文档&#xff1a;print(*objects, sep’ ‘, end’\n’, filesys.stdout, flushFalse)Print objects to the text stream file, separated by sep and followed by end. sep, end, file and flush, if present, must be given as keyword arguments.All non-keyword argume…

webUI自动化一元素定位

实现功能&#xff1a;自动在百度输入框输入test&#xff0c;并进行搜索 from selenium import webdriver from time import sleepdriver webdriver.Chrome() driver.get("http://www.baidu.com")input_text driver.find_element_by_id("kw") print(&quo…

python propresql mysql_python数据库操作mysql:pymysql、sqlalchemy常见用法详解

本文实例讲述了python数据库操作mysql&#xff1a;pymysql、sqlalchemy常见用法。分享给大家供大家参考&#xff0c;具体如下&#xff1a;相关内容&#xff1a;使用pymysql直接操作mysql创建表查看表修改表删除表插入数据查看数据修改数据删除数据使用sqlmary操作mysql创建表查…

webUI自动化二-获取元素信息相关方法

from selenium import webdriver from time import sleepdriver webdriver.Chrome() driver.get("D:\QQFile\注册A.html")# 1获取用户输入框的大小 input_text driver.find_element_by_id("userA") print("元素大小为&#xff1a;",input_text…

python环境变量的配置 alias_配置别名

有没有经常敲错命令&#xff1f;比如git status&#xff1f;status这个单词真心不好记。如果敲git st就表示git status那就简单多了&#xff0c;当然这种偷懒的办法我们是极力赞成的。我们只需要敲一行命令&#xff0c;告诉Git&#xff0c;以后st就表示status&#xff1a;$ git…

C语言-字符串处理函数strcpy

strcpy 原型&#xff1a;strcpy(char destination[], const char source[]); 功能&#xff1a;将字符串source拷贝到字符串destination中。此处将source中的字符串结束标志符‘\0’也一同复制。所以在输出时&#xff0c;切不可以用‘\0’&#xff0c;puts&#xff0c;printf输…

pythonjavascript一起开发_Python开发【第十一篇】:JavaScript

JavaScript是一门编程语言&#xff0c;浏览器内置了JavaScript语言的解释器&#xff0c;所以在浏览器上按照JavaScript语言的规则编写相应代码之&#xff0c;浏览器可以解释并做出相应的处理。一、如何编写1、JavaScript代码存在形式Js代码内容2、JavaScript代码存放位置HTML的…

C语言-字符串处理函数strcat

strccat-字符串拼接函数 char*strcat(char* strDestination, const char* strSource); 参数说明&#xff1a; strDestination&#xff1a;目的字符串&#xff1b;strSource&#xff1a;源字符串。 strcat() 函数把 strSource 所指向的字符串追加到 strDestination 所指向的字…