利用Python中的BeautifulSoup库爬取豆瓣读书中书本信息

    利用BeautifulSoup库,获取前250本图书的信息,需要爬取的信息包括书名、书名的URL链接、作者、出版社和出版时间、书本价格、评分和评论,把这些信息存到txt文件,要求将这些信息对齐,排列整齐 (我是刚学习网络爬虫,代码如有错误,望指正)
网址为:https://book.douban.com/top250
代码如下:

import requests
from bs4 import BeautifulSoup
import time
headers={"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36"}
book_list=[]def book_info(url):book_data=requests.get(url,headers=headers)soup=BeautifulSoup(book_data.text,"lxml")book_is=soup.select("div.pl2 > a")lines=soup.select("p.pl")marks=soup.select("span.rating_nums")comtents=soup.select("span.inq")for book_i,line,mark,comtent in zip(book_is,lines,marks,comtents):line=line.get_text().split("/")data={"book_name":book_i.get_text().replace('\n','').replace(' ',''),"book_url":book_i['href'],"line":'  '.join(line),"mark":mark.get_text(),"comtent":comtent.get_text()}book_list.append(data)if __name__=='__main__':urls=["https://book.douban.com/top250?start={}".format(str(i)) for i in range(0,250,25)]for url in urls:book_info(url)time.sleep(1)for word in book_list:fo=open(r'D:\Python爬虫\doubanbook.txt',"a+",encoding='utf-8')try:fo.write(word["book_name"]+"  "+word["book_url"]+"  "+word["line"]+"  "+word["mark"]+"分"+"  "+word["comtent"]+"\n")fo.write("\n")fo.close()except UnicodeDecodeError:pass

结果部分截图:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/565728.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【youcans 的 OpenCV 学习课】10. 图像复原与重建

专栏地址:『youcans 的图像处理学习课』 文章目录:『youcans 的图像处理学习课 - 总目录』 【youcans 的 OpenCV 学习课】10. 图像复原与重建 图像复原是对图像退化过程建模,并以图像退化的先验知识来恢复退化的图像。 图像增强是一种主观处…

利用Python中的BeautifulSoup库爬取安居客第一页信息

题目: 网址为https://beijing.anjuke.com/sale/, 利用BeautifulSoup库,爬取第1页的信息,具体信息如下:进入每个房源的页面,爬取小区名称、参考预算、发布时间和核心卖点,并将它们打印出来。&…

【youcans 的 OpenCV 例程200篇】113. 形态学操作之腐蚀

欢迎关注 『youcans 的 OpenCV 例程 200 篇』 系列,持续更新中 欢迎关注 『youcans 的 OpenCV学习课』 系列,持续更新中 【youcans 的 OpenCV 例程 200 篇】113. 形态学操作之腐蚀 ## 1. 形态学图像处理简介 形态学是生物学的概念,主要研究动…

【youcans 的 OpenCV 例程200篇】114. 形态学操作之膨胀

欢迎关注 『youcans 的 OpenCV 例程 200 篇』 系列,持续更新中 欢迎关注 『youcans 的 OpenCV学习课』 系列,持续更新中 【youcans 的 OpenCV 例程 200 篇】114. 形态学操作之膨胀 形态学的基本思想是利用结构元素测量或提取输入图像中的形状或特征&…

爬取豆瓣音乐TOP250数据保存到csv文件和xls文件

爬取的目标网址:https://music.douban.com/top250 利用lxml库,获取前10页的信息,需要爬取的信息包括歌曲名、表演者、流派、发行时间、评分和评论人数,把这些信息存到csv和xls文件 在爬取的数据保存到csv文件时,有可…

Eclipse MySql之登录

用Eclipse连接MySql数据库实现登陆的功能。 功能分析 1.MySql数据库的连接 2.判断输入的内容是否为空 3.判断输入的内容是否与数据库的内容相同 4.重定向的使用 效果演示 原始样式 当账户或者密码任何一个是空的时候点击登录会弹框 一 MySql数据库 我的数据库名school 我…

IDEA MySql之增删改查

用IDEA开发工具和MySql实现登录和增删改查的功能。 功能分析: 1.登录 2.增加 3.删除 4.修改 5.查询 效果演示 登陆页面 信息显示页面 一 :数据库设计 MySql数据库名为 school 登录表名为 login 信息表名为 student 登录表插入合适的数据 信息表…

EXCEL中多行多列数据与一行或一列数据的互相转换

在平常所用数据中,会出现多行多列数据,但是实际又需要一行或一列形式的数据,或者相反者,那么这篇文章将教会你如何在excel中对多行多列数据与一行一列数据的相互转换、或者将行数据变为列数据、列数据变为行数据。 下面将解决这几…

【youcans 的 OpenCV 例程200篇】115. 形态学操作之开运算

欢迎关注 『youcans 的 OpenCV 例程 200 篇』 系列,持续更新中 欢迎关注 『youcans 的 OpenCV学习课』 系列,持续更新中 【youcans 的 OpenCV 例程 200 篇】115. 形态学操作之开运算 形态学的基本思想是利用结构元素测量或提取输入图像中的形状或特征&am…

用特征根判别法判断AR模型的平稳性,再用随机模拟的方法来验证以及做自相关分析

下面将用这两个栗子来讲解本文的内容,将用到的软件:SPSS、EXCEL 一、我们先用特征根判别法判断模型的平稳性。 特征根判别法呢,最主要的就是写出模型的差分方程,然后求出其特征根,若其特征根在单位圆内,…

【youcans 的 OpenCV 例程200篇】116. 形态学操作之闭运算

欢迎关注 『youcans 的 OpenCV 例程 200 篇』 系列,持续更新中 欢迎关注 『youcans 的 OpenCV学习课』 系列,持续更新中 【youcans 的 OpenCV 例程 200 篇】116. 形态学操作之闭运算 形态学的基本思想是利用结构元素测量或提取输入图像中的形状或特征&am…

xmapp 查询文字内容显示乱码

我们使用xmapp工具的MySql数据库的时候会发现使用命令行查询出来的文字内容显示乱码,那么我们如何解决这些乱码文字呢??? 在我们启动数据库的时候设置相应格式 mysql -uroot -p111 --default-character-setgbk乱码文字显示 关…

数据治理之数据标准管理

目录 一、概述什么是数据标准数据标准的作用什么是数据标准化数据标准的意义业务方面技术方面管理方面 二、数据标准管理的内容数据模型标准基础数据标准主数据和参考数据标准指标数据标准 三、数据标准管理流程数据标准梳理数据标准制定数据标准审查数据标准发布数据标准贯彻 …

公式编译器AxMath安装包及在word中使用的教程

AxMath安装包: 百度网盘链接:https://pan.baidu.com/s/1cMIqsVzo5s6BgJIgi_WrBg 提取码:591h 其安装步骤很简单,直接双击解压缩后的应用程序即可,压缩包里有那啥可以免费使用的方法和安装步骤。 下面讲解在word中如何…

【youcans 的 OpenCV 例程200篇】117. 形态学操作之顶帽运算

欢迎关注 『youcans 的 OpenCV 例程 200 篇』 系列,持续更新中 欢迎关注 『youcans 的 OpenCV学习课』 系列,持续更新中 【youcans 的 OpenCV 例程 200 篇】117. 形态学操作之顶帽运算 形态学的基本思想是利用结构元素测量或提取输入图像中的形状或特征&…

AJAX 信息查询管理

使用AJAX前后端分离技术实现对MySql数据库的数据查询删除和增加等操作。 功能分析: 1.登录 2.查询信息 3.增加信息 4.删除信息 效果演示 登陆页面 列表页面 点击查询信息 实现此功能要准备三部分分别是数据库,前端和后台。 一 : MySql…

【youcans 的 OpenCV 例程 200 篇】118. 形态学操作之底帽运算

欢迎关注 『youcans 的 OpenCV 例程 200 篇』 系列,持续更新中 欢迎关注 『youcans 的 OpenCV学习课』 系列,持续更新中 【youcans 的 OpenCV 例程 200 篇】118. 形态学操作之底帽运算 形态学的基本思想是利用结构元素测量或提取输入图像中的形状或特征&…

SPSS操作(五):主成分分析

为综合评价我国2006年省级地区服务业发展水平,现构建我国省级地区服务业发展水平综合评价指标体系,具体如下:铁路运输业职工人数(人)、城市公共交通业职工人数(人)、邮政业职工人数(人)、电信和其他信息传输服务业职工人数(人)、客运量(万人)…

SpringBoot创建简单的hello world

用目前流行的SpringBoot框架创建一个简单的hello world. 效果演示 控制台输出Spring 在游览器输入地址出现如下所示 代码演示 在代码正式开始之前我们先看一下目录结构吧 我们只需要关心src/main/java包里的内容和pom.xml里面的内容 主启动程序 Application.java内容 p…

【youcans 的 OpenCV 例程 200 篇】119. 图像的形态学梯度

欢迎关注 『youcans 的 OpenCV 例程 200 篇』 系列,持续更新中 欢迎关注 『youcans 的 OpenCV学习课』 系列,持续更新中 【youcans 的 OpenCV 例程 200 篇】119. 图像的形态学梯度 形态学的基本思想是利用结构元素测量或提取输入图像中的形状或特征&…