python爬去百度百科词条_python简单爬虫爬取百度百科python词条网页

news/2025/4/27 17:07:55/文章来源:https://blog.csdn.net/weixin_39948309/article/details/111525080

目标分析：

目标：百度百科python词条相关词条网页 - 标题和简介

入口页：https://baike.baidu.com/item/Python/407313

URL格式：

- 词条页面URL：/item/xxxx

数据格式：

- 标题：

***

- 简介：

***

页面编码：utf-8

爬虫主入口文件

spider_main.py

#coding:utf-8

importurl_managerimporthtml_downloaderimporthtml_parserimporthtml_outputerclassSpiderMain(object):def __init__(self):#url管理器

self.urls =url_manager.UrlManager()#下载器

self.downloader =html_downloader.HtmlDownloader()#解析器

self.parser =html_parser.HtmlParser()#输出控制器

self.outputer =html_outputer.HtmlOutputer()defcraw(self, root_url):#记录当前爬取的是第几个url

count = 1self.urls.add_new_url(root_url)#如果有待爬取的url就继续while循环

'''while self.urls.has_new_url():

try:

new_url = self.urls.get_new_url()

print 'craw %d : %s' % (count, new_url)

# 下载url页面

html_cont = self.downloader.download(new_url)

# 进行url解析并获取url的数据

new_urls, new_data = self.parser.parse(new_url, html_cont)

# url解析及数据搜集

self.urls.add_new_urls(new_urls)

self.outputer.collect_data(new_data)

if count >= 1000:

break

count = count + 1

except Exception as e:

print 'craw failed'

print e'''

whileself.urls.has_new_url():

new_url=self.urls.get_new_url()print 'craw %d : %s' %(count, new_url)#下载url页面

html_cont =self.downloader.download(new_url)#print html_cont

#进行url解析并获取url的数据

new_urls, new_data =self.parser.parse(new_url, html_cont)#url解析及数据搜集

self.urls.add_new_urls(new_urls)

self.outputer.collect_data(new_data)if count >= 10:breakcount= count + 1

#输出到指定页面

self.outputer.output_html()if __name__ == "__main__":

root_url= "https://baike.baidu.com/item/Python/407313"obj_spider=SpiderMain()

obj_spider.craw(root_url)

网页管理器

url_manager.py

#coding:utf-8

classUrlManager(object):def __init__(self):#要爬取的url

self.new_urls =set()#爬取过的url

self.old_urls =set()defadd_new_url(self, url):if url isNone:return

#如果url不在要爬取的url里面也不在爬取过的url里面就添加进来

if url not in self.new_urls and url not inself.old_urls:

self.new_urls.add(url)defadd_new_urls(self, urls):if urls is None or len(urls) ==0:return

for url inurls:

self.add_new_url(url)defhas_new_url(self):return len(self.new_urls) !=0defget_new_url(self):

new_url=self.new_urls.pop()

self.old_urls.add(new_url)return new_url

网页下载器

html_downloader.py

#coding:utf-8

importurllib2classHtmlDownloader(object):defdownload(self, url):if url isNone:returnNone

response=urllib2.urlopen(url)if response.getcode() != 200:returnNonereturn response.read()

网页分析器

html_parser.py

#coding:utf-8

from bs4 importBeautifulSoupimportreimporturlparseclassHtmlParser(object):def_get_new_urls(self, page_url, soup):#得到所有的词条url

links = soup.find_all('a', href=re.compile(r"/item/.*"))#print links

new_urls =set()for link inlinks:

new_url= link['href']

new_full_url=urlparse.urljoin(page_url, new_url)

new_urls.add(new_full_url)returnnew_urlsdef_get_new_data(self, page_url, soup):

res_data={}#url

res_data['url'] =page_url#

#

Python

title_node = soup.find('dd', class_='lemmaWgt-lemmaTitle-title').find("h1")

res_data['title'] =title_node.get_text()#

summary_node = soup.find('div', class_="lemma-summary")

res_data['summary'] =summary_node.get_text()returnres_datadefparse(self, page_url, html_cont):if page_url is None or html_cont isNone:returnsoup= BeautifulSoup(html_cont, 'html.parser', from_encoding='utf-8')

new_urls=self._get_new_urls(page_url, soup)

new_data=self._get_new_data(page_url, soup)return new_urls,new_data

网页输出器

html_outputer.py

#coding:utf-8

classHtmlOutputer(object):def __init__(self):

self.datas=[]defcollect_data(self, data):if data isNone:returnself.datas.append(data)#ascii

defoutput_html(self):

fout= open('output.html', 'w')

fout.write("")

fout.write("

")

fout.write("

fout.write("

")

fout.write("

%s" % data['url'])

fout.write("

%s" % data['title'].encode('utf-8'))

fout.write("

%s" % data['summary'].encode('utf-8'))

fout.write("

")

fout.write("/table")

fout.write("/body")

fout.write("/html")

运行代码：

结果页面

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/556144.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Stream中toMap引发NullPointerException____Stream的执行流程

Stream中toMap引发NullPointerException____Stream的执行流程

Stream中toMap引发NullPointerException 1、引发NullPointerException的代码如下： List<SelfSettlementCardInfoDto> selfSettlementCardInfoDtos selfCardAdapterManager.listSelfSettlementCardInfoDtoByCardIds(queryDto.getPartnerId(), cardIds, false…

阅读更多...

db2 最大分区数_db2 查询表分区数据库

db2 最大分区数_db2 查询表分区数据库

{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":4,"count":4}]},"card":[{"des":"阿里云数据库专家保驾护航，为用户…

阅读更多...

ES6 Symbol 数据类型

ES6 Symbol 数据类型

ES6-Symbol 类型 ES5 除类数组对象（类数组对象名可以为数字，对象必须有 length 属性，可以用数组下标的方式访问对象属性，但不能通过点的方式访问）外，对象属性名都是字符串，这很容易造成属性名的…

阅读更多...

word中图片为嵌入式格式时显示不全_图片在word中显示不全怎么处理_word图片显示不全怎么办-win7之家...

word中图片为嵌入式格式时显示不全_图片在word中显示不全怎么处理_word图片显示不全怎么办-win7之家...

我们在编辑word文档时，会需要插入一些图片来做为装饰或者用来标识，也会出现插入的图片显示不全的情况，要是遇到这种情况该怎么办，那么图片在word中显示不全要怎么处理呢，下面小编给大家分享图片在word中显示不全的解决…

阅读更多...

Map集合使用get方法返回null抛出空指针异常问题

Map集合使用get方法返回null抛出空指针异常问题

Map集合使用get方法空指针异常问题前言 1.Map里面只能存放对象，不能存放基本类型，例如int，需要使用Integer 2.Map集合取出时，如果变量声明了类型，会先进行拆箱，再进行转换。空指针问题如图&#xff…

阅读更多...

ES6 扩展运算符

ES6 扩展运算符

ES6 数组相关一、扩展运算符 … 用于函数调用将一个数组变为参数序列；可与正常的函数参数结合使用；扩展运算符后面也可以放表达式；如果扩展运算符后面是空数组，不产生任何结果。只有函数调用时，扩展运算符才可以放…

阅读更多...

android gone动画_Android动画之淡入淡出

android gone动画_Android动画之淡入淡出

为了更好的说明Android动画的淡入淡出效果，这里以一个场景为例： 界面上有两个View 控件，两个View交替显示，当一个View淡入显示，另一个View淡出不可见。我们把当前要显示的View叫showView, 要隐藏不可见的view叫hideVie…

阅读更多...

java各map中存放null值

java各map中存放null值

java中各map中是否可以存储null值情况

阅读更多...

windows配置samba客户端_怎样设置Samba文件服务器以使用Windows客户端

windows配置samba客户端_怎样设置Samba文件服务器以使用Windows客户端

输入先前用‘smbpasswd -a’设置的用户名和密码：进入计算机，然后检查网络驱动器是否被正确添加：作为测试，让我们从Samba的手册页创建一个pdf文件，然后保存到/home/xmodulo目录：接下来，我们可以验…

阅读更多...

DOM 节点类型及属性

DOM 节点类型及属性

一、节点类型节点名称节点类型节点文本内容#document (文档节点)9null大写标签名 (元素节点)1null#text (文本节点 )3文本内容#comment (注释节点)8注释的内容二、获取节点的方式 childNodes ⇒ 获取所有子节点 document.body.childNodeschildren ⇒ 获取所有元素子节点 …

阅读更多...

Java8中Collectors详解

Java8中Collectors详解

文章目录1.averagingDouble2.collectingAndThen3.counting4.groupingBy4.1groupingBy(Function)4.2groupingBy(Function, Collector)4.3groupingBy(Function, Supplier, Collector)5.groupingByConcurrent5.1groupingByConcurrent(Function)5.2groupingByConcurrent(Function, …

阅读更多...

DOM 元素以及内容的增删改

DOM 元素以及内容的增删改

一、.createElement() ⇒ 创建元素 const div document.createElement(div); // 创建一个 div 元素二、appendChild() 追加一个元素 | insertBefore(Ele, Target) ⇒ 指定位置插入元素 const div document.createElement(div); // 创建一个 div 元素 document.getElementBy…

阅读更多...

js实现图片虚化_Web前端之高斯模糊图片记

js实现图片虚化_Web前端之高斯模糊图片记

题记前端需求之高斯模糊图片最近工作中有一个需求，客户提交图片，服务器根据图片生成内容，并将内容显示，要求高斯模糊处理用户的图片并作为作品展示的背景，类似于苹果设备上的高斯模糊背景。用户提交的图片分网络图片地…

阅读更多...

r语言中残差与回归值的残差图_用R语言做回归分析_iris数据集/longley数据集

r语言中残差与回归值的残差图_用R语言做回归分析_iris数据集/longley数据集

机器学习课程2 回归分析【题目1】使用R对内置鸢尾花数据集iris(在R提示符下输入iris回车可看到内容)进行回归分析，自行选择因变量和自变量，注意Species这个分类变量的处理方法。解答：1.iris数据集介绍鸢尾花(iris)是数据挖掘常用到的一个数据…

阅读更多...

Java 8————Collectors中的中的joining 方法和mapping方法

Java 8————Collectors中的中的joining 方法和mapping方法

先定义好后面做示例要用的数据： List<User> listUser new ArrayList<>(); listUser.add(new User("李白", 20, true)); listUser.add(new User("杜甫", 40, true)); listUser.add(new User("李清照", 18, false)); lis…

阅读更多...

BOM -- browser object model

BOM -- browser object model

操作浏览器窗口一、 innerWidth / innerHeight 获取浏览器可视区的宽高(不包含开发者工具区域) window.innerWidth px window.innerHeight px二、 outerWidth / outerHeight 获取浏览器软件界面的宽高 window.outerWidth px window.outerHeight px三、 screenTop / scr…

阅读更多...

vue 拓扑组件_vue 集成 vis-network 实现网络拓扑图的方法

vue 拓扑组件_vue 集成 vis-network 实现网络拓扑图的方法

vis.js 网站https://visjs.org/vs code 下安装命令npm install vis-network在vue 下引入 vis-network组件const vis require("vis-network/dist/vis-network.min.js");require("vis-network/dist/vis-network.min.css");例子代码使用let DIR "/jtop…

阅读更多...

编译器说 Lambda 表达式中的变量必须是 final 的，我偏不信

编译器说 Lambda 表达式中的变量必须是 final 的，我偏不信

偶尔，我们需要在 Lambda 表达式中修改变量的值，但如果直接尝试修改的话，编译器不会视而不见听而不闻，它会警告我们说：“variable used in lambda expression should be final or effectively final”。这个问题发生的…

阅读更多...

window 事件

window 事件

一、 onscroll ⇒ 页面滚动是事件 // 当页面发生滚动就会触发这个事件 window.onscroll function () {console.log(我会随着鼠标滚动改变); }二、 onresize ⇒ 窗口改变事件 // 当窗口大小发生改变就会触发这个事件 window.onresize function () {console.log(我会随着窗口…

阅读更多...

pandas series取值_【小学生级】pandas入门到精通备查表——AI未来系列3

pandas series取值_【小学生级】pandas入门到精通备查表——AI未来系列3

在未来面前，每个人都是学生江海升月明，天涯共此时，关注江时！引子篇为AI未来系列第三篇，中阶部分开始。pandas的数据分析功能比excel强太多，基本上学会pandas，走遍天下都不怕。这是我的备查字典&…

阅读更多...

最新文章