python爬去百度百科词条_python简单爬虫爬取百度百科python词条网页

目标分析:

目标:百度百科python词条相关词条网页 - 标题和简介

入口页:https://baike.baidu.com/item/Python/407313

URL格式:

- 词条页面URL:/item/xxxx

数据格式:

- 标题:

***

- 简介:

***

页面编码:utf-8

爬虫主入口文件

spider_main.py

#coding:utf-8

importurl_managerimporthtml_downloaderimporthtml_parserimporthtml_outputerclassSpiderMain(object):def __init__(self):#url管理器

self.urls =url_manager.UrlManager()#下载器

self.downloader =html_downloader.HtmlDownloader()#解析器

self.parser =html_parser.HtmlParser()#输出控制器

self.outputer =html_outputer.HtmlOutputer()defcraw(self, root_url):#记录当前爬取的是第几个url

count = 1self.urls.add_new_url(root_url)#如果有待爬取的url就继续while循环

'''while self.urls.has_new_url():

try:

new_url = self.urls.get_new_url()

print 'craw %d : %s' % (count, new_url)

# 下载url页面

html_cont = self.downloader.download(new_url)

# 进行url解析并获取url的数据

new_urls, new_data = self.parser.parse(new_url, html_cont)

# url解析及数据搜集

self.urls.add_new_urls(new_urls)

self.outputer.collect_data(new_data)

if count >= 1000:

break

count = count + 1

except Exception as e:

print 'craw failed'

print e'''

whileself.urls.has_new_url():

new_url=self.urls.get_new_url()print 'craw %d : %s' %(count, new_url)#下载url页面

html_cont =self.downloader.download(new_url)#print html_cont

#进行url解析并获取url的数据

new_urls, new_data =self.parser.parse(new_url, html_cont)#url解析及数据搜集

self.urls.add_new_urls(new_urls)

self.outputer.collect_data(new_data)if count >= 10:breakcount= count + 1

#输出到指定页面

self.outputer.output_html()if __name__ == "__main__":

root_url= "https://baike.baidu.com/item/Python/407313"obj_spider=SpiderMain()

obj_spider.craw(root_url)

网页管理器

url_manager.py

#coding:utf-8

classUrlManager(object):def __init__(self):#要爬取的url

self.new_urls =set()#爬取过的url

self.old_urls =set()defadd_new_url(self, url):if url isNone:return

#如果url不在要爬取的url里面也不在爬取过的url里面就添加进来

if url not in self.new_urls and url not inself.old_urls:

self.new_urls.add(url)defadd_new_urls(self, urls):if urls is None or len(urls) ==0:return

for url inurls:

self.add_new_url(url)defhas_new_url(self):return len(self.new_urls) !=0defget_new_url(self):

new_url=self.new_urls.pop()

self.old_urls.add(new_url)return new_url

网页下载器

html_downloader.py

#coding:utf-8

importurllib2classHtmlDownloader(object):defdownload(self, url):if url isNone:returnNone

response=urllib2.urlopen(url)if response.getcode() != 200:returnNonereturn response.read()

网页分析器

html_parser.py

#coding:utf-8

from bs4 importBeautifulSoupimportreimporturlparseclassHtmlParser(object):def_get_new_urls(self, page_url, soup):#得到所有的词条url

links = soup.find_all('a', href=re.compile(r"/item/.*"))#print links

new_urls =set()for link inlinks:

new_url= link['href']

new_full_url=urlparse.urljoin(page_url, new_url)

new_urls.add(new_full_url)returnnew_urlsdef_get_new_data(self, page_url, soup):

res_data={}#url

res_data['url'] =page_url#

#

Python

title_node = soup.find('dd', class_='lemmaWgt-lemmaTitle-title').find("h1")

res_data['title'] =title_node.get_text()#

summary_node = soup.find('div', class_="lemma-summary")

res_data['summary'] =summary_node.get_text()returnres_datadefparse(self, page_url, html_cont):if page_url is None or html_cont isNone:returnsoup= BeautifulSoup(html_cont, 'html.parser', from_encoding='utf-8')

new_urls=self._get_new_urls(page_url, soup)

new_data=self._get_new_data(page_url, soup)return new_urls,new_data

网页输出器

html_outputer.py

#coding:utf-8

classHtmlOutputer(object):def __init__(self):

self.datas=[]defcollect_data(self, data):if data isNone:returnself.datas.append(data)#ascii

defoutput_html(self):

fout= open('output.html', 'w')

fout.write("")

fout.write("

")

fout.write("

fout.write("

")

fout.write("

%s" % data['url'])

fout.write("

%s" % data['title'].encode('utf-8'))

fout.write("

%s" % data['summary'].encode('utf-8'))

fout.write("

")

fout.write("/table")

fout.write("/body")

fout.write("/html")

运行代码:

结果页面

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/556144.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Stream中toMap引发NullPointerException____Stream的执行流程

Stream中toMap引发NullPointerException 1、引发NullPointerException的代码如下&#xff1a; List<SelfSettlementCardInfoDto> selfSettlementCardInfoDtos selfCardAdapterManager.listSelfSettlementCardInfoDtoByCardIds(queryDto.getPartnerId(), cardIds, false…

db2 最大分区数_db2 查询表分区数据库

{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":4,"count":4}]},"card":[{"des":"阿里云数据库专家保驾护航&#xff0c;为用户…

ES6 Symbol 数据类型

ES6-Symbol 类型 ES5 除类数组对象&#xff08;类数组对象名可以为数字&#xff0c;对象必须有 length 属性&#xff0c;可以用数组下标的方式访问对象属性&#xff0c;但不能通过点的方式访问&#xff09;外&#xff0c;对象属性名都是字符串&#xff0c;这很容易造成属性名的…

word中图片为嵌入式格式时显示不全_图片在word中显示不全怎么处理_word图片显示不全怎么办-win7之家...

我们在编辑word文档时&#xff0c;会需要插入一些图片来做为装饰或者用来标识&#xff0c;也会出现插入的图片显示不全的情况&#xff0c;要是遇到这种情况该怎么办&#xff0c;那么图片在word中显示不全要怎么处理呢&#xff0c;下面小编给大家分享图片在word中显示不全的解决…

Map集合使用get方法返回null抛出空指针异常问题

Map集合使用get方法空指针异常问题 前言 1.Map里面只能存放对象&#xff0c;不能存放基本类型&#xff0c;例如int&#xff0c;需要使用Integer 2.Map集合取出时&#xff0c;如果变量声明了类型&#xff0c;会先进行拆箱&#xff0c;再进行转换。 空指针问题 如图&#xff…

ES6 扩展运算符

ES6 数组相关 一、扩展运算符 … 用于函数调用 将一个数组变为参数序列&#xff1b;可与正常的函数参数结合使用&#xff1b;扩展运算符后面也可以放表达式&#xff1b;如果扩展运算符后面是空数组&#xff0c;不产生任何结果。只有函数调用时&#xff0c;扩展运算符才可以放…

android gone动画_Android动画之淡入淡出

为了更好的说明Android动画的淡入淡出效果&#xff0c;这里以一个场景为例&#xff1a; 界面上有两个View 控件&#xff0c;两个View交替显示&#xff0c;当一个View淡入显示&#xff0c;另一个View淡出不可见。我们把当前要显示的View叫showView, 要隐藏不可见的view叫hideVie…

java各map中存放null值

java中各map中是否可以存储null值情况

windows配置samba客户端_怎样设置Samba文件服务器以使用Windows客户端

输入先前用‘smbpasswd -a’设置的用户名和密码&#xff1a;进入计算机&#xff0c;然后检查网络驱动器是否被正确添加&#xff1a;作为测试&#xff0c;让我们从Samba的手册页创建一个pdf文件&#xff0c;然后保存到/home/xmodulo目录&#xff1a;接下来&#xff0c;我们可以验…

DOM 节点类型及属性

一、节点类型 节点名称节点类型节点文本内容#document (文档节点)9null大写标签名 (元素节点)1null#text (文本节点 )3文本内容#comment (注释节点)8注释的内容 二、获取节点的方式 childNodes ⇒ 获取所有子节点 document.body.childNodeschildren ⇒ 获取所有元素子节点 …

Java8中Collectors详解

文章目录1.averagingDouble2.collectingAndThen3.counting4.groupingBy4.1groupingBy(Function)4.2groupingBy(Function, Collector)4.3groupingBy(Function, Supplier, Collector)5.groupingByConcurrent5.1groupingByConcurrent(Function)5.2groupingByConcurrent(Function, …

DOM 元素以及内容的增删改

一、.createElement() ⇒ 创建元素 const div document.createElement(div); // 创建一个 div 元素二、appendChild() 追加一个元素 | insertBefore(Ele, Target) ⇒ 指定位置插入元素 const div document.createElement(div); // 创建一个 div 元素 document.getElementBy…

js实现图片虚化_Web前端之高斯模糊图片记

题记 前端需求之高斯模糊图片最近工作中有一个需求&#xff0c;客户提交图片&#xff0c;服务器根据图片生成内容&#xff0c;并将内容显示&#xff0c;要求高斯模糊处理用户的图片并作为作品展示的背景&#xff0c;类似于苹果设备上的高斯模糊背景。用户提交的图片分网络图片地…

r语言中残差与回归值的残差图_用R语言做回归分析_iris数据集/longley数据集

机器学习课程2 回归分析【题目1】使用R对内置鸢尾花数据集iris(在R提示符下输入iris回车可看到内容)进行回归分析&#xff0c;自行选择因变量和自变量&#xff0c;注意Species这个分类变量的处理方法。解答&#xff1a;1.iris数据集介绍鸢尾花(iris)是数据挖掘常用到的一个数据…

Java 8————Collectors中的中的joining 方法和mapping方法

先定义好后面做示例要用的数据&#xff1a; List<User> listUser new ArrayList<>(); listUser.add(new User("李白", 20, true)); listUser.add(new User("杜甫", 40, true)); listUser.add(new User("李清照", 18, false)); lis…

BOM -- browser object model

操作浏览器窗口 一、 innerWidth / innerHeight 获取浏览器可视区的宽高(不包含开发者工具区域) window.innerWidth px window.innerHeight px二、 outerWidth / outerHeight 获取浏览器软件界面的宽高 window.outerWidth px window.outerHeight px三、 screenTop / scr…

vue 拓扑组件_vue 集成 vis-network 实现网络拓扑图的方法

vis.js 网站https://visjs.org/vs code 下安装命令npm install vis-network在vue 下引入 vis-network组件const vis require("vis-network/dist/vis-network.min.js");require("vis-network/dist/vis-network.min.css");例子代码使用let DIR "/jtop…

编译器说 Lambda 表达式中的变量必须是 final 的,我偏不信

偶尔&#xff0c;我们需要在 Lambda 表达式中修改变量的值&#xff0c;但如果直接尝试修改的话&#xff0c;编译器不会视而不见听而不闻&#xff0c;它会警告我们说&#xff1a;“variable used in lambda expression should be final or effectively final”。 这个问题发生的…

window 事件

一、 onscroll ⇒ 页面滚动是事件 // 当页面发生滚动就会触发这个事件 window.onscroll function () {console.log(我会随着鼠标滚动改变); }二、 onresize ⇒ 窗口改变事件 // 当窗口大小发生改变就会触发这个事件 window.onresize function () {console.log(我会随着窗口…

pandas series取值_【小学生级】pandas入门到精通备查表——AI未来系列3

在未来面前&#xff0c;每个人都是学生江海升月明&#xff0c;天涯共此时&#xff0c;关注江时&#xff01;引子篇为AI未来系列第三篇&#xff0c;中阶部分开始。pandas的数据分析功能比excel强太多&#xff0c;基本上学会pandas&#xff0c;走遍天下都不怕。这是我的备查字典&…