网络爬虫基础练习

0.可以新建一个用于练习的html文件,在浏览器中打开。

 

1.利用requests.get(url)获取网页页面的html文件

import requests

newsurl='http://news.gzcc.cn/html/xiaoyuanxinwen/'

res = requests.get(newsurl) #返回response对象

res.encoding='utf-8'

 

2.利用BeautifulSoup的HTML解析器,生成结构树

from bs4 import BeautifulSoup

soup = BeautifulSoup(res.text,'html.parser')

 

3.找出特定标签的html元素

soup.p #标签名,返回第一个

soup.head

soup.p.name #字符串

soup.p. attrs #字典,标签的所有属性

soup.p. contents # 列表,所有子标签

soup.p.text #字符串

soup.p.string

soup.select(‘li')

 

4.取得含有特定CSS属性的元素

soup.select('#p1Node')

soup.select('.news-list-title')

 

5.练习:

取出h1标签的文本
取出a标签的链接
取出所有li标签的所有内容
取出一条新闻的标题、链接、发布时间、来源

# 1.利用requests.get(url)获取网页页面的html文件
import requests
newsurl='http://localhost:63342/filedocuments/index.html?_ijt=bi1vricmjrhamrnvli4fcktmvh'
res = requests.get(newsurl) #返回response对象
res.encoding = 'utf-8'
# print(res.text)# 2.利用BeautifulSoup的HTML解析器,生成结构树
from bs4 import BeautifulSoup
soup = BeautifulSoup(res.text,'html.parser')# 3.找出特定标签的html元素
print(soup.p) #标签名,返回第一个
print(soup.head)
print(soup.p.name)#字符串
print(soup.p.attrs)#字典,标签的所有属性
print(soup.p.contents) # 列表,所有子标签
print(soup.p.text)#字符串
print(soup.p.string)
print(soup.select('p'))
# 4.取得含有特定CSS属性的元素
print(soup.select('#content'))print(soup.select('.show-nav'))# 5.练习:# 取出h1标签的文本print(soup.select('h1')[0].text)# 取出a标签的链接
print(soup.select('a')[0].attrs['href'])# 取出所有li标签的所有内容
print(soup.select('li')[0].text)# 取出一条新闻的标题、链接、发布时间、来源
# 标题
print(soup.select('title')[0].text)
# 链接
print(soup.select('a')[0].attrs['href'])
# 发布时间
print(soup.select('.news-list-info')[0].contents[0].text)
# 来源
print(soup.select('.news-list-info')[0].contents[1].text)

  

转载于:https://www.cnblogs.com/2647409627qq/p/8669143.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/389953.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

10生活便捷:购物、美食、看病时这样搜,至少能省一半心

本次课程介绍实实在在能够救命、省钱的网站,解决了眼前这些需求后,还有“诗和远方”——不花钱也能点亮自己的生活,获得美的享受! 1、健康医疗这么搜,安全又便捷 现在的医疗市场确实有些混乱,由于医疗的专业…

ppt图表图表类型起始_梅科图表

ppt图表图表类型起始There are different types of variable width bar charts but two are the most popular: 1) Bar Mekko chart; 2) Marimekko chart.可变宽度条形图有不同类型,但最受欢迎的有两种:1)Mekko条形图; 2)Marimekko图表。 Th…

Tomcat日志乱码了怎么处理?

【前言】 tomacat日志有三个地方,分别是Output(控制台)、Tomcat Localhost Log(tomcat本地日志)、Tomcat Catalina Log。 启动日志和大部分报错日志、普通日志都在output打印;有些错误日志,在Tomcat Localhost Log。 三个日志显示区,都可能…

python 编码规范

缩进 用4个空格来缩进代码 分号 不要在行尾加分号, 也不要用分号将两条命令放在同一行。 行长度 每行不超过80个字符 以下情况除外: l 长的导入模块语句 l 注释里的URL 不要使用反斜杠连接行。 Python会将 圆括号, 中括号和花括号中的行隐式的连接起来 , 你可以利用…

5888. 网络空闲的时刻

5888. 网络空闲的时刻 给你一个有 n 个服务器的计算机网络,服务器编号为 0 到 n - 1 。同时给你一个二维整数数组 edges ,其中 edges[i] [ui, vi] 表示服务器 ui 和 vi 之间有一条信息线路,在 一秒 内它们之间可以传输 任意 数目的信息。再…

django框架预备知识

内容: 1.web预备知识 2.django介绍 3.web框架的本质及分类 4.django安装与基本设置 1.web预备知识 HTTP协议:https://www.cnblogs.com/wyb666/p/9383077.html 关于web的本质:http://www.cnblogs.com/wyb666/p/9034042.html 如何自定义web框架…

现实世界 机器学习_公司沟通分析简介现实世界的机器学习方法

现实世界 机器学习In my previous posts I covered analytical subjects from a scientific point of view, rather than an applied real world problem. For this reason, this article aims at approaching an analytical idea from a managerial point of view, rather tha…

拷贝构造函数和赋值函数

1、拷贝构造函数:用一个已经有的对象构造一个新的对象。 CA(const CA & c )函数的名称必须和类名称相一致,它的唯一的一个参数是本类型的一个引用变量,该参数是const 类型,不可变。 拷贝构造函数什么时…

[bzoj3036]绿豆蛙的归宿

题目大意:给定 $DAG$ 带边权连通图,保证所有点都能到达终点 $n$,每个点等概率沿边走,求起点 $1$ 到终点 $n$ 的期望长度。 题解:拓扑,然后倒着$DP$就可以了 卡点:无 C Code: #includ…

5902. 检查句子中的数字是否递增

5902. 检查句子中的数字是否递增 句子是由若干 token 组成的一个列表,token 间用 单个 空格分隔,句子没有前导或尾随空格。每个 token 要么是一个由数字 0-9 组成的不含前导零的 正整数 ,要么是一个由小写英文字母组成的 单词 。 示例&…

蒜头君吃桃

蒜头君买了一堆桃子不知道个数,第一天吃了一半的桃子,还不过瘾,有多吃了一个。以后他每天吃剩下的桃子的一半还多一个,到 nn 天只剩下一个桃子了。蒜头君想知道一开始买了多少桃子。 输入格式 输入一个整数 n(2≤n≤60)&#xff0…

Chrome keyboard shortcuts

2019独角兽企业重金招聘Python工程师标准>>> Chrome keyboard shortcuts https://support.google.com/chrome/answer/157179?hlen 转载于:https://my.oschina.net/qwfys200/blog/1927456

数据中心细节_当细节很重要时数据不平衡

数据中心细节定义不平衡数据 (Definition Imbalanced Data) When we speak of imbalanced data, what we mean is that at least one class is underrepresented. For example, when considering the problem of building a classifier, let’s call it the Idealisstic-Voter.…

辛普森悖论_所谓的辛普森悖论

辛普森悖论We all know the Simpsons family from Disneyland, but have you heard about the Simpson’s Paradox from statistic theory? This article will illustrate the definition of Simpson’s Paradox with an example, and show you how can it harm your statisti…

查看NVIDIA使用率工具目录

2019独角兽企业重金招聘Python工程师标准>>> C:\Program Files\NVIDIA Corporation\Display.NvContainer\NVDisplay.Container.exe 转载于:https://my.oschina.net/u/2430809/blog/1927560

2043. 简易银行系统

2043. 简易银行系统 你的任务是为一个很受欢迎的银行设计一款程序,以自动化执行所有传入的交易(转账,存款和取款)。银行共有 n 个账户,编号从 1 到 n 。每个账号的初始余额存储在一个下标从 0 开始的整数数组 balance…

余弦相似度和欧氏距离_欧氏距离和余弦相似度

余弦相似度和欧氏距离Photo by Markus Winkler on UnsplashMarkus Winkler在Unsplash上拍摄的照片 This is a quick and straight to the point introduction to Euclidean distance and cosine similarity with a focus on NLP.这是对欧氏距离和余弦相似度的快速而直接的介绍&…

bzoj2152 聪聪可可

题目描述 聪聪和可可是兄弟俩,他们俩经常为了一些琐事打起来,例如家中只剩下最后一根冰棍而两人都想吃、两个人都想玩儿电脑(可是他们家只有一台电脑)……遇到这种问题,一般情况下石头剪刀布就好了,可是他们…

七、 面向对象(二)

匿名类对象 创建的类的对象是匿名的。当我们只需要一次调用类的对象时,我们就可以考虑使用匿名的方式创建类的对象。特点是创建的匿名类的对象只能够调用一次! package day007;//圆的面积 class circle {double radius;public double getArea() {// TODO…

机器学习 客户流失_通过机器学习预测流失

机器学习 客户流失介绍 (Introduction) This article is part of a project for Udacity “Become a Data Scientist Nano Degree”. The Jupyter Notebook with the code for this project can be downloaded from GitHub.本文是Udacity“成为数据科学家纳米学位”项目的一部分…