网络爬虫练习

1.利用requests.get(url)获取网页页面的html文件

import requests
newsurl='http://news.gzcc.cn/html/xiaoyuanxinwen/'
res = requests.get(newsurl) #返回response对象
res.encoding='utf-8'
print(res.text)

 

2.利用BeautifulSoup的HTML解析器,生成结构树

import requests
from bs4 import BeautifulSoup
newsurl='http://news.gzcc.cn/html/xiaoyuanxinwen/'
res = requests.get(newsurl) #返回response对象
res.encoding='utf-8'
print(BeautifulSoup(res.text,'html.parser'))

3.找出特定标签的html元素

soup.p #标签名,返回第一个

soup.head

soup.p.name #字符串

soup.p. attrs #字典,标签的所有属性

soup.p. contents # 列表,所有子标签

soup.p.text #字符串

soup.p.string

soup.select(‘li')

 

4.取得含有特定CSS属性的元素

soup.select('#p1Node')

soup.select('.news-list-title')

 

5.练习:

取出h1标签的文本

import requests
from bs4 import BeautifulSoup
url = 'http://news.gzcc.cn/html/xiaoyuanxinwen/'
res = requests.get(url)
res.encoding = 'utf-8'
soup = BeautifulSoup(res.text,'html.parser')
#取h4标签的文本
print(soup.select('h4')[0].text)

 

取出a标签的链接

import requests
from bs4 import BeautifulSoup
url = 'http://news.gzcc.cn/html/xiaoyuanxinwen/'
res = requests.get(url)
res.encoding = 'utf-8'
soup = BeautifulSoup(res.text,'html.parser')
#取a标签的链接
for i in soup.select('a'):print(i.get('href'))

 

取出所有li标签的所有内容

import requests
from bs4 import BeautifulSoup
url = 'http://news.gzcc.cn/html/xiaoyuanxinwen/'
res = requests.get(url)
res.encoding = 'utf-8'
soup = BeautifulSoup(res.text,'html.parser')
#取li标签的所有内容
for i in soup.select('li'):print(i)

 


取出一条新闻的标题、链接、发布时间、来源

import requests
from bs4 import BeautifulSoup
url = 'http://news.gzcc.cn/html/xiaoyuanxinwen/'
res = requests.get(url)
res.encoding = 'utf-8'
soup = BeautifulSoup(res.text,'html.parser')# 取出一条新闻的标题、链接、发布时间、来源
print(soup.select('.news-list-title')[0].text)
print(soup.select('li')[1].a.attrs['href'])
print(soup.select('.news-list-info')[0].contents[0].text)
print(soup.select('.news-list-info')[0].contents[1].text)

 

转载于:https://www.cnblogs.com/weixingna/p/8670551.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/280757.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

BZOJ 3434 时空穿梭

题目链接:http://www.lydsy.com/JudgeOnline/problem.php?id3434 题意: 思路: const int mod10007; const int N100005;int g[22][N]; int C[N][22],mou[N]; int h[22][N][13];int prime[N],cnt; int tag[N];void init() {int i,j;mou[1]1;f…

powershell /遍历/psobject/字符串转换Json/json数组操作

读取json文档 $json (Get-Content "C:\HDDList.json" -Raw) | ConvertFrom-Json $select$json.Content.selected[0] $HddCoun$json.Content.normal.Count 遍历数组 foreach($str in $json.versions) { echo "value: $str" } json数据转换psobject.pro…

plex实现流媒体服务器_如何从Plex Media Server离线查看下载和同步媒体

plex实现流媒体服务器Streaming content from your Plex Media Server is great, but sometimes—like when you’re going to be offline or stuck with cruddy internet speeds while traveling—there’s no substitution for having a copy of the media stored on your de…

.NET Conf 2022 大会日程全曝光!!前沿、硬核、创意.....精彩就等你来!!

倒计时2天一场规模宏大,内容硬核,大咖齐聚的.NET 领域年度最大的盛会即将开幕.NET Conf 2022 12月3日-12月4日开源 安全 赋能诚邀您的加入立即扫码预约加入.NET年度盛宴!!.NET Conf China 2022.NET Conf China 2022是面向开发人员…

SpringMVC 数据的格式化、JSR 303数据校验和国际化

SpringMVC 数据的格式化、JSR 303数据校验和国际化转载于:https://www.cnblogs.com/lusufei/p/7400963.html

C# 对程序窗口进程和进程ID

获取当前激活窗口(顶置) GetForegroundWindow() [DllImport("user32.dll")]public static extern IntPtr GetForegroundWindow();[DllImport("user32.dll", EntryPoint "GetWindowText")]public static extern int GetW…

Linux下SSH远程连接断开后让程序继续运行解决办法

screen -S yourname #新建一个叫yourname的sessionscreen -r yourname #回到yourname这个sessionscreen -X -S [yourname # you want to kill]quit #删除无用的screen,使用时不用加中括号 screen -ls #列出当前所有的session screen -d yourname #远程detach某个ses…

网游的服务器瓶颈

1.服务器的数量。 2.服务器的I/O瓶颈。 3.游戏当中的突发性高并发量。 4.CPU主频。

谁说.NET没有GC调优,只改一行代码就让程序不再占用内存

经常看到有群友调侃“为什么搞Java的总在学习JVM调优?那是因为Java烂!我们.NET就不需要搞这些!”真的是这样吗?今天我就用一个案例来分析一下。昨天,一位学生问了我一个问题:他建了一个默认的ASP.NET Core …

wmi服务或wmi提供程序_什么是WMI提供程序主机(WmiPrvSE.exe),为什么使用那么多的CPU?...

wmi服务或wmi提供程序The WMI Provider Host process is an important part of Windows, and often runs in the background. It allows other applications on your computer to request information about your system. This process shouldn’t normally use many system re…

C# 快捷键/hotkey简单例子

1.导入dll [System.Runtime.InteropServices.DllImport("user32.dll")] //申明API函数public static extern bool RegisterHotKey(IntPtr hWnd, // handle to windowint id, // hot key identifieruint fsModifiers, // key-modifier optionsKeys vk // virtual-key …

POJ 3233

矩阵分治 注意不要用 (*this) 会改变原值 #include <iostream> #include <cstdio> #include <cstring> #include <cmath> #include <algorithm> #include <cstdlib> using namespace std; int n, p, k; struct Matrix{int num[35][35];voi…

zookeeper和etcd有状态服务部署

zookeeper和etcd有状态服务部署实践 docker etcd zookeeper kubernetes 4k 次阅读 读完需要 78 分钟 0 一. 概述 kubernetes通过statefulset为zookeeper、etcd等这类有状态的应用程序提供完善支持&#xff0c;statefulset具备以下特性&#xff1a; 为pod提供稳定的唯一…

正在创建系统还原点_如何使Windows在启动时自动创建系统还原点

正在创建系统还原点By default, System Restore automatically creates a restore point once per week and also before major events like an app or driver installation. If you want even more protection, you can force Windows to create a restore point automaticall…

WinForm(十六)绑定

在WinForm中&#xff0c;有很多添加和修改数据的场景&#xff0c;一般的做法是当点击“添加”按钮时&#xff0c;收集各控件的值&#xff0c;然后赋值给实体类的各个属性&#xff0c;然后再完成保存工作。在修改时&#xff0c;首先把实体的原值&#xff0c;一个个赋值给控件&am…

在ubuntu 16.04里使用python—scrapy将爬取到的数据存到mysql数据库中的一些随笔

一、将爬取的数据保存到mysql数据库的代码&#xff08;已经能将爬取的数据保存到json文件&#xff09; &#xff08;1&#xff09;编辑Pipeline.py文件 &#xff08;2&#xff09;编辑settings.py文件 二、将数据保存至mysql数据库出现的问题 &#xff08;1&#xff09;在将数据…

powershell XML操作

1.直接加入xml结构 加入<title>是为了后续能直接添加其他node&#xff0c;否则&#xff0c;后续操作可能无法AppendChild $xml "<?xml version1.0 encodingUTF-8?><case><title>please check each point</title></case>"$xm…

十大经典排序算法(动图演示)

转自&#xff1a;https://www.cnblogs.com/onepixel/articles/7674659.html 0、算法概述 0.1 算法分类 十种常见排序算法可以分为两大类&#xff1a; 非线性时间比较类排序&#xff1a;通过比较来决定元素间的相对次序&#xff0c;由于其时间复杂度不能突破O(nlogn)&#xff0c…

【Python】安装配置Anaconda

优点&#xff1a;解决Python 库依赖问题清华安装镜像https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 转载于:https://www.cnblogs.com/Neo007/p/7419253.html

如何实现 WPF 视频封面查看器

如何实现 WPF 视频封面查看器控件名&#xff1a;NineGridView作 者&#xff1a;WPFDevelopersOrg - 驚鏵原文链接[1]&#xff1a;https://github.com/WPFDevelopersOrg/WPFDevelopers框架使用.NET40&#xff1b;Visual Studio 2019;实现视频封面查看器NineGridView基于Grid实…