python 爬虫热搜_Python网络爬虫之爬取微博热搜

微博热搜的爬取较为简单，我只是用了lxml和requests两个库

1.分析网页的源代码：右键--查看网页源代码.

从网页代码中可以获取到信息

(1)热搜的名字都在

的子节点里

(2)热搜的排名都在

的里(注意置顶微博是没有排名的！)

(3)热搜的访问量都在

的子节点里

2.requests获取网页

(1)先设置url地址，然后模拟浏览器(这一步可以不用)防止被认出是爬虫程序。

###网址

url="https://s.weibo.com/top/summary?refer=top_hot&topnav=1&wvr=6"

###模拟浏览器，这个请求头windows下都能用

header={'user-agent':'mozilla/5.0 (windows nt 10.0; win64; x64) applewebkit/537.36 (khtml, like gecko) chrome/73.0.3683.103 safari/537.36'}

(2)利用req uests库的get()和lxml的etr ee()来获取网页代码

###获取html页面

html=etree.html(requests.get(url,headers=header).text)

3.构造xpath路径

上面第一步中三个xath路径分别是：

affair=html.xpath('//td[@class="td-02"]/a/text()')

rank=html.xpath('//td[@class="td-01 ranktop"]/text()')

view=html.xpath('//td[@class="td-02"]/span/text()')

xpath的返回结果是列表，所以affair、rank、view都是字符串列表

4.格式化输出

需要注意的是affair中多了一个置顶热搜，我们先将他分离出来。

top=affair[0]

affair=affair[1:]

这里利用了python的切片。

print('{0:<10}\t{1:<40}'.format("top",top))

for i in range(0, len(affair)):

print("{0:<10}\t{1:{3}<30}\t{2:{3}>20}".format(rank[i],affair[i],view[i],chr(12288)))

这里还是没能做到完全对齐。。。

5.全部代码

###导入模块

import requests

from lxml import etree

###网址

url="https://s.weibo.com/top/summary?refer=top_hot&topnav=1&wvr=6"

###模拟浏览器

header={'user-agent':'mozilla/5.0 (windows nt 10.0; win64; x64) applewebkit/537.36 (khtml, like gecko) chrome/73.0.3683.103 safari/537.36'}

###主函数

def main():

###获取html页面

html=etree.html(requests.get(url,headers=header).text)

rank=html.xpath('//td[@class="td-01 ranktop"]/text()')

affair=html.xpath('//td[@class="td-02"]/a/text()')

view = html.xpath('//td[@class="td-02"]/span/text()')

top=affair[0]

affair=affair[1:]

print('{0:<10}\t{1:<40}'.format("top",top))

for i in range(0, len(affair)):

print("{0:<10}\t{1:{3}<30}\t{2:{3}>20}".format(rank[i],affair[i],view[i],chr(12288)))

main()

结果展示:

总结

以上所述是小编给大家介绍的python网络爬虫之爬取微博热搜,希望对大家有所帮助

希望与广大网友互动？？

点此进行留言吧！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/349339.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

python 爬虫热搜_Python网络爬虫之爬取微博热搜

相关文章

优盘复制进来为空_为何电脑上的文件夹一复制到U盘里就变成空文件夹了?

Spring Cloud教程–使用Spring Cloud Bus自动刷新配置更改

js给标签添加属性和值_jquery节点属性

sci translate好用吗_228个学科分类对应12000+本SCI和SSCI期刊,总有你要的那款!

java 反射属性顺序_java反射得到的方法数组的顺序

arrays.sort(._Arrays.sort与Arrays.parallelSort

python冒泡排序函数_python冒泡排序-Python,冒泡排序

适用于Idea的面向现代TDD的Java 8 JUnit测试模板（带有Mockito和AssertJ）

python编程的基本方法有哪些_Python编程中常用的基础知识有哪些?

java取网页源码_Java获取任意http网页源代码的方法

python数据结构算法优势_Python数据结构与算法（一）----- 算法效率

Java编程字符逆序输出_用JAVA编写一程序：从键盘输入多个字符串到程序中，并将它们按逆序输出在屏幕上。...

glassfish 4配置_自己构建GlassFish 4.0快照

julia与python对比_有人说Julia比Python好，还给出了5个理由

使用Flowable.generate（）生成可感知背压的流– RxJava常见问题解答

java字符串构造函数的应用_StringTokenizer类的使用

linkedhashmap获取第n个元素_机试真题分享——交换链表前后第K个元素

maven java 参数_将Maven参数注入Java类

Spring Boot Admin –用于管理Spring Boot应用程序的Admin UI

md5与des算法有何不同_Python算法详解：为什么说算法是程序的灵魂？