python爬虫动态解析js_Python爬虫实战入门五：获取JS动态内容—爬取今日头条

python爬虫动态解析js_Python爬虫实战入门五：获取JS动态内容—爬取今日头条

news/2025/10/29 6:08:05/文章来源:https://blog.csdn.net/weixin_39845613/article/details/110114246

F12打开网页调试工具：

0?wx_fmt=png

选择“网络”选项卡后，发现有很多响应，我们筛选一下，只看XHR响应。（XHR是Ajax中的概念，表示XMLHTTPrequest）然后我们发现少了很多链接，随便点开一个看看：我们选择city，预览中有一串json数据：

0?wx_fmt=png

我们再点开看看：

0?wx_fmt=png

原来全都是城市的列表，应该是加载地区新闻之用的。现在大概了解了怎么找JS请求的接口的吧？但是刚刚我们并没有发现想要的新闻，再找找看：有一个focus，我们点开看看：

0?wx_fmt=png

与首页的图片新闻呈现的数据是一样的，那么数据应该就在这里面了。

看看其他的链接：

0?wx_fmt=png

这应该是热搜关键词

0?wx_fmt=png

这个就是图片新闻下面的新闻了。

我们打开一个接口链接看看：http://www.toutiao.com/api/pc/focus/

0?wx_fmt=png

返回一串乱码，但从响应中查看的是正常的编码数据：

0?wx_fmt=png

有了对应的数据接口，我们就可以仿照之前的方法对数据接口进行请求和获取响应了2、请求和解析数据接口数据

先上完整代码：# coding：utf-8

import requests

import json

url = 'http://www.toutiao.com/api/pc/focus/'

wbdata = requests.get(url).text

data = json.loads(wbdata)

news = data['data']['pc_feed_focus']

for n in news:

title = n['title']

img_url = n['image_url']

url = n['media_url']

print(url,title,img_url)

返回出来的结果如下：

0?wx_fmt=png

照例，稍微讲解一下代码：

代码分为四部分，

第一部分：引入相关的库# coding：utf-8

import requests

import json

第二部分：对数据接口进行http请求url = '

wbdata = requests.get(url).text

第三部分：对HTTP响应的数据JSON化，并索引到新闻数据的位置data = json.loads(wbdata)

news = data['data']['pc_feed_focus']

第四部分：对索引出来的JSON数据进行遍历和提取for n in news:

title = n['title']

img_url = n['image_url']

url = n['media_url']

print(url,title,img_url)

如此，就完成了从JS网页中爬取数据。如有帮助，欢迎微信打赏 0?wx_fmt=png 微信公众号

州的先生

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/507790.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

openjdk怎么执行java命令_Ubuntu 18.04 上使用 OpenJDK 安装并运行 Tomcat

openjdk怎么执行java命令_Ubuntu 18.04 上使用 OpenJDK 安装并运行 Tomcat

在Linux上安装与卸载JDK和JRE，两种常用方法：一、通过 apt-get 命令在线进行安装与卸载(会自动配置好环境变量)二、通过下载并解压 .tar.gz 包进行手动安装与手动卸载(需要手动配置环境变量)注：javac命令是JDK中的，java命令是JRE中…

阅读更多...

vscode卸载background插件_萌妹程序员鼓励师24小时在线陪你写代码，给我吹爆这个VSCode插件...

vscode卸载background插件_萌妹程序员鼓励师24小时在线陪你写代码，给我吹爆这个VSCode插件...

开源最前线(ID：OpenSourceTop) 猿妹综合整理项目地址：https://github.com/SaekiRaku/vscode-rainbow-fart最近，Github上有一个名为Rainbow Fart的VSCode 插件被玩坏了，有了这个插件，程序员鼓励师这个物种就要灭绝了。为…

阅读更多...

python webui测试ie浏览器环境配置_python+selenium做ui自动化测试用法必会

python webui测试ie浏览器环境配置_python+selenium做ui自动化测试用法必会

一、前言大家都知道，基于Web端的测试的基础框架是需要Selenium做主要支撑的，这里边给大家介绍下Web测试核心之基于 Python 的 SeleniumSelenium 是用于测试 Web 应用程序用户界面 (UI) 的常用框架。它是一款用于运行端到端功能测试的超强工具。您可以使用…

阅读更多...

python调用matlab函数_从python调用MATLAB函数

python调用matlab函数_从python调用MATLAB函数

我知道这是一个老问题，已经得到答复。但是我一直在寻找相同的东西（对于Mac），发现有很多选择与matlab交互的方法和成熟度不同。这是我发现的： pymat 使用matlab引擎（libeng）进行通讯的低级接口…

阅读更多...

java 获取td_[Java教程]jQuery获取table表中的td标签

java 获取td_[Java教程]jQuery获取table表中的td标签

[Java教程]jQuery获取table表中的td标签0 2017-07-28 00:00:08首先我来介绍一下我遇到的问题1.当有一个table表包含了标签，标签，大致可以认为是这样的：scene.ID scene.SceneName scene.QRUrl scene.LocalUrl if (!string.IsNullOrWhiteSpace(…

阅读更多...

引用另一模板的宏_生信人值得拥有的编程模板Shell

引用另一模板的宏_生信人值得拥有的编程模板Shell

前言“工欲善其事必先利其器”，生信工程师每天写代码、搭流程，而且要使用至少三门编程语言，没有个好集成开发环境(IDE，Integrated Development Environment)那怎么行？本人使用过vim, editplus, ultraedit, notepad, su…

阅读更多...

avlib java_fatal error: libavutil/avconfig.h: No such file...

avlib java_fatal error: libavutil/avconfig.h: No such file...

根据这位仁兄的记录，可以在android程序里调用ffmpeg的avcodec_version()函数；下载了最新版的ffmpeg源码(2.4.1)，在cygwin里用NDK编译时可能会报错，报错如下；your_nameAP-CHN-LP140129 /cygdrive/c/Workspace_my/TestAp…

阅读更多...

python 绘制分布直方图_统计学中常见的4种抽样分布及其分布曲线（Python绘制）...

python 绘制分布直方图_统计学中常见的4种抽样分布及其分布曲线（Python绘制）...

现代统计学奠基人之一、英国统计学家费希尔(Fisher)曾把抽样分布、参书估计和假设检验看作统计推断的三大中心内容。统计学中，需要研究统计量的性质，并评价一个统计推断的优良性，而这些取决于其抽样分布的性质，所以，抽…

阅读更多...

js 即时上传php_php+js实现异步图片上传实例分享

js 即时上传php_php+js实现异步图片上传实例分享

Html5 Ajax 上传文件var xhr;function createXMLHttpRequest(){if(window.ActiveXObject){xhr new ActiveXObject("Microsoft.XMLHTTP");}else if(window.XMLHttpRequest){xhr new XMLHttpRequest();}}function UpladFile(){var fileObj document.getElementById(…

阅读更多...

php 文件不更新,php页面不刷新更新数据

php 文件不更新,php页面不刷新更新数据

php页面不刷新更新数据php页面不刷新更新数据实现起来很简单，我们可以使用前端的ajax技术。ajax作用：ajax技术的目的是让javascript发送http请求，与后台通信，获取数据和信息。实现前后端分离。ajax技术的原理是实例化xmlhttp对象&…

阅读更多...

master节点部署pod_小伙！Kubernetes 部署如此简单，你看完全明白了

master节点部署pod_小伙！Kubernetes 部署如此简单，你看完全明白了

将项目迁移到k8s平台是怎样实现的?制作镜像控制器管理PodPod数据持久化暴露应用对外发布应用日志/监控1、制作镜像分为三步第一基础镜像，是基于哪个操作系统，比如Centos7或者其他的第二步中间件镜像，比如服务镜像，跑的像nginx服务…

阅读更多...

PHP逻辑运算符如何写,PHP 逻辑运算符

PHP逻辑运算符如何写,PHP 逻辑运算符

PHP 逻辑运算符在接下来的时间里面，我们准备为大家继续介绍“PHP 逻辑运算符”。(１)在PHP中逻辑运算符分为３种，分别是“与”、“或”、“非”，首先，我们来看看３种运算符的符号，分别如…

阅读更多...

c++从入门到精通_资料下载：从入门到精通，手把手教你学DSP

c++从入门到精通_资料下载：从入门到精通，手把手教你学DSP

学习一个东西首先是了解它，比如DSP到底是什么？用在什么地方？怎么用？和单片机特点有那些相同与不同？开发需要注意什么？想了解清楚这些问题自然就清楚比较清楚的认识DSP。DSP，因为它是用来做数据处…

阅读更多...

php mysql存中文,PHP+MySQL存储数据常见中文乱码问题小结

php mysql存中文,PHP+MySQL存储数据常见中文乱码问题小结

PHPMySQL存储数据常见中文乱码问题小结本文实例总结了PHPMySQL存储数据常见中文乱码问题。分享给大家供大家参考，具体如下：PHPMySQL出现中文乱码的常见原因:1. MYSQL数据库的编码是utf8,与PHP网页的编码格式不一致,就会造成MYSQL中的中文乱码。2. 使用MY…

阅读更多...

dbf文件怎么创建_ThinkPHP6开发博客实战入门（三），创建admin后台入口

dbf文件怎么创建_ThinkPHP6开发博客实战入门（三），创建admin后台入口

打开创建的应用根目录：E:phpstudy_proWWWp(注意，往后我所说的根目录就是此路径)简单说一下tp6的目录结构app应用目录主要存放控制器文件；config配置目录主要存放全局配置文件；public入口目录主要存放入口或者资源文件；…

阅读更多...

php如何判断是否关注,php如何判断用户是否关注微信公众号

php如何判断是否关注,php如何判断用户是否关注微信公众号

这篇文章主要为大家详细介绍了php判断用户是否关注微信公众号，具有一定的参考价值，感兴趣的小伙伴们可以参考一下最近要做一个微信平台的投票活动，需要在关注公众号之后才能参与投票，那么，如何判断用户是否关注了公众号…

阅读更多...

没有返回值的方法mock怎么写_【方法】小学生怎么写读书笔记？

没有返回值的方法mock怎么写_【方法】小学生怎么写读书笔记？

什么是读书笔记读书笔记，是指人们在阅读书籍或文章时，遇到值得记录的东西和自己的心得、体会，随时随地把它写下来的一种文体。古人有条著名的读书治学经验，叫做读书要做到：眼到、口到、心到、手到。这“手到”就是读书…

阅读更多...

PHP框架编写和应用知识点,php框架知识点的整理和补充

PHP框架编写和应用知识点,php框架知识点的整理和补充

我们对于比较常见的php框架，已经基本上有所认识，不过一些比较冷门的框架也可以做一个了解，以便日后的特殊使用。本篇整理了4种php框架，在不同的使用方法上都独具特色，其中很多的框架不被大家熟知，下面我们就…

阅读更多...

检测到python编程环境中存在多个版本_linux下多个python版本怎么管理？

检测到python编程环境中存在多个版本_linux下多个python版本怎么管理？

VirtualEnv 是什么 VirtualEnv用于在一台机器上创建多个独立的python运行环境，VirtualEnvWrapper为前者提供了一些便利的命令行上的封装。为什么要用 - 隔离项目之间的第三方包依赖，如A项目依赖django1.2.5，B项目依赖django1.3。 - 为部署应…

阅读更多...

php e error,E_ERROR定义与用法汇总

php e error,E_ERROR定义与用法汇总

前言最近由于项目需要，需要读取一个含有中文的txt文档，完了还要保存文件。文档之前是由base64编码，导致所有汉字读取显示乱码。项目组把base64废弃之后，先后出现两个错误：ascii codec cant encode characters in posit…

阅读更多...

最新文章