手把手学爬虫第三弹——爬取动态渲染的信息,2024年最新2024最新阿里Python高级面试题及答案

print(response.json())

except:

pass

if name == ‘main’:

url = ‘https://ys.mihoyo.com/content/ysCn/getContentList?pageSize=20&pageNum=1&order=asc&channelId=150’

get_data(url)

请添加图片描述

4.清洗数据

对于返回的JSON格式的数据我们不需要任何选择器就可以直接获取,注意看清数据的层次结构,这样我们就可以一层层获取我们需要的数据了,获取的时候参照格式化后的代码即可。

格式化后的数据如下,显然我们需要的数据在list这个列表里面,所以我们先拿到这个list,然后去遍历list进一步取出里面的数据。

请添加图片描述

def get_data(url):

try:

yinpin = []

tu_url = None

jianjie = None

response = requests.get(url=url, headers=headers)

print(response.json())

res = response.json()

data_list = res[‘data’][‘list’] # 获取到list数据

print(data_list)

i = 1

for each in data_list:

print(‘正在爬取第{}个角色…’.format(i))

i = i + 1

id = each[‘id’] # 角色id

title = each[‘title’] # 角色名字

start_time = each[‘start_time’] # 角色上线时间

ext_list = each[‘ext’]

for item in ext_list:

if item[‘arrtName’] == ‘角色-PC端主图’: # 角色主图

tu_url = item[‘value’][0][‘url’]

elif item[‘arrtName’] == ‘角色-简介’: # 角色简介

jianjie = processing(item[‘value’])

elif item[‘arrtName’] == ‘角色-音频1-2’: # 可以使用正则匹配所有的

yinpin = item[‘value’][0][‘name’] + ‘||’ + item[‘value’][0][‘url’] # 一条配音链接

data = {

“角色ID”: id,

“角色名称”: title,

“上线时间”: start_time,

“高清图片”: tu_url,

“角色简介”: jianjie,

“角色配音”: yinpin,

}

print(data)

dict_infor.append(data)

print(dict_infor)

except ZeroDivisionError as e:

print(“except:”, e)

finally:

pass

5.完整代码以及效果截图

-- coding: utf-8 --

@Time : 2021/9/18 16:03

@Author : KK

@File : 40_原神官网.py

@Software: PyCharm

import requests

import re

import csv

import time

headers = {

‘user-agent’: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36’}

dict_infor = []

处理字符串中的空白符,并拼接字符串

def processing(strs):

n = strs.replace(‘

’, ‘’).replace(‘
\n’, ‘’).replace(‘

\n’, ‘’).replace(‘\n’, ‘’) # 去除空字符

return n # 返回拼接后的字符串

def get_data(url):

try:

yinpin = []

tu_url = None

jianjie = None

response = requests.get(url=url, headers=headers)

print(response.json())

res = response.json()

data_list = res[‘data’][‘list’] # 获取到list数据

print(data_list)

i = 1

for each in data_list:

print(‘正在爬取第{}个角色…’.format(i))

i = i + 1

id = each[‘id’] # 角色id

title = each[‘title’] # 角色名字

start_time = each[‘start_time’] # 角色上线时间

ext_list = each[‘ext’]

for item in ext_list:

if item[‘arrtName’] == ‘角色-PC端主图’: # 角色主图

tu_url = item[‘value’][0][‘url’]

elif item[‘arrtName’] == ‘角色-简介’: # 角色简介

jianjie = processing(item[‘value’])

elif item[‘arrtName’] == ‘角色-音频1-2’: # 可以使用正则匹配所有的

yinpin = item[‘value’][0][‘name’] + ‘||’ + item[‘value’][0][‘url’] # 一条配音链接

data = {

“角色ID”: id,

“角色名称”: title,

“上线时间”: start_time,

“高清图片”: tu_url,

“角色简介”: jianjie,

“角色配音”: yinpin,

}

print(data)

dict_infor.append(data)

print(dict_infor)

except ZeroDivisionError as e:

print(“except:”, e)

finally:

pass

def get_url():

page_list = [150, 151, 324]

for i in page_list:

url = ‘https://ys.mihoyo.com/content/ysCn/getContentList?pageSize=20&pageNum=1&order=asc&channelId={}’.format(i)

get_data(url)

if name == ‘main’:

get_url()

保存到csv

with open(r’E:\python\pythonProject3\venv\Include\原神.csv’, ‘a’, encoding=‘utf-8’, newline=‘’) as cf:

writer = csv.DictWriter(cf, fieldnames=[‘角色ID’, ‘角色名称’, ‘上线时间’, ‘高清图片’, ‘角色简介’, ‘角色配音’])

writer.writeheader()

writer.writerows(dict_infor)

time.sleep(1)

print(‘爬取并保存完毕’)

请添加图片描述

6.分析总结

通过上面的代码可以发现,对于这类数据的爬取其实和requests请求方式差不多,主要区别在于我们获取到的数据不同,对于JSON数据我们同样进行适当的处理,获取我们想要的数据。

三、Selenium爬取动态数据

============================================================================

Selenium是浏览器自动化测试框架,是一个用于web测试的工具,可以直接在浏览器中运行,并可驱动浏览器执行一定的操作,例如点击、下拉等,还可以获取浏览器当前页面的源代码。

1.安装Selenium以及浏览器驱动

在pycharm搜索安装selenium模块或者直接控制台pip install selenium命令行安装。

由于该框架需要浏览器驱动,我们根据自己所使用的浏览器下载对应版本即可。

chrome浏览器驱动

Firefox浏览器驱动

IE浏览器驱动

2.Selenium使用准备

下载完成后将名称chromedriver.exe的文件提取出来放在与自己的python.exe文件同级的路径中。

请添加图片描述

3.Selenium模块常用方法

查阅官网文档

a.定位元素

| 模块名称 | 使用 |

| — | — |

| find_element_by_id() | |

| find_element_by_name() | |

| find_element_by_xpath() | |

| find_element_by_link_text() | |

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数Python工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年Python开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
img
img



既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Python开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加V获取:vip1024c (备注Python)
img

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

二、学习软件

工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。

三、入门学习视频

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。

一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
img

,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。

一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
[外链图片转存中…(img-8mFxk1VA-1712838831380)]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/808584.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Qt中的网络通信

C没有封装专门的网络套接字的类,因此C只能调用C对应的API,而在Linux和Windows环境下的API都是不一样的 Qt作为一个C框架提供了相关封装好的套接字通信类 在Qt中需要用到两个类,两个类都属于network且都是属于IO操作,只不过这两个类…

第3章 存储系统(2)

3.3 主存储器与CPU连接 3.3.1 连接原理 现代计算机的MAR和MDR都在CPU内部。 (1)主存储器通过数据总线,地址总线,控制总线与CPU连接。 (2)数据传输率数据总线宽度*总线频率。 (4)控制总线(读写线)控制读写操作。 3.3.2 主存的扩展 数据总线宽度等于存储字长 1.位扩展法【增加…

Java-Web过滤器

文章目录 1.基本介绍1.为什么需要过滤器?2.基本介绍3.过滤器的基本原理 2.快速入门1.文件目录2.环境配置创建maven项目,导入依赖 3.代码实现1.login.jsp2.LoginCheck.java3.ManagerFilter.java编写过滤规则4.配置web.xml告诉tomcat5.admin.jsp 3.Filter的…

springboot如何切换内置web服务器?

切换内置web服务器 这是没有引入web依赖的服务 这是引入web依赖的服务 由此可知默认是tomcat服务器 那么如何切换内置服务器 只要有对应服务器的坐标即可自动切换&#xff0c;先排除tomcat再引入依赖&#xff0c;比如切换成jetty服务器 <dependency><groupId>org…

飞腾银河麒麟(ARM架构)离线安装MySql8.0.28版本

下载安装包 下载地址&#xff1a;https://downloads.mysql.com/archives/community/ 解压后上传到服务器(或者直接上传到服务器用tar -zxvf xxx.tar命令解压) 卸载mariadb 卸载命令&#xff1a;yum remove mariadb-server mariadb 检查是否还有未删除的包&#xff1a; rpm -…

模型训练----apex库报错IndexError: tuple index out of range

问题描述 在训练模型的过程中遇到了apex库的报错IndexError: tuple index out of range导致无法训练。在github查询后找到了解决方法 问题解决 需要修改/apex-master/apex/amp/utils.py这个文件的代码 从93行开始修改 if x in cache:cached_x cache[x]next_functions_ava…

【UE Niagara】蓝图获取粒子数据

目录 效果 步骤 一、创建粒子 二、创建蓝图接收Niagara参数 效果 步骤 一、创建粒子 1. 新建一个Niagara发射器&#xff0c;使用Empty模板&#xff0c;打开后先添加“Spawn Rate”模块&#xff0c;这里设置粒子生成速率为0.7 在“Initialize Particle”模块中设置粒子颜色…

Eland上传bge-base-zh-v1.5向量化模型到ElasticSearch中

最近需要做一些向量检索&#xff0c;试试ES 一、准备 系统&#xff1a;MacOS 14.3.1 ElasticSearch&#xff1a;8.13.2 Kibana&#xff1a;8.13.2 本地单机环境&#xff0c;无集群&#xff0c;也不基于Docker BGE是一个常见的文本转向量的模型&#xff0c;在很多大模型RAG应…

MobX 中 runInAction 的威力:构建原子性状态更新

"原子性状态更新"这个词可以很好地概括 runInAction 的核心功能,即将一组相关的状态更新作为一个整体,要么全部成功,要么全部失败。这种特性对于复杂的异步操作和状态管理非常重要。可以帮助我们构建更加可靠和可预测的 React 应用程序。 怎么理解原子性操作 "…

华为OD技术面试-爬楼计数(动态规划)

背景 2024-03-16 华为od 技术面试&#xff0c;记录题目和模型 题目 分析 入门级的 动态规划算法&#xff0c;直接写就行了 缓存递归 代码 DZs {} def climbStairs(n):if n<0:return 0if DZs.get(n, 0)>0 :return DZs[n]if n2:jf 2elif n1:jf 1;else:jf1 climb…

vue2+codemirror实现在线编辑java代码(一 配置)

使用vue2+codemirror实现java代码回显和编辑功能。 效果图如下: 1、安装 vue-codemirror // 指定安装4.x版本 // 目前最新版本6.x,仅支持Vue3.0 npm i vue-codemirror@4.x --save// codemirror 需要与 vue-codemirror 同时安装 npm i codemirror@5.x --save 2、引入配置文…

javaee前后端交互

1.选择Java Enterprise创建项目 2.勾选Web Profile 3.项目名称 4.创建包和类 5.继承HttpServlet并重写方法doGet和doPost 6.在web.xml里添加代码 7.点击Add Configuration,进去后点击加号 8.选择选项 9.调整如图&#xff0c;后选择Deployment进入 10.点击加号选择第一个 11.…

Java二叉树(2)

一、二叉树的链式存储 二叉树的存储分为顺序存储和链式存储 &#xff08;本文主要讲解链式存储&#xff09; 二叉树的链式存储是通过一个一个节点引用起来的&#xff0c;常见的表示方式有二叉三叉 // 孩子表示法 class Node { int val; // 数据域 Node left; // 左孩子的引用…

我为什么选择成为程序员?

前言&#xff1a; 我选择成为程序员不是兴趣所在&#xff0c;也不是为了职业发展&#xff0c;全是生活所迫&#xff01; 第一章&#xff1a;那年&#xff0c;我双手插兜&#xff0c;对外面的世界一无所知 时间回到2009年&#xff0c;时间过得真快啊&#xff0c;一下就是15年前…

6.12物联网RK3399项目开发实录-驱动开发之UART 串口的使用(wulianjishu666)

嵌入式实战开发例程【珍贵收藏&#xff0c;开发必备】&#xff1a; 链接&#xff1a;https://pan.baidu.com/s/1tkDBNH9R3iAaHOG1Zj9q1Q?pwdt41u UART 使用 简介 AIO-3399J 支持 SPI 桥接/扩展 4 个增强功能串口&#xff08;UART&#xff09;的功能&#xff0c;分别为 UA…

如何在群晖本地搭建在线PS工具Potopea并实现无公网IP远程编辑图片

文章目录 1. 部署Photopea2. 运行Photopea3. 群晖安装Cpolar4. 配置公网地址5. 公网访问测试6. 固定公网地址 本文主要介绍如何在群晖NAS使用Docker部署Potopea在线图片编辑工具&#xff0c;并结合cpolar内网穿透实现公网环境可以远程访问本地部署的Potopea. Photopea是一款强大…

[通俗易懂]《动手学强化学习》学习笔记2-第2、3、4章

文章目录 前言小总结&#xff08;前文回顾&#xff09;第二章 多臂老虎机2.2.2形式化描述 第三章 马尔可夫决策过程3.6 占用度量 代码3.6 占用度量 定理2 第四章 动态规划算法4.3.3 策略迭代算法 代码 总结 前言 参考&#xff1a; 《动手学强化学习》作者&#xff1a;张伟楠&a…

爬取豆瓣(线程、Session)优化版本

爬取豆瓣&#xff08;线程、Session&#xff09;优化版本 该文章只是为了精进基础&#xff0c;对Session、threading、网站请求解析的理解。 此版本没有爬取详情页。还在学习阶段的读者可以尝试一下。 适用于基础刚开始学习爬虫的&#xff01; 1.改进点&#xff1a; 将普通的r…

利用alibaba.item_get API接口,跨境电商如何快速获取商品详情?

利用alibaba.item_get API接口&#xff0c;跨境电商可以快速获取商品详情&#xff0c;为业务的开展提供有力支持。alibaba.item_get API接口是阿里巴巴开放平台提供的一项服务&#xff0c;它允许开发者通过调用API接口&#xff0c;获取阿里巴巴平台上商品的详细信息。以下是如何…

Android8.1 代码编译报错

注&#xff1a; 本文只是博主学习记录分享&#xff0c;仅供参考。如有错误肯定是博主理解有问题&#xff0c;谢谢&#xff01; 1. Android8.1 编译报 java 环境错误 1.1. 具休描述 Android8.1 代码编译报 Failed to run java: exce: "java": excutable file not fo…