python基础语法+爬虫+图像处理+NumpyPandas数据处理(12天速成,第7天上-爬虫Scrapy)

爬虫(Scrapy):写一段程序代码(网络访问),自动获取网页(网络)上的数据服务端语言:网络编程,都可以作为爬虫java c c++ python 等均可写爬虫程序js不是一个典型的服务端程序,js-->node.js也可以做网络爬虫python语言更高级,使用更便捷,库更丰富,代码量更少c:100行  java:50行  python:5行本身这是一个简单的问题,就是网络访问+数据解析但是,目前爬虫也逐渐演变成一门较为复杂的技术场景:客户一直在尝试去爬;服务器一直在不断升级,反爬虫。客户端---服务端不断较量为什么服务器要进行反爬虫:@1数据安全  @2并发问题,造成网站拥堵爬虫的业务场景:
简单---》困难@1 直接访问网页,就能获取数据@2 数据不在网页上,而是需要通过查找数据接口,得到数据(服务器使用的是前后端分离模式开发)@3 数据既不在网页上,也没有找到合适的数据接口,通过selenium自动化测试手段,获取数据@4 服务端设置了各种验证手段,阻止爬虫数据(验证码、密码、拖动验证、单击验证等)
java实现网络访问的第三方的jar包java\c中有socket编程,是底层网络访问技术的语言支持,但是直接使用,会显得繁琐很多第三方的公司对功能进行封装,生成jar包,使用这些jar会更方便。python实现网络访问的第三方库:python有socket编程,是底层网络访问技术的语言支持,但是直接使用,会显得繁琐很多第三方公司对功能进行封装,生成库,使用这些库会更方便。requests、beautifulsoup4、lxml等库
使用第三方库之前,需要安装 这些库
(检测一下有没有这些库)【安装anaconda时,已经将一些常用库安装了】

安装第三方库,在dos窗口直接输入pip指令即可,安装完anaconda时默认安装了pip

可能需要配置一下环境变量【百度自行解决】

pip install xxx
xxx为库名

库的位置都是在国外服务器上,所以整个过程会显得有些慢,
在安装时其实可以通过-i,来指定国内服务器镜像,安装速度会快一些。

pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple/
pip install beautifulsoup4 -i https://pypi.tuna.tsinghua.edu.cn/simple/
pip install lxml -i https://pypi.tuna.tsinghua.edu.cn/simple/

使用request 第三方库,来进行网络访问
import requests# 伪装成浏览器# 在请求头中添加 user-agent
tou = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"}# 访问地址,得到响应
resp = requests.get('https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?type=',headers=tou);ct = resp.content.decode('utf-8');# 80%以上均为utf-8print(ct) # 打印就是得到的整个网页,html页面
# 解析html数据,得到我们想要的那些部分的内容
beautifulsoup库解析HTML页面,查询目标数据
from bs4 import BeautifulSoup
# 将html网页,转换为BeautifulSoup对象
bs = BeautifulSoup(ct,'lxml'); # 不要把l,看成了1# 从bs中查找 想要的数据【css选择器】#css选择器#标签、class、id等几种类型#作用:定位页面元素# 通过css选择器,来定位包含目标数据的那些页面元素sa = bs.select('.subject-item .info h2 a');# 较为重要的一步同,需要程序员认真编写
print(len(sa)) # 20个标签
20
#获取标签的属性/标签的内容
#sa是一个集合,先取第一个元素(第一本书)的名字
bookname = sa[0].get_text(); #get_text()函数作用是获取标签的内容
print(bookname.replace(' ','').replace('\n',''))
太白金星有点烦
#1、打印全部的20本书的书名
for i in range(len(sa)):bookname = sa[i].get_text(); #get_text()函数作用是获取标签的内容print(bookname.replace(' ','').replace('\n',''))
太白金星有点烦
长安的荔枝
额尔古纳河右岸
繁花
明亮的夜晚
活着
我们八月见
十八岁出门远行
名侦探的献祭:人民教会杀人事件
秋园
豆子芝麻茶:和妈妈的最后絮叨
巴别塔
一句顶一万句
绝叫
生死疲劳
悉达多:一首印度的诗
长夜难明:双星
在细雨中呼喊
六个说谎的大学生
三体:“地球往事”三部曲之一
#2、在打印书名时,打印每本书的价格
sc = bs.select('.subject-item .info .pub')
for i in range(len(sa)):bookname = sa[i].get_text(); #get_text()函数作用是获取标签的内容bookprice = sc[i].get_text();print(bookname.replace(' ','').replace('\n',''),' ',bookprice.replace(' ','').replace('\n','').split('/')[-1].replace('元',''))
太白金星有点烦   45.00
长安的荔枝   45.00
额尔古纳河右岸   32.00
繁花   48.00
明亮的夜晚   52
活着   20.00
我们八月见   39.00
十八岁出门远行   45
名侦探的献祭:人民教会杀人事件   59.00
秋园   38.00
豆子芝麻茶:和妈妈的最后絮叨   39.8
巴别塔   98.00
一句顶一万句   68.00
绝叫   58.00
生死疲劳   69.90
悉达多:一首印度的诗   32.00
长夜难明:双星   65.00
在细雨中呼喊   25.00
六个说谎的大学生   45.00
三体:“地球往事”三部曲之一   23.00

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/822045.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【数据结构(七)】二叉树

❣博主主页: 33的博客❣ ▶文章专栏分类: Java从入门到精通◀ 🚚我的代码仓库: 33的代码仓库🚚 🫵🫵🫵关注我带你学更多数据结构的知识 目录 1.前言2.树形结构2.1树的概念2.2常见概念2.3树的表示形式 3.二叉树3.1概念3…

ES源码二:集群启动过程

命令行参数解析 Elasticsearch:在main里面创建了Elasticsearch实例,然后调用了main方法,这个main方法最终会调用到父类Command的main方法 这里做了几件事: 注册一个 ShutdownHook,其作用就是在系统关闭的时候捕获IO…

【Web】陇原战“疫“2021网络安全大赛 题解

目录 CheckIN eaaasyphp EasyJaba CheckIN 拿到附件,贴出关键代码 func getController(c *gin.Context) {cmd : exec.Command("/bin/wget", c.QueryArray("argv")[1:]...)err : cmd.Run()if err ! nil {fmt.Println("error: ", …

Python机器学习项目开发实战:如何预测建模

注意:本文提供下载的教程,与以下文章的思路有相同点,也有不同点,最终目标只是让读者从多维度去熟练掌握本知识点。 在Python中进行机器学习项目开发实战,预测建模是一个常见的应用场景。以下是一个简化的步骤指南&…

C++11(下篇)

文章目录 C111. 模版的可变参数1.1 模版参数包的使用 2. lambda表达式2.1 Lambda表达式语法捕获列表说明 2.2 lambda的底层 3. 包装器3.1 function包装器3.2 bind 4. 线程库4.1 thread类4.2 mutex类4.3 atomic类4.4 condition_variable类 C11 1. 模版的可变参数 C11支持模版的…

当全连接队列满了,tcp客户端收到服务端RST信令的模拟

当tcp服务端全连接队列满了后,并且服务端也不accept取出连接,客户端再次连接时,服务端能够看到SYN_RECV状态。但是客户端看到的是ESTABLISHED状态,所以客户端自认为成功建立了连接,故其写往服务端写数据,发…

鸿蒙入门02-首次安装和配置

注:还没有安装编辑器( deveco studio )的小伙伴请看鸿蒙入门01-下载和安装-CSDN博客 首次安装配置 编辑器( deveco studio )安装完毕以后需要进入配置界面进行相关配置配置完毕以后才可以正常使用 环境配置&#xf…

中国人工智能产业年会智能交通与自动驾驶专题全景扫描

中国人工智能产业年会(CAIIAC)是中国人工智能技术发展和应用的重要展示平台,不仅关注创新,还涵盖了市场和监管方面的内容,对于促进人工智能领域的发展起到了重要作用。年会汇集了来自学术界、工业界和政府的专家&#…

026——项目管理与由来

目录 作者有话说 项目的管理方式 develop分支管理 作者有话说 已经出了25期的文章了,一直没说过我在做个什么。相信大家也有这个以后,作者写了几M的代码到现在不会只是为了点个灯吧。要是这我几十行代码就能解决。 这是一个小故事,老粉丝都…

FILE类与IO流

目录 File类的实例化与常用方法 File类的理解 文件路径的表示方式: API的使用 IO流概述与流的分类 I/O流中的是Input/Output的缩写 IO流的分类(不同角度) Java程序中的IO流涉及40多个,但实际上都是由4个抽象类衍生出来的。 F…

quartz的使用

简介 是OpenSymphony开源组织在Job scheduling领域又一个开源项目&#xff0c;完全由Java开发&#xff0c;可以用来执行定时任务&#xff0c;类似于java.util.Timer。功能更强大 常规 依赖 <dependency><groupId>org.quartz-scheduler</groupId><arti…

wamp3 安装新的php版本

1&#xff1a;进入地址&#xff1a;Wampserver - Files and addons 下载需要的版本的php 2&#xff1a;运行下载好的文件&#xff0c;例&#xff1a;wampserver3_x64_addon_php7.2.34.exe 3&#xff1a;重启wamp&#xff0c;然后左击&#xff0c;顺序&#xff1a;php/Version…

SpringBoot使用xxl-job分布式任务调度平台定时检测RabbitMQ的消息队列自动发出钉钉警告消息

文章目录 SpringBoot使用xxl-job分布式任务调度平台定时检测RabbitMQ的消息队列自动发出钉钉警告消息1、在pom.xml中导入xxl-job的maven依赖&#xff0c;可以看我这篇文章使用抽离出来的xxl-job的starter2、配置xxl-job的相关配置&#xff0c;若上一步使用了自己创建的starter则…

Python基于深度学习的车辆特征分析系统

博主介绍&#xff1a;✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精彩专栏推荐订阅&#x1f447;…

RTT学习

定时器的管理方式 在系统启动时需要初始化定时器管理系统。 void rt_system_timer_init(void);如果需要使用SOFT_TIMER&#xff0c;则系统初始化时&#xff0c;应该调用 void rt_system_timer_thread_init(void);定时器控制块中含有定时器相关的重要参数&#xff0c;在定时器…

高标准化及可扩展的产品能力,助力声通科技运营效率不断提升

高标准化及可扩展的产品能力对企业发展具有重要意义&#xff0c;有助于企业提高运营效率、增强市场竞争力&#xff0c;并推动企业实现规模化发展。上海声通信息科技股份有限公司&#xff08;下文称&#xff1a;声通科技或公司&#xff09;作为我国领先的企业级全栈交互式人工智…

ViM-UNet:用于生物医学细分的 Vision Mamba

ViM-UNet&#xff1a;用于生物医学细分的 Vision Mamba 摘要IntroductionMethod and Experiments结果与讨论 ViM-UNet: Vision Mamba for Biomedical Segmentation 摘要 卷积神经网络&#xff08;CNNs&#xff09;&#xff0c;尤其是UNet&#xff0c;是生物医学分割的默认架构…

Java报表是什么?盘点2023最实用的四款Java报表

从字面义就可以推知&#xff0c;Java报表指的是在Java环境下开发或使用的报表工具。Java语言因其功能强大和简单易用的特点&#xff0c;是静态面向对象编程语言的代表&#xff0c;在Java环境开发使用的这些报表工具&#xff0c;可以通过提供可视化操作界面制作报表&#xff0c;…

如果补货机器人也开始搬砖

过去几年&#xff0c;如果一位顾客的欲购商品疑似缺货&#xff0c;“请稍等&#xff0c;我去后台查一下”便是最常听到的一句话。随着过去几年劳动力短缺的加剧&#xff0c;货架并不总像许多人习惯的那样满满当当。为减轻不断补货的负担&#xff0c;使员工可以将精力集中于其他…

LINUX网卡一般性问题分析

一、网卡相关概念 网卡&#xff1a;网卡是一块被设计用来允许计算机在计算机网络上进行通讯的计算机硬件。 网络模型&#xff1a;OSI网络模型、TCP/IP网络模型 LINUX网络收发流程&#xff1a; 1. 内核分配一个主内存地址段&#xff08;DMA缓冲区)&#xff0c;网卡设备可以在…