线程池（ThreadPoolExecutor,as_completed）和scrapy框架初步构建—

线程池（ThreadPoolExecutor,as_completed）和scrapy框架初步构建——学习笔记

用法1：map函数


with ThreadPoolExecutor() as pool:        results = pool.map(craw,utls)for result in results:print(result)

1.Scrapy框架：

五大结构：引擎，下载器，爬虫，调度器，管道，爬虫

其中引擎，下载器，调度器。不用我们写。剩下的要我们写。

代码部分的了解：这个是自己创建一个爬虫（用scrapy）叫“xiao”

import scrapyclass XiaoSpider(scrapy.Spider):name = "xiao"allowed_domains = ["4399.com"]start_urls = ["https://4399.com/flash/"]def parse(self, response):#print(response.text)#获得游戏名# txt = response.xpath("//ul[@class = 'n-game cf']/li/ a/b/text()")# #提取信息内容# txt = txt.extract()# print(txt)#分块提取li_list = response.xpath("//ul[@class = 'n-game cf']/li")for list in li_list:#name = list.xpath("./a/b/text()").extract()#返回的一个列表，拿到字符串要加[0]name = list.xpath("./a/b/text()").extract_first()#拿到第一个，如果没有返回Noneleibie = list.xpath("./em/a/text()").extract_first()#拿到第一个，如果没有返回Noneprint(name,leibie)

这个scrapy是拿终端跑的。

步骤：
1.

其中代码中，scrapy给我们了，寻找的方法

response.xpath(),respon,css()。

没有见过的是：

leibie = list.xpath("./em/a/text()").extract_first()

的extract（），这个就是

提取信息内容

学习笔记加油！！！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/700912.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

线程池（ThreadPoolExecutor,as_completed）和scrapy框架初步构建——学习笔记

相关文章

【vue】provide/inject

1.QT简介（介绍、安装，项目创建等）

Linux--shell编程中内部表和外部表之间的转换

Scrapy爬虫开发流程全解析

产品化Chatgpt所面临的五大技术挑战

神经网络系列---归一化

GPT技术在学术研究中的革命性应用：开启论文创作新篇章

《隐私计算简易速速上手小册》第8章：隐私计算对机器学习和 AI 的影响（2024 最新版）

134 Linux 系统编程11 ，readlink命令，文件目录rwx权限差异，目录操作函数

简单封装axios

camunda源代码编译运行（一）：下载编译camunda源代码

ES坑-创建索引使用_下划线-黑马旅游搜不到

第二十五章： Springboot使用velocity模板引擎

绘图机器（C 语言）

专注力训练游戏-第15届蓝桥第4次STEMA测评Scratch真题精选

fpga_硬件加速引擎

【C++】类和对象之拷贝构造函数篇

Sora领航AIGC时代：深度解读行业变革与AI工具全景图

「优选算法刷题」：斐波那契数（两种解法）

web通用脚手架2