最简单的爬虫！只需要粘贴你要爬虫的网址

依赖

必须按照这个库，爬虫必备！

pip install requests

四行代码

import get
import save
spider_text = get.html("https://www.baidu.com/")
save.file(spider_text)

使用

更改 get.html() 中的参数，改成你想要爬取的网站的地址！

原理

get 和 set 被我做成模块，然后整个主体代码就简洁起来！

只需要调用 get 模块中的 html 函数，就能获取改网页中的 HTML 代码！

保存文件位置

默认保存路径为当前文件夹下的 output 文件夹

附录

工程文件目录：
在这里插入图片描述

get 模块源码：

import requestsdef html(spider_url):""" 爬取网页文本内容:param spider_url 要爬取的网页:return 返回文本"""header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) ""Chrome/106.0.0.0 Safari/537.36 Edg/106.0.1370.42 "}response = requests.get(spider_url, headers=header)# 是否爬取成功response.raise_for_status()# 保证编码response.encoding = response.apparent_encodingreturn response.textdef hello(): print("Hello get.py")

save 模块源码：

import random
import time
import os"""本模块默认保存位置: 当前文件夹下的 output 
"""# 默认输出路径
output_dir = "./output/"def random_filename():"""随机文件名:return 返回文件名"""filename = str(time.time())return filename.replace(".","")def check():""" output 文件夹是否被创建 """if os.path.exists(output_dir) == False:os.system("mkdir output")def file(saved_text, filename="", filetype=".txt"):"""保存文件, 默认保存为记事本格式:param saved_text 要保存的文本:param filename 文件名:param filetype 文件类型"""check()if filename == "":filename = random_filename()    # 保存文件路径拼接save_path = output_dir + filename + filetypewith open(save_path, 'w', encoding="utf-8") as f:f.write(saved_text)def html(saved_text, filename=""):"""保存网页文件到本地:param saved_text 要保存的网页文本""" file(saved_text, filename, filetype=".html")