Python爬虫技术，爬取网站数据、电影、资源等等

一般爬虫都是使用 Python 语言，并借助一些爬虫库，比如 requests 和 BeautifulSoup。代码如下：

import requests
from bs4 import BeautifulSoup# 目标URL
url = 'http://example.com'# 发送HTTP请求
response = requests.get(url)# 检查请求是否成功
if response.status_code == 200:# 解析HTML内容soup = BeautifulSoup(response.text, 'html.parser')# 查找所需的数据# 例如，查找所有的标题titles = soup.find_all('h1')# 打印所有标题的文本内容for title in titles:print(title.get_text())
else:print(f"Failed to retrieve the page. Status code: {response.status_code}")

该代码工作流程如下：

发送HTTP请求：使用 requests 库向目标 URL 发送一个 GET 请求。
检查响应状态：确认请求是否成功（状态码为200表示成功）。
解析HTML内容：使用 BeautifulSoup 库解析页面内容。
查找所需的数据：例如，这里查找所有的 <h1> 元素。
处理和显示数据：将找到的标题文本打印出来。

在运行此代码之前，需要确保已经安装了 requests 和 BeautifulSoup 库。如果尚未安装，可以使用以下命令进行安装：

pip install requests
pip install beautifulsoup4

如果需要爬取更复杂的页面数据，例如处理分页或动态加载的内容，可以结合 Selenium 等库。示例代码如下：

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager# 配置webdriver
service = Service(ChromeDriverManager().install())
driver = webdriver.Chrome(service=service)# 目标URL
url = 'http://example.com'# 打开网页
driver.get(url)# 查找所需的元素
titles = driver.find_elements(By.TAG_NAME, 'h1')# 打印所有标题的文本内容
for title in titles:print(title.text)# 关闭浏览器
driver.quit()

在爬取数据的时候我们也需要注意以下规则：