一、书籍推荐
推荐本人书籍《Python网络爬虫入门到实战》 ,详细介绍见👉: 《Python网络爬虫入门到实战》 书籍介绍
二、完整代码
# 使用selenium爬取热榜
# 热榜地址:https://blog.csdn.net/rank/list
# 获取标题、浏览量、评论数量、收藏数量from selenium import webdriver
import time
import csv
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as ECdef get_data(url):driver = webdriver.Chrome()driver.get(url)# 添加等待wait = WebDriverWait(driver, 10)try:# 等待直到页面加载完成wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, "div.hostitem.floor")))# 滚动页面以加载更多数据for _ in range(4):driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")time.sleep(5)# 获取所有的文章元素