import re
# 正则表达式模式,匹配以 'cl' 开头,后跟任意数字,然后是 ' a::before'
pattern_cl8 = r'(cl8)\s+a::before'
# 在源码中查找匹配项
matches_cl8 = re.findall(pattern_cl8, page_source, re.IGNORECASE)
# 如果找到 'cl8 a::before',存储它的类名
if matches_cl8:
excluded_class = matches_cl8[0]
else:
excluded_class = None
# 正则表达式模式,匹配以 'cl' 开头的类,但排除 'cl8'
if excluded_class:
pattern_cl_exclude = r'(?<!{})\.cl\d+\s+.+'.format(re.escape(excluded_class))
else:
pattern_cl_exclude = r'\.cl\d+\s+'
# 正则表达式模式,匹配 .ctnr 类,但不包括 'cl' 开头的类
pattern_ctnr = r'<div[^>]*class="ctnr[^"]*"[^>]*>(.*?)<\/div>'
# 在源码中查找匹配项,排除 'cl' 开头的类
matches_ctnr = []
for match in re.findall(pattern_ctnr, page_source, re.IGNORECASE | re.DOTALL):
# 检查是否包含 'cl' 开头的类,但不包括 'cl8'
if not re.search(pattern_cl_exclude, match, re.IGNORECASE):
matches_ctnr.append(match)
# 输出匹配结果
if not matches_ctnr:
print("没有找到符合条件的 .ctnr 元素")
else:
print("找到的 .ctnr 元素(排除 'cl8' 类):")
for element in matches_ctnr:
print(element)
--------------------------------------------------------
# 首先,确保已经获取了页面源码
page_source = driver.page_source
# 创建一个 CSS 选择器,它匹配 .ctner 类但不包含 cl8 类
css_selector = ".ctner:not([class*='cl8'])"
# 使用 Selenium 定位元素
elements = driver.find_elements_by_css_selector(css_selector)
# 输出匹配结果
if not elements:
print("没有找到符合条件的元素")
else:
print("找到的元素(包含 .ctner 类但不包含 cl8 类):")
for element in elements:
print(element.get_attribute("outerHTML"))
框架(iframe)本身不能被“点击”打开,因为框架是用来嵌套另一个HTML文档的容器。但是,你可以先切换到框架内部,然后在框架里找到并点击需要的元素。之前的回答中已经包含了这样的逻辑:先定位到iframe,然后切换到该iframe,接着找到并点击iframe内的链接。这里再次展示具体的步骤:
# 等待并切换到具有唯一高度属性的iframe wait = WebDriverWait(driver, 30) unique_height = "644px" # 根据实际情况调整这个值 frame_locator = (By.XPATH, f"//iframe[starts-with(@id, 'w') and contains(@style, 'height: {unique_height};')]") target_frame = wait.until(EC.presence_of_element_located(frame_locator)) driver.switch_to.frame(target_frame) # 切换到找到的iframe# 在iframe内部定位并点击链接 link_xpath = '//a[@data-src]' # 请根据实际情况调整XPath link_element = wait.until(EC.element_to_be_clickable((By.XPATH, link_xpath))) link_element.click()# 执行点击后,如果需要回到默认内容(即跳出iframe),可以使用: # driver.switch_to.default_content()