分享个pyppeteer 通用爬虫

突然发现自己之前写过的代码
虽然现在爬虫都逆向了，但是有时候获取个一次性数据，或者不需要维护的时候 pyppeteer 还是非常好用的。
因为pyppeteer 是puppeteer的python 版本所以不是特别火网上资料也非常少
.简单记录一下

如果想详细了解
https://zhaoqize.github.io/puppeteer-api-zh_CN/
去看看官网

这边分析一个可以爬取几乎任何网站的一组python代码写的比较粗糙。
去年八月份写的也没做什么处理

本人发这个网站提供参考，如有其他不关我事。
示例网站也不要一直爬取，会给别人带来困扰。

# -*- coding: utf-8 -*-
# home.php?mod=space&uid=238618    : 2022/8/19 13:17
# home.php?mod=space&uid=686208  : lzc
# home.php?mod=space&uid=621973   : hybpjx@163.com
# home.php?mod=space&uid=267492    : __init__.py
# @Software: PyCharmimport asyncio
from pyppeteer import launchfrom collections import namedtupledef screen_size():"""使用tkinter获取屏幕大小"""# 导入gui编程的模块import tkinter# 创建一个空间界面tk = tkinter.Tk()# 获得宽高width = tk.winfo_screenwidth()height = tk.winfo_screenheight()tk.quit()# 得到返回值return width, heightasync def main():# 默认无头浏览器  沙盒模式browser = await launch({'headless': False, 'args': ['--no-sandbox'], })# 新开一个page对象page = await browser.newPage()# 拿到一个尺寸 作为你的谷歌浏览器大小width, height = screen_size()# 也可以自定义await page.setViewport(viewport={"width": width, "height": height})# 开启jsawait page.setJavaScriptEnabled(enabled=True)# 设置请求头await page.setUserAgent('Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 ''(KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299')# 开启 隐藏 是selenium 让网站检测不到await page.evaluate('''() =>{ Object.defineProperties(navigator,{ webdriver:{ get: () => false } }) }''')# 访问urlawait page.goto(website.url)now_page = 0while True:now_page += 1# 滑动js  动态加载await page.evaluate('window.scrollBy(0, document.body.scrollHeight)')# 优雅的等待1秒 不会造成 资源阻塞await asyncio.sleep(1)# xpathli_list = await page.querySelectorAll(website.list_query)# 可将返回值返回到列表中 可省略# item_list = []for li in li_list:# 防止有些网站 第一条数据获取不到 第二条数据获取的到 故加个trytry:# 找寻下面所有的a标签 详情页链接地址title_obj = await li.querySelector("a ")# 找到 其 链接地址和链接标题title_url = await page.evaluate('(element) => element.href', title_obj)title_name = await page.evaluate('(element) => element.textContent', title_obj)# 由于网站的时间 千奇百怪 有的在td 有的在p 有的在div  所有还是不要写死了date_obj = await li.querySelector(website.title_date_query)title_date = await page.evaluate('(element) => element.textContent', date_obj)# 开一个新的对象detail_page = await browser.newPage()# 访问详情页await detail_page.goto(url=str(title_url))# 拿到源码await detail_page.content()# 拿到 详情页的selector 对象element = await detail_page.querySelector(website.content_query)# 拿到详情页content_html = await detail_page.evaluate('(element) => element.outerHTML', element)print(title_url, title_name, title_date, len(content_html))await detail_page.close()except Exception as e:print(e)print(f"第{now_page}页访问>>>>>")# 点击下一页next_page_link = website.next_page_queryif next_page_link:await page.click(next_page_link)else:raise Exception("already Crawl complete Exit coming soon....")await asyncio.sleep(2)# return item_listasync def page_close(browser):for _page in await browser.pages():await _page.close()await browser.close()if __name__ == '__main__':Websites = namedtuple('websites', ['url', 'list_query', 'title_date_query', 'content_query', 'next_page_query'])websites = [('http://www.cqzbtb.cn/_jiaoyixinxi/','.listbox ul','.ys','.article-wrap',"body > section > div > div.list-wrap.row > div.listpa > ul > li:nth-child(7)"),]for i in websites:website = Websites._make(i)a = main()loop = asyncio.get_event_loop()results = loop.run_until_complete(asyncio.gather(a))

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/148788.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！