selenium模拟浏览器查询导出参考文献

通过使用Selenium和BeautifulSoup,在CNKI网站上,以"知识图谱"为关键词,通过自动化工具在搜索页面提取相关文章信息。点击清楚并全选进行文献导出,随后从导出页面和管理导出的页面提取参考文献。

浏览器及WebDriver下载
https://googlechromelabs.github.io/chrome-for-testing/#stable

放到/usr/local/bin (mac的配置)

mv chromedriver /usr/local/bin
cd /usr/local/bin
xattr -d com.apple.quarantine chromedriver

提取文献代码

from selenium import webdriver
from selenium.webdriver.common.by import By
import time
from bs4 import BeautifulSoupdef driver_open(driver, key_word):url = "https://www.cnki.net/"driver.get(url)time.sleep(2)driver.find_element(By.CSS_SELECTOR ,'#txt_SearchText').send_keys(key_word)time.sleep(2)# 点击搜索按钮driver.find_element(By.CSS_SELECTOR ,'body > div.wrapper.section1 > div.searchmain > div > div.input-box > input.search-btn').click()time.sleep(5)driver.find_element(By.CSS_SELECTOR,'#briefBox > div:nth-child(1) > div > div.toolbar-col > div.checkcount > a').click()time.sleep(2)driver.find_element(By.CSS_SELECTOR,'#selectCheckAll1').click()driver.find_element(By.CSS_SELECTOR,'#batchOpsBox > li:nth-child(2) > a').click()driver.find_element(By.CSS_SELECTOR,'#batchOpsBox > li:nth-child(2) > ul > li.export > a').click()driver.find_element(By.CSS_SELECTOR,'#batchOpsBox > li:nth-child(2) > ul > li.export > ul > li:nth-child(1) > a').click()time.sleep(2)url1="https://kns.cnki.net/dm8/manage/export.html?language=CHS&uniplatform=NZKPT"driver.get(url1)time.sleep(5)driver.find_element(By.CSS_SELECTOR,'#result > ul').click()content = driver.page_source.encode('utf-8')soup = BeautifulSoup(content, 'lxml')ul = soup.find_all('ul')ul = BeautifulSoup(str(ul[5]), 'lxml')lis = ul.find_all('li')text=""for li in lis:text = text + li.get_text().strip().replace(" ","")+"\n"return text
if __name__ == '__main__':chrome_options= webdriver.ChromeOptions()chrome_options.add_argument('--headless')chrome_options.add_argument('--disable‐gpu')path="/usr/local/bin"chrome_options.binary_location = pathdriver = webdriver.Chrome(options=chrome_options)text = driver_open(driver, '知识图谱') print(text)

运行结果
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/618241.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

postgresql迁移到mysql

1.工具方法:Navicat Premium16 2. 手工方法: 迁移流程 下面是将 Postgresql 数据库迁移到 MySQL 的步骤流程: 步骤描述1. 创建MySQL表结构在MySQL中创建与Postgresql中的表结构相同的表2. 导出Postgresql数据将Postgresql中的数据导出为SQ…

Java:多线程问题小结(一)

Java多线程是什么 Java提供的并发(同时、独立)处理多个任务的机制。多个线程共存于同一JVM进程里面,所以共用相同的内存空间,较之多进程,多线程之间的通信 更轻量级。依我的理解,Java多线程完全就是为了提高CPU的利用率。Java的线…

评估指标中的RMSE,MAE,MAPE分别表示什么,取值范围一般多大,优缺点有哪些?

评价指标 1. RMSE(Root Mean Square Error):均方根误差2. MAE(Mean Absolute Error):平均绝对误差,也叫均方误差3. MAPE(Mean Absolute Percentage Error):平…

linux contes 安装bbr及防火墙设置

这z里写自定义目录标题 一、开启BBR 1、检测系统版本 uname -r //查看内核版本bbr需要内核大于4.92、升级 rpm --import https://www.elrepo.org/RPM-GPG-KEY-elrepo.org rpm -Uvh http://www.elrepo.org/elrepo-release-7.0-2.el7.elrepo.noarch.rpm yum --enablerepoel…

第九讲 单片机驱动彩色液晶屏 控制RA8889软件:显存操作

单片机驱动TFT彩色液晶屏系列讲座 目录 第一讲 单片机最小系统STM32F103C6T6通过RA8889驱动彩色液晶屏播放视频 第二讲 单片机最小系统STM32F103C6T6控制RA8889驱动彩色液晶屏硬件框架 第三讲 单片机驱动彩色液晶屏 控制RA8889软件:如何初始化 第四讲 单片机驱动彩色液晶屏 控…

深度学习10种attention机制(快收藏)

1️⃣标准注意力机制: Soft Attention:一种灵活的注意力分配方式,允许模型在序列的不同部分分配不同程度的关注。 Hard Attention:一种严格的注意力分配方式,模型只关注序列中的特定部分。 2️⃣自注意力(…

kafka入门(六):日志分段(LogSegment)

日志分段(LogSegment) Kafka的一个 主题可以分为多个分区。 一个分区可以有一至多个副本,每个副本对应一个日志文件。 每个日志文件对应一个至多个日志分段(LogSegment)。 每个日志分段还可以细分为索引文件、日志存储…

选择交换.

给出长为 n 的序列 a,你可以对序列 a 进行以下操作: 选择 l,r (1 ≤ l,r ≤ n) ,交换 a[l],a[r]. 请求出在任意多次操作后,序列 a 能否满足 a[1]a[n] a[2]a[n-1] a[3]a[n-2] ……a[n/2]a[n1-(n/2)]. 可以证明如果有解,操作次数…

【Mybatis系列】Mybatis空值关联

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

Linux 内核学习 2 - 用户程序如何被塞进内核进行调度?

Shell是系统的用户界面,提供了用户与内核进行交互操作的一种接口。它接收用户输入的命令并把它送入内核去执行。 fork里copy了父进程的信息,并激活task放到运行队列,当系统发生调度并获得执行机会时开始执行,但这时还不是hello程序…

C++力扣题目700--二叉搜索树中的搜索

给定二叉搜索树(BST)的根节点 root 和一个整数值 val。 你需要在 BST 中找到节点值等于 val 的节点。 返回以该节点为根的子树。 如果节点不存在,则返回 null 。 示例 1: 输入:root [4,2,7,1,3], val 2 输出:[2,1,…

网络安全全栈培训笔记(52-WEB攻防-通用漏洞弱口令安全社工字典生成服务协议web应用)

第52天 WEB攻防-通用漏洞&弱口令安全&社工字典生成&服务协议&web应用 知识点: 1、弱口令安全&配置&初始化等 2、弱口令对象&Web&服务&应用等 3、弱口令字典&查询&列表&列表等 #前置知识: 弱口令(weak…

getWriter() has already been called for this response

这个错误通常表明您尝试从Spring MVC返回一个已使用的HttpServletResponse对象。 原因:这可能是由于直接调用HttpServletResponse的getWriter()或getOutputStream()方法,或者由于在控制器方法中抛出异常而自动调用HttpServletResponse的write()方法。 修…

python企业级技能

python企业级技能 @contact: 微信 1257309054 @file: 书籍 @time: 2024/1/13 11:16 @author: LDC内容简介 ​ 通过本书籍可以学习到python在企业中是如何使用的,用来解决哪些业务问题? ​ python

C#人力资源管理系统源码

C#人力资源管理系统源码 源码描述: 该系统利用asp.net中mvc,linq搭建开发, 分权限管理 权限级别分为:管理员,经理,专员,员工等 管理员可以管理角色、菜单 经理可以管理 组织规划,员工管理&#…

python,序列的切片

序列的切片就是指从一个序列中取出子序列 语法: 序列[起始下标:结束下标:步长] 步长为1表示一个一个的取元素,步长为2表示每次跳过一个元素的取元素,步长为负数表示反向切片,取元素时取到结束下标&#…

分裂联邦学习论文-混合联邦分裂学习GAN驱动的预测性多目标优化

论文标题:《Predictive GAN-Powered Multi-Objective Optimization for Hybrid Federated Split Learning》 期刊:IEEE Transactions on Communications, 2023 一、论文介绍 背景:联邦学习作为一种多设备协同训练的边缘智能算法&#xff0…

linux 安装sipp

sudo apt-get install libnet1-dev libpcap0.8-dev openssl libssl-dev 从 sipp - Browse /sipp/3.2 at SourceForge.net 下载最新版的sipp.svn.tar.gz,解压之后就得到一个rpm文件 tar -zxvf sipp.svn.tar.gz cd sipp make pcapplay_ossl

SpringBoot中 如何优雅的 重试调用 第三方API?

引言 在实际的应用中,我们经常需要调用第三方API来获取数据或执行某些操作。然而,由于网络不稳定、第三方服务异常等原因,API调用可能会失败。为了提高系统的稳定性和可靠性,我们通常会考虑实现重试机制。 本文将深入探讨如何在…

MySQL深入——12

我们今天来谈谈临键锁 next-key lock(临键锁)是记录锁与间隙锁的结合,锁定一个范围。 他被主要应用于解决幻读的问题 临键锁的几个要点: 1.他是前开后闭区间 2.查找过程中访问到的对象会加锁 优化:1.在索引上的等…