Python爬虫抓取三个网站上的英语每日一句

一、引言

大学英语学习需要巩固高中语法,补充四六级词汇,增加英语语感,提升英语的运用能力。学好英语有很多种方法,采用句子来突破英语语法、词汇、口语和听力的方法简单有效,值得提倡。李阳就是采用这种方法来教授英语的,所以我也想选取一些地道的句子来进行英语学习,那么网上众多的每日一句就是我们要学习的对象了。但是这些每日一句分布在不同的网址,有的还网页打开速度还比较慢,有没有快一点儿的方法,一下就可以获取这些句子呢?

二、问题分析

如果想爬取这些英语句子,并打印出来,肯定要用到爬虫。

当然,除了使用request和Beautifulsoup这些模块还是远远不够的,我们还要发请求时加上headers进行伪装。下面我们就以三个网站为例来说明一下如何爬取这些每日一句。

1. 爬取insightoftheday

这是一个国外的站点,每天都会发一些精美的图片配上名言佳句,还注释有出处,语句非常励志,质量也很高。要爬取这个网站上的内容也不难,可以采用以下代码。为了简单起见,我们使用了正则表达式,利用re.findall来查找我们需要的每日一句,然后再切片提取,这样大大地简化了我们的爬取过程。

import requests,reurl = "https://www.insightoftheday.com/?page=2"
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'}
resp = requests.get(url,headers = headers)quote = re.findall(r'</span>(.*?)<span style=',resp.text)print(quote[0])

2. 爬取国内某词典网站

国内的网站访问的速度比较快,还配有中英文。而且,甚至不用伪装就可以轻松爬取下来。

import requests
url = 'http://open.iciba.com/dsapi/'
res = requests.get(url)
content = res.json()['content'] + res.json()['note']

3. 爬取国内某英语学习网站

同样道理,我们爬取另一个网站,同样也不用伪装即可爬取

url2=r"https://dict.cn"
resp = requests.get(url2)
soup = BeautifulSoup(resp.text,"html.parser")
htm=soup.find("div",class_="daily_sentence")
sen=htm.text.strip().split("\t\t\t")[2] #split("\n\t")[2].strip()
print(sen)

4. 整合上面代码做一个群发软件

我们利用tkinter框架,借助wxauto这个包来做一个每日一句群发软件。功能是通过导入包含有发送对象名字的txt文件,然后,选中一个或多个每日一句,然后点获取句子,最后再点开始发送,即可把每日一句发给指定的用户。软件的界面如下:

源码下载地址:https://download.csdn.net/download/henanlion/89949404?spm=1001.2014.3001.5503

群发软件界面

三、学后总结

1. 有了三个网站的源码,我们就可以把它们整合在一起,然后只用轻轻一点,就可以查看每日一句。

2. 我们还可以加上批量发送邮件、发到指定微信群等功能,让我们的每日一句让更多的人看到。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/57968.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PostgreSQL 学习笔记:PostgreSQL 主从复制

PostgreSQL 笔记&#xff1a;PostgreSQL 主从复制 博客地址&#xff1a;TMDOG 的博客 在现代应用程序中&#xff0c;数据库的高可用性和扩展性是至关重要的。PostgreSQL 提供了主从复制功能&#xff0c;可以在多个数据库实例之间复制数据&#xff0c;以实现冗余和负载均衡。本…

[云讷科技]DASA数字孪生机器人概念

DASA数字孪生机器人概念 我们在 虚幻引擎 (UE) 的帮助下在 DASA 中建立了数字孪生机器人概念。 UE 是 Epic Games 开发的 3D 计算机图形游戏引擎&#xff0c;广泛应用于视频游戏、电影和电视。我们在 DASA 中利用强大的 UE 功能来实现外观逼真的数字机器人&#xff0c;并允许与…

探索Python新境界:Buzhug库的神秘面纱

文章目录 探索Python新境界&#xff1a;Buzhug库的神秘面纱第一部分&#xff1a;背景介绍第二部分&#xff1a;Buzhug库是什么&#xff1f;第三部分&#xff1a;如何安装Buzhug库&#xff1f;第四部分&#xff1a;Buzhug库函数使用方法第五部分&#xff1a;Buzhug库使用场景第六…

微信小程序的上拉刷新与下拉刷新

效果图如下&#xff1a; 上拉刷新 与 下拉刷新 代码如下&#xff1a; joked.wxml <scroll-view class"scroll" scroll-y refresher-enabled refresher-default-style"white" bindrefresherrefresh"onRefresh" refresher-triggered&qu…

Java唯一键实现方案

数据唯一性 1、生成UUID1.1 代码中实现1.2 数据库中实现优点缺点 2、数据库递增主键优点 3、数据库递增序列3.1 创建序列3.2 使用序列优点缺点 在Java项目开发中&#xff0c;对数据的唯一性要求&#xff0c;业务数据入库的时候保持单表只有一条记录&#xff0c;因此对记录中要求…

《向量数据库指南》——BGE-M3:引领多模态RAG系统新风尚!

BGE-M3 BGE-M3 是一个多功能的 Embedding 模型,能够处理多种语言的文本,并支持不同的粒度级别。例如,您可以处理短句,也可以处理长达 8192 个 Token 的长文档。这个 Embedding 模型还能够输出两种不同的向量类型:稠密向量(Dense embedding)和稀疏向量(Sparse embeddin…

在Ubuntu上安装TensorFlow与Keras

文章目录 1. 查看系统和Python版本信息1.1 查看Ubuntu版本信息1.2 查看Python版本信息 2. 安装pip2.1 下载get-pip.py2.2 运行get-pip.py2.3 查看pip版本 3. 安装Jupyter Notebook3.1 安装Jupyter Notebook3.2 运行Jupyter Notebook3.3 安装jupyter-core3.4 配置Jupyter Notebo…

江协科技STM32学习- P34 I2C通信外设

&#x1f680;write in front&#x1f680; &#x1f50e;大家好&#xff0c;我是黄桃罐头&#xff0c;希望你看完之后&#xff0c;能对你有所帮助&#xff0c;不足请指正&#xff01;共同学习交流 &#x1f381;欢迎各位→点赞&#x1f44d; 收藏⭐️ 留言&#x1f4dd;​…

大学生软件测试2024(练习赛)

本人不太会java语法&#xff0c;主要是本专业老师主讲java&#xff0c;所以不得不使用java语言进行编写&#xff0c;不当之处请见谅&#xff01; 背景说一哈&#xff0c;有点摸鱼的成分&#xff0c;主要是期末课设和这个有关&#xff0c;想学着看看&#xff0c;不知道能不能得…

研究了100个小绿书十万加之后,我们发现2024小绿书独家秘籍就是:在于“先抄后超,持续出摊,量大管饱”!

小绿书作为今年最大的红利&#xff0c;很多人已经吃到了螃蟹。看——&#xff1a; 今天我们总结了100个10万爆款&#xff0c;我们发现要在这个平台上脱颖而出&#xff0c;找到属于自己的方法尤为重要。在这里分享一个主题——小绿书的秘诀就是“先抄后超&#xff0c;持续出摊”…

SQLark百灵连接——整合项目监控过程

关键词&#xff1a;SQL编写、数据查询、数据导入、达梦数据库、项目管理、信息透明 项目监控背景 作为新手项目经理的我&#xff0c;经常觉得哪儿哪儿都是问题&#xff0c;今天催这个&#xff0c;明天推那个&#xff0c;可就是什么事都推不动&#xff0c;谁都不配合。后来&…

【论文解读】EdgeYOLO:一种边缘实时目标检测器(附论文地址)

论文地址&#xff1a;https://arxiv.org/pdf/2302.07483 这篇文章的标题是《EdgeYOLO: An Edge-Real-Time Object Detector》&#xff0c;由中国北京理工大学的Shihan Liu、Junlin Zha、Jian Sun、Zhuo Li和Gang Wang共同撰写。这篇论文提出了一个基于最新YOLO框架的高效、低复…

github打不开网络问题

当打开github出现超时或者网络不能访问的情况时&#xff0c;我们进行如下方法解决&#xff1a; 1&#xff0c;ping gitbub.com查看域名分析的DNS IP C:\Users\86156>ping github.com 正在 Ping github.com [20.205.243.166] 具有 32 字节的数据: 来自 20.205.243.166 的回复…

详解K8S--声明式API

23-0-声明式API 这些API对象&#xff0c;有的描述应用&#xff0c;有的为应用提供服务。但为使用这些API对象提供的能力&#xff0c;都要编写对应YAML文件交给k8s。 这YAML正是k8s声明式API必备要素。 1 用YAML代替命令行操作&#xff0c;就是声明式API&#xff1f; Swarm编排操…

如何策划一场战争?

前言 这个世界并不和平&#xff0c;我们只是生活在一个和平的国家。克服恐惧&#xff0c;最好的办法就是面对它。本文结合作者对于《孙子兵法》和毛泽东军事思想的部分了解&#xff0c;介绍了一般战争的发起、过程和结束的情况。 零、战争定义 首先要说明战争的定义是什么。《…

【Windows】X-DOC:无需NAS使用Windows也能安装Jellyfin玩私人影音媒体平台

【Windows】X-DOC&#xff1a;无需NAS使用Windows也能安装Jellyfin玩私人影音媒体平台 1、前言2、Jellyfin服务搭建2.1 Jellyfin简介2.2 Jellyfin下载2.3 Jellyfin安装2.4 Jellyfin设置2.5 Jellyfin使用 3、终端访问3.1 浏览器访问 4、内网穿透 1、前言 下载收藏高清电影、电视…

Rust的enum枚举的强大用法

在Rust中&#xff0c;enum&#xff08;枚举&#xff09;是一种非常强大的类型&#xff0c;它可以包含多个变体&#xff08;variants&#xff09;&#xff0c;每个变体可以是不同的类型&#xff0c;包括复杂类型。这使得enum在Rust中不仅用于表示简单的状态或选项集合&#xff0…

jmeter基础01-2_环境准备-Mac系统安装jdk

Step1. 查看系统类型 方法&#xff1a;苹果菜单 - 关于本机&#xff0c;看到本机为M1芯片。&#xff08;Mac系统芯片有M系列和Intel两种&#xff09; Step2. 官网下载安装包 https://www.oracle.com/java/technologies/downloads/ 根据芯片类型&#xff0c;选择安装包进行下…

引起what(): basic_string::_M_replace_aux问题的一个原因以及解决方法

自己在做一个项目的时候&#xff0c;报了下面的这个问题&#xff1a; terminate called after throwing an instance of std::length_error what(): basic_string::_M_replace_aux 经过自己的研究&#xff0c;发现是在读取文件的时候没有加上错误判断。 通过网站直接访问一个…

论文阅读:Computational Long Exposure Mobile Photography (一)

这篇文章是谷歌发表在 2023 ACM transaction on Graphic 上的一篇文章&#xff0c;介绍如何在手机摄影中实现长曝光的一些拍摄效果。 Abstract 长曝光摄影能拍出令人惊叹的影像&#xff0c;用运动模糊来呈现场景中的移动元素。它通常有两种模式&#xff0c;分别产生前景模糊或…