Python爬虫抓取三个网站上的英语每日一句

一、引言

大学英语学习需要巩固高中语法，补充四六级词汇，增加英语语感，提升英语的运用能力。学好英语有很多种方法，采用句子来突破英语语法、词汇、口语和听力的方法简单有效，值得提倡。李阳就是采用这种方法来教授英语的，所以我也想选取一些地道的句子来进行英语学习，那么网上众多的每日一句就是我们要学习的对象了。但是这些每日一句分布在不同的网址，有的还网页打开速度还比较慢，有没有快一点儿的方法，一下就可以获取这些句子呢？

二、问题分析

如果想爬取这些英语句子，并打印出来，肯定要用到爬虫。

当然，除了使用request和Beautifulsoup这些模块还是远远不够的，我们还要发请求时加上headers进行伪装。下面我们就以三个网站为例来说明一下如何爬取这些每日一句。

1. 爬取insightoftheday

这是一个国外的站点，每天都会发一些精美的图片配上名言佳句，还注释有出处，语句非常励志，质量也很高。要爬取这个网站上的内容也不难，可以采用以下代码。为了简单起见，我们使用了正则表达式，利用re.findall来查找我们需要的每日一句，然后再切片提取，这样大大地简化了我们的爬取过程。

import requests,reurl = "https://www.insightoftheday.com/?page=2"
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'}
resp = requests.get(url,headers = headers）quote = re.findall(r'</span>(.*?)<span style=',resp.text)print(quote[0])

2. 爬取国内某词典网站

国内的网站访问的速度比较快，还配有中英文。而且，甚至不用伪装就可以轻松爬取下来。

import requests
url = 'http://open.iciba.com/dsapi/'
res = requests.get(url)
content = res.json()['content'] + res.json()['note']

3. 爬取国内某英语学习网站

同样道理，我们爬取另一个网站，同样也不用伪装即可爬取

url2=r"https://dict.cn"
resp = requests.get(url2)
soup = BeautifulSoup(resp.text,"html.parser")
htm=soup.find("div",class_="daily_sentence")
sen=htm.text.strip().split("\t\t\t")[2] #split("\n\t")[2].strip()
print(sen)