python刷阅读_用Python汇集并生成每日教育动态

本文记录了“每日教育动态”想法的产生以及实现过程,分为三部分:想法由来及实现效果、实现步骤和实现后的一点想法。

一、想法由来及实现效果

教育学是一门理论与实践相结合的学科,实践起来人人都会,每天打开手机刷个公众号都是完成了一次教育活动。而研究起来却比较难受,谁都知道教育学会涉及到人才培养、科学研究和社会服务,谁都知道从事教育领域的研究无非就是从教育价值、教学理念、培养目标、培养标准、人才培养模式与过程、学科和专业建设、学位点建设、课程体系建设、教育教学质量保障、教育评估与评价、教师队伍建设与管理、教育经费支出等方面入手,从特定层级(基础教育、高等教育、职业教育等等)教育着眼,对不同的教育现象进行研究。但是,不结合实际和实践经验,也只是对上面这些概念的某些提法进行一下排列组合,做一些没有营养的官样文章罢了。实际和实践经验从哪里来呢?要么就是亲自去做,要么就是做过的人告诉你,要么去看别人写好的经验总结。教育经验总是不断涌现的,使得搞教育研究的人(或者说搞研究的人)需要有一种追热点的自觉,热点从何而来?主要是新闻。新闻看不过来怎么办,那就筛选着看;新闻分散在各个网站找不到重点怎么办,那就把它们聚集起来,方便你找重点;就是不想看怎么办,那就把每天的新闻打包好,定时发给你,感兴趣的就点开看,不感兴趣的看看标题以后遇到类似的事情还可以似曾相识一下。基于以上的想法(或者说我的自己的需求),我做了一个教育新闻聚集器,取名为“每日教育动态”,每天定时访问教育部官网、教育网、人民网教育频道、新闻教育4个站点,把发布在他们网站上的教育新闻的整理成一个邮件,每天定时发给我。29b46f4f46a3a6f3a7295d9c99c38066.png在这个邮件里,会有当天教育部官网、人民网教育频道和新华教育3个网页滚动新闻的所有链接,和教育网头条新闻的链接,感兴趣的点进去看看,不感兴趣的过一遍标题。37bd44b0aa88496df2c9f2f79665d5dc.png根据当天的内容,提取出各个网站教育新闻的关键词。这一天的新闻在说什么,一目了然。比如昨天(2020.7.22)新闻的关键词主要是“就业”、“招生”、“志愿”,当时我能够理解“就业”,毕竟今年就业形势如此严峻,保就业的新闻肯定不少。“招生”还不太理解,到了今天高考出分才能够理解。从这个角度看,这个“每日教育动态”还是有点用的,毕竟可以让人保持一定的教育敏感度。9a32aab1db4701f6e2508b4426f1d084.png另外,在刷公众号和微博的时候看到1-2天前看到过的内容,还是有点兴奋,在一定程度上说明这个“每日教育动态”可以让我这种后知后觉的人提高获取教育时事的效率。0b23a42b9ad94e40df4d2a9bdb9f3c28.png那么,这个东西是怎么做的呢?

二、实现步骤

在做之前,我觉得还是挺简单的,无非就是写一个“爬虫+发邮件”的Python小程序,但是真上手起来也花费了不少时间。对于实现步骤,就不赘述过程和代码了,免得影响阅读量。简单总结,有以下3个步骤:步骤1:网站选取,确认为公开信息,分析各个网站的HTML结构,编写各自的爬虫代码。我们的“每日教育动态”信息主要来源于教育部官网、中国教育新闻网、人民网教育频道和新华教育。f0261b0570f998bd05bc20020b93d810.png为什么选这几个网站?一是我自己的原因,我的研究范围偏向宏观教育政策,所以教育部官网是要不时刷一下的,把信息整合起来更方便刷。二是这几个网站都比较全面、也比较权威,能代表主流的声音,少一些信息杂音。三是网页页面直接request就可以获得,爬虫不是很费劲。不算import,核心代码两行:获得response、解析HTML(如下)。剩下的都是搬砖的活,用xpath解析得到相应的标题、时间等信息,具体过程可以参考用python帮你扒数据。
import requests #访问链接from lxml import etree #解析网页response = requests.get(url)html = etree.HTML(response.content.decode('utf-8'))
步骤2:信息汇总,提取标题、链接等关键信息,构造邮件内容(如下图)。在构造邮件内容之前,先筛选出当日的新闻,并根据当日的新闻内容,使用textrank算法(参考:用Python对自己的文章做文本分析)提取关键词,将爬取的内容按照网站的顺序生成一个字典数组,包含网站名字、关键词、文章标题和文章链接,整理成HTML格式,生成邮件内容。225023cd8003590070c1c84f233e55b6.png步骤3:定时自动发送邮件。自动发送邮件的方法在Python常用代码(2)中已经提到了,不再赘述。我的这个小程序是在centOS中运行的,使用的是系统自带有crontab来定期执行程序,具体可以参考https://www.cnblogs.com/yangjisen/p/13171918.html。我设置的发送邮件的时间是晚上的9点30分,在这个时间4个网页基本都完成了当日新闻的更新。

三、实现后的一点想法

这个产品本质上是一个新闻聚集器,可以理解为以前的RSS(简易信息聚合,最早可以追溯到1995年),用一个胶水语言实现一个我出生那年就有的东西并没有什么值得骄傲的地方。做“每日教育动态”的初衷是为了提高我自己的工作和科研效率(这个想法在写用Python实现科研自动化之前就有了),事实证明还是有点用的,能够让自己每天看的那些文献有一种落地的感觉,不至于整天飘在半空中。但是在做的过程中也着实花了不少时间,既有学习新技术的快乐,也有不务正业的懊恼,所用时间超出了计划内时间,还是应该把计划做得更好一些,效率再提高一些。独乐乐不如众乐乐,如果也有小伙伴跟我一样有看教育领域新闻的需求,可以在公众号后台私信你的邮箱,这样,每天晚上9点半都可以收到一份“每日教育动态”哦。在每天晚上结束了一天的工作和学习来上一份教育新闻晚餐,也不失为一件愉快的事~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/244958.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux切换root报错,Linux用户切换到root后运行图形程序报错(*GLib-GIO-CRITICAL **)

用su切换到root用户后,运行某些带图形的程序,会报如下错误:(ImageProc_qt:3158): GLib-GIO-CRITICAL **: g_dbus_connection_register_object: assertion G_IS_DBUS_CONNECTION (connection) failed(ImageProc_qt:3158): GLib-GIO-CRITICAL *…

python程序打包多个py文件_不使用setup.py,打包 Python 项目

我编写了许多开源项目,并允许其他人通过PyPI访问这些项目。为此,我需要从这些项目构建一个源代码分发版(sdist)和一个可选的wheel包,并将二者上传到PyPI。最后,这个sdist和wheel包必须要能通过pip进行安装,以便其他人使…

软件工程软件开发成本度量规范_软件开发成本度量方法

软件成本度量一直都是软件行业的一个痛点问题。软件度量一度乱象丛生。拍脑袋的定价方式曾大行其道。软件成本度量的乱象直接导致了软件价格的诸多问题。比如预算费用存在浪费或不足的现象,招标存在投标额过低过高等非正常状况。这些情况都是因为度量标准的缺失&…

数据挖掘算法_算法篇(01) 数据挖掘算法初探

前言无论是传统行业,还是互联网行业。掌握数据,就是掌握规律。当你了解了市场数据,对它进行分析,就可以得到市场规律。当你掌握了产品自身的数据,对它进行分析,就可以了解产品的用户来源、用户画像等等。所…

java中怎么判断一段代码时线程安全还是非线程安全_24张图带你彻底理解Java中的21种锁...

(给ImportNew加星标,提高Java技能)转自:悟空聊架本篇主要内容如下:本篇文章已收纳到我的 Java 在线文档、 Github。我的 SpringCloud 实战项目持续更新中。帮你总结好的锁:序号锁名称应用1乐观锁CAS2悲观锁synchronized、vector、…

python大概学多久_自学Python要学多久可以学会?

如果是自学,从零基础开端学习python的话,按照每个人理解能力的不同,大致上需求半年到一年半左右的时刻,当然,如果有其它编程言语的经历,入门还是比较快的,大概需求2~3个月可以用Python言语编写一…

u盘 linux centos 5.3,鸟哥linux私房菜学习笔记,U盘安装centos5.3不能正常进入图形界面的问题...

前面说过自己成功引导了centos系统,现在进入启动界面,首次进入会进行相关设置,按照步骤一步一步完成,取消完光盘安装,点击下一步,就进入下面这个界面,没有登录框。。。没错!怎么蓝屏…

将excel转为python的字典_python读取excel表并把数据转存为字典

excel表如下:我们需要通过使用python的xlrd方法先读取excel,再遍历赋值给字典。代码如下: importxlrdclassRead_Ex():defread_excel(self):#打开excel表,填写路径 book xlrd.open_workbook("../Data/test.xlsx")#找到s…

micropython是啥 知乎_嵌入式开发必备调试工具:Micro-Lab

在工作中,以什么样的方式向领导汇报工作最直接高效呢?当然是图形界面!图形界面更好表达一个程序设计的逻辑思维,一目了然,本次介绍的Micro-Lab出自风媒电子-赵工之手。 1.什么是Micro-Lab? Micro-Lab可以称得上是迄今…

python面向对象三大基本特性_python面向对象之三大特性

继承 先看个简单的例子了解一下继承。class Animal: #父类 def __init__(self, name, age, department): self.namename self.ageage self.departmentdepartmentdefrunning(self):print(‘%s可以奔跑!‘%self.name)class Cat(Animal): #括号里放要继承的父类 def __…

python怎么调用列表_Python中列表的使用

python中的列表与java中的数组非常类似,但使用方法比java中数组简单很多,python中的数据类型不需要显示声明,但在使用时必须赋值,列表元素下标从0开始 初始化列表(初始化一个包含五个元素的列表和一个空列表&#xff0…

jquery find 找到frame select_简述jQuery

jQuery 是一个高效、精简并且功能丰富的 JavaScript 工具库。它提供的 API 易于使用且兼容众多浏览器,这让诸如 HTML 文档遍历和操作、事件处理、动画和 Ajax 操作更加简单。一、获取元素jQuery的核心设计思想就是获取元素,然后对其操作;因此…

求中位数中回文数之和C语言,一些算法题及答案

1. 两数之和给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标。你可以假设每种输入只会对应一个答案。但是,你不能重复利用这个数组中同样的元素。示例:给定 nums [2, 7, 11, 1…

自然哲学的数学原理_物理起源点,牛顿《自然哲学的数学原理》

1687年 英国艾萨克牛顿(Sir Isaac Newton,1643—1727),英国物理学家、数学家、天文学家、自然哲学家和炼金术士。1687年他发表《自然哲学的数 学原理》,阐述了万有引力和三大运动定律,奠定了此后三个世纪里力学和天文学的基础&…

如何将另外一个表里的数据与联动_跨境电商(亚马逊)后台财务数据包

亚马逊后台的财务数据包是刚进这个行业的财务人员最希望能了解熟悉的,这块也是相对于国内财务比较有难度的内容,主要难点是亚马逊平台是新的东西,国内财务对规则,费用内容,流程都比较懵,另外就是各项资料都…

无法在源表中获得一组稳定的行_行输出变压器的结构、符号及电路分析

行输出变压器又称逆程变压器、回扫变压器,俗称行输出,它是电视机、显示器中的一个重要变压器。1.行输出变压器结构行输出变压器的全部绕组和高压整流管均密封在其中,底部引出各个绕组的引脚,高压输出采用高压引线直接送至显像管的…

pid调节软件_非常实用的PID算法和PID控制原理

点击箭头处“工业之家”,选择“关注公众号”!PID控制原理和特点工程实际中,应用最为广泛调节器控制规律为比例、积分、微分控制,简称PID控制,又称PID调节。PID控制器问世至今已有近70年历史,它以其结构简单…

对pca降维后的手写体数字图片数据分类_【AI白身境】深度学习中的数据可视化...

今天是新专栏《AI白身境》的第八篇,所谓白身,就是什么都不会,还没有进入角色。上一节我们已经讲述了如何用爬虫爬取数据,那爬取完数据之后就应该是进行处理了,一个很常用的手段是数据可视化。通过数据可视化&#xff0…

android实现箭头流程列表_反思|Android 列表分页组件Paging的设计与实现:系统概述...

作者:却把清梅嗅链接:https://github.com/qingmei2/blogs/issues/30前言本文将对Paging分页组件的设计和实现进行一个系统整体的概述,强烈建议 读者将本文作为学习Paging 阅读优先级最高的文章,所有其它的Paging中文博客阅读优先级…

sql server numeric 可存几位小数_想成为优秀SQL高手?你就差这些细节

标准结构化查询语言(Structured Query Language)简称SQL,sql是我们日常工作中使用最多一项技能,写sql可以说是一个可以干到退休的技能。看似简单,但要精通却很难。 sql包括增、删、改、查,创建表、删除表、修改表等等内容&#xf…