我是程序员,我用这种方式铭记历史

作者 | kokohuang

责编 | 晋兆雨
头图 | 付费下载于视觉中国

✨抗战直播: 以图文方式“直播”1931年9月18日至1945年9月2日14年间抗战的日日夜夜

✨开源地址:

https://github.com/kokohuang/WarOfResistanceLive

✨预览地址:

https://kokohuang.github.io/WarOfResistanceLive


前言

在目前浮躁的互联网环境下,做一件好事不难,难的是连续8年做一件有意义的事。

在微博上有这样一位博主,从2012年7月7日开始,截至到2020年9月2日,@抗战直播 以图文形式,记录了从1937年7月7日至1945年9月2日中华民族全面抗战的这段历史。2980 天,从未间断,平均每天 12 条,累计 35214 篇。

2020年9月18日7时零7分,沉寂了半个月的 @抗战直播 恢复更新,他们将继续以图文的形式记录1931年9月18日至1937年7月7日这六年的抗战历史。

下一个 6 年,他们已经在路上。

历史是不能被遗忘的。

作为程序员的我,在历史面前,我能做点什么?

除了敬佩 @抗战直播 这么多年来的坚持,我更想做一点自己力所能及且有意义的事情。

在得到博主 @抗战直播 的允许与支持后,于是就有了抗战直播这个项目的诞生。

抗战直播

抗战直播是一个以图文方式“直播”1931年9月18日至1945年9月2日14年间抗战历史的网站,每天会更新历史上的今天所发生的一些重大历史事件。通过这一条条图文抗战内容,让我们仿佛置身于那段从局部抗战到全面抗战,再从全面抗战到山河收复的那14年时光,与抗战中的国人一起经历每一个日日夜夜,感受他们曾经的屈辱与绝望,感受他们的光荣与梦想。

(https://kokohuang.github.io/WarOfResistanceLive)

本项目主要由 Python 爬虫 + Hexo + Github Actions持续集成服务组成,开源在 GitHub 上,并且部署于 Github Pages。目前包含以下功能:

  • 每日定时自动同步更新数据

  • 查看博主目前所有的微博数据

  • 支持RSS订阅功能

  • 基于Github Actions的持续集成服务

  • ...

项目结构如下:

├── .github/workflows # 工作流配置文件
├── resources # 微博数据
├── site # 网站源码
└── spider # 微博爬虫

接下来,我将简单的给大家介绍该项目的一些核心逻辑与实现。

Python 爬虫

该项目使用的爬虫是基于 weibo-crawler 项目的简化及修改实现(仅供研究使用),感谢作者 dataabc。

实现原理

  • 通过访问手机版的微博绕过其登录验证,可查看某个博主的大部分微博数据,如:https://m.weibo.cn/u/2896390104

  • 通过开发者工具查看得知,通过 json 接口 https://m.weibo.cn/api/container/getIndex 即可获取微博数据列表:

def get_json(self, params):"""获取网页中json数据"""url = 'https://m.weibo.cn/api/container/getIndex?'r = requests.get(url,params=params,headers=self.headers,verify=False)return r.json()

如何使用

安装依赖:

pip3 install -r requirements.txt

使用:

python weibo.py

运行效果:

注意事项

  • 速度过快容易被系统限制:可通过加入随机等待逻辑,可降低被系统限制的风险;

  • 无法获取全部微博数据:可通过添加 cookie 逻辑获取全部数据;

更多内容可查看 weibo-crawler。

Hexo

经过了一番的抉择,最终选择 Hexo + Next 主题作为本项目网站的框架。

Hexo 是一款基于 Node.js 的静态博客框架,依赖少易于安装使用,可以方便的生成静态网页托管在 GitHub Pages 上,还有丰富的主题可供挑选。关于如何安装使用 Hexo 可详细查看官方文档:https://hexo.io/zh-cn/docs/。

那么,如何实现 RSS 订阅功能呢?

得益于 Hexo 丰富的插件功能,hexo-generator-feed 可以很方便的帮我们实现。

首先,在博客根目录下安装该插件:

$ npm install hexo-generator-feed --save

接着,在博客根目录下的 _config.yml 文件中添加相关配置:

feed:enable: true # 是否启用插件type: atom # Feed的类型,支持 atom 和 rss2,默认 atompath: atom.xml # 生成文件的路径limit: 30 # 生成最大文章数,如果为 0 或 false 则生成所有的文章content: true # 如果为 true 则展示文章所有内容content_limit: # 文章展示的内容长度,仅当 content 为 false 有效order_by: -date # 按照日期排序template: # 自定义模板路径

最后,在主题根目录下的 _config.yml 文件中添加 RSS 订阅入口:

menu:RSS: /atom.xml || fa fa-rss # atom.xml文件路径地址和图标设置

这样,我们就可以为自己的博客添加 RSS 订阅功能。WarOfResistanceLive 的订阅地址为:

https://kokohuang.github.io/WarOfResistanceLive/atom.xml

订阅效果如下图:

Github Actions 持续集成

Github Actions 是由 Github 于 2018年10月 推出的持续集成服务,在此之前,我们可能更多的使用 Travis CI 来实现持续集成服务。以我个人的感觉来看,Github Actions 功能非常强大,比 Travis CI 的可玩性更高,Github Actions 拥有丰富的 action 市场,将这些 action 组合起来,我们就可以很简单的完成很多很有趣的事情。

我们先来看看Github Actions 的一些基本概念:

  • workflow:工作流程。即持续集成一次运行的过程。该文件存放于仓库的 .github/workflows 目录中,可包含多个;

  • job:任务。一个 workflow 可包含一个或多个 jobs,即代表一次集成的运行,可完成一个或多个任务;

  • step:步骤。一个 job 由多个 step 组成,即代表完成一个任务需要哪些步骤;

  • action:动作。每个 step 里面可包含一个或多个 action,即代表一个步骤内,可执行多个 action 动作。

了解了 Github Actions 的这些基本概念后,我们来看看 WarOfResistanceLive 的持续集成服务是怎样实现的,以下是本项目使用的 workflow 完整实现:

# workflow 的名称
name: Spider Bot# 设置时区
env:TZ: Asia/Shanghai# 设置工作流触发方式.
on:# 定时触发,在 8:00-24:00 间每隔 2 小时更新一次(https://crontab.guru)# 由于 cron 设定的时间为 UTC 时间,所以 +8 即为北京时间schedule:- cron: "0 0-16/2 * * *"# 允许手动触发 Actionsworkflow_dispatch:jobs:build:# 使用 ubuntu-latest 作为运行环境runs-on: ubuntu-latest# 将要执行的任务序列steps:# 检出仓库- name: Checkout Repositoryuses: actions/checkout@v2# 设置 Python 环境- name: Setup Pythonuses: actions/setup-python@v2with:python-version: "3.x"# 缓存 pip 依赖- name: Cache Pip Dependenciesid: pip-cacheuses: actions/cache@v2with:path: ~/.cache/pipkey: ${{ runner.os }}-pip-${{ hashFiles('./spider/requirements.txt') }}restore-keys: |${{ runner.os }}-pip-# 安装 pip 依赖- name: Install Pip Dependenciesworking-directory: ./spiderrun: |python -m pip install --upgrade pippip install flake8 pytestif [ -f requirements.txt ]; then pip install -r requirements.txt; fi# 运行爬虫脚本- name: Run Spider Botworking-directory: ./spider  # 指定工作目录,仅对 run 命令生效run: python weibo.py# 获取系统当前时间- name: Get Current Dateid: daterun: echo "::set-output name=date::$(date +'%Y-%m-%d %H:%M')"# 提交修改- name: Commit Changesuses: EndBug/add-and-commit@v5with:author_name: Koko Huangauthor_email: huangjianke@vip.163.commessage: "已同步最新数据(${{steps.date.outputs.date}})"add: "./"env:GITHUB_TOKEN: ${{ secrets.GITHUB_TOKEN }}# 推送远端- name: Push Changesuses: ad-m/github-push-action@masterwith:branch: maingithub_token: ${{ secrets.GITHUB_TOKEN }}# 设置 Node.js 环境- name: Use Node.js 12.xuses: actions/setup-node@v1with:node-version: "12.x"# 缓存 NPM 依赖- name: Cache NPM Dependenciesid: npm-cacheuses: actions/cache@v2with:path: ~/.npmkey: ${{ runner.os }}-node-${{ hashFiles('./site/package-lock.json') }}restore-keys: |${{ runner.os }}-node-# 安装 NPM 依赖- name: Install NPM Dependenciesworking-directory: ./siterun: npm install# 构建 Hexo- name: Build Hexoworking-directory: ./site # 指定工作目录,仅对 run 命令生效run: npm run build# 发布 Github Pages- name: Deploy Github Pagesuses: peaceiris/actions-gh-pages@v3with:github_token: ${{ secrets.GITHUB_TOKEN }}publish_dir: ./site/public # 指定待发布的路径地址publish_branch: gh-pages # 指定远程分支名称

执行效果图如下:

workflow 文件的配置字段非常多,配置文件中也给出了详细的注释。接下来,我们主要看下以下几个比较重要的配置:

工作流的触发方式

# 设置工作流触发方式.
on:# 定时触发,在 8:00-24:00 间每隔 2 小时更新一次(https://crontab.guru)# 由于 cron 设定的时间为 UTC 时间,所以 +8 即为北京时间schedule:- cron: "0 0-16/2 * * *"# 允许手动触发工作流程workflow_dispatch:

我们可以使用 on 工作流程语法配置工作流程为一个或多个事件运行。支持自动与手动两种方式触发。schedule 事件允许我们在计划的时间触发工作流程,我们可以使用 POSIX cron 语法 来安排工作流程在特定的时间运行。

计划任务语法有五个字段,中间用空格分隔,每个字段代表一个时间单位:

┌───────────── minute (0 - 59)
│ ┌───────────── hour (0 - 23)
│ │ ┌───────────── day of the month (1 - 31)
│ │ │ ┌───────────── month (1 - 12 or JAN-DEC)
│ │ │ │ ┌───────────── day of the week (0 - 6 or SUN-SAT)
│ │ │ │ │                                   
│ │ │ │ │
│ │ │ │ │
* * * * *

我们还可在这五个字段中使用以下运算符:

我们可以使用 https://crontab.guru 来生成计划任务语法,你也可以查看更多的 crontab guru 示例。

另外,我们还可以通过配置 workflow_dispatch 和 repository_dispatch字段来实现手动触发工作流程。

on 字段也可以配置为 push,即仓库有 push 操作时则触发工作流的执行,详细的触发工作流配置可以查看 配置工作流程事件。

步骤序列

从配置文件中我们可以看到,该项目的一次持续集成的运行包含了以下步骤:

检出仓库 --> 设置 Python 环境 --> 缓存 pip 依赖 --> 安装 pip 依赖 --> 运行爬虫脚本 --> 获取当前时间 --> 提交修改 --> 推送远端 --> 设置 Node.js 环境 --> 缓存 NPM 依赖 --> 安装 NPM 依赖 --> 构建 Hexo --> 发布 Github Pages

本项目的 workflow 主要有以下几个要点:

  • 运行环境:整个工作流运行在虚拟环境 ubuntu-latest。还可以指定其他虚拟环境,如 Windows Server、macOS 等;

  • 缓存依赖:通过对依赖的缓存,可提升安装相关依赖的速度。具体使用可查看:缓存依赖项以加快工作流程;

  • 获取当前时间:后续提交修改步骤中的 commit message 中使用到了该步骤中获取到当前时间,这里就使用到了 step 上下文 的相关概念,我们可以为 step 指定一个 id,后续 step 中我们就可以通过 steps.<step id>.outputs 来获取已经运行的步骤相关信息;

  • 构建 Hexo:即执行 hexo generate 命令生成静态网页;

  • 工作流程中的身份验证:提交推送及发布步骤需要进行身份验证。GitHub 提供一个令牌,可用于代表 GitHub Actions 进行身份验证。我们所需要做的就是创建一个命名为 GITHUB_TOKEN 的令牌。具体步骤如下:Settings --> Developer settings --> Personal access tokens --> Generate new token,命名为 GITHUB_TOKEN ,并勾选中你所需要的的权限,然后就可以在 step 中通过使用 ${{ secrets.GITHUB_TOKEN }} 进行身份验证。

更多 Action 可在 Github 官方市场 查看。


结语

截止今天,抗战直播收录了从 2012年7月7日 至今的35000+条博文,我相信,这些珍贵的历史数据,一定会不断丰富着我们对抗战历史认识,更会让我们深入地了解了中华民族的民族性。国家虽乱,民族性犹在。

就如 @抗战直播 的发起人所说:“我想亲身体验这8年,感受他们曾经的屈辱、绝望、光荣与梦想。”。也希望你能通过本项目,静静的去感受那一段抗战时光。

最后,引用博主 @抗战直播 的一段话:

“我们直播抗战,并非为了鼓动仇恨等负面的情绪,而是想适度唤起遗忘,当我们时刻牢记祖辈们蒙受的苦难、恐惧和屈辱时;当我们体味祖辈们是如何在国家民族危亡之际抛弃前嫌,实现民族和解时,当我们目睹着祖辈们是如何从容慷慨的走向死亡,以身体为这个国家献祭之时,相信我们对于现实将有更加成熟和理性的思考。”

铭记历史,砥砺奋进。勿忘国耻,吾辈自强。

更多阅读推荐

  • 云原生应用Go语言:你还在考虑的时候,别人已经应用实践

  • 一文告诉你雾计算与云计算的区别及对物联网的价值!

  • 你可能也会掉进这个简单的 String 的坑

  • 教你如何用 Python 三行代码做动图!

  • Ethereum2.0:深入了解Lego Money、Sharding、PoS和TPS的真相

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/515907.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

分布式ELK日志采集系统

文章目录1. 传统日志采集存在哪些优缺点2. Elk采集日志的原理3. 为什么需要将日志存储在ElasticSeach 而不是mysql中呢4. 为什么需要使用elkkafka5. elkkafka原理6. elkkafka 环境的构建7. SpingBoot 整合 kafka Elk1.传统日志采集存在哪些问题2.分布式日志采集有哪些方案3.Ela…

从零入门 Serverless | 架构的演进

作者 | 许晓斌 阿里云高级技术专家 本文整理自《Serverless 技术公开课》第 1 讲&#xff0c;点击开始学习。 关注 “Serverless” 公众号&#xff0c;回复 入门 &#xff0c;即可获取 Serverless 系列文章 PPT。 传统单体应用架构 十多年前主流的应用架构都是单体应用&…

如何使用 Istio 进行多集群部署管理:多控制平面

作者 | 王夕宁 阿里云高级技术专家 导读&#xff1a;本文摘自于阿里云高级技术专家王夕宁撰写的《Istio 服务网格技术解析与实战》一书&#xff0c;讲述了如何使用 Istio 进行多集群部署管理来阐述服务网格对多云环境、多集群即混合部署的支持能力。 前文详情&#xff1a; …

JDK8新特性入门到精通

文章目录一、 接口中默认方法修饰为普通方法1. 在jdk8之前2. 在JDK 1.8开始3. 案例演练二、Lambda表达式2.1. 什么是Lambda表达式2.2. 为什么要使用Lambda表达式2.3. Lambda表达式的规范2.4. 函数接口定义2.5. Lambda基础语法2.6. 方法引入2.7. Lambda实战案例三、java 8 strea…

一文聊“图”,从图数据库到知识图谱

作者 | 穆琼责编 | 晋兆雨头图 | 付费下载于视觉中国随着知识图谱的发展&#xff0c;图数据库一词被越来越多的提到。那么到底什么是图数据库&#xff0c;为什么要用图数据库&#xff0c;如何去建设一个图数据库应用系统&#xff0c;图数据库与知识图谱到底是什么关系。今天为大…

阿里云机器学习PAI DSW 2.0 Alink商业版重磅发布

DSW 2.0&#xff1a;面向AI研发的集成开发平台 DSW&#xff08;Data Science Workshop&#xff09;是阿里巴巴PAI团队根据多年的AI算法和产品研发经验积累&#xff0c;围绕提高AI算法研发效率&#xff0c;降低研发成本而推出的一款适用于各类AI开发者的云端机器学习集成开发环…

DSW:面向AI研发的集成开发平台

发布会传送门 产品详情 云原生技术&#xff0c;注重用户体验&#xff0c;提升研发效率 环境搭建是算法研发过程中的重要一环&#xff0c;这里除了硬件选型外&#xff0c;软件环境的安装配置&#xff0c;后续升级往往会耗费不少时间。DSW借助阿里云ECS&#xff0c;Docker和Ku…

程序员应如何理解高并发中的协程

来源 | 码农的荒岛求生责编 | 晋兆雨头图 | 付费下载于视觉中国作为程序员&#xff0c;想必你多多少少听过协程这个词&#xff0c;这项技术近年来越来越多的出现在程序员的视野当中&#xff0c;尤其高性能高并发领域。当你的同学、同事提到协程时如果你的大脑一片空白&#xff…

5G边缘计算行业通识:阿里云ENS技术演进之路

近日&#xff0c;阿里云杨敬宇在CSDN阿里云核心技术竞争力在线峰会上进行了《5G基础设施-阿里云边缘计算的技术演进之路》主题演讲&#xff0c;针对5G时代下&#xff0c;行业和技术的趋势、边缘计算产业通识以及阿里云边缘计算从过去到未来的技术演进之路进行分享。 5GAI需求推…

精讲23种设计模式-策略模式~聚合短信服务和聚合支付服务

文章目录一、设计模式1. 为什么需要使用设计模式2. 设计模式的分类3. 什么是策略模式4. 为什么叫做策略模式5. 策略模式优缺点6. 策略模式应用场景7. Spring框架中使用的策略模式二、策略模式~聚合短信服务2.1. 依赖引入2.2. 抽象公共行为接口2.3. 具体策略接口实现类2.4. 策略…

引领开源新风潮,阿里巴巴编程之夏第二期重磅来袭!

“唯有热爱&#xff0c;可抵岁月漫长”。 2020 年 5 月 25 日&#xff0c;阿里巴巴编程之夏&#xff08;Alibaba Summer of Code&#xff0c;以下简称 ASoC &#xff09;第二期正式上线&#xff0c;项目规模再度升级&#xff0c;来自开源社区的 Apache Dubbo、Apache RocketMQ…

powerdesigner逆向工程(sql转pdm)

第一步&#xff1a; File -> Reverse Engineer -> Database 第二步 &#xff1a; Using Script Files -> Add Files

安谋中国发布“玲珑”i3i5 ISP处理器,剑指何方?

随着图像视频处理技术的发展和 5G 时代的来临&#xff0c;除了社交等平台外&#xff0c;以图像、视频为载体的内容渗透到各领域&#xff0c;特别是智能安防、AIoT、智能汽车等新兴领域应用。与此同时&#xff0c;人们对其清晰度、图像分辨率有新的扩展需求&#xff0c;对摄像头…

凯度信息之美奖揭晓,数据可视化后有多“性感”?

前言&#xff1a;更多关于数智化转型、数据中台内容可扫码加群一起探讨 阿里云数据中台官网 https://dp.alibaba.com/index &#xff08;作者&#xff1a;常成&#xff09; 2019年的“凯度信息之美奖”揭晓了&#xff0c;有很多很有意思的信息可视化作品。很多作品看到的时候…

精讲23种设计模式-基于责任链模式~构建企业级风控系统

文章目录一、责任链1. 责任链基本概念2. 定义3. 关键要点4. 责任链模式优缺点5. 责任链模式类结构图6. 网关权限控制责任链模式二、构建企业级风控系统2.1. 定义公共抽象任务2.2. (失信名单)校验处理类2.3. (信用卡)逾期处理类2.4. (蚂蚁信用积分)处理类2.5. 责任链工厂(第一种…

抓取了《大秦赋》所有数据,我发现了这些秘密

本文由黄勇老师特约供稿学习人数超13万人的<Python入门到实战一卡通>作者网易、360、华为特约Python讲师前言最近大火的电视剧《大秦赋》&#xff0c;给朋友圈的小伙伴都拉回到那个风云激荡的春秋战国时期&#xff0c;大家都在热情的讨论着大秦一统&#xff0c;秦始皇嬴政…

精讲23种设计模式-基于观察者模式~设计异步多渠道群发框架

文章目录一、观察者模式1. 观察者模式基本概念2. 观察者模式的应用场景3. 观察者模式的类图二、设计异步多渠道群发框架2.1. 定义消息观察者抽象接口2.2. 创建观察者2.3. 主题通知所有观察者2.4. 观察者注册2.5. 自定义线程池2.6. 签单通知入口2.6. 异步通知接口测试2.7. 依赖三…

君子动手不动口,阿里云喊你做云上体验官啦!

想要免费搭建云上博客&#xff1f;想要玩转全云端开发&#xff1f;想要挑战AI经典命题&#xff1f;想要7天进阶成为云计算专家&#xff1f;想要初始化你的云原生工程&#xff1f;快来阿里云 Hands-on Labs&#xff01; Hands-on Labs 是阿里云全新推出的云上动手实验室&#x…

我是Redis,MySQL大哥被我害惨了!

来源 | 编程技术宇宙责编 | 晋兆雨头图 | 付费下载于视觉中国我是Redis你好&#xff0c;我是Redis&#xff0c;一个叫Antirez的男人把我带到了这个世界上。说起我的诞生&#xff0c;跟关系数据库MySQL还挺有渊源的。在我还没来到这个世界上的时候&#xff0c;MySQL过的很辛苦&a…