用爬虫自建行业知识库

 一

几年前用 Python 写过一个程序,自动抓取各市文化局网站相关栏目文章,然后把抓到的文章,写成离线网页,发到指定邮箱。

当时针对每个网页写一个爬虫,对每一个网页都进行分析。比如,标题是什么,发布时间在哪,正文内容如何保存等等。因为工作量慢慢变大,后来就把它放到代码库里吃灰。

现在,每天要采集整理各地文旅信息,去年年底又重新捡起之前的代码。

重构了一遍代码,大体实现自动抓取全省16个市局、文化报、旅游报、相关文化机构、多数省级文旅部门网站的每日更新信息。最后写了一个网页,动态呈现抓取信息。

现在,每天早上程序自动运行,逐个查看各地文旅网站更新了没有,更新了什么,并对信息库进行同步。

总体实现步骤如下:

第一步:用查看每一个信息源(网站)的更新情况,只抓取主页上的两项信息,即链接标题、链接地址,以文本文件形式保存到本地。

通过多个程序分别对全省16市文旅部门及相关机构、省级文旅部门、文化报、旅游报、副省级城市文旅部门网站进行访问。

第二步:将信息保存到本地,与数据库表已有记录进行比对,如果数据库表中不存在相同的记录,则对数据库表进行更新。

第三步:所有代码及数据更新后同步到代码库。

第四步:写一个网页(内网使用),对数据库中信息分类呈现,并提供检索功能。

第五步:通过脚本(windows 环境的自动批处理文件),依次调用第一步、第二步里的多个程序,加入操作系统的任务计划程序定时运行。

工作流程共五个环节:获取、更新、同步、呈现、运行。

以上工作量最大的是第一步,即信息获取。

由于每个信息源的最新信息、主要信息,一般会在网站主页呈现,所以只需关注主页更新即可。

这里的技术难点,主要有两个:

1、不同的信息源(网站)保存信息的方式不同,需要分别处理。

2、少数信息源(网站)采用特殊设置,要避开这些特殊设置,需要对网站进行深入分析和调试,这给自动获取信息带来一些困难,有些甚至解决不了。

这是一个非常小的、相当简陋的项目,实现过程中有一些收获。

其中,最大的收获是可以更方便地了解各地文旅动态,不用再逐个翻看网站,节省了不少时间。

其次,在实现过程中也进一步熟悉了相关技术。比如,如何用 python + Selenium 模拟网页访问;如何避开网站的一些特殊设置;如何使用 python + Sqlite 操作数据库;如何用 python + flask 写动态网页,包括网页模板、检索功能实现等;如何使用 Git;如何自动化工作流程,等等。此外,通过代码重构还加深了对程序模块化设计的理解。

信息采集是一个常见的需求。

大的搜索引擎,如百度、谷歌、搜狗、必应等,都是基于信息采集而发展起来的“重型武器”。对大多数行业来说,可能不需要这大的“火力”,仅需要自身行业的信息库。

基于浩如烟海的网络信息,建立属于行业自身的信息库,并不断更新,是必要且必须之事。

还可以做哪些扩展? 

从内网到外网使用,从PC端到移动端,搜集更多数据,整理更多信息,挖掘更多知识,呈现更多智慧......

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/676612.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

node.js 使用 elementtree 生成思维导图 Freemind 文件

请参阅: java : pdfbox 读取 PDF文件内书签 请注意:书的目录.txt 编码:UTF-8,推荐用 Notepad 转换编码。 npm install elementtree --save 编写 txt_etree_mm.js 如下 // 读目录.txt文件,使用 elementtree 生成思维导图 Free…

【FFmpeg】ffplay 命令行参数 ⑤ ( 设置音频滤镜 -af 参数 | 设置统计信息 -stats 参数 | 设置同步时钟类型 -sync 参数 )

文章目录 一、ffplay 命令行参数 - 音频滤镜1、设置音频滤镜 -af 参数2、常用的 音频滤镜 参数3、音频滤镜链 示例 二、ffplay 命令行参数 - 统计信息1、设置统计信息 -stats 参数2、关闭统计信息 -nostats 参数 三、ffplay 命令行参数 - 同步时钟类型1、设置同步时钟类型 -syn…

【前沿技术杂谈:多模态文档基础模型】使用多模态文档基础模型彻底改变文档 AI

【前沿技术杂谈:多模态文档基础模型】使用多模态文档基础模型彻底改变文档 AI 从文本到多模态模型:文档 AI 逐渐发展新技能。行业领先的型号Document AI 的下一步:开发通用和统一框架 您是否曾经被包含不同信息(如应付账款、日期、…

Web后端开发:事务与AOP

事务管理 在学习数据库时,讲到:事务是一组操作的集合,它是一个不可分割的工作单位。事务会把所有的操作作为一个整体,一起向数据库提交或者是撤销操作请求,要么同时成功,要么同时失败。 事务的操作主要有三…

已解决org.springframework.web.HttpMediaTypeNotAcceptableException异常的正确解决方法,亲测有效!!!

已解决org.springframework.web.HttpMediaTypeNotAcceptableException异常的正确解决方法,亲测有效!!! 文章目录 问题分析 报错原因 解决思路 解决方法 总结 问题分析 在Spring MVC应用中处理HTTP请求时,我们有…

C#向数组指定索引位置插入新的元素值:自定义插入方法 vs List<T>.Add(T) 方法

目录 一、使用的方法 1.自定义插入方法 2.使用List.Add(T) 方法 二、实例 1.示例1:List.Add(T) 方法 2.示例:自定义插入方法 一、使用的方法 1.自定义插入方法 首先需要定义一个一维数组,然后修改数组的长度(这里使用Length属性获取…

【OpenHarmony硬件操作】WIFI模块的操作(udp+tcp)

文章目录 前言一、网络的连接1.1 WIFI模块有三大功能1.2 相关接口连接网络等待网络连接成功创建一个热点获取本设备ip地址二、tcp客户端的使用2.1 创建socket2.2 sockaddr_in结构体2.3 connect连接服务器2.4 接收数据2.5 发送数据三、UDP

网关中全局过滤器实现jwt校验

意味着有很多相同接口的实现类&#xff0c;那么必定会有优先级的问题。于是Spring就提供了Ordered这个接口&#xff0c;来处理相同接口实现类的优先级问题。 public class AuthorizeFilter implements Ordered, GlobalFilter {Overridepublic Mono<Void> filter(ServerW…

Linux应用程序几种参数传递方式

大家好&#xff0c;今天给大家介绍Linux应用程序几种参数传递方式&#xff0c;文章末尾附有分享大家一个资料包&#xff0c;差不多150多G。里面学习内容、面经、项目都比较新也比较全&#xff01;可进群免费领取。 在Linux中&#xff0c;应用程序可以通过多种方式接收参数。以下…

栈的基本操作

&#x1d649;&#x1d65e;&#x1d658;&#x1d65a;!!&#x1f44f;&#x1f3fb;‧✧̣̥̇‧✦&#x1f44f;&#x1f3fb;‧✧̣̥̇‧✦ &#x1f44f;&#x1f3fb;‧✧̣̥̇:Solitary-walk ⸝⋆ ━━━┓ - 个性标签 - &#xff1a;来于“云”的“羽球人”。…

【Java面试】数据类型常见面试题

什么是包装类型 将基本类型包装进了对象中得到的类型 基本类型和包装类型有什么区别 用途不同&#xff1a;基本类型一般用于局部变量&#xff0c;包装类型用于其他地方存储方式不同&#xff1a;用于局部变量的基本类型存在虚拟机栈中的局部变量表中&#xff0c;用于成员变量…

(51)汉明距离

文章目录 每日一言题目解题思路代码结语 每日一言 岁月因青春慨然以赴而更加静好&#xff0c;世间因少年挺身向前而更加瑰丽。 题目 题目链接&#xff1a;汉明距离 两个整数之间的 汉明距离 指的是这两个数字对应二进制位不同的位置的数目。 给你两个整数 x 和 y&#xff0…

物联网数据隐私保护技术

在物联网&#xff08;IoT&#xff09;的世界中&#xff0c;无数的设备通过互联网连接在一起&#xff0c;不断地收集、传输和处理数据。这些数据有助于提高生产效率、优化用户体验并创造新的服务模式。然而&#xff0c;随着数据量的剧增&#xff0c;数据隐私保护成为了一个不能忽…

python笔记12

目录 1、文件的基本操作步骤 1.打开文件&#xff08;Open File&#xff09;&#xff1a; 2.读取文件内容&#xff08;Read File&#xff09;&#xff1a; 3.写入文件内容&#xff08;Write to File&#xff09;&#xff1a; 4.file.seek() 5.文件复制&#xff1a; 6.wit…

力扣刷题之旅:进阶篇(三)

力扣&#xff08;LeetCode&#xff09;是一个在线编程平台&#xff0c;主要用于帮助程序员提升算法和数据结构方面的能力。以下是一些力扣上的入门题目&#xff0c;以及它们的解题代码。 --点击进入刷题地址 一、动态规划&#xff08;DP&#xff09; 首先&#xff0c;让我们来…

【QT+QGIS跨平台编译】之三十二:【MiniZip+Qt跨平台编译】(一套代码、一套框架,跨平台编译)

文章目录 一、MiniZip介绍二、文件下载三、文件分析四、pro文件五、编译实践一、MiniZip介绍 MiniZip是一个轻量级的开源库,用于创建、读取和操作ZIP文件格式的压缩文件。它提供了一组简单而灵活的API,可以方便地在应用程序中进行ZIP文件的压缩和解压操作。 MiniZip的主要特…

《PCI Express体系结构导读》随记 —— 第II篇 第4章 PCIe总线概述(10)

接前一篇文章&#xff1a;《PCI Express体系结构导读》随记 —— 第II篇 第4章 PCIe总线概述&#xff08;9&#xff09; 4.2 PCIe体系结构的组成部件 PCIe总线作为处理器系统的局部总线&#xff0c;其作用与PCI总线类似&#xff0c;主要目的是为了连接处理器系统中的外部设备&…

【机器学习】基于集成学习的 Amazon 用户评论质量预测

实验六: 基于集成学习的 Amazon 用户评论质量预测 1 案例简介 ​ 随着电商平台的兴起&#xff0c;以及疫情的持续影响&#xff0c;线上购物在我们的日常生活中扮演着越来越重要的角色。在进行线上商品挑选时&#xff0c;评论往往是我们十分关注的一个方面。然而目前电商网站的…

Golang的for循环变量和goroutine的陷阱,1.22版本的更新

先来看一段golang 1.22版本之前的for循环的代码 package mainimport "fmt"func main() {done : make(chan bool)values : []string{"chen", "hai", "feng"}for _, v : range values {fmt.Println("start")go func() {fmt.P…

【05】C++ 内存管理

文章目录 &#x1f308; Ⅰ C 内存分布&#x1f308; Ⅱ C 内存管理方式1. new 和 delete 操作内置类型2. new 和 delete 操作自定义类型 &#x1f308; Ⅲ operator new 和 operator delete&#x1f308; Ⅳ new 和 delete 的实现原理1. 内置数据类型2. 自定义数据类型 &#…