世界商用飞机机型大全-使用Java抓取FlightAware后的答案

目录

前言

一、数据说明

1、实时航班飞机机型数据

2、网页结构分析

二、使用Java进行信息抓取

1、定义页面PageVO对象

2、爬取属性定义

3、启动信息抓取组件

三、成果分析

1、商业飞行的飞机机型的种类

 2、飞机种类排名前十名

3、航班数排名后十名

4、看中国国产大飞机C919

四、总结


前言

        随着现在航空业的发达以及人们物质生活水平的提升,乘坐飞机出行一定是很多朋友们出行的一种方式,不要说远距离的跨国航线,连我们的祖国的天南海北,乘坐飞机出行,也是相当便利出行的。不知道各位朋友在平时的出行过程当中有没有注意观察,或者说有没有留意自己乘坐的飞机到底是什么机型呢?更往大的范围来说,在当前世界上的商业飞行活动中,一共有多少种飞机机型呢?飞行航班数最多的机型是哪一种?而飞行航班数最少的又是哪一种呢?哪种飞机的机龄最年轻,哪种飞机是飞行器界的老人呢?想想这些问题,是不是很有意思。当下次您在出行的时候,在值机或者购买机票的时候,可以统计以下您乘坐的飞机的机型。也看看我们国家主要的商业飞机机型是什么?主要的飞行航线是哪几条。

        带着上述的问题开启本篇的内容讲解。本文主要讲解如何采用Java语言和XxlCrawler进行flightaware网的所有商用飞机机型的信息爬取,首先介绍在flightaware网上的所有飞行器数据,然后使用Java语言结合XxlCrawler进行信息抓取,最后得到完整的飞行器数据表格。通过本文,您可以掌握如何获取全球执飞的商用飞机的机型信息,同时掌握在使用XxlCrawler进行信息爬取时,如何获取超链接中Href属性,掌握属性值的正确处理方式。最后对成果进行充分展示,本文的结果是Excel表格,但是我们为了可以在后续的分析中继续使用,我们可以将这些数据持久化到数据库中,本文暂且不表。

一、数据说明

        本节将主要对数据的来源进行说明,文中涉及到的飞行轨迹及全球飞机机型数据均参考flightaware飞行网。以飞机机型为例,局限于数据采集时获取的是实时的在线航班的数据,因此导致可能会遗漏部分已经降落的飞行飞机,但对于常用航空器,应该是包含在里面了。如果您需要最准确的数据,可以设置一个频率高的采集周期,定时从网站上采集,通过覆盖24小时甚至72小时的采集,来实现全覆盖(当然这个频率也不一定,有的航线可能一周才开通一次)。当然,您也可以购买会员,这样可以得到一些官方提供的数据。

1、实时航班飞机机型数据

        对飞行轨迹感兴趣的朋友可以在flightaware网站上看到飞机的轨迹,这里需要注意的是,这里的航班都是实时航班,就是正在飞行的。已经到达的航班则不在列表中展示。具体如下图所示:

        当我们想搜索航班时,可以有多种搜索模式,这里就分享一种,同时引出本博客的信息来源,飞机的机型列表。 

        第一步点击导航条中的“航班跟踪”,然后点击“按机型浏览”的超链接。 然后在新的界面中就打开所有的机型选择页面,如下图所示:

        没有,上面的页面就是我们的目标,我们需要将上面的数据进行抓取到本地来。 

2、网页结构分析

        上面的飞机机型访问地址如下:飞机机型列表。为了实现使用Java语言来进行页面信息爬取,我们首先要分析网页的结构,便于在后续的抓取脚本设置中设置好xpath配置。如果使用的是谷歌浏览器,那么我们直接按F12或者右键检查,即可打开网页监控,在监控页面查看网页结构,尤其是xpath的规则。

        通过观察上述的网页,我们不难发现,它的网页结构非常有规律,因此特别使用进行循环批量爬取。其网页内容格式均如下所示:

<tr class="smallrow1"><td>2084</td> <td><a href="/live/aircrafttype/A320">A320</a></td> <td>Airbus A320</td>
</tr>

         上面的每一行包含四个主要的信息,第一个是实时航班的数量,第二个单元格的超链接是访问当前机型的实时航航的连接,后面是飞行机器的code,第四个是当前飞机的具体类型名称。在了解以上的信息以后我们就可以编写xpath脚本来获取相关的信息。

二、使用Java进行信息抓取

        本节将重点展示如何使用Java语言来爬取这些航空器的信息,通过本节的知识,可以掌握使用Java语言来爬取相关知识的内容。同时这里将重点讲解如何在XxlCrawler框架中爬取超链接的Href属性,如果您在平时的工作中也要涉及网页属性的爬取,可以看看这里的处理方式。

1、定义页面PageVO对象

        在博主的个人博客当中,大多都是介绍XxlCralwer这个组件。这个组件非常好用,这里依然采用这个组件来进行信息的抓取。在信息抓取之前,我们需要先通过xpath来定义html页面上的元素与我们抓取对象的一个映射关系,这个映射关系的配置就是通过pageVo这个对象来实现的。在上一节的内容介绍中,我们讲解了网页的结构,这里仅将pageVo对象的代码贴出来,对重点部分进行讲解。

/**
* 	请注意合理Xpath的配置,一定要配置到tr,配置到tr,会自动循环获取并赋值,方便于集合操作
* @author 夜郎king
*
*/
@PageSelect(cssQuery = ".indent .prettyTable >tbody >tr")
@Data
@AllArgsConstructor
@NoArgsConstructor
public static class PageVo {/*** 	实时航班数*/@Excel(name = "航班数")@PageFieldSelect(cssQuery = " >td:eq(0)")private String count;/*** 	机型代号*/@PageFieldSelect(cssQuery = " >td:eq(1)")@Excel(name = "机型代码")private String code;/*** 	查询机型超链接* 	这里要特别注意,selectType 切记要选择SelectType.ATTR,表示从属性中获取值,selectVal 表示取具体哪个属性的值,这里表示取href这表属性的值,* 	更详细的用法在写博客时,可以参考源码进行详细说明*/@PageFieldSelect(cssQuery = " >td:eq(1) >a:eq(0)",selectType = SelectType.ATTR,selectVal = "href")@Excel(name = "查询机型超链接")private String aircraftTypeLink;/*** 	详细机型*/@Excel(name = "详细机型")@PageFieldSelect(cssQuery = " >td:eq(2)")private String aircraftType;	
}

        在上述的代码中,需要注意的地方有:

        (1)、@PageSelect(cssQuery = ".indent .prettyTable >tbody >tr"),在定义pageVO对象时,由于在表格中有多个tr,我们在配置pageVo时,希望会自动形成一个List<PageVo>的数组,因此在定义xpath时一定要定义到tr这一层。

        (2)、在获取机型的超链接时,由于获取的是元素的href属性,因此不要使用下面的获取属性的方法。

/**
* 	查询机型超链接
* 	这里要特别注意,selectType 切记要选择SelectType.ATTR,表示从属性中获取值,selectVal 表示取具体哪个属性的值,这里表示取href这表属性的值,
* 	更详细的用法在写博客时,可以参考源码进行详细说明
*/
@PageFieldSelect(cssQuery = " >td:eq(1) >a:eq(0)",selectType = SelectType.ATTR,selectVal = "href")

         默认情况下,selectType是SelectType.TEXT,详细的配置看源码中的代码定义:

/*** jquery data-extraction-type,like ".html()/.text()/.val()/.attr() ..."** jquery 数据抽取方式,如 ".html()/.text()/.val()/.attr() ..."等** @see com.xuxueli.crawler.conf.XxlCrawlerConf.SelectType** @return SelectType
*/
public XxlCrawlerConf.SelectType selectType() default XxlCrawlerConf.SelectType.TEXT;/**
* jquery data-extraction-value, effect when SelectType=ATTR/HAS_CLASS, like ".attr("abs:src")"
*
* jquery 数据抽取参数,SelectType=ATTR/HAS_CLASS 时有效,如 ".attr("abs:src")"
*
* @return String
*/
public String selectVal() default "";

2、爬取属性定义

        在定义信息获取对象时,除了要定义PageVO转换对象,同时还要定义抓取的地址、抓取信息后保存的集合对象等。这里将分享如何定义这些其它属性信息。

private static final String GET_URL = "https://zh.flightaware.com/live/aircrafttype/";private static final String USER_AGENT = "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36";/**
* 	定义所有机型的接收集合
*/
private List<PageVo> aircraftTypeList = new ArrayList<PageVo>();

3、启动信息抓取组件

        启动信息抓取的代码比较简单,这里不再对详细过程进行赘述。将代码直接贴出来,有问题看不懂的朋友可以私信交流。

@Test
public void testGetAllaircraftType() {// 构造爬虫XxlCrawler crawler = new XxlCrawler.Builder().setUrls(GET_URL).setAllowSpread(false)// 允许扩散爬取,将会以现有URL为起点扩散爬取整站,这里只爬一个页面,设置为不允许扩散.setThreadCount(3).setPauseMillis(2000).setUserAgent(USER_AGENT)//设置user_agent.setIfPost(false).setFailRetryCount(3)// 重试三次.setTimeoutMillis(10 * 1000)//超时时间定位10秒钟.setPageParser(new PageParser<PageVo>() {@Overridepublic void parse(Document html, Element pageVoElement, PageVo pageVo) {// 解析封装 PageVo 对象// String pageUrl = html.baseUri();// 使用pageVO的方式解析// System.out.println(pageUrl + ":" + pageVo.toString());printVo(pageVo);aircraftTypeList.add(pageVo);}}).build();crawler.start(true);// 启动// excel工具包ExcelUtil<PageVo> util = new ExcelUtil<PageVo>(PageVo.class);util.exportExcel(aircraftTypeList, "全球实时执飞所有机型列表-20240707");System.out.println("finished...");
}

        这里的最后,我们将所有飞行器的信息保存到一个list集合中,然后通过list集合写出到excel表格中。这样就可以实现数据的共享了。在IDE中运行上述的程序,在控制台中我们可以看到以下的输出:

        这里贴出几条抓取飞机机型的日志信息:

TestAllAircraftTypeCrawer.PageVo(count=2088, code=A320, aircraftTypeLink=/live/aircrafttype/A320, aircraftType=Airbus A320)
TestAllAircraftTypeCrawer.PageVo(count=1833, code=B738, aircraftTypeLink=/live/aircrafttype/B738, aircraftType=Boeing 737-800)
TestAllAircraftTypeCrawer.PageVo(count=777, code=A321, aircraftTypeLink=/live/aircrafttype/A321, aircraftType=Airbus A321)
TestAllAircraftTypeCrawer.PageVo(count=515, code=B38M, aircraftTypeLink=/live/aircrafttype/B38M, aircraftType=Boeing 737 MAX 8)
TestAllAircraftTypeCrawer.PageVo(count=462, code=A20N, aircraftTypeLink=/live/aircrafttype/A20N, aircraftType=Airbus A320neo)
TestAllAircraftTypeCrawer.PageVo(count=445, code=A21N, aircraftTypeLink=/live/aircrafttype/A21N, aircraftType=Airbus A321neo)

        在我们的下载目录,可以看到在目录中已经生成了如下文件,

        打开任意一个机型文件后可以看到如下信息:

         通过以上的代码和成果展示基本已经实现了我们预期目标,成功的将数据进行信息获取。下面我们来对数据进行一个简单的分析。

三、成果分析

        本节将结合上面的数据来试图回答文章的开始时提出的那几个问题。数据会说话,我们来看看商业航班偏爱哪些飞机的机型。

1、商业飞行的飞机机型的种类

        按照我们采集的数据来看,我们分两天不同的时间段来进行采集。以7月7日和7月8日两天采集的飞行航班的飞机种类数量为统计,其数量大致是在:301-352种之间,之所以有这种区别,是因为这是采集的实时航班数。因此数字仅供参考(7月7日是352种,7月8日是301种)。

 2、飞机种类排名前十名

        这里我们来看一下飞机航班数的前10名是哪些飞机(以7月8日的数据为例):

航班数机型代码查询机型超链接详细机型
2088A320/live/aircrafttype/A320Airbus A320
1833B738/live/aircrafttype/B738Boeing 737-800
777A321/live/aircrafttype/A321Airbus A321
515B38M/live/aircrafttype/B38MBoeing 737 MAX 8
462A20N/live/aircrafttype/A20NAirbus A320neo
445A21N/live/aircrafttype/A21NAirbus A321neo
350B789/live/aircrafttype/B789Boeing 787-9 Dreamliner
336A319/live/aircrafttype/A319Airbus A319
330B77W/live/aircrafttype/B77WBOEING 777-300ER
326C172/live/aircrafttype/C172Cessna Skyhawk

        从上图不难看出,空客A320是绝对的空中数量王,稳居第一,排名第二是波音公司的738,第三名又是空客公司的A321。在排名前十的机型中,空客公司和波音公司基本霸榜了。

3、航班数排名后十名

        上面我们看了排名前10名的航空器,接下来我们开看航班数少的航空器。依然以7月8日的数据为例进行说明:

数量机型详情链接详细机型
1P32T/live/aircrafttype/P32TPiper Lance 2
1PA22/live/aircrafttype/PA22Piper PA-22 Tri-Pacer
1PA38/live/aircrafttype/PA38Piper Tomahawk
1PAT4/live/aircrafttype/PAT4Piper PA-31T3-500 T-1040
1PAY1/live/aircrafttype/PAY1Piper Cheyenne
1PTS2/live/aircrafttype/PTS2PITTS Special (S-2)
1R66/live/aircrafttype/R66Robinson R-66
1S61/live/aircrafttype/S61Sikorsky Sea King
1SS2P/live/aircrafttype/SS2PNorth American Rockwell Thrush Commander
1SW4/live/aircrafttype/SW4Fairchild Dornier SA-227DC Metro
1T6/live/aircrafttype/T6North American T-6 Texan
1TB0/live/aircrafttype/TB0
1TB1/live/aircrafttype/TB1
1ULAC/live/aircrafttype/ULACUnknown/Generic Microlight aircraft

4、看中国国产大飞机C919

        众所周知,C919是我们国家设计建造的国产大飞机,这里我们也来看看C919的飞行航班。在表格中找了以下,C919的航班数较少。

2C919COMAC C-919

        可以看到C919的航班还是比较少的,只有两个架次的商业航班。在系统中来看一下他的飞行计划。

 

        当前C919是在中国东方航空公司进行服役,因此想要感受国产大飞机的可能乘坐东航的飞机的时候机会更大。 

四、总结

        以上就是本文的主要内容,本文主要讲解如何采用Java语言和XxlCrawler进行flightaware网的所有商用飞机机型的信息爬取,首先介绍在flightaware网上的所有飞行器数据,然后使用Java语言结合XxlCrawler进行信息抓取,最后得到完整的飞行器数据表格。通过本文,您可以掌握如何获取全球执飞的商用飞机的机型信息,同时掌握在使用XxlCrawler进行信息爬取时,如何获取超链接中Href属性,掌握属性值的正确处理方式。

        文章行文仓促,定有不足支持,还恳请各位朋友专家批评指正,一定虚心接受。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/41999.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

你真的会信息收集嘛,4k字渗透测试信息收集10大技巧

前言 在渗透测试中&#xff0c;信息收集是非常关键的一步&#xff0c;它为后续的漏洞发现和利用提供了重要的基础。以下是非常详细的信息收集方式&#xff1a; 一、被动信息收集 被动信息收集是指在不与目标系统直接交互的情况下&#xff0c;通过公开渠道获取目标系统的相关…

基于51单片机的四路抢答器Protues仿真设计

一、设计背景 近年来随着科技的飞速发展&#xff0c;单片机的应用正在不断的走向深入。本文阐述了基于51单片机的八路抢答器设计。本设计中&#xff0c;51单片机充当了核心控制器的角色&#xff0c;通过IO口与各个功能模块相连接。按键模块负责检测参与者的抢答动作&#xff0c…

力扣-贪心算法4

406.根据身高重建队列 406. 根据身高重建队列 题目 假设有打乱顺序的一群人站成一个队列&#xff0c;数组 people 表示队列中一些人的属性&#xff08;不一定按顺序&#xff09;。每个 people[i] [hi, ki] 表示第 i 个人的身高为 hi &#xff0c;前面 正好 有 ki 个身高大于或…

MyBatis的简介与使用

Mybatis JDBC操作数据库的缺点 存在大量的冗余代码。手工创建 Connection、Statement 等&#xff0c;效率低下。手工将结果集封装成实体对象。查询效率低&#xff0c;没有对数据访问进行优化。 Mybatis框架 简介 MyBatis 本是 apache 的一个开源项目 iBatis, 2010年这个项目由…

imx6ull/linux应用编程学习(14) MQTT基础知识

什么是mqtt&#xff1f; 与HTTP 协议一样&#xff0c; MQTT 协议也是应用层协议&#xff0c;工作在 TCP/IP 四层模型中的最上层&#xff08;应用层&#xff09;&#xff0c;构建于 TCP/IP协议上。 MQTT 最大优点在于&#xff0c;可以以极少的代码和有限的带宽&#xff0c;为连接…

网络资源模板--Android Studio 外卖点餐App

目录 一、项目演示 二、项目测试环境 三、项目详情 四、完整的项目源码 原创外卖点餐&#xff1a;基于Android studio 实现外卖(点)订餐系统 非原创奶茶点餐&#xff1a;网络资源模板--基于 Android Studio 实现的奶茶点餐App报告 一、项目演示 网络资源模板--基于Android …

在AvaotaA1全志T527开发板上使用AvaotaOS 部署 Docker 服务

Docker 是一个开源的应用容器引擎&#xff0c;让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中&#xff0c;然后发布到任何流行的 Linux或Windows操作系统的机器上&#xff0c;也可以实现虚拟化。容器是完全使用沙箱机制&#xff0c;相互之间不会有任何接口。 准备…

信息技术课上的纪律秘诀:营造有序学习环境

信息技术课是学生们探索数字世界的乐园&#xff0c;但同时也是课堂纪律管理的挑战场。电脑、网络、游戏等元素可能分散学生的注意力&#xff0c;影响学习效果。本文将分享一些有效的策略&#xff0c;帮助教师在信息技术课上维持课堂纪律&#xff0c;确保教学活动顺利进行。 制…

几何建模基础-样条曲线和样条曲面介绍

1.概念介绍 1.1 样条曲线的来源 样条的英语单词spline来源于可变形的样条工具&#xff0c;那是一种在造船和工程制图时用来画出光滑形状的工具&#xff1a;富有弹性的均匀细木条/金属条/有机玻璃条&#xff0c;它围绕着按指定位置放置的重物或者压铁做弹性弯曲&#xff0c;以…

基于LangChain的RAG开发教程(二)

v1.0官方文档&#xff1a;https://python.langchain.com/v0.1/docs/get_started/introduction/ 最新文档&#xff1a;https://python.langchain.com/v0.2/docs/introduction/ LangChain是一个能够利用大语言模型&#xff08;LLM&#xff0c;Large Language Model&#xff09;能…

植物大战僵尸融合嫁接版 MAC 版本下载安装详细教程

继植物大战僵尸杂交版火了之后&#xff0c;PVZ改版可谓是百花齐放&#xff0c;最近又有一个非常好玩的模式被开发出来了&#xff0c;他们称为《植物大战僵尸融合嫁接版》 该版本并没有对植物卡牌做改动&#xff0c;而是可以将任意两种植物叠放到一起进行融合&#xff0c;产生新…

思路打开!腾讯造了10亿个角色,驱动数据合成!7B模型效果打爆了

世界由形形色色的角色构成&#xff0c;每个角色都拥有独特的知识、经验、兴趣、个性和职业&#xff0c;他们共同制造了丰富多元的知识与文化。 所谓术业有专攻&#xff0c;比如AI科学家专注于构建LLMs,医务工作者们共建庞大的医学知识库&#xff0c;数学家们则偏爱数学公式与定…

数据分析与挖掘实战案例-电商产品评论数据情感分析

数据分析与挖掘实战案例-电商产品评论数据情感分析 文章目录 数据分析与挖掘实战案例-电商产品评论数据情感分析1. 背景与挖掘目标2. 分析方法与过程2.1 评论预处理1. 评论去重2. 数据清洗 2.2 评论分词1. 分词、词性标注、去除停用词2. 提取含名词的评论3. 绘制词云查看分词效…

昇思25天学习打卡营第12天 | LLM原理和实践:MindNLP ChatGLM-6B StreamChat

1. MindNLP ChatGLM-6B StreamChat 本案例基于MindNLP和ChatGLM-6B实现一个聊天应用。 ChatGLM-6B应该是国内第一个发布的可以在消费级显卡上进行推理部署的国产开源大模型&#xff0c;2023年3月就发布了。我在23年6月份的时候就在自己的笔记本电脑上部署测试过&#xff0c;当…

UI自动化测试框架:PO 模式+数据驱动(超详细)

1. PO 设计模式简介 什么是 PO 模式&#xff1f; PO&#xff08;PageObject&#xff09;设计模式将某个页面的所有元素对象定位和对元素对象的操作封装成一个 Page 类&#xff0c;并以页面为单位来写测试用例&#xff0c;实现页面对象和测试用例的分离。 PO 模式的设计思想与…

Python学习中进行条件判断(if, else, elif)

条件判断是编程中必不可少的一部分&#xff0c;它让程序可以根据不同的条件执行不同的代码块。在Python中&#xff0c;主要使用if、elif和else语句来实现条件判断。 基本语法 在Python中&#xff0c;条件判断的基本语法如下&#xff1a; if condition:# 当condition为True时…

NCCL 中的一些辅助debug 知识点

1&#xff0c;调试nccl 启动kernel的方法 ncclLaunchKernel cuLaunchKernelEx ncclStrongStreamLaunchKernel cudaLaunchKernel ncclLaunchOneRank cudaLaunchKernel 在 nccl lib 中&#xff0c;不存在使用<<<grid, block,,>>> 这种类似方式启…

算法题型归类整理及同类题型解法思路总结(持续更新)

1、最优路线 通用思路 1、递归 #案例1-最优路测路线 题目描述 评估一个网络的信号质量&#xff0c;其中一个做法是将网络划分为栅格&#xff0c;然后对每个栅格的信号质量计算。 路测的时候&#xff0c;希望选择一条信号最好的路线&#xff08;彼此相连的栅格集合&#x…

12种增强Python代码的函数式编程技术

前言 什么是函数式编程&#xff1f; 一句话总结&#xff1a;函数式编程(functional programming)是一种编程范式&#xff0c;之外还有面向对象&#xff08;OOP&#xff09;、面向过程、逻辑式编程等。 函数式编程是一种高度抽象的编程范式&#xff0c;它倡导使用纯函数&#x…

Docker-11☆ Docker Compose部署RuoYi-Cloud

一、环境准备 1.安装Docker 附:Docker-02-01☆ Docker在线下载安装与配置(linux) 2.安装Docker Compose 附:Docker-10☆ Docker Compose 二、源码下载 若依官网:RuoYi 若依官方网站 鼠标放到"源码地址"上,点击"RuoYi-Cloud 微服务版"。 跳转至G…