计算机毕业设计-基于python的旅游信息爬取以及数据分析

概要

  随着计算机网络技术的发展,近年来,新的编程语言层出不穷,python语言就是近些年来最为火爆的一门语言,python语言,相对于其他高级语言而言,python有着更加便捷实用的模块以及库,具有语法简单,语句清晰的特点,使得它在代码的编程中,变得更加简洁容易上手,另外,python应用特别广泛,作为是一门应用性广泛的语言,无论是游戏的开发,还是数据的爬取,再到网站的搭建,python都能轻松驾驭,其中,爬虫的应用,更加使得python这门语言为人所知。
作为网络搜索引擎的组成成分之一,爬虫能够有效的为我们搜索和爬取有用的信息,减少人工的操作,十分方便,在自己定义的条件下,采集得到某些网页的信息,比如房价、股票、招聘信息等,对于这些信息,我们可以对数据进行处理,从而得到我们所需要的信息。
本文通过python实现了一个马蜂窝旅游网站的爬虫信息搜集,并对马蜂窝网站中采集得到的数据进行分析处理,得到想要的数据。

关键词: Python Html 爬虫 旅游 马蜂窝

一、研究背景与意义

  随着近些年来网络的快速发展,网络进入了大信息时代,网络上的信息呈现爆炸式的飞涨,五花八门的信息显示,这使得人们在网络上寻找自己所需要的信息时,显得越来越困难,当然,一个问题的出现,必然有一个方法去对应,信息的剧增,与之对应的,便是搜索引擎的出现,比如google、百度等等,搜索引擎通过搜集网络上数以万计的不同类型的网页信息,并为其建立起索引,通过搜索引擎,即使网络上的信息种类繁多,我们还是能够通过关键词的搜索,搜索得出与之对应的信息的网页。
  网络爬虫是一个自动化的程序,也是搜索引擎的组成部分之一,不同的搜索引擎,可以通过不同的搜索需求,选择合适的爬虫方法来搜集网络上的信息,传统网络爬虫主要从一个url开始,通过爬取目标网页的url,观察其组成结构特点,按照结构规律,构建新的url,不停的将新的url放入队列中,循环爬取,最后直到需求完成为止。优秀、高效的爬虫程序,能够使人们网络上找到更加精准的信息。
  本文通过python语言,实现了一个对于马蜂窝旅游网站的信息采集分析,通过对马蜂窝旅游城市的城市编号爬取,根据马蜂窝网站的网址规则,通过拼接得到马蜂窝旅游网站的城市url,根据获取得到的url,进入马蜂窝旅游城市页面,观察页面组成结构,通过标签定位,爬取我们所需要的页面信息,将其保存入本地文件,再对文件里面的数据进行数据处理,可视化分析,告诉你旅游去哪儿好。

二、设计分析

  首先,旅游,我们需要先确定下来一个城市,因此,我们任务要求第一件就是马蜂窝旅游城市中排行前10的热门城市各自为什么,其次,我们需要得到各个城市的景点数据,根据数据分析得出排行前15的热门景点为哪些,最后,爬取与美食相关的信息,得出旅游中最具代表性的美食前15的排行。

1城市编号的获取

  首先,我们爬取旅游信息,肯定是爬取众多城市的旅游信息,不同的城市在马蜂窝旅游网站中的URL是不同的,但是,通过对比我们可以发现,在马蜂窝旅游网站中,所有的城市以及城市景点信息,都是由特定的五位数字或者六位数字组成的,这对于我们爬取不同城市的旅游信息是一个突破口,根据这个数字,我们就能拼接得到不同城市的不同URL地址,得到城市旅游的界面。

2城市信息的爬取

  在获取得到城市编号后,我们就能得到马蜂窝旅游网站的城市的URL地址,通过地址我们就可以进入到城市旅游的界面,这个时候我们就需要考虑,我们应该爬取什么,抓取哪些信息,哪些信息是有用的,能够支持我们爬取信息后数据分析的可信度,在这里,我们是根据马蜂窝旅游网站里面 不同城市的游记的数量、印象的标签数、特色美食的排行、购物娱乐的排行等等来得出的信息。

3爬取信息的处理

  在我们得到城市的具体旅游信息后,最后就是数据的可视化处理,首先,我
需要将马蜂窝旅游网站中游记前10的热门城市、前15的景点标签类热门城市、前15的的餐饮标签热门城市、前15的娱乐购物标签类热门城市可视化处理,采用柱状图显示。接着,我们对景点人气前15的城市景点、餐饮人气前15的城市美食、娱乐购物人气前15的城市娱乐可视化处理,采用的也是柱状图显示。最后,我们对热门城市前20的热门城市进行热力图显示,这就是全部的信息处理可视化了。
在这里插入图片描述

图3.3 程序流程图

三、项目的实现

  

1 可视化图片展示

在这里插入图片描述

图 4.4.1 马蜂窝全国旅游游记TOP10
在这里插入图片描述

图 4.4.2 马蜂窝全国旅游景点类标签TOP15
在这里插入图片描述

图 4.4.3 马蜂窝全国旅游餐饮类标签TOP15

在这里插入图片描述

图 4.4.4 马蜂窝全国旅游购物娱乐类标签TOP15
在这里插入图片描述

图 4.4.5 马蜂窝全国旅游景点人气排名TOP15

在这里插入图片描述

图 4.4.6 马蜂窝全国旅游餐饮人气排名TOP15
在这里插入图片描述

图 4.4.7 马蜂窝全国旅游娱乐购物人气排名TOP15

在这里插入图片描述

图 4.4.8 马蜂窝全国旅游热力图TOP30

  通过可视化图片我们可以知道,在马蜂窝旅游中,呼伦贝尔是最多人去旅游的地方,呼伦贝尔经常被我们称之为大草原,呼伦贝尔位于内蒙古地区,在热力图显示中,我们看可以清楚的看到中国的北部地区有较深颜色的显示,呼伦贝尔也是一个避暑胜地,在夏天的季节,那儿的天气确实十分凉爽,十分适宜人们旅游避暑,骑着马儿欣赏大草原的风光。北京作为首都,当然也是很多人旅游的圣地,拥有众多的旅游景点,故宫、长城、颐和园等等,都是著名的世界遗产,想一睹中华民族辉煌历史的,北京是个不错的旅游地点。
  接着,我们再来介绍下厦门这座旅游城市从数据中我们可以看到,景点类的城市最多人去的是厦门,餐饮类的城市最多人去的也是厦门,可见厦门也是许多人心目中的旅游胜地,首先是厦门的位置,厦门位于沿海地区,所以这里冬天天气温和,夏天没有酷暑,这对于旅游来说就是一个很不错的条件,不过由于沿海地区,大家旅游的时候,记得避开夏天的台风天气,其次,沿海的风景,十分令人向往,对于内陆地区人们没有到海边玩过的人,这也是一个很大的吸引点,接着,就是美食了,经济发展到现在,人们生活水平提高的同时,对于吃的要求也越来越高,不仅要吃的饱,还得吃得好,而恰恰好厦门的美食数不胜数,在餐饮TOP15的数据中我们就可以发现,厦门的美食就独占其六,沙茶面、海蛎煎、土笋冻、花生汤等等,无一不诱惑着吃货们的味蕾,最后就是价格方面了,厦门的旅游价格还是较低的,对比之前的呼伦贝尔大草原以及北京来说,厦门属于实惠的旅游地点。
  在娱乐标签这快,丽江是最多人旅游的地方,小桥流水人家的风景以及白雪皑皑的玉龙雪山,都是很不错的旅游地点,但是由于近年来丽江酒吧女的事件,导致丽江旅游名声有了污点,所以丽江旅游时候,要辩真假,火眼金睛分清楚酒吧套路,别中招了。
最后,根据热力图的显示,我们可以清楚的看出南方地区以及沿海地区都是比较热门的旅游地点,看来还是很多人喜欢南方的美食,宜人的天气气候以及沿海的风光啊,根据这些数据,你有没有得出你想要去旅游的地方呢?

四、总结

  通过这次毕业设计,我又一次的感受到了python这门编程语言的魅力所在,它简单易懂的代码以及丰富的库给我留下了深刻的印象,让简单的操作能够发挥出复杂的作用,让人爱不释手。当然,在毕业设计实现的过程中,也遇到过很多的困难,有时候在寻找页面规则的时候,往往卡在那里好久,久久没有进展,让人无从下手,大大的减缓了毕业设计完成进度,这个时候,我的同学以及导师吴瑞然老师都会帮我指明方向,同学之间的互相讨论,不同的人有不同的思考方式,拥有不同的看法意见,大多时候能够帮助我换种方法去实现目的,让我受益匪浅。吴瑞然老师则会引导我如何去思考和解决这个困难,在这里我要感谢吴瑞然老师对我的帮助,感谢老师给予的资料参考以及建议。
  这次的毕业设计也让我学到了很多之前不懂的知识,比如python库的运用,有些库是我第一次使用,让我的代码知识储量又一次增加了,也培养了我独立完成任务的能力,树立了自己的自信心。相信自己在以后的编程道路上,能够披荆斩棘,走得更远,学的更多。

六、 目录

目录
中文摘要 1
Abstract 2
第一章 绪论 4
1.1 课题研究背景及意义 4
1.2 国内外研究现状 5
1.3 研究内容 6
1.4 论文结构 6
第二章 深度学习的基本理论 8
2.1 神经元的数学模型 8
2.2 多层前向神经网络 9
2.3深度神经网络 10
2.4 神经网络的学习方式 11
第三章 验证码图像处理技术 12
3.1 图像预处理 12
3.2 字符定位和分割 13
第四章 卷积神经网络的设计与实现 16
4.1 网络结构 16
4.2 网络初始化 19
4.3 误差反向传播 21
4.3.1 全连接层的反向传播 22
4.3.2 池化层的反向传播 23
4.3.3卷积层的反向传播 24
第五章 网络性能分析 25
5.1 参数的选择 25
5.2 识别结果 25
5.3 隐层神经元数量对网络性能的影响 26
5.4 学习率对网络性能的影响 28
第六章 总结 30
6.1 工作总结 30
6.2 不足与展望 30
参考文献 32
致谢 35

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/757390.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

S2-066漏洞分析与复现(CVE-2023-50164)

Foreword 自struts2官方纰漏S2-066漏洞已经有一段时间,期间断断续续地写,直到最近才完成,o(╥﹏╥)o。羞愧地回顾一下官方通告: 2023.12.9发布,编号CVE-2023-50164,主要影响版本是 2.5.0-2.5.32 以及 6.0…

JJJ:改善ubuntu网速慢的方法

Ubuntu 系统默认的软件下载源由于服务器的原因, 在国内的下载速度往往比较慢,这时我 们可以将 Ubuntu 系统的软件下载源更改为国内软件源,譬如阿里源、中科大源、清华源等等, 下载速度相比 Ubuntu 官方软件源会快很多!…

[AIGC] 在Spring Boot中指定请求体格式

在使用Spring Boot开发Web应用的时候,我们经常会遇到需要接收并处理HTTP请求的情况。一个HTTP请求通常包括一个请求行、若干请求头和一个请求体。请求体在POST和PUT请求中特别重要,因为它通常用于向服务器传递数据。 文章目录 创建并使用一个Java Bean指…

【技术栈】Redis 企业级解决方案

​ SueWakeup 个人主页:SueWakeup ​​​​​​​ 系列专栏:学习技术栈 ​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​ 个性签名&…

​备案是否是《标准合同》的生效要件?​

备案是否是《标准合同》的生效要件? 备案并非是标准合同条款的生效要件。 《个人信息出境标准合同办法》第三条明确个人信息出境标准合同的使用规则是以“自主缔约与备案管理”相结合,企业不进行备案并不影响合同的效力,但是如果企业不完成备…

QT 驾校系统界面布局编写

MainWindow::MainWindow(QWidget *parent): QMainWindow(parent), ui(new Ui::MainWindow) {ui->setupUi(this);this->resize(ui->label_img->width(),ui->label_img->height());//图片自适应窗口大小ui->label_img->setScaledContents(true);//图片置…

信息发布系统

特色功能 画布功能---可任意拖动各控件的播放位置及大小,可任意选择屏幕背景色或添加背景图 同步联屏---毫秒级同步功能 视频切换无黑屏 触摸查询系统 会议预定系统 终端显示-会议综合屏 终端显示-会议预定屏 终端显示-移动端 广告发布系统 硬件产品-智能终端 硬件…

HTML_CSS学习:超链接、列表、表格、表格常用属性

一、超链接_唤起指定应用 1.相关代码 <!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><title>超链接_唤起指定应用</title> </head> <body><a href"tel:10010">电话联…

C# 数组(Array)

C# 数组&#xff08;Array&#xff09; 初始化数组 声明一个数组不会在内存中初始化数组。当初始化数组变量时&#xff0c;您可以赋值给数组。 数组是一个引用类型&#xff0c;所以您需要使用 new 关键字来创建数组的实例。 例如&#xff1a; double[] b new double[10];…

编织效率之梦:Visual Studio与Windows快捷键指南

个人主页&#xff1a;日刷百题 系列专栏&#xff1a;〖C/C小游戏〗〖Linux〗〖数据结构〗 〖C语言〗 &#x1f30e;欢迎各位→点赞&#x1f44d;收藏⭐️留言&#x1f4dd; ​ ​ 前言&#xff1a; 常用快捷键整理 (用加粗标注的是我个人使用时常用的&#xff0c;其实这个…

【算法专题--双指针算法】leecode-202. 快乐数(medium)、leecode-11. 盛最多水的容器(medium)

&#x1f341;你好&#xff0c;我是 RO-BERRY &#x1f4d7; 致力于C、C、数据结构、TCP/IP、数据库等等一系列知识 &#x1f384;感谢你的陪伴与支持 &#xff0c;故事既有了开头&#xff0c;就要画上一个完美的句号&#xff0c;让我们一起加油 目录 前言1. 快乐数&#xff0…

VM创建win11虚拟机

1. 准备文件 通过微软官网下载iso磁盘映像文件Download Windows 11 2. 虚拟机创建 (1)创建新的虚拟机-导入win11 iso文件; (2)命名并选择安装位置; (3)选择加密(最好找个是方保存下密码) (4)磁盘情况默认就好。虚拟机的磁盘空间随着文件的增多物理机也会占用磁盘空间. (5) 自定…

应用方案 | D78040场扫描电路

D78040是一款场扫描电路&#xff0c;偏转电流可达1.7Ap-p&#xff0c;可用于中小型显示器。 二 特 点 1、有内置泵电源 2、垂直输出电路 3、热保护电路 4、偏转电流可达1.7Ap-p 三 基本参数 四 应用电路图 1、应用线路 2、PIN5脚输出波形如下&#xff1a;

阿里云服务器ECS u1实例199元一年性能如何?一测吓一跳

阿里云服务器u1是通用算力型云服务器&#xff0c;CPU采用2.5 GHz主频的Intel(R) Xeon(R) Platinum处理器&#xff0c;通用算力型u1云服务器不适用于游戏和高频交易等需要极致性能的应用场景及对业务性能一致性有强诉求的应用场景(比如业务HA场景主备机需要性能一致)&#xff0c…

室友打团太吵?一条命令断掉它的WiFi

「作者主页」&#xff1a;士别三日wyx 「作者简介」&#xff1a;CSDN top100、阿里云博客专家、华为云享专家、网络安全领域优质创作者 「推荐专栏」&#xff1a;更多干货&#xff0c;请关注专栏《网络安全自学教程》 ARP欺骗原理 1、arpspoof实现ARP欺骗1.1、主机探测1.2、欺骗…

数据之谜:解读Facebook的用户行为

在当今数字化时代&#xff0c;社交媒体平台已经成为人们生活中不可或缺的一部分&#xff0c;而Facebook作为全球最大的社交网络之一&#xff0c;其背后隐藏着许多数据之谜。本文将深入探讨Facebook的用户行为&#xff0c;并试图解读其中的奥秘。 用户行为数据的收集 Facebook作…

MapReduce框架原理

目录 前言一、InputFormat数据输入1.1 切片与MapTask并行度决定机制1.1.1 问题引出1.1.2 MapTask并行度决定机制1.1.3 数据切片与MapTask并行度决定机制 1.2 FileInputFormat切片机制1.2.1 切片大小参数配置1.2.2 切片机制 1.3 TextInputFormat1.3.1 FileInputFormat实现类1.3.…

[ C++ ] STL---list的使用指南

目录 list简介 list的常用接口 构造函数 赋值运算符重载 迭代器 容量相关接口 元素访问接口 修改相关接口 头插push_front() 头删pop_front() 尾插push_back() 尾删pop_back() insert() erase() list的迭代器失效 list简介 1. list是可以以O(1)的时间复杂度在任意…

浅谈游戏地图中位置实时更新的技术方案

地图如今在游戏中发挥的作用越来越重要&#xff0c;随着电子竞技的兴起&#xff0c;地图逐渐成为了为玩家创造体验的直接舞台。希望本文能对有兴趣了解游戏地图背后实现原理的同学一些帮助。 什么是游戏地图 在游戏中可以通过3D场景虚拟一个完整的世界&#xff0c;当3D场景较为…

Chrome不支持正则搜索?那我们自己写一个

说在前面 &#x1f388;Ctrl F 大家都用过了吧&#xff0c;最近在Chrome中使用搜索功能的时候&#xff0c;突然想要使用正则来进行搜索&#xff0c;发现Chrome浏览器自带的搜索功能并不支持正则搜索&#xff0c;于是便想着自己做了一个支持正则搜索的Chrome插件。 效果展示 实…