我们身边的网络流量

作者:qinglianghu

一.网络流量中的善与恶

和我们一起在网上冲浪的不仅有你身边的亲朋好友,还有栖息在互联网上密密麻麻的网络爬虫。差不多每5次的网络浏览里,有2次是"虚假"的网络爬虫产生的。这些栖息在互联网上的爬虫也是有"善恶"之分的。对于那些遵守网络规定,例如我们熟知的搜索引擎"饲养"的爬虫们就是大家喜爱的。但是那些违反网络规定,通过找漏洞、钻空子赚取暴利,获取大量隐私数的就是不受我们欢迎的。
1.jpg
图1.1 2019年善恶机器和人产生流量的占比

在Imperva的《2020 Bad Bot Report 》中,我们可以看到2019年,善意的机器流量下降到了13.1%,恶意的爬虫流量相比去年(18.1%)上升到了24.1%,几乎占据了全网流量的四分之一。

二.恶意网络流量现状

1.恶意流量等级分布
恶意流量的类型可以根据爬虫程序的复杂程度来进行划分,Imperva 的报告中将其分成了3类。

  • Simple:这种一般是简单的容易发现的恶意请求,大概占总恶意请求的五分之一;
  • Moderate:这种会更换不同的网络环境,通过匿名代理的方式发出恶意请求;占总恶意请求的一半江山。
  • Sophisticated:这种在使用匿名代理的基础上会通过伪造鼠标轨迹、点击等用户交互行为来躲避检测,几乎能完全模拟人类的浏览行为。中高类型的爬虫通常还被称作APBs(Advanced persistent bots),占了7成的恶意流量。

2.jpg
图 2.1 恶意流量等级分布

连续三年,按照复杂程度的恶意流量分布非常一致,最容易检测到的简单恶意请求占比为26.3%;中等占比53.6%;复杂专业的恶意请求占比20.1%。APBs占比73.7%,略高于上一年。秒拨IP技术的发展,使得很多简单的通过IP黑名单方式限制爬虫的方式无效。

2.不同行业恶意流量分布

恶意流量问题遍布每个行业,有一些问题是某些行业独有的。比如只有登录入口的网站可能遭遇的撞库攻击,而价格爬取则主要集中在电商行业。
3.jpg
图2.2 不同行业流量分布占比

金融服务行业 连续第二年以47.7%的恶意流量占比占据所有行业受恶意流量攻击的头名。大部分恶意流量来自撞库攻击,它们的目的是获取这些公司的用户隐私信息。

教育行业 恶意流量占45.7%,爬虫程序一般用于获取论文、学生选课以及获取账号。

市场交易相关行业 这是另外一个受到大量恶意流量攻击的行业,和电子商务类似这部分的爬虫主要用于价格信息和用户账号的获取。

政府 流向政府网站的流量中有37.5%的恶意流量,这部分爬虫基本上爬取的是商业注册信息和选举信息。

非营利性组织 使用非盈利性组织的捐赠页面来验证非法手段得到的金融账号信息的有效性,这部分流量的攻击对于非盈利组织的服务器来说是难以处理的。

航空旅游业 航空旅游业30.5%的恶意流量组成比较复杂,这其中不仅有来自竞争对手的直接爬取,还有一部分来自第三方生态公司。未经授权的代理商、竞争对手以及二手黄牛党使用高级爬虫爬取票价,这不仅增加了普通用户的交易成本,造成了很多客户的投诉,而且爬虫程序还会带来服务器响应速度变慢甚至瘫痪的问题。此外,旅行公司的用户账号也面临被撞库攻击的问题,黑灰产会试图盗取用户账户中的里程积分来牟取暴利。

3.恶意流量来源

七成的恶意流量的来自大型数据中心(云服务提供商),相较于去年略有下降。恶意流量中来自家用网络的比例连续三年增长,又之前的22.7%上涨到了27.8%,来自移动网络的恶意流量占比不高仅占2.3%。
4.jpg
图2.3 2019年恶意流量来源分布情况

从国家角度来看,美国已经连续六年占据榜首,不过相较于去年的53.4%已经下降到了45.9%。中国以4.8%占据第四。
5.jpg
图2.4 2019年恶意流量来源国家分布情况

在抵御恶意流量最多的国家分布中,俄罗斯以21.1%的占比排名第一,中国排名第二。这主要得益于这些国家针对外国网络的封禁。
6.jpg
图2.5 2019年不同多家对恶意流量阻挡情况

三.原因分析与应对方法

2019年网络中恶意的机器流量已经达到全网流量的四分之一。不仅如此,恶意机器流量的发展已经进入了下一个阶段,它们正试图改善自己的形象,使得自己看起来合法。黑灰产运营商正在建立专业的业务,他们从其他网站上"获取"数据、打包数据,并向愿意购买的公司提供数据。所有这些都被巧妙的包装成了“智能商业”的服务。

恶意网络流量快速发展的原因,大概可以归结为如下几点:

1.市场导向

首先,黑灰产有较大的利益可图。目前它们已经拥有了专业外观的网站,提供被称为定价情报、金融替代数据或竞争洞察的商业情报服务。通常,这些企业提供专注于特定行业的数据产品。随着市面上可以购买爬虫爬取的数据越来越多,行业内企业间的竞争压力越来越大。没有企业希望自己,因为信息获取不全而失败。
8.jpg
图3.1 某平台的各种数据榜单

同时,随着会员制度不断的完善和普及,每个用户的账户内都有一些可以兑换或者转移的数字货币或者积分、礼物。来自数据泄露的账户密码与会员制度的增长相结合,为恶意撞库提供了便利。恶意机器程序未经许可从网站上爬取数据(例如定价、库存等)以获得竞争优势。爬取的个人隐私数据甚至会被不法分子利用,从事欺诈、盗窃等违法犯罪活动。

其次,在不同领域对于流量的需求也日益增大。在中国,粉丝为自己喜欢的明星购买流量打榜已经是大家公认的手段。在美国,机器操控的社交媒体账号设置能干预选举的投票。

最后,现在招聘的岗位中出现了很多针对数据爬取相关的岗位,且有着很高的待遇。在这种大环境下,很难看到恶意机器流量问题的消失。

2.灰色地带的网络爬虫

恶意机器流量大部分来自网络爬虫,爬虫作为一种计算机技术就决定了它的中立性,因此爬虫本身在法律上并不被禁止,但是利用爬虫技术获取数据这一行为是具有违法甚至是犯罪的风险的。

在2019年11月的hiQ使用爬虫爬取Linkedin上数据的案件中。法院最终裁定的结果是:被告领英(LinkedIn)公司不得阻止hiQ公司进入、复制并使用LinkedIn网站的公开信息,亦不得采取法律或技术措施进行阻碍,若有则必须在24小时内称除。

下面几种手段或许能在一定程度上缓解恶意爬虫带来的负面影响。

禁止一些过时的User Agent请求头,一般来说爬虫程序的请求是随机生成,且有很多是早些年编写的代码,这部分请求的UA已经过时了。

禁止一些代理服务的提供商,很多爬虫使用的是市面上一些免费活着廉价的第三方的代理服务。禁止这些代理的请求或许是不错的选择。

管理好自己网站的所有访问源。包括网站的移动web版、H5小程序版本,还有分享到第三方平台的链接。
分析网站的请求日志

记录分析网站登陆失败的日志。

 

原文链接
本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/514744.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

58.3万笔/秒!看阿里的黑科技

简介: 11月11日0点刚过26秒,天猫双11的订单创建峰值就达到58.3万笔/秒,阿里云又一次扛住全球最大规模流量洪峰!58.3万笔/秒,这一数字是2009年第一次天猫双11的1457倍。数字的背后,隐藏着阿里巴巴很多不为人…

java方法重写_Java方法重写注意事项

1.重写方法的方法名和参数列表要和被重写方法一致。2.在 java 1.4版本以前,重写方法的返回值类型被要求必须与被重写方法一致,但是在java 5.0中放宽了这一个限制,添加了对协变返回类型的支持,在重写的时候,重写方法的返…

专访李飞飞 :从清华附中高材生到阿里飞刀,一口井钻出「云原生」

简介: 他初三上清华,如今是达摩院数据库首席科学家。李飞飞从学术界走向工业界,带领阿里云技术团队一手打造了云原生分布式数据库,让阿里「全面上云」的战役再下一城。今天,他用一口水井为我们道出了云原生&#xff01…

阿里雷卷:RSocket从入门到落地,RSocket让AJP换发青春

简介: 借助 RSocket 的架构提供,我们可以将之前比较复杂的方案简化,当然最最重要的是性能的提升,即便之前的一些性能提升技术点,可能由于一些约束等,现在和 RSocket 对接,那些问题都不存在啦&am…

英特尔拥抱开源,岂能没有杀手锏?

10 年前,Netscape 创始人、硅谷著名投资人马克安德森说“软件吞噬世界”,如今已发展为“开源吞噬世界”。据《2020年度 GitHub Octoverse 报告》显示,GitHub 上开发者数量达到 5600 万,新增 6000 万个存储库以及 19 亿个 contribu…

Java全能手册火了!Redis/Nginx/Dubbo/Spring全家桶啥都有!

前言本文是为了帮大家快速回顾了Java中知识点,这套面试手册涵盖了诸多Java技术栈的面试题和答案,相信可以帮助大家在最短的时间内用作面试复习,能达到事半功倍效果。本来想将文件上传到github上,但由于文件太大有的都无法显示所以…

云原生实时数仓首次在2020双11核心数据场景落地

简介: 这是史上数据量、计算量最大的一年,是实时处理要求最高、与机器智能结合性最强的一次双11,也是全球最大规模的一次云原生实践。背后作为数据核心支撑的大数据平台更是创下新的世界纪录。 刚刚结束的2020天猫双11又创下两项新记录&…

Flink + 强化学习搭建实时推荐系统

大家好,我叫许日花名欢伯,在2016年盒马早期的时候,我就转到了盒马的事业部作为在线数据平台的研发负责人,现在阿里云的计算平台负责DataWorks的建模引擎团队。今天的分享内容也来源于另一位嘉宾李启平(首义&#xff09…

MySQL 避坑指南之隐式数据类型转换

作者 | 不剪发的Tony老师责编 | 欧阳姝黎出品 | CSDN博客????知之为知之,不知为不知,是知也。——《论语》今天我们来聊聊 MySQL 中存在的隐式数据类型转换以及可能带来的问题。当两个不同类型的数据进行运算时,为了使得它们能够兼容&…

二级java题型及分值_计算机二级java考试内容

计算机二级java考试内容Java支持快速原型和容易试验,它将导致快速程序开发。这是一个与传统的、耗时的“编译、链接和测试”形成鲜明对比的精巧的开发过程。下面是小编整理的关于计算机二级java考试内容,希望大家认真阅读!基本要求1.掌握Java语言的特点、…

淘宝直播在冲刺最复杂的人工智能技术!

01 上周,主播林珊珊测试了一下淘宝直播团队依据他个人形象打造的虚拟主播,也就是林珊珊下播以后,让虚拟主播上场,粉丝在直播间可以跟虚拟主播互动,虚拟主播则实时介绍商品,回答消费者提问。 第二天&#x…

2020双十一,阿里云GRTN拉开直播和RTC技术下半场的序幕

直播,已经成为了“剁手党”们最喜闻乐见的一种购物形式。对直播体验的极致追求,也是淘宝技术人们长期的努力方向。为了提升用户购物体验,让直播更加丝滑,让剁手更快一些,在2020双十一期间,淘宝首次启用了阿…

开拓新格局 共赢新 Power 2021浪潮商用机器新布局

6月25日,以“新格局新核心新Power”为主题的2021浪潮商用机器客户大会在沪隆重举行,本次大会吸引了来自证券、保险、医疗、制造、交通等重点行业的上百位客户代表以及ISV等渠道合作伙伴。会上,浪潮商用机器正式发布了面向关键计算的浪潮全新K…

大促场景系统稳定性保障实践经验分享

每到双11,如何保障系统高峰扛得住、长期平稳是每个大促人必须面对的问题。在今年双11之前,阿里云在上海举办了一场线下交流,阿里大促和稳定性保障负责人、中间件专家、解决方案专家等将历年总结的大促经验分享给参会嘉宾,我们选取…

考拉海购全面云原生迁移之路

今年 8 月底,入驻“阿里动物园”一周年的考拉海购首次宣布战略升级,在现有的跨境业务基础上,将重点从以“货”为中心变成以“人”为中心,全面发力会员电商。 外界不知道的是,对考拉海购来说,不只是完成了业…

新零售:从上云到云原生 Serverless

作者 | 七凌来源 | 阿里巴巴中间件头图 | 付费下载于 IC Photo某零售商超行业的龙头企业,其主要业务涵盖购物中心、大卖场、综合超市、标准超市、精品超市、便利店及无人值守智慧商店等零售业态,涉及全渠道零售、仓储物流、餐饮、消费服务、数据服务、金…

企业双11业绩增长156% 、成交额突破151亿元...... 这背后是阿里云数据中台的场景赋能

红星美凯龙天猫数字化卖场累计成交金额突破151.52亿元;杜蕾斯全网销售额突破1.7亿元,天猫官方旗舰店销售额同比增长105%;滴露全网销售额突破1.8亿元,天猫官方旗舰店销售额同比增长156%;波司登首铺准确率提升79%…… 在…

Gartner:2020年全球IaaS公有云服务市场增长40.7%

编辑 | 宋 慧 供稿 | Gartner 头图 | 付费下载于视觉中国 根据全球信息技术研究和顾问公司Gartner的统计结果,2020年全球基础设施即服务(IaaS)市场达到643亿美元,相比2019年的457亿美元增长40.7%。2020年亚马逊仍在IaaS市场排名第…

jmeter+mysql+set_jmeter学习指南之操作 mysql 数据库

JMeter 通过 JDBC Connection Configuration 和 JDBC Request 可以连接数据库,并进行增删改查操作,支持各种常见的数据库,本文以最常用的 MySQL 数据库为例讲解,其它数据库的使用方法类似。一、下载驱动包在使用之前,需…

如何快速实现精准的个性化搜索服务

简介: 用户行为数据如何实时的应用在搜索服务中那? 怎样在1天内就可实现【精准的个性化搜索系统】搭建那? 今天小编将通过【阿里云开放搜索】中的三大“个性化搜索算法模型”给大家详细介绍,希望给予您更多解决思路~ 一、个性化排…