JAVA实现美团电影价格抓取(附代码)

各位老大好,我是烤鸭:

最近在研究爬虫,看到有意思的是美团的电影票价,普通的抓取是抓不到的。

例如网址:http://bj.meituan.com/shop/105355906?mtt=1.movie/cinemalist.0.0.j8oaf2un(当你打开403或者404的话,美团的这个网址每次刷新都会变。你可以访问这个,http://bj.meituan.com/shop/105355906,找个影片就行。

打开如图:

图片有点看不清,没关系,如果你也在研究爬虫,可能会跟我有一样的疑问,这种怎么实现,又怎么破解。

1.分析网页

普通的爬虫抓取,只要找到的特定的标签,抓取其中的内容就可以了。但是有一些比较敏感的数据,网页会做处理,比如价格,或者视频资源之类的。
 视频一般的处理方式是blob二进制,存的数据就是二进制,取出来的时候浏览器可以解析,具体的实现我也不清楚。

举个例子:

http://finance.gaodun.cn/cfapeixun/33049.html

他的视频路径就是blob的。

       

而拿美团来说。我们检查这个价格,发现是i标签里引入一张背景图片,用postion来调整刚好暴露出来的数字就是价格。知道实现方式就简单了,就可以对症下药了。

2.解析元素

复制价格的图片i标签的内容。
background-image:url(//s0.meituan.net/bs/file/?f=fewww:/www/css/si/pricesp/12/25a711bd77.png@4344444);background-position: 0px -26px;
注意每一次打开网页,图片url都是新的,一次请求抓取这个页面的全部数据,不要分次请求。
上面的background-image的url如图。

3.破解图片

这一步是最复杂的。我用的是开源的工具tesseract-ocr。
附上github地址: https://github.com/tesseract-ocr/tesseract
各个版本下载地址: https://github.com/tesseract-ocr/tesseract/tags
说下思路,如果你用这个工具直接读取这张图片,是100%都不出来的,因为图片分辨率太小,每个数字占的位置也小。
我想的是最好的就是显示什么价格,我就截取那个价格的数字,这样肯定能够解析出来。问题来了,怎么取到这个位置。
再看一下i标签。
background-position: 0px -26px;
试着调整位置,不难发现规律,图片是x,y轴,0,-26:x轴0,y轴-26。

知道怎么弄,就开始做吧。
安装tesseract-ocr,不会安装的看这个地址吧。

https://www.cnblogs.com/jianqingwang/p/6978724.html。

下载exe正常安装,配置环境变量。


说一下tessdata文件夹,里边装的是各种训练库。eng代表英文和数字。chs是中文,
但是中文支持不太友好。其他的库自己下载去吧。我用的eng够用。

截一张安装成功的图。

tesseract -v 

查看安装版本


4.最后一步。开始代码!

之前也说了,每次刷新的价格图片都是新的,所以我下边演示图片的可能和上边的不一样。
先上一张识别结果,是我刚试过的:

这个价格是1,postion是0,-52。


操作就是按照之前的思路,把这个图片截取放大,再识别,因为截取的时候没法精确到个位数,所以只能截取一行来根据位置识别。右边的图片就是截取之后的。
不敢说正确率,只是尝试了几个,以上所有内容仅供技术交流,希望大家不要用到其他地方。

最后附上源码地址:
http://download.csdn.net/download/angry_mills/10143366

上面有些截图可能不是很清楚,没关系,原理懂了就可以,代码下载实践一下,欢迎交流。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/413045.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用jieba和wordcloud进行中文分词并生成《悲伤逆流成河》词云

因为词云有利于体现文本信息,所以我就将那天无聊时爬取的《悲伤逆流成河》的评论处理了一下,生成了词云。 关于爬取影评的爬虫大概长这个样子(实际上是没有爬完的): #!/usr/bin/env python # -*- coding: utf-8 -*- # Time : 2018/10/15 16:34 # Auth…

[css] 如何使用CSS实现段落首字母或首字放大效果?

[css] 如何使用CSS实现段落首字母或首字放大效果? ::first-letter 伪元素选择器p::first-letter {font-size: 2em;font-weight: bold; }个人简介 我是歌谣,欢迎和大家一起交流前后端知识。放弃很容易, 但坚持一定很酷。欢迎大家一起讨论 主…

jqweui的picker动态加载数据

大家好&#xff0c;我是烤鸭&#xff1a; jqweui的picker动态加载数据 jqweui是jquery对weui的拓展开发,picker就是其中的一个拓展组件&#xff0c; 1. 先附上官网显示地址和代码&#xff1a; http://jqweui.com/extends#picker <input type"text" idpicker/&g…

eclipse的workset项目重复显示解决方案

问题描述: 两个workset里面出现同样的项目 解决方案: 1,删除某一个workset 2,File - NEW - Other - Java Working Set 3,输入刚刚删除的那一个workset的名称 4,在workspace content中选择你要加入的项目,然后点击Finish

[css] 如何给段落的首行缩进?

[css] 如何给段落的首行缩进&#xff1f; 一看题目居然没想起text-indent&#x1f923;&#xff0c;它的规定如下适用于块元素直至单位如下长度值&#xff1a;px em rem百分比&#xff1a;取决于包含块的width关键字&#xff1a; each-line&#xff1a;文本缩进会影响第一行&a…

vue省市区三级联动mysql,js/json,html/jsp

大家好&#xff0c;我是烤鸭&#xff1a; 省市区三级联动数据及页面&#xff1a; 测试的时候&#xff0c;发现少了几个地区&#xff0c;现在补上了&#xff0c;也优化了下排版。 如果你懒得复制和看的话&#xff0c;这里是打包的下载地址。 之前的资源地址也改了&#xff0…

[css] 你最希望css拥有什么样的特性?(目前没有的)

[css] 你最希望css拥有什么样的特性&#xff1f;&#xff08;目前没有的&#xff09; :nth-letter 选择器 :nth-of-class 选择器 :has 选择器&#xff08;似乎快了&#xff09;以及如果能实现这些我就不需要sass了&#xff1a;ul {counter-reset: lis; }ul li{counter-increme…

UI自动化之读取浏览器配置

以火狐浏览器为例 目录 1、找到配置项 2、读取配置 1、找到配置项 打开Firefox点右上角设置>&#xff1f;&#xff08;帮助&#xff09;>故障排除信息>显示文件夹&#xff0c;复制文件管理器地址栏 2、读取配置 用FirefoxProfile() 方法读取配置&#xff0c;然后再加载…

mysql树节点【所有子节点列表 and 查询所有父节点列表】

/**所有子节点列表*/ delimiter // CREATE FUNCTION getChildList(rootId varchar(100)) RETURNS varchar(2000) BEGIN DECLARE str varchar(2000); DECLARE cid varchar(100); SET str $; SET cid rootId; WHILE cid is not null DO SET str concat(…

[css] 解释下为什么css的reset不建议直接这么写:*{ margin:0; padding:0;}?

[css] 解释下为什么css的reset不建议直接这么写&#xff1a;*{ margin:0; padding:0;}&#xff1f; 1.*为通配符&#xff0c;使用通配符&#xff0c;即全局范围遍历&#xff0c;耗费浏览器效率&#xff0c;增大负荷&#xff1b; 2.会影响后面的设置的部分属性无效&#xff0c;…

Centos Redis远程连接不上

修改redis.conf文件&#xff1a; 1.bind 127.0.0.1改为绑定bind 0.0.0.0 2.protected-mode yes改为protected-mode no 3.daemonize yes改为daemonize no 4.启动redis ./soft/redis-4.0 .6 / src / redis-server /soft/redis-4.0.6/redis.conf

java1.8 新特性

1、Stream 2、函数式编程——Lambda表达式转载于:https://www.cnblogs.com/LinsenLi/p/9834800.html

SpringCloud Feign注解导入失败

注解EnableFeignClients导入失败解决方案 <dependency><groupId>org.springframework.cloud</groupId><!-- <artifactId>spring-cloud-starter-openfeign</artifactId> --><artifactId>spring-cloud-openfeign-core</artifactId&…

[css] 为什么说不提倡用1px的小尺寸图片做背景平铺?

[css] 为什么说不提倡用1px的小尺寸图片做背景平铺&#xff1f; 因为明明可以用background-color就能搞定的事情为什么要用图片&#xff1f;个人简介 我是歌谣&#xff0c;欢迎和大家一起交流前后端知识。放弃很容易&#xff0c; 但坚持一定很酷。欢迎大家一起讨论 主目录 …

通过cmd命令,杀掉占用端口号的进程

错误问题&#xff1a;【Error running public: Unable to open debugger port (127.0.0.1:53110): java.net.BindException "Address already in use: JVM_Bind"】 解决步骤&#xff1a; 1&#xff09;netstat -aon|findstr 53110 此处的53110 根据自己错误中提示的…

[css] 你有去看过或者了解过css的标准文档吗?

[css] 你有去看过或者了解过css的标准文档吗&#xff1f; 当然&#xff0c;CSS 中可以研究的太多了&#xff0c;比如 css2 的层叠上下文极其诡异&#xff0c;比如 body 的默认值与普通 dom 的不同&#xff0c;flex-shrink 的计算规则等等&#xff0c;虽然看得很吃力&#xff0…

解决使用adb卸载应用失败的问题

昨天使用adb命令成功安装了应用&#xff0c;但是在卸载时却报错&#xff0c;卸载失败&#xff0c;如下图&#xff1a; 然后我找了找原因&#xff0c;觉得可能是包名以及路径的原因&#xff0c; 于是就先把手机上的应用都打印出来看下&#xff0c; 列出手机装的所有app的包名&am…

linux安装docker部署java项目

大家好&#xff0c;我是烤鸭&#xff1a; 分享一下linux上部署docker的javaweb项目 1.环境 linux centos 7.2 64-bit 系统 kernel 3.10 查看版本号 &#xff1a; uname -r 大于3.10即可 2.安装docker 这里是官网安装教程 https://docs.docker.com/engine/installation/…

Java面试题谷歌插件

该插件可以让您在做WEB开发的同时&#xff0c;也可以去学习一些理论知识&#xff0c;加深你的技术。 随机题&#xff1a;每次点开插件&#xff0c;从题库中随机筛选出的题 当前题&#xff1a;是桌面通知的题目&#xff0c;每三分钟随机发送一次桌面通知 追加题&#xff1a;向…

[css] 你知道CSS的标准发布流程吗?

[css] 你知道CSS的标准发布流程吗&#xff1f; 随着 CSS 3 的广泛应用&#xff0c;很多新的 CSS 属性层出不穷&#xff0c;有很多陌生的 CSS 属性出现&#xff0c;所以经常需要去学习新的 CSS 属性。新的属性往往介绍文章不多&#xff0c;所以有时候就需要去看看官方文档&…