如何设计实现一个地址反解析服务?

http://www.cnblogs.com/LBSer/p/4507829.html

一、什么是地址反解析

       我们都知道手机定位服务,其本质是汇总各种信号得出一个经纬度坐标(x,y)(具体定位原理可以参考:LBS定位技术基于朴素贝叶斯的定位算法),然而定位服务并未提供该坐标对应的实体地理信息,比如街道、POI等,要知道这些信息就需要使用地址反解析服务,该服务就是由经纬度信息得到结构化地址信息(图1)。

图1 地址反解析

      例如lat:30.252188, lng:120.120427,地址反解析得到的结果如表1所示。

 

表1 地址反解析得到的结果

{data: {province: "杭州市",city: "杭州",district: "西湖区",detail: "灵隐路-灵溪南路",lat: 30.252188,lng: 120.120427}
}

   

二、基本思路

      一般现有的地图服务公司如高德、google、百度等都会提供地址反解析服务,当大家业务规模较小时可以选择调用他们提供的接口,但是如果业务规模较大时,再去直接调用显然不太合适。大家需要有自己的实现能力!

  实现地址反解析服务有矢量和栅格两种思路。

1)矢量思路

      高德、google、百度等地图服务公司有自己的地图数据,包括矢量数据(比如点、线、面等几何数据)以及矢量对应的属性信息(比如某线对应的属性是“北京朝阳望京东路”),因此他们的地址反解析思路很直接,直接根据经纬度查找附近的矢量数据(POI、道路等数据),比如查找到一条道路,然后返回道路对应的属性信息即可(图2)。具体实现思路与地理围栏算法解析(Geo-fencing)一文相似。

图2 矢量思路示意图

      

  这种方式的优点是数据存储量较小。缺点是要求有详细的地图矢量数据以及对应的属性数据,而对一般公司来说很难获得。

      尽管我们可以通过开源的openstreetmap拿到中国的矢量地图数据(如何获取、存储、管理、使用osm数据呢?可以参考:利用OpenStreetMap(OSM)数据搭建一个地图服务),但是openstreetmap中国地区的矢量地图数据很不详细,精度也较低,完全依赖于openstreetmap的地图数据来进行地址反解析还不太靠谱。

 2)栅格思路

       什么是栅格思路?如图3a所示,比如将北京划分成很多栅格(也称之为瓦片),当栅格比较精细时,比如为10米*10米时,我们可以假设一个栅格内部的地址是相同的。这种假设是合理的,如图3b虚线框栅格内的两点所示,尽管该两点经纬度坐标不同,但是其地址均为“中国北京市朝阳区北苑路”。基于上述假设,我们可以事先存储各个栅格对应的地址信息。每当一个用户请求过来,首先判断该用户经纬度所对应的栅格,然后将此栅格对应的地址信息返回即可。     

     栅格思路的优点是很简单很直观,缺点是数据量大。以北京为例,北京全市面积为 16,410.54平方千米,如果栅格大小为10米*10米,那么需要存储1.6亿个栅格对应的地址信息,如果放大到全国(约960万平方千米),数据量将更大。


 
图3 栅格思路示意图

三、方案设计

       在没有矢量数据的情况下一般应用可以采用栅格思路,因为简单直观易于上手,后期如果找到完备的矢量数据则可以借鉴矢量思路。

1)如何降低栅格方案的数据存储量?

       栅格方案最大的缺点是存储量巨大,如何降低栅格方案的数据存储量呢?我们有两种思路。

       a)有效栅格方案。前面讲到如果栅格为10米*10米时,仅北京就会有1.6亿个栅格。但是我们知道一般应用的用户基本是在城区进行访问,鲜有用户会在山沟沟里使用大家的服务,因此这1.6亿个栅格有大部分是不会有被访问到的(某栅格被访问到是指用户请求的经纬度落在该栅格范围内),我们将被用户访问到的栅格称之为有效栅格。事实上我们无需存储所有栅格对应的地址信息,而仅需存储有效栅格对应的地址信息即可实现我们的地址反解析服务,从而大大降低数据存储量。如图4所示,黄色栅格代表是有用户访问到的栅格,即有效栅格,有效栅格数目<<全部栅格数目。

图4 有效栅格方案(红点代表用户请求的经纬度,黄色栅格代表有效栅格)

 

       b)自适应粒度栅格方案。之前栅格粒度是不变的,比如都是10米*10米,由于大部分栅格用户不会访问到,这样较为浪费存储空间。我们可以采用四叉树对地理空间进行划分(图5),每次划分都对空间进行四等分,直到划分出的栅格内没有用户请求点或者栅格的粒度<=10米*10米为止。在用户访问密集区域,栅格的粒度较为精细,精度较高,在鲜有用户访问区域,栅格粒度较粗,地址反解析的结果也较粗,可以发现:自适应粒度栅格数目<<均等粒度栅格数目。

图5 自适应粒度栅格方案

 

         从本质上讲有效栅格方案是key-value的存储结构,存储简单方便,并且更新也很简便,非常适合大数据环境。而自适应粒度栅格方案本质上是树存储结构(四叉树),涉及到树结构的节点分裂等操作,在大数据环境下实现逻辑较为复杂。简便起见我们采用有效栅格方案。

2)数据存储方式?

       有效栅格方案本质是key-value的存储方式。1)这里的key指的是栅格的编号,一个用户请求过来,首先根据用户请求的经纬度判断其所在的栅格编号(key),然后查找该编号(key)对应的地址信息。栅格的编号方式有很多,可以采用geohash编码来进行编号(关于geohash可以查看GeoHash核心原理解析Geohash距离估算),一般来讲,geohash编码长度为8位时,其代表着20米*20米的栅格。2)value值指的是该栅格的中心点对应的地址信息。

     此外还需存储该记录的时间戳,以便我们知道数据的新旧,方便更新(表2)。

 

    表2 数据存储结构


3)实现流程
 

       地址反解析服务实现流程分为预处理以及线上服务两个步骤(参见图6)。

a)预处理

      1)利用已有用户的定位/地址反解析请求日志来确定有效栅格

            用户定位/地址反解析请求会携带有经纬度信息,可以计算该经纬度对应的geohash编码(key),并查询数据库,如果没有该key则进行插入,数据量较大时可以使用mapreduce进行处理,最后将数据写入Hbase以便线上实时查询;

      2)获取各个有效栅格对应的地址信息

            获取每个有效栅格对应的经纬度,去请求地图服务商google、baidu、高德、搜狗等的地址反解析服务接口,获得相应结构化地址信息并进行插入。

       上述两个步骤也可以合二为一,确定了有效栅格后即可请求地图服务商接口,并将geohash编码、结构化地址信息和时间戳信息插入到数据库中。

b)线上服务

      对一个用户请求,首先得到经纬度,通过geohash对该经纬度编码,从而查找数据库,如果找到便直接返回,如果没找到或离上次更新时间与现在间隔超过一个月(具体时间可以动态设置)之内,则请求第三方地址反解析接口,并将更新任务放在任务队列里实现异步更新。

图6 栅格思路的地址反解析方案 

转载于:https://www.cnblogs.com/LBSer/p/4507829.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/257296.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

html5 hr代码缩减比例,HTML HR size用法及代码示例

DOM HR size属性用于设置或返回元素的size属性的vlue。用法:它返回HR大小属性。hrobject.size用于设置HR大小属性。hrobject.size"value"属性值&#xff1a;value:它包含指定HR元素高度的像素值。返回值&#xff1a;它返回一个字符串值&#xff0c;该值代表HR元素的高…

【转】C++标准转换运算符static_cast

static_cast<new_type> (expression) 虽然const_cast是用来去除变量的const限定&#xff0c;但是static_cast却不是用来去除变量的static引用。其实这是很容易理解的&#xff0c;static决定的是一个变量的作用域和生命周期&#xff0c;比如&#xff1a;在一个文件中将变量…

MySQL Binlog Mixed模式记录成Row格式

背景&#xff1a; 一个简单的主从结构&#xff0c;主的binlog format是Mixed模式&#xff0c;在执行一条简单的导入语句时&#xff0c;通过mysqlbinlog导出发现记录的Binlog全部变成了Row的格式&#xff08;明明设置的是Mixed&#xff09;&#xff0c;现在就说说在什么情况下Bi…

update语句中使用子查询

55. 更改 108 员工的信息: 使其工资变为所在部门中的最高工资, job 变为公司中平均工资最低的 job 1). 搭建骨架 update employees set salary (), job_id () where employee_id 108; 2). 所在部门中的最高工资 select max(salary) from employees where department_id ( s…

html后台数据分类管理,细分数据.html

&#xfeff;细分数据$axure.utils.getTransparentGifPath function() { return resources/images/transparent.gif; };$axure.utils.getOtherPath function() { return resources/Other.html; };$axure.utils.getReloadPath function() { return resources/reload.html; };…

SpringBoot的配置文件加载顺序和使用方式

1、bootstrap.properties bootstrap.properties 配置文件是由“根”上下文优先加载&#xff0c;程序启动之初就感知 如&#xff1a;Spring Cloud Config指定远程配置中心地址&#xff0c;就要在这个文件中指定。这样才能在启动之初发现远程配置中心&#xff0c;并从远程获取配置…

Get请求

写在前面的话 XMLHttpRequest对象的open方法的第一个参数为request-type,取值可以为get或post.本篇介绍get请求. get请求的目的,主要是为了获取数据.虽然get请求可以传递数据,但传递数据的目的是为了告诉服务器,给我们什么内容. 使用get请求时,参数都是随url进行传递的. 使用ge…

css3中的BFC,IFC,GFC和FFC(转载)

作者原文网址&#xff1a;http://www.cnblogs.com/dingyufenglian/p/4845477.html What‘s FC&#xff1f; 一定不是KFC&#xff0c;FC的全称是&#xff1a;Formatting Contexts&#xff0c;是W3C CSS2.1规范中的一个概念。它是页面中的一块渲染区域&#xff0c;并且有一套渲染…

javaweb学习总结——Filter高级开发

在filter中可以得到代表用户请求和响应的request、response对象&#xff0c;因此在编程中可以使用Decorator(装饰器)模式对request、response对象进行包装&#xff0c;再把包装对象传给目标资源&#xff0c;从而实现一些特殊需求。 一、Decorator设计模式 1.1、Decorator设计模…

html期末网页设计,求网页设计的期末作业一份 HTML的

1&#xff0e; 课程设计建议主题方向&#xff1a;电子商务类网站、门户类网站、专题类网站。整体要求&#xff1a;主题鲜明、健康&#xff1b;风格自然、内容充实、完整&#xff1b;布局合理&#xff0c;配色和谐。(5分)2&#xff0e; 网站至少包括15张页面(包括首页)&#x…

Android(java)学习笔记10:同步中的死锁问题以及线程通信问题

1. 同步弊端&#xff1a; &#xff08;1&#xff09;效率低 &#xff08;2&#xff09;如果出现了同步嵌套&#xff0c;就容易产生死锁问题 死锁问题及其代码 &#xff1a; &#xff08;1&#xff09;是指两个或者两个以上的线程在执行的过程中&#xff0c;因争夺资源产生的一种…

4源代码的下载和编译

1、Android移植主要就是Linux内核移植&#xff0c;而Linux内核移植主要是Linux驱动移植&#xff0c;为了开发和测试Linux驱动&#xff0c;要在Ubuntu下搭建两套开发环境&#xff1a;Android应用程序开发环境和Linux内核开发环境&#xff1b; 2、Android源代码包括&#xff1a;内…

在html中三个图片切换,轻松搞定网页中的图片切换

生活中经常看到&#xff0c;像新浪等很多门户网站的首页都有滚动图片的展示&#xff0c;如下图所示&#xff1a;某网站首页滚动切换图片这样不但可以减少文字的单一、乏味&#xff0c;而且可以直观内容&#xff0c;更好的吸引用户。那在我们做软件系统时&#xff0c;是否也可以…

python 进程编程速成

python具有thread多线程库&#xff0c;但多线程并不是真正的多线程&#xff0c;不能充分利用多核CPU资源。 在大多数情况下&#xff0c;python可以使用multiprocessing多进程库&#xff0c;可以轻松完成从单进程到并发执行的转换。 multiprocessing库支持子进程、通信和共享数据…

requirejs(shim)处理加载非AMD规范的js库

使用requirejs加载模块&#xff0c;模块的定义得遵守AMD规范&#xff0c;也即定义模块的时候使用如下函数定义模块: 1 define(function(){ 2 var private function(){ 3 console.log(私有方法...); 4 }; 5 return { 6 public:funct…

关于常用meta的总结

入行也半年了&#xff0c;无数次的想过写博客也无数次的想过第一篇会写什么&#xff0c;一直没有落实。今天心血来潮把博客开了&#xff0c;那就写点东西吧。第一篇就写一写看似简单但又经常不注意到的meta标签吧。&#xff08;博主经验尚浅&#xff0c;有许多理解不到位的地方…

计算机应用基础18春在线作业1答案,东师计算机应用基础-18春在线作业1.docx

东师计算机应用基础18春在线作业11、A 2、C 3、C 4、C 5、B一、单选题共25题&#xff0c;62.5分1、国际区位、全拼双音、五笔字型和自然码是不同种类的汉字A外码B内码C字型码D交换码正确答案是&#xff1a;A2、汉字字形码的使用是在____A输入时B内部传送时C输出时D两台计算机之…

jQuery Validate 验证,校验规则写在控件中的具体例子

将校验规则写到控件中 <script src"../js/jquery.js" type"text/javascript"></script> <script src"../js/jquery.validate.js" type"text/javascript"></script> <script src"./js/jquery.metadata…

在oracle中使用Trigger

1、初始目标 在对表h1插入一条数据时&#xff0c;同时插入一条重复的数据&#xff08;只有主键不同&#xff09; 2、在PL/SQL里New一个Trigger或者手动敲入代码 先说明一下&#xff0c;表h1包括4列ID、C1、C2、C3 create or replace trigger Trigger_Testafter insert on h1for…

html突出显示,javascript-记住html页面中突出显示的文本(向html页面添加注释)

我有一个HTML文件,我正在用webkit打开它,我想开发一个应用程序,这样,在打开它之后,我应该能够选择一些文本并将其突出显示(例如,按下“ highlight text”按钮).并且它应该记住突出显示的文本,以便下次打开时应自动突出显示相同的文本…要存储哪些信息,以便下次可以突出显示相同…