第一章 引言
本文基于对框架数据、地名地址数据以及变更调查数据为主体数据源的分析,结合数据融合中分层数据处理原则和内容,从数据管理者、数据应用的角度提出数据质量的定位、需求定位,归纳数据融合过程中存在的困难,提出了数据质检工具集、数据处理辅助工具集的研发计划,对提高数据融合的效率和提高数据生产的质量有着重要的意义。
1.1 编写目的
为适应信息化环境下国家政府部门、社会公众服务对地理信息的迫切需求,满足数字城市、智慧城市、电子政务、时空信息云平台等建设对地理信息的需要,规范省级基础地理框架数据的生产,参照国家及测绘行业等相关标准和规范并结合云南省实际情况,本文档从矢量数据的质量定位、需求定位出发,描述了数据定位者对数据的预期要求,对云南省框架数据的分层数据、分项内容进行数据问题分析汇总,针对数据融合过程中的困难提出了质检工具集、数据处理辅助工具集研发计划,并初步对各图层内容进行了数据融合要求和规则的整理。
方案贯穿矢量数据在融合过程中对数据质量检查、数据生产辅助工具的需求、有效的数据融合工作流梳理以及工作方案的可行性方面进行了分析说明。旨在研究出系列质检工具、数据处理工具,完善数据融合工作流,解决在矢量数据生产过程中出现的生产效率低、生产成果质量缺少检验手段、实际作业成果与业务需求不相符等问题,对提高数据融合的效率和提高数据生产的质量有着重要的意义。
1.2 预期读者
预期读者对象包括长期从事数据生产任务、数据处理工具研发、项目管理的项目经理、研发经理、开发人员、测试人员、相关业务人员等。
1.3 术语
-
数据融合:从不同数据源、不同数据精度和不同数据模型的地理空间数据中择优选取所需要的信息,构建新的地理空间数据集。
-
平面位置精度:地物要素在地理空间数据中的平面位置坐标值与其真实坐标值的吻合程度。
-
几何表达精细度:地物要素在地理空间数据中表达的详细程度。
-
同名地物:指在不同来源的地理空间数据中表达的同一个相同地物。
-
属性规整:指对不同要素的图层属性字段进行规范整理。
-
逻辑删除:指对融合对象的地理实体通过属性字段作标识删除。
-
地名点查重:查找实体对象位置和名称均相同的地名点。
第二章 数据内容
从国家基本比例尺框架数据、变更调查数据等中提取、整合、实体化处理的基本的地理空间矢量数据,包括水系、居民地及设施、交通、境界与政区、植被、地名等基础地理信息数据。该类矢量数据一般经过相对有效的属性检查、接边处理、各级比例尺整合、实体化处理等操作。
从商业途径获取的导航数据,收集的行业专题数据,以及提交的项目数据,由于数据的资料来源、数据精度、数据结构不尽相同,数据的规范性、现势性、拓扑关系等存在不一致,分层提取、合并处理时,势必存在属性结构规整、图形几何处理,要素空间关系处理以及数据接边等处理。
2.1 数据源分析
选择表达准确、现势性好、精度高、内容全的要素进行融合更新,最终形成一套现势性好、精度高、内容丰富的省级核心框架数据。
融合数据源:
(1)1:1万、1:5万、1:25万框架数据;
(2)年度变更调查数据成果;
(3)年度地名地址数据库成果;
(4)民政部官网最新版本的行政区划代码资料;
(5)互联网获取的公开的地理信息数据;
(6)收集的行业专题数据或项目数据;
(6)其他专题数据。
结合国土变更调查、国情监测影像数据,对比分析数据源中的各分层数据,对现有的框架成果数据库(本文指1:1万)进行融合更新。
数据分层与命名如下表所示,命名采用五个字符表示,前三个字符代表数据内容,后两个字符代表数据几何类型(PL:面;LN:线;PT:点;)。融合更新成果数据必须包括以下内容,但也可根据需要自行扩展数据集。空层保留。
2.2 总体技术流程
数据融合更新总体技术路线如下图所示:
在进行数据处理时,总体上按以下处理流程进行:
(1)如果数据源的坐标系统不一致,应首先进行坐标系统转换,使得数据源可以在统一的空间基准下准确套合。经过坐标系统转换的数据源在平面位置上仍存在较大误差时,有必要依据精度较高的数据源对精度较低数据源进行几何纠正;
(2)要素分层提取:通过对不同数据源中的同类要素进行分析比对,依据现势性好、几何表达精确度高、平面位置准、信息内容丰富等原则进行,按图层、类别提取数据源,尽量减少同名地物的提取;
(3)要素分层合并:对提取出的要素,进行分层合并;
(4)属性结构规整:进行属性结构的规范整理;
(5)图形几何处理:依据现势性、要素空间关系等,进行图形几何处理;
(6)空间关系处理:处理要素间的空间关系,保证同类要素或不同要素间
空间关系的合理性与逻辑一致性;
(7)数据接边处理:如融合更新处理分区域或图幅进行,还应进行不同分区或图幅间的属性与几何接边处理;
(8)质量检查:对融合更新后成果数据的质量进行检查。
第三章 数据现状分析
3.1 数据质量定位
数学基础:
坐标系统:2000国家大地坐标系(CGCS2000)。
坐标单位:度。
高程基准:1985国家高程基准。
单位:米。
完整性:
- 数据分类内容完整
数据分层、命名与本方案中梳理的要求应一致。数据分类内容,介绍如下:
(1)水系:包括河流、沟渠、湖泊、水库、坑塘、其他水系要素,以及水利及附属设施等方面的数据。
(2)居民地及设施:包括居民地、工矿及其设施、农业及其设施、公共服务及其设施、名胜古迹、宗教设施、科学观测站、其他建筑物及其设施等。
(3)交通:包括铁路、公路、城市道路、乡村道路、道路构造物及其附属设施、水运设施、空运设施、其他交通设施等。
(4)境界与政区:包括省级行政区、地级行政区、县级行政区、乡级行政区、行政区界线,以及开发区、保税区、自然与文化保护区、特殊地区界线等。
(5)植被:包括种植土地、林草用地等。
(6)地名:包括山名、水系名等自然地名,各级行政、居民点、道路等人文地名。
- 分层数据属性结构合理
属性结构的合理性,体现在属性结构的设计,应与实际的应用环境和生产环境结合起来分析。属性项不是越多越好,属性值的值域的设计也不是越详尽越好。
对每一个图层的属性表设计属性项时,应遵循以下原则:
(1)尽可能保留源数据中已有的,且已经赋值的属性项;
(2)属性项的设计,应与制图需求,或应用需求相符;
(3) 属性值值域的设计,应合理灵活,具有可拓展性,易操作性;
- 要素采集无大量遗漏
应确保作业区域的要素,完整覆盖,不存在遗漏、丢漏等情况。具体为:
(1)融合成果叠加融合数据源,查看是否有要素丢漏情况;
(2)收集的融合数据源中,是否作业前就存在要素确实遗漏。
表征质量:
-
重复实体去重
同一实体数据,不应存在重复表达的要素。如临近同名兴趣点数据,重复道路线数据等。
-
要素及要素间拓扑关系
数据接边检查,数据几何质量检查,要素间逻辑正确性检查。以确保数据的正确性和准确性。
-
几何异常
极小角、微小要素,多部件要素,面不合理突出、凹陷等。在制图表达,分析计算中,会引起难以分析的异常结果。
属性精度:
- 属性值正确性
属性值不应超出值域范围,也不应存在不合理字符,且属性值之间往往存在着一定的关联性,可作为相互验证的依据。如“×××高速”,其CLASID值应为高速公路代码。
具体内容有:
(1)异常字符:检查不合理字符(如“空格”、“,”、“?”“!”“换行符”)。
(2)合理性检查:检查NAME是否全角(包含NAME1、NAME2……等)ENAME、 ROUTENUM字段是否半角(包括ENAME1、ENAME2, ROUTENUM1,ROUTENUM2 …等字段)。
(3)必填字段空值检查:必填字段不允许为空。
(4)枚举值检查:检查属性值是否超出值域范围。
(5)属性值正确性检查:检查属性值的正确性。
3.2 数据需求定位
在做数据库体设计,数据结构设计时,应对数据使用的需求有清晰的定位。本文从三个数据的使用场景对数据的需求进行分析和定位。
3.2.1制图需求
随着GIS在各行各业的深入应用,各信息化部门和生产单位在逐渐建立起自己的GIS应用的同时,也积累了大量的地理数据。准确、快速、丰富地将数据建设成果以服务的方式提供使用,保障地理信息公共服务平台对数据服务和底图服务的需求,是地理空间平台信息化的重要内容。
电子地图服务建设,主要包括二维地图建设,三维地图建设以及专题地图建设三类数据地图成果。通过集成三类数据地图成果,建设多维地理信息服务平台,实现大规模多维空间数据的高效管理及数据服务发布,打造统一多维地理信息门户,为用户提供全省的基础地理信息服务能力和提供权威、统一的空间信息多维服务支撑。
- 电子底图制作
二维电子地图服务建设是在已有基础测绘等成果基础上,利用项目获取的矢量(影像)数据以及互联网信息等其他数据源,整合建设全省域统一、权威、现势性强的二维地图并进行更新,为全省各部门、各行业提供地理信息数据和应用支撑服务。
数据服务和底图服务的准确性和实用性,对数据的现势性有着较高的要求。通常,从获取的数据到GIS服务的提供,需要经过数据的几何质量检查和属性的规范性处理,根据制图需求构造制图库,结业业务要求制作地图模板,发布服务后提供使用。
而二维电子地图制作中通常会用到道路、水系、居民地、兴趣点等图层,这些图层通常数据量大,数据结构复杂,往往数据几何质量检查和属性规范化处理周期长,想要快速成图对数据的显示抽稀和制图效果增强方面提出了较大的要求。
充分利用地名地址数据库、1:1万、1:5万、1:25万框架数据库等建设成果,按需补充专题数据,丰富制图库数据源,形成制图数据源成果库,为制图库的生产提供数据支撑。
基于制图库中的数据分层和属性结构,对成果数据进行数据质量检查整改后,分图层提取数据进行整合,并对提取的数据进行制图数据规范化处理后,导入制图库,形成制图库成果。
制图库必须包括以下内容,但也可根据需要自行扩展数据集,空层保留。
电子地图制图主要数据图层如下:
更新入库的成果数据,解决了数据在属性精度,表征质量和逻辑一致性等方面的质量问题,但把它当作地图模板的图层数据源直接用于制图,仍然存在很多问题,而这一类问题往往在制图效果上欠佳和在显示结果上容易出现误解。
如:数据没有做等级过滤和显示抽稀,当在小比例尺显示时,显示标注的要素数量就会远远超过图面承载量,看到的是杂乱无章的图面,不仅毫无美感可言,更无法图出地图显示要素的主体,达不到电子地图应该产生的作用和效果。而就算在大比例尺下,图面能承载图层要素后,如不解决数据在显示效果上的问题,也容易造成误解,如道路的显示连通性,当等级道路显示不连通时,不仅缺乏美观,也容易让人认为等级道路是断开的,不连续的。
如此,就需要对成果数据就行分层提取后,进一步做数据的二次加工处理,如新增渲染字段和新增显示级别字段,提取顶层道路线和水系注记线,对标注的点层数据进行抽稀显示等操作。
对道路,水系,绿地和地理单元等数据进行分层提取后,需要按下表中的处理内容和要求对数据进行二次加工处理。
-
专题图制作
随着社会经济的发展和人民生活水平的提高,社会公众对地理信息的需求日益迫切。通过项目建设进一步丰富数据资源后,纳入更多更实用、更多样的专题信息,更好地为各部门提供辅助决策作用。大力推进在相关专业部门与大型企业的应用,如旅游、教育、人口、交通、医疗、水利、民政、地震、环保、农业、林业等部门开发多个行业应用服务。为政府、行业提供基础服务,不断增强平台的公益性服务能力。
专题电子地图的建设,可通过现有测绘成果资源及相关行业应用资源进行梳理并提取相关专题数据进行整合,依据行业专题符号和特有的内容表达方式,对行业数据符号化渲染和标注,进行图层服务或地图服务的发布和共享。对于已经存在的图层服务和地图服务,可通过图层服务的灵活组织,重新创建地图服务。而利用地图服务的重组,创建WebMap地图应用,保存发布。
从数据分类的角度,可将行业数据归纳为线状数据,规划数据和管理数据。在此分类的基础上,拓展处二级目录和三级目录。针对业务需求,可在每一级目录列表下提取活组合行业数据,制作专题电子地图,数据下表。
从长期的专题制图主题汇总分析,将使用频率较高的专题服务汇总如下表:
3.3.2应用需求
通过调研业务部门应用系统对GIS服务,基础地理信息业务数据的使用情况,分析归纳,按数据实际情况和作业生产情况,对数据内容和属性结构进行梳理和设计,扩充到融合库结构中。
- 数据汇总和分发:
(1)满足省市对框架数据融合成果的需求
数据的生产、更新,从未间断。而数据的交互、共享停滞不前。除了数据安全方面的管制原因外,不同职能部门对数据的需求不一致,大家对数据的现势性、数据的采集精度、数据的模型结构等,要求各不相同。
设计生产的成果数据,其结构和内容,应基于通用的国家、行业标准,结合地方实际情况,适应地方规范,使生成的成果数据,能极大的满足其他生产需求和业务需求。具有一定的通用性。
故本文提出的框架数据融合成果,应满足省、市不同级别的职能部门对框架融合成果的需求。
(2)满足行业部门对分发数据的需求
框架成果数据,按行业分层提取的数据,对于行业部门来说,无论数据的丰富性,准确性和现势性,都处于劣势。但优势在于,关联数据的完整性和省域范围数据的全覆盖性。
在设计生产过程中,应注重层间要素的拓扑关系和逻辑一致性检查,注重基础要素的采集精度,以便在数据分发后,行业部门能更专注于数据属性的丰富,和数据如何在应用中发挥其价值。
3.3 成果数据分析
针对分层数据中常见的问题,举例说明如下。
3.3.1 地名地址与兴趣点
-
分类代码表
地名地址数据更新项目中使用的《POI分类代码表》,存在分类重复、编码重复、分类名称错误以及分类设计存在不合理等问题。
分类代码的重复,会给制图符号化带来错误的表达结果,分类的重复,会让数据生产的结果存在随机性,而分类名称的错误,会使得设计的结果准确性遭到质疑。
该《POI分类代码表》中,部分中类下的小类设计过于详细,但在应用需求和制图需求中,并不需要如此详尽的枚举,这会给后续数据的生产带来较大的困难和工作量。如保险公司、银行、餐饮、汽车公司等。
从分类设计的合理性、规范性、分类值唯一性等方面综合分析,此《POI分类代码表》,在生产和应用中,会带来较大的困难。
-
简称标准制定
外业采集或收集到的兴趣点点位名称,一般是点位名称的全称,有些公司、单位或机构的名称字符较长,甚至超过了20个汉字,如:XX 区YY 县ZZ 镇人民代表大会常务委员会,在制图中对于点要素名称的标注,当名称长度超过6个字符时,为了地图美观和有限的图幅内能容纳更多的标注信息,一般对名称采取换行标注或采用名称简称的方式进行标注。
现有的地名地址数据成果,并未对名称制作简称,项目相关文档也没有明确的简称标准。
名称字符长度较长实例如下:
由于部分兴趣点的名称较长,而又没有做名称“简称”处理,导致制图后,相关兴趣点的标注内容较多,造成制图效果不佳。
可见,名称简称的制作,是制图需求对数据的必要内容。参照国家权威部门(国家天地图)对名称简称的制作标准,如,中国社会科学院,可简称为“社科院”;XX 市税务局 YY 区(县)分局第一税务所,可简称为“YY 区(县)第一地税所”。
-
重要度划分
地名地址与兴趣点的数据生产,“重要度”字段在后续的应用、制图、数据判重等方面有着重要的作用。它是用来对判定点位重要度的重要因子,直观且可直接使用。
由于兴趣点数据通常数据量较大,在空间上容易重叠,为了制图美观,用于底图时需要对其进行显示抽稀。抽稀显示的一个重要依据就是兴趣点的重要程度,当显示内容发生冲突时,优先保留重要程度高的点位。描述重要程度,可通过赋值“重要度”字段得以实现。
同样的,在应用中,搜索名称关键词,实现搜索内容提示或搜索结果TOP10展示时,除了点位名称与关键词的匹配外,匹配结果在显示列表中的显示顺序,和点位重要程度,亦有着很大的关系。
地名地址数据成果中,对重要度的制作,没有明确的要求和规范,尽管
-
数据判重
在兴趣点数据的融合过程中,由于数据来源的繁多,数据质量的参差不齐,表达同一点位实体的要素可能会出现多条记录的情况。而在一定距离范围内,同一个名称的点要素,应当就只有一条记录。故需要对数据进行重复性检查处理,确保一定距离范围内,同一点位实体,不能出现与之名称完全相同,或名称及其相似,但表达内容相同的要素。
如:“云南民族大学医院”和“云南民族大学-校医院”,相距仅6.9米,明显表达同一实体,但名称不完全相同,如下图。
点要素数据判重,不同于线要素和面要素,通过几何拓扑检查和叠加影像数据,能快速找出存在异常的区域,并且参照影像进行更新。
点数据判重,难点在于需要在一定范围内超出存在表达相同实体的点位,这些点位可能不只是在一个图层中,它可能存在多个图层间。
但点位判重并处理,对于点位数据的质量,是最基本的要求。它代表了正确性、现势性和权威性。
现有的地名地址数据成果,并未进行层内和层间数据的判处处理。
-
现势性
地名地址与兴趣点的更新,在数据现势性的处理上,几乎依靠收集的权威资料进行更新,使用影像数据或商业导航数据,都不能较好的做到数据现势性的准确处理。
地名地址与兴趣点数据分类众多,可按不同数据分类的特性和收集数据的难易、权威性进行分类更新。如村级及以上行政地名现势性,可从国家统计局、民政部等网站上获取,进行比对更新。政府机构,学校、医院、小区等数据,可从国情监测成果中提取更新,城区商业性POI数据,可参考商业导航数据。
现有的地名地址数据成果,村级及以上的行政地名,存在名称错误和点位错误的情况。
此外,应在地名地址与兴趣点图层的属性项中,增加,数据来源、数据现势性和数据状态等字段,用于记录数据的更新情况。
-
要素关系
要素关系,主要是指与其他要素的拓扑关系,如与水系、道路、居民地要素的相对位置。
如POI不应该落入水系面中,POI是否落在道路(拓扑容差值3米、内部道路与POI拓扑容差值1.5米),铁路(拓扑容差值1.5米)上等。
兴趣点落入水面中:
-
属性正确性
属性的正确性,一般包括特殊字符、异常字符检查,枚举值检查,唯一性检查及正确性检查等。
兴趣点分类错误:下图中红框选中的数据,都是省人民政府单位的区位“门”,但北门被分类为“山庄 别墅小区”。
3.3.2 道路数据
- 图形正确性
道路数据的图形正确性,主要指检查道路图形正确性(悬挂、相交、打折、重线)和检查相邻道路路口关系正确性。
框架数据中的道路线数据,存在较多的“图形正确性”问题。
(1)道路数据未连通
在道路数据连通性检查中,发现存在多个地方,道路数据本身物理不连通。
(2)道路线相交
下图左侧密集短线,为道路数据存在相互压盖的区域,右侧为局部放大图。由下图可明显看出,道路存在交叉缠绕的问题较多。这也给道路的显示连通性调整带来了较大的工作挑战。
(3)道路路口相交未打断
十字交叉路口因为捕捉不到位,转变为两个丁字路口,或道路能连通行驶,但相交未打断。
-
要素关系
检查道路图层与居民地、绿地、水系不合理压盖。
道路与绿地压盖:
道路与水系面压盖:
道路面与居民地压盖:
-
属性值正确性
道路属性值的正确性的检查,主要包括:
(1)等级道路(高速、国道、省道)名称、编号的正确性和图形的连通性检查;
(2)CLASID、DISPCLASID、DIRECTION、FORM、FUNCCLASS属性正确性检查;
(3)道路名称的合理性检查;
道路线数据中,NAME1字段有值,而NAME字段为空。
(4)道路编号合理性检查;
道路线数据中,RN1字段有值,而RN字段为空。
3.3.3 水系数据
(1)水系线
-
图形正确性
水系线的正确性,主要是检查水系线图形正确性(悬挂、相交、打折、重线)。
干渠与河流随意打断:
-
要素关系
水系线的要素关系,主要包括:
(1)线状水与面状水不应共同存在表达同一段水系;
检查水系线与其它图层压盖关系是否合理(水系线与水系面、居民地、绿地不允许存在不合理压盖,如线状水反复出入绿地)。
(2)水系线与居民地压盖;
(3) 水系线与绿地压盖;
(4)水系线与水系面未连接;
-
属性值
水系线的属性正确性,主要是检查:
(1)CLASID、LEVEL值域正确性,CLASID和NAME逻辑一致性;
(2)检查LEVEL赋值正确性、合理性;
(3)同一水系显示等级应该一致。
干渠CLASID赋值错误:
-
流向
水系线数据,在融合过程中,需要处理水系的流向,确保水系流向正确。而正确的水系流向,在制作水系河流分级,水系显示抽稀时,对结果的正确性有着决定性作用。
河流起始点高差小于-5的:
(2)水系面
- 图形正确性
水系面图形正确性,主要是检查水系面图形重叠、打折、缝隙等。
水系相邻同名河流面未合并:
-
要素关系
水系面的要素关系,主要包括:
(1) 水系与绿地、居民地不允许存在不合理压盖 ;
(2) 水系与绿地叠加时相互做镂空处理 ;
水系面与居民地面不合理压盖:
水系面与城市绿地面不合理压盖:
-
属性值
水系面属性值主要检查CLASID、LEVEL值域正确性,CLASID和NAME逻辑一致性。
水系面水库CLASID赋值错误:
3.3.4 居民地数据
-
图形正确性
居民地数据图形正确性,主要包括:
(1)检查居民地面图形正确性(重叠,打折,缝隙);
(2)检查居民地内部,图廓线处接边;
(3)解决采集指标不合理、临近图斑未融合。
图上一个像素代表的距离 = 1像素 * 比例尺=(0.0254/96)*比例尺
比例尺与一个像素表示的面积:
在对居民地面符号化渲染时,假如居民地轮廓线的宽度为1像素,则最小的上图图斑面积应该为9个像素。此判断依据仅作为制图上图标准。
此外,1:1万框架数据中的居民地面,采集粒度不一,较多区域,存在大片勾绘建筑物区域的情况:
-
要素关系
居民地面的要素关系,主要包括:
(1)是否将居民地层、建筑物层正确合并为一套居民地层;
(2) 检查居民地与其它图层不合理压盖(与水系面、水系线、铁路图层不合理压盖)。
居民地与水系线不合理压盖:
居民地面与水系面不合理压盖:
3.3.4 其他图层
其余图层,并未重点分析,但主要的检查内容包括:
(1)坐标系统;
(2)要素遗漏;
(3)几何异常;
(4)要素关系;
(5)属性值;
(6)属性结构是否合理。
3.4 数据主要问题汇总
通过对地名地址与兴趣点数据、道路数据、水系数据以及居民地数据的分析,从几何图形的正确性,要素间的关系以及属性正确性等方面对其进行了详细的介绍和截图说明。
存在的问题归纳为:
(1)图层部分属性项设计不合理,甚至存在错误,如地名地址与兴趣点数据;
(2)数据的图形正确性和要素间关系普遍存在质量问题;
(3) 属性上,存在较多的赋值错误,属性项间逻辑关系不正确等
(4)没有较好的数据融合方案和规划;
(5)部分图层数据的融合,存在较大的随意性,如居民地数据的采集,居民地面数据与水系面数据的暴力擦除等。
从数据分析的情况可以看出,现有框架数据存在较多的质量问题,现有数据,无论用于制图、应用分析还是数据交互,都存在很多不足。
第四章 数据质检工具
数据质量检查,是数据成果质量的保障措施,能及时发现作业过程中存在的问题,并对后续的生产作业提出指导建议。
数据质量检查,主要包括数据的几何图形检查、几何关系检查以及数据属性项检查。
本文从质检内容中选取了部分常见的质检项,该部分质检项具有通用性,不局限与特定的数据内容。能制作出通用性的质检工具箱。
4.1 几何质检项
4.1.1 点层要素
点层要素的几何质检内容,主要是要素的重叠检查。一般通过使用ArcGIS桌面工具“查找相同项”、“删除相同项”可以解决,更为复杂的实体去重可以参考“POI实体查重”工具。
4.1.2 线层要素
线层要素应解决的几何问题,包括悬挂点、孤立线、线相交以及重线等几何质量问题。
4.1.2.1 线悬挂
线悬挂示意如下:
使用线悬挂拓扑规则,质检的结果,会将所有的悬挂点标记,但绝大多数的悬挂点是合理的,这会造成在做数据质量检查时,有很大的工作量是无效的。
精准的找出存在需要被处理的悬挂点,是提高悬挂点问题修复的高效措施。
4.1.2.2 孤立线
线物理孤立、显示孤立示意如下:
物理孤立,可以理解为线几何要素,其起始点都没有与其他线段连接。
显示孤立,可以理解为在指定属性渲染方式下,相邻的线段,渲染的符号不一致。
4.1.2.3 线相交
线相交示意如下:
线相交包括线要素间相交和线要素自相交。当交点数量为1时,大多数情况是正确的,线要素间相交表现为连接未打断,线自相交表现为线打折。
因此,做线相交判断时,不仅需要将线存在相交的地方找出,还因将线的相交类型,线的交点个数一并列出。这将有益于精准找出一定存在质量问题的线相交。
4.1.2.4 线打折
线打折示意如下:
4.1.2.5 重线
线重线示意如下:
线重线包括线要素间重线和要素重复绘制,要素内重线某种意义上说,类似线打折,此时线打折的夹角为0°或180°。
4.1.2.6 极小角
极小角示意图如下:
线要素的极小角,包括要素内极小角和要素间极小角。
4.1.2.7 微短线
微短线示意图如下:
微短线的存在,会给空间分析带来不确定异常。尤其是通过节点ID做关联分析的时候。微短线同时也有可能时孤立线,在对微短线查找时,应同时标识,该微短线的类型。
4.1.2.8 复合要素
线复合要素,通常是做裁剪、擦除、融合等操作时产生的。一般通过ArcGIS桌面工具,“多部件至单部件”可以解决。
4.1.2.9 方向
线方向,对于道路行驶方向,水系流向、管线方向等,是一个比较重要的几何质量因子。但在数据处理中,却是一个工作量较大,且不容易被发现的问题。
水系流向方向示意图如下:
4.1.3 面层要素
4.1.3.1 面打折
面打折示意图如下:
4.1.3.2 面缝隙
面缝隙示意图如下:
面缝隙只单个面要素内存在部件的情况,面缝隙与面空洞应能区别开。
4.1.3.3 面重叠
面重叠示意图如下:
面重叠,总是会伴随面要素间的缝隙。此类缝隙修改较为困难。
4.1.3.4 复合要素
除了政区面外,其他要素都不应存在多部件情况。
4.1.3.5 极小角
面极小角示意图如下:
面极小角查找时,应同时查找复合要素的内角夹角。
4.1.3.6 微小面
微小面示意图如下:
微小面通常时由于分割、擦除、相交、标识等操作造成的。在不考虑层间要素关系时,部分微小面可以通过ArcGIS桌面工具,“消除”来解决。在对微小面查找时,应标识微小面是否是孤立面要素。
4.1.3.7 要素间关系
点、线、面要素间关系,更多的是考虑他们质检的几何关系和逻辑关系。故未描述点与点之间的关系。
4.1.3.8 点与线
点在线上的应用场景,一般是点与线存在空间上的逻辑关系,如地铁点需要落在地铁线上。
点在线上示意图如下:
点与临近线距离计算的应用场景,一般用于判断POI点与道路线,铁路线等现状要素之间的拓扑距离。如POI与道路线的距离应大于3米,与内部道路的距离应大于1.5米。
4.1.4 点与面
点落入面中约束了点位与面状要素的拓扑关系。
POI不应落入水面示意图如下:
点不在面上应用场景相对宽得多,如地铁出入口应在地铁面上。一般可通过ArcGIS软件中的“按位置选择”实现。
地铁点与地铁面拓扑关系示意图如下:
4.1.5 线与线
线与线的要素关系,通常用于判断顶层道路线与道路线是否重合。
顶层线与道路不重合示意图如下:
4.1.6 线与面
水系线与水系面连通时,需要搭接在一起,不能出现悬挂。
水系线与水系面悬挂示意图如下:
水系结构线、水系注记线应完全落入水系面内。
水系线不在水系面内示意图如下:
4.1.7 面与面
面与面之间的要素关系,面与面部分重叠、完全相同或相互包含的关系都是不允许的,甚至需要相互镂空(绿地面与水系面)。
面重叠示意图如下:
4.2 属性质检项
图层属性项的之间内容,包括赋值正确性检查、枚举值检查、唯一值检查等,而通用的检查内容,一般指非法字符、异常值检测:
-
英文标点符号检查;
-
中文标点符号检查;
-
英文检查;
-
中文检查;
-
数字检查;
-
空格检查;
第五章 数据处理辅助工具
本文梳理的数据处理辅助工具,聚焦于解决数据在质检过程中发现的错误,或数据处理过程中较为常用,又比较方便的工具。
5.1 数据合并
当我们接收作业员提交的数据,或作业单位提交的成果数据时,很多情况下,获取的数据是按区域、按属性值分割开的数据库。
这些数据内容,需要按图层名合并成一个完整地理数据库。但可能存在以下问题:
(1)数据格式不一致(mdb、gdb、shp);
(2)图层名称不相同;
(3)同名图层属性结构项,字段类型不一致;
(4)数据存放在多级目录结构下等。
为此,一个用于将指定目录下,将不同数据格式,同名图层名称的数据合并为一个图层就显得尤为重要。
该工具在合并过程中,应具有一些其他功能,如对数据进行几何修复、空值处理、图层属性字段自适应等。
5.2 数据分发
与数据合并应用场景相反,当需要按指定区域,指定图层字段属性值对数据进行分割分发时,数据分发工具将提供一键式的解决方法。
5.3 悬挂点检查修复
悬挂点修复工具用于解决,在指定距离查找范围内,将有可能修复的悬挂点给予修复。这部分悬挂点表现为:
(1)悬挂点附近有其他悬挂点,通过连接两个悬挂点解决悬挂问题;
(2) 悬挂点附近无其他悬挂点,但有临近线要素;
a) 悬挂点与临近线要素间,存在一个合适的节点,可连接悬挂点与此节点,解决悬挂问题;
b) 悬挂点与临近线要素间,不存在一个合适的节点,可延长此悬挂点至临近线合适位置,解决悬挂问题;
合适点:线节点与悬挂点最为接近;悬挂点与该节点连接后,以连接点为中心,与之连接的线之间构成的夹角不小于制定角度(默认30°);且连接后,不能与邻近线存在立交(跨越)的情况。
c) 悬挂点超出临近线,可在线相交处截断线解决悬挂问题;此时不适宜采取移动此悬挂点至临近线合适的位置来解决悬挂问题,因为伸出的部分可能较长。但伸出的部分的长度超过搜索距离时,对此悬挂点不做任何处理。
5.4 线、面极小角查找
极小角的存在,是影响数据使用和表征数据质量不过关的体现,没有现成的工具用于检测极小角。
通过限定线、面折线间夹角的大小,输出所有夹角小于该值的位置,有利于快速定位,编辑修改。线、面极小角查找功能,能辅助准确消除极小角质量问题。
5.5 线打折修复
线打折,往往伴随着线要素内出现极小角的情况。
极小角的数量,极小角是否连续,解决的方法不同。
5.6 面打折修复字
面打折,可能仅存在一个面极小角,也可能是一条面缝隙。
面极小角修复结果如下:
5.7 居民地面修复
居民地面修复,主要是值对存在不合理凹陷,不合理突出的部分进行修复。它与面打折修复有相似性,他们的区别在于,居民地面要素转角多为直角或接近直角,修复后的居民地面,仍需要保证这一客观事实。
5.8 居民地要素简化
居民地要素的简化,包括两方面的内容。一是简化接近平角的直边上多余的节点,二是按指定距离对临近范围内的居民地面进行融合处理,融合后的居民地面需尽量确保融合处的转角为直角或平角。
(1) 移除多余的节点:
(2) 融合指定距离范围内的居民地面
融合过程中,在融合处,保持转角直角或平角。
5.9 线要素几何连通性分组
对于需要构建网络的线要要素图层,一般采取检查悬挂点,或按距离缓冲线后融合面,用来判断整个网络数据是否是一个完整的网络。两种检测方法,检查悬挂点的方式工作量过大且不能保障正确性。而使用线缓冲融合面的方式,缓冲距离的选择会导致方法不准确,且数据量大时,不能输出结果。
线要素几何连通性分组检查工具,从线要素节点之间的联系出发,按节点之间的纽带关系,找出一张张网络数据。分组示意图如下:
5.10 水系线与水系面连接检测修复
水系面与水系线要素间关系,其中之一就是需要确保水系线与水系面之间保持连接。错误表现为水系悬挂:
对于此类问题,延长悬挂点至水系面。解决此类问题。
5.11 面缝隙、面重叠处理
找出面要素中存在缝隙(非正常孔洞),面要素间存在压盖的记录,提供一键式的修复功能,解决面要素中的缝隙问题和面要素间的压盖问题。
5.12 地名地址与兴趣点获取
地名地址与兴趣点数据更新的数据源,有相当一部分数据需要从权威官网,商业导航数据中查询获取,用于补充和优化数据的现势性。
使用官网提供的API接口,查询和获取地名地址与兴趣点的几何、属性信息,并整合到地理数据库中,扩充到更新数据源中。
5.13 属性值规范化处理
属性值规范化处理工具,提供多场景下的文本字符处理手段。
(1)全角转半角
(2)半角转全角
(3)名称转拼音
(4)值替换
(5)异常字符剔除
a) 删除英文标点符号
b) 删除中文标点符号
c) 删除英文
d) 删除中文
e) 删除数字
f) 删除空格
5.14 数据接边
分块数据,合并要素图层后,在接边处,存在着同一实体数据被分割,未合并的情况。而由于数据融合中,采集精度的变化,几何要素的编辑,使得分割处的要素存在偏移。在数据融合过程中,此类情况完全需要人工进行干预。
为了解决数据接边问题,一个有效的,用于识别接边位置和要素的工具就显得尤为重要。
接边数据,可包括线要素和面要素。工具接受搜索距离和接边分割要素,在指定搜索距离范围内,对临近要素进行连接或合并处理(有数据接边分割线时,仅对分割线附近要素进行分析处理)。
5.15 图幅号与经纬度的计算
为了便于测绘、制作、管理和使用地图数据,必须按适当的面积将广大地区的测绘成果数据划分成适宜的若干部分,并将每个部分进行系统编号。这项工作成为地图的分幅和编号。
分幅可分为两大类:梯形分幅(又称“经纬线分幅”)和矩形分幅(包括正方形分幅)。梯形分幅是按经线和纬线来划分图幅,左、右以经线为界,上、下以纬线为界,图形近似梯形。在大范围的测图中,考虑地球是一个球面,只有按上述方法分幅才能保证所有图幅可以紧密结合而又不产生重叠和遗漏。梯形分幅常用于基本比例尺地图。
矩形分幅是按平面直接坐标系的横纵坐标线来划分的,图幅的上、下以坐标横轴为界,左、右以坐标纵轴为界。对于工程方面需要的局部地区的大比例尺地形图、平面图和中小比例尺挂图和地图集,常用矩形分幅。
而在作业生产过程中,根据图层数据范围生成指定基本比例尺下图幅号,能快速完成对于与归档数据的查找、比对及元数据信息的补充。
5.16 划分线
对图层内的线,以指定距离、多个相等距离、可变距离或总长度的百分比划分为两个或多个要素。
5.17 曲线线段修复
将线图层内的曲线线段(贝塞尔、圆弧和椭圆弧)替换为线段。最为常用的方法,就是将要素类转为shp格式,再将shp导入gdb也可以实现,将曲线段转为线段,但是两种格式带来的数据属性的改变是不可逆转的,如字段名,如属性域等丢失。
5.18 在点处分割线
根据交叉点或与点要素的邻近性分割线要素。ArcGIS Pro提供了“在点处分割线”工具,但是执行效率很低,当数十万、数百万条线要素需要在点处分割线事,如道路连接未打断,将非常有用。
5.19 提取中心线
在ArcGISPro中提供了“Polygon To Centerline”工具,而开源的Python包centerline亦提供了对多边形提取中心线的实现。但他们都存在一些局限,如“Polygon To Centerline”工具需要拓展模块,仅对“狭长面”处理效果好,而centerline包不能直接处理要素类图层数据,对分叉数据仅提取最长的中心线等。
还要很多使用的工具需求,再次不再继续罗列……
第六章 数据融合工作流梳理
6.1 明确的数据融合要求、规则
6.1.1 基本原则
数据融合更新时,通过对参与融合的不同精度、不同模型地理数据进行分析比对,从中选取表达准确、现势性好、精度高、内容全的要素进行融合更新,并对融合后的结果进行几何拓扑、空间关系与逻辑一致性处理,使融合更新后的地理信息数据在现势性、准确性、丰富性等方面均得到提升。
矢量数据融合更新依据总体原则,按图层、类别从数据源中择优选用,依照本地情况考虑全面、简单化,要素处理时重在集成各项数据源,而不在于编辑。影像数据依据空间覆盖范围、影像时相、空间分辨率和影像质量等因素,从数据源中择优选用。
数据融合更新处理的总体原则:
(1) 数据现势性:需要融合更新的不同来源的数据现势性不一致时,以现势性高的数据为准。
(2) 属性取值:不同数据源中同名地物要素的相同属性项取值不一致时,依据现势性、准确性等进行一致性处理。
(3) 空间关系与逻辑一致性:融合更新后的成果数据要素空间关系正确,各类信息逻辑一致。
(4) 数据内容:融合更新处理时应利用不同数据源的信息进行要素增补,融合后的成果数据应尽可能完整保留数据源中的相关信息。
(5) 更新增量:更新数据应为有效更新增量,体现地理信息要素的实际变化。重点是保证更新数据的正确性、现势性。
6.1.2 通用处理要求
分层要求:数据分层与命名,命名采用五个字符表示,前三个字符代表数据内容,后两个字符代表数据几何类型(PL:面;LN:线;PT:点;下同)。融合更新成果数据必须包括以下内容,但也可根据需要自行扩展数据集。空层保留。
- 拓扑容差
拓扑容差为0.1米。
- 空间位置处理
新增或修改的地理信息要素空间位置以上年度框架数据更新成果数据为准。
- 数据现势性
更新信息现势性达到当年。
- 数据接边
新增和修改要素数据必须进行接边处理,包括图形接边和属性接边。图形接边时应保证图形数据光滑、连续,避免出现硬折、尖角;属性接边,确保相接同名实体数据属性信息的一致性。
- 要素空间关系
各图层要素之间无不合理压盖,某一类要素更新时如涉及其他图层,应同时更新相关图层要素。
- 图形正确性
线图层无不合理的悬挂、打折、线相交,无不合理的短线、孤立线。面图层无不合理的面重叠、面打折、面缝隙,无不合理的极小面。圆、椭圆、手绘线不使用参数曲线,不存在有属性无图形的要素对象。
6.2 合理的数据内容和数据结构
6.2.1 便于实施,作业简单
数据融合,是一项连续性、长期性、基础性的工作,工作内容多、数据内容繁杂、融合效率低,需要特定的部门和专业的技术人员,长期投入。
优化设计内容、简化作业流程、提高融合自动化程度,使数据融合便于实施,作业简单,从而提高数据融合效率,缩短数据更新周期,提升数据的使用价值。
6.2.2 易于交互、拓展性强
设计的图层内容,属性结构,充分保留了数据源中的数据信息,又结合制图、业务应用等,扩增了部分字段,降低了数据的交互困难,增强了数据的拓展性。
6.3 丰富的数据处理辅助工具
针对数据不同的使用场景,数据不同作业要求,提供了数据合并、分发,悬挂点修复,线、面打折修复,属性值规范化等十余种工具。能极大的提高数据融合的效率,提升数据融合的质量。
6.4 有效的数据质检工具
常规的拓扑检查手段,能解决绝大多数的数据质量问题,但拓扑检查的结果,也总是无差别的完全输出,如悬挂点检查,真正需要修复的悬挂点不到总数的10%。
提供的质检工具,涵盖了点、线、面要素类型,从几何到属性,多种场景,多种角度对数据的质量进行了检查。数十种质检工具,能极大的补充常规拓扑检查无法检查的质检项,更细粒度地标识质检结果,将使得作业人员更加专注于数据的融合更新。
6.5 课题研究
数据融合项目中,表现出的数据融合困难,数据处理繁琐等问题,经过长期的工作总结和积累,应有针对性的提出问题,并设法攻克它。
6.5.1 矢量数据与影像套合基于深度学习的自主评价纠正模型
数据矢量化过程,按百度百科的解释,是指将地理数据由硬拷贝类型或栅格数据类型转化为矢量数据类型的过程。
本文描述中的矢量化,指利用纸质地图经过计算机图形、图像系统转化为数字图像,或航拍获取的正射影像数据,利用专业的软件设备,对图像纹理进行采集,输出为矢量数据的过程。
矢量化获取的数据,其采集精度,受限于底图的分辨率和精度。
而收集和积累的矢量数据,构成了融合数据源。通过对参与融合的不同精度、不同模型地理数据进行分析比对,从中选取表达准确、现势性好、精度高、内容全的要素进行融合更新,并对融合后的结果进行几何拓扑、空间关系与逻辑一致性处理,使融合更新后的地理信息数据在现势性、准确性、丰富性等方面均得到提升。
在数据融合的过程中,有相当大的工作,需要处理是矢量数据的几何形状与影像纹理的套合。且套合程度在不同精度的影像底图上表现不同。为了解决矢量数据与影像的不套合问题,本文提出了“矢量数据与影像套合基于深度学习的自主评价纠正模型”研究课题,该课题旨在利用影像深度学习和大数据分析,识别几何图形节点在影像上的正确(推荐)表达位置,基于自主评价系统,对分析的结果进行纠正,完成矢量数据的自主空间矫正。矫正后的数据,需保持原有拓扑结构不变。
6.5.2 多源矢量线成果数据基于深度学习的融合研究
矢量线数据的融合,是点、线、面三种要素类型中融合难度、工作量最高的数据类型。
线要素不仅数量巨大,要素间关系也非常复杂,它们有着严格的表达方式。多源矢量线层数据的融合,更加增加了数据的几何选取,属性丰富性表达的难度。
线偏移:
不同的道路和名称:
沿边界断开的道路:
上述示例中,无论哪一种情况,对于数据融合,都是非常困难的。为了解决此类问题,本文提出了“多源矢量线成果数据基于深度学习的融合研究”课题,旨在利用深度学习,找出数据特征进行匹配,训练模型,形成自动化融合辅助模型,自动完成几何数据匹配选取,属性完善赋值等操作,以减少线数据融合的工作量。
第七章 可行性分析
本文从技术可行性、任务阶段可操作性及工作量可控性,三个方面对提高数据融合效率和数据成果质量进行可行性分析。
7.1 技术可行性
技术可行性,需要考虑技术方案设计合理性,技术路线可行性,项目团队可靠性等因素。其中,技术方案的设计是基础,技术路线的测试是核心,项目团队的实施能力是保障。
7.1.1 成熟的技术解决方案
从数据融合内容的选取,分层属性结构的设计,数据融合要求、规则的确定,以及众多质检工具、数据处理辅助工具的支撑,都有着详细的技术路线和成熟的技术积累。完整的作业流程,成熟的技术解决方案,是本文研究设计的基础。
7.1.2 基于Geoscene Pro 开发
Geoscene Pro有着1400多个地理处理工具,包含了数据管理、空间分析、网络分析、数据转换等数十种应用场景下的工具集。并集成了Python开发环境,可以结合行业解决方案和大量的开源包,随心所欲的开发出解决业务需求的功能和工具。可以说,基于Geoscene Pro开发地理处理工具,是实现本文技术方案的前提。
7.1.3 经验丰富的项目团队
项目组成员,有着丰富的项目实施经验,参与了多个省市的天地图平台开发、GIS门户开发、GIS应用设计、课题研究、数据融合、地图制图、数据库运维等作业内容。这期间,项目组成员有了较多的项目实施经验和大量的技术、工具积累。能很好的完成工作量大、技术难度高、质量要求严格的项目建设内容。
6.2 任务阶段可操作性
任务阶段的可操作性,主要是将融合流程中的工作内容,做工作分解,使得分解后的作业步骤和内容,关联性降低,能齐头并进,保证作业成果的质量和效率。
- 确定数据融合内容和要求
数据融合,忌数据融合内容不确定,融合标准不明确,作业思想不统一。
通过确定数据融合的内容、数据结构、融合要求,并贯彻作业要求和标准,能减少数据的重复作业,提高数据的生产质量,提升数据的融合效率。
文本梳理设计了数据融合的图层内容、标准,各分层图层的属性结构和字段属性填写要求,明确了数据质检要求并提出了质检解决方案。在数据融合工作开展前,必须首先完成此项工作内容。
- 数据分层融合
基于明确的数据融合内容和要求,可按分层数据融合要求,对分层数据进行融合处理。此阶段的核心工作就是解决层内数据质量问题。
由于数据融合的图层数量较多,可优先完善层内数据质量问题,将层间关系留至分层数据处理完成后,再解决要素间关系。如此,可对分层数据同步融合处理,不受层间数据融合的进度制约,能较好的解决作业分发中,融合内容多,融合要求多,层间要素来回编辑等困难,可集中精力,逐一完成分层数据融合。
此阶段的工作,可根据作业人员的多寡,作业人员技能的熟练程度,铺开作业。
- 解决要素间关系
待分层数据融合完成后,可集中所有数据内容,集中做数据拓扑检查,数据质量检查,根据质检结果,按区域、按图层间错误情况将数据进行二次分发,分区域,分项解决要素间关系。
6.3 工作量可控性
有计划、有针对性地对作业内容,作业范围进行分析提取,通过研发大量的数据质检、数据处理工具,用自动化的手段解决大量的重复性和困难的工作,人工做少量的干预和检查。不仅能提高数据融合的效率,使作业内容能很好的满足业务需求,还能使工作内容在可控范围内。
- 数据更新原则
在影像数据未发生变化的情况下,优先更新州市中心城区范围及周边区域,新建小区、拆迁、工地及新建道路等重要基础设施及POI点,维护州市范围内省级以上道路及其他新增重点基础设施及POI点;其次更新县级城区范围及周边区域,新建小区、拆迁、工地及新建道路等重要基础设施及POI点,维护县级范围内县道以上道路及其他新增重点基础设施及POI点;再次更新乡镇级城区范围及周边区域,新建小区、拆迁、工地及新建道路等重要基础设施及POI点,维护乡镇级范围内乡道以上道路及其他新增重点基础设施、居民地及POI点;在上述区域处理完成后,再逐图幅进行完善其余区域数据融合。若有影像数据更新,需按上述步骤进行数据融合。随时关注省级新闻,及时增补、更新省级以上道路、铁路的通车情况及其他重要地类信息。
- 首要处理重要区域
按数据更新的原则,按重要程度,优先次序对作业区域内的数据分区域融合处理。如优先处理中心城区范围、等级道路、行政区划、地理单元数据及专题数据等。既能保障业务应用中对核心区域数据现势性的要求,也能逐步完成全域数据的融合任务。融合过程中,应做好元数据的记录。
- 有计划逐步融合、更新数据
对全域的数据内容,结合省级自然资源数据中地理空间数据、调查监测数据、国土空间规划,和省级自然资源与地理空间公共服务平台建设需求,以及年度预算实施的项目建设内容,对数据进行有计划,有针对性的融合更新。
- 提高作业的自动化程度
尽可能的分析拆解数据融合要求,归纳数据处理问题,用程序的方式替代人工的作业模式,提高作业流程的自动化程度,补充和完善数据编辑,数据质量检查的工具,解决重复性的操作,提高数据融合效率。
看到这里,请受小编一拜,感谢您的阅读,我真诚地希望这篇文章为您带来了新的理解和知识,或者在某种程度上启发了您……