基于深度学习的图像分割在高德的实践

一、前言

图像分割(Image Segmentation)是计算机视觉领域中的一项重要基础技术,是图像理解中的重要一环。图像分割是将数字图像细分为多个图像子区域的过程,通过简化或改变图像的表示形式,让图像能够更加容易被理解。更简单地说,图像分割就是为数字图像中的每一个像素附加标签,使得具有相同标签的像素具有某种共同的视觉特性。

图像分割技术自 60 年代数字图像处理诞生开始便有了研究,随着近年来深度学习研究的逐步深入,图像分割技术也随之有了巨大的发展。早期的图像分割算法不能很好地分割一些具有抽象语义的目标,比如文字、动物、行人、车辆。这是因为早期的图像分割算法基于简单的像素值或一些低层的特征,如边缘、纹理等,人工设计的一些描述很难准确描述这些语义,这一经典问题被称之为“语义鸿沟”。

得益于深度学习能够“自动学习特征”的这一特点,第三代图像分割很好地避免了人工设计特征带来的“语义鸿沟”,从最初只能基于像素值以及低层特征进行分割,到现在能够完成一些根据高层语义的分割需求。

(图像分割的发展历史)

高德地图拥有图像/视频大数据,在众多业务场景上都需要理解图像中的内容。例如,在数据的自动化生产中,通常需要寻找文字、路面、房屋、桥梁、指示牌、路面标线等目标。这些数据里有些是通过采集车辆或卫星拍摄,也有些数据则是通过用户手机拍摄,如下图所示:

面对这些场景语义复杂、内容差异巨大的图像,高德是如何通过图像分割对其进行理解的?本文介绍了图像分割在高德地图从解决一些小问题的“手段”,逐步成长为高度自动化数据生产线的强大技术助力。

二、探索期:一些早期的尝试

在街边的数据采集中,我们需要自动化生产出采集到的小区、店铺等 POI (Point of Interest)数据。我们通过 OCR 算法识别其中文字,但苦恼于无法确定采集图像中到底有几个 POI。例如,下图中“领秀丽人”与“燕子童装”两家店铺,人眼可以很容易区分,但是对于机器则不然。一些简单的策略,比如背景颜色,容易带来很多的错误。

例如,遇到两个样式十分相近的挂牌的时候,我们利用无监督的 gPb-owt-ucm 算法 [1] 在检测多级轮廓的基础上结合改进的分水岭算法将图像切分为多个区域,并利用 Cascade Boosting 的文字检测结果将图中带有文字的区域进行了分割。

三、成长期:自然场景下的语义分割

于 2014 年底问世的全卷积神经网络 [2](FCNs, Fully Convolutional Networks)无疑是继 2012 年问鼎 ImageNet 大赛以来深度学习发展的又一里程碑。FCNs 提供了第一个端到端式的深度学习图像分割解决方案。FCNs 在 CNN 的基础上可以从任意尺寸的输入进行逐像素的分类。我们也在第一时间将其落地到高德自身的应用场景中,例如文字区域的分割。自然场景下的文字由于其背景、光照复杂,文字朝向、字体多样,使得人工构建特征十分困难。

很快地,我们发现 FCNs 还并不能很好地满足我们的需求。虽然 FCNs 在解决语义鸿沟问题上提供了解决方案,但在一般情况下只能给出一个“粗糙”的区域分割结果,不能实现很好的“实例分割”,对于目标虚警、目标粘连、目标多尺度、边缘精度等问题上也没有很好地解决。一个典型的例子就是在分割文字区域时,“挨得近”的文字区域特别容易粘在一起,导致在计算图像中的文本行数时造成计数错误。

因此,我们提出了一个多任务网络来实现自己的实例分割框架。针对目标粘连的问题,我们在原始网络中追加了一个分割任务,其目标是分割出每个文本行的“中轴线”,然后通过中轴线区域来拆分粘连的文本行区域。拆分的方法则是一个类似于 Dijkstra 的算法求解每个文本区域像素到区域内中轴线的距离,并以最短距离的中轴线作为像素归属。

另外一个比较困扰的问题是 FCNs 结果中的虚警,即非文字区域被分割为文字区域。虽然相较于一些传统方法,FCNs 结果中的虚警已经少了很多,但为了达到更好的分割正确率,我们在原有网络基础上增加了一个并行的 R-CNN 子网络进行文字的检测,并利用这些检测结果抑制虚警的产生(False Alarms Suppression)。

为了通过端到端的学习使得网络达到更好的效果,我们设计了一个一致性损失函数(Consistency Loss Function),来保证网络主干下分割子网络和检测子网络能够相互指导、调优。从优化后分割网络输出的能量图可以看到,虚警的概率明显降低了。若想要了解详细细节,可以参考我们 17 年公布在 arxiv 上的文章[3]。

四、成熟期:分割的精细化与实例化

得益于 Mask R-CNN 框架 [4] 的提出,实例化的图像分割变得更加容易。以之前提到的商户挂牌的分割为例,挂牌区域的分割也十分容易出现粘连,且挂牌样式多样,不存在文本行这样明显的“中轴线”。目标检测方法可以对提取挂牌的外包矩形。但问题在于,自然场景下挂牌的拍摄往往存在非垂直视角,因此在图像上并不是一个矩形,通常的检测算法则会带来不准确的边缘估计。Mask R-CNN 通过良好地整合检测与分割两个分支,实现了通用的实例化图像分割框架。其中目标检测分支通过 RPN 提取目标区域,并对其进行分类实现目标的实例化;然后在这些目标区域中进行分割,从而提取出精准的边缘。

一些更加复杂的场景理解需求,也对图像分割分割精细程度提出了更高的要求。这主要体现在两个方面:(1)边缘的准确度(2)不同尺度目标的召回能力。

在高精地图的数据数据生产需要分割出图像中的路面,然而高精地图对于精度的要求在厘米级,换算到图像上误差仅在 1~2 个像素点。观察原始分割的结果不难发现,分割的不准确位置一般都是出现在区域边缘上,区域内部是比较容易学习的。

因此,我们设计了一个特殊的损失函数,人为地增大真值边缘区域产生的惩罚性误差,从而加强对边缘的学习效果,如图所示,左侧为可行驶路面区域分割,右侧是路面及地面标线分割。

道路场景下需要理解的目标种类繁多,一方面其本身有大有小,另一方面由于拍摄的景深变化,呈现在图像上的尺度也大小各异。特别的是,有些特殊目标,例如灯杆、车道线等目标是“细长”的,在图像上具有较大长度,但宽度很小。这些目标的特性都使得精细的图像分割变得困难。

首先,由于受到网络感受野的限制,过大和过小的目标都不容易准确分割,比如道路场景下的路面与灯杆,卫星影像中的道路与建筑群。针对该问题,目前的 PSPNet [5], DeepLab [6], FPN [7] 等网络结构都能在不同程度上解决。

其次,由于目标尺度不同,导致分割网络样本数量的比例极不均衡(每一个像素可以认为是一个样本),我们将原先用于目标检测任务的 Focal Loss [8] 迁移到图像分割网络中来。Focal Loss 的特点在于可以让误差集中在训练的不好的数据上。这一特性使得难以学习的小尺度目标能够被更加准确地分割出来。

五、未来的展望

图像分割技术目前朝着越来越精确的方向上发展,例如 Mask Scoring R-CNN [9]、Hybrid Task Cascade [10] 的提出,在 Mask R-CNN 的基础上持续优化了其分割的精确程度。然而站在应用角度,基于深度学习的图像分割相较于当量的分类任务则显得“笨重”。

出于图像分割任务对精度的要求,输入图像不会像分类任务一样被压缩至一个很小的尺寸,带来的则是计算量的指数级增加,使得图像分割任务的实时性较难保证。针对这个问题,ICNet, Mobile 等网络结构通过快速下采样减少了卷积初期的计算量,但也带来了效果上的折损。基于知识蒸馏(Knowledge Distillation)的训练方法,则像个更好的优化方案,通过大网络指导小网络学习,使得小网络的训练效果优于单独训练。知识蒸馏在训练过程中规避了网络剪枝所需要的经验与技巧,直接使用较低开销的小网络完成原先只能大网络实现的复杂任务。

对于高德地图来说,图像分割已经是一个不可或缺的基础技术,并在各个数据自动化生产线中得到了广泛应用,助力高德地图的高度自动化数据生产。未来,我们也将持续在地图应用场景下打造更加精准、轻量的图像分割技术方案。


原文链接
本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/517180.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

腾讯汤道生:AI是产业互联网的“中央处理器”,数字技术融合打造产业新动能

7月10日,2020世界人工智能大会腾讯论坛正式拉开帷幕。腾讯高级执行副总裁、云与智慧产业事业群总裁汤道生进行了开场致辞。汤道生表示,人工智能是新基建的核心技术之一,也是产业互联网的“中央处理器”。在AI的产业和技术发展趋势方面&#x…

小程序开发(1)-之目录结构和文件说明

#以下图片是小程序的目录结构,建议所有的目录都使用小写字母,不使用驼峰格式 #组件 components是自定义组件目录,对一些常用的组件的封装 #配置文件 config是配置文件,存有一些常用的字段和请求地址 #第三方库 libs是一些外部…

阿里云杨敬宇:四层技术构建基于城市场景的边缘计算

12月11日,阿里云边缘计算技术负责人杨敬宇在2019亚太内容分发大会上表示:在未来,边缘计算主要是以地市、区县为单位开展,面向城市服务的交通、医疗、健康、教育、新零售等场景提供算力基础。阿里云认为边缘计算就是城市计算&#…

2020年的双11,阿里需要什么样的渲染方案?

阿里妹导读:前端技术的"新陈代谢"是有目共睹的,新技术的不断发展也推动着前端应用场景的不断扩大,从 Web 、Weex 到 Node.js 再到 FaaS。我们在发展中看不变的部分,唯有追求更好的用户体验是端技术持续发展中不变的责任…

腾讯优图发布四大平台产品,持续开放视觉AI能力

7月10日,2020世界人工智能大会在上海举行,腾讯优图实验室总经理吴运声发表了“新基建新生态下的计算机视觉”的主题演讲,分享了优图视觉AI技术在工业、教育、泛娱乐等领域的最新落地实践,并发布四大平台产品,进一步开放…

小程序开发(2)-之app.js、app.wxss、project.config.json说明

#app.js 小程序的入口文件,也可以说是一个全局的变量,因为我们经常会在一些页面里这样使用它const app getApp(); 我们可以在这里做一些初始化的操作,每次启动小程序的时候,都会先执行一边这里,可以对一些常用的全局…

微服务治理实践:如何对单点异常进行自动摘除

微服务架构下,稳定性和高可用性一个永恒的话题,在实际的治理过程中,我们有可能会遇到以下场景: 某个应用灰度发布,先上了几台机器,由于代码逻辑写的有问题,造成线程池满,出现运行异…

数字时代企业信息安全如何保障? VMware原生安全前来“保驾护航”

2020年春天,以5G、人工智能、云计算为代表的“新基建”蔚然成风,着眼国家数字经济体系建设,打造数字经济体系底座的“新基建”,无疑成为中国经济整体应对未来发展的核心方案。可以说,没有任何一个时期比现在更能够彰显…

Elasticsearch7.15.2 安装、部署(linux环境)

文章目录一、软件下载配置1. 下载2. 解压3. 录结构理解二、采用自带的jdk2.1. 启动脚本2.2. 添加jdk判断三、配置与启动3.1. 核心配置简述3.2. 核心配置3.3. 创建数据存储目录3.4. 创建es用户3.5. 修改目录权限3.6. JVM配置3.7. 增加资源分配3.8. 内核参数3.9. 刷新 配置3.10. …

仅1年GitHub Star数翻倍,Flink 做了什么?

阿里妹导读:Apache Flink 是公认的新一代开源大数据计算引擎,其流水线运行系统既可以执行批处理程序也可以执行流处理程序。目前,Flink 已成为 Apache 基金会和 GitHub 社区最为活跃的项目之一。在 Flink Forward Asia 2019 上,阿…

小程序开发(3)-之wx.request封装

#主要的封装是wxRequest、wxRequestGet、wxRequestPost、wxRequestPromise、headers这几个函数,由于太过赘余不进行截图展示,可以看utils.js #wxRequest方法 wxRequest其实跟原始的wx.request没有太大的不同,相当于一个中间键,可…

elasticsearch-head 谷歌插件以及安装和使用说明

文章目录一、谷歌插件方式1. 下载2. 扩展程序3. 打开开发者模式4. 拖动插件5. 添加扩展程序6. 点击es插件7. 连接8.效果对比二、源码运行方式(推荐使用)2.1. 克隆源码2.2. 配置2.3. 下载依赖2.4. 启动2.5. 验证一、谷歌插件方式 1. 下载 https://github.com/mobz/elasticsear…

闲鱼如何高效承接并处理用户纠纷

背景 闲鱼是一个基于C2C场景的闲置交易平台,每个用户既是买家也是卖家,在自由享受交易乐趣的同时也容易带来一些问题,如发一些侵权违规商品而不自知,发一些带情绪化言语对他人照成了伤害等,因此这也带来了一个核心问题&#xff1…

国内厂商 Onyx 违反 GPL 协议,中国开源何去何从?

作者 | 马超责编 | 王晓曼封图 | CSDN 付费下载自东方 IC出品 | CSDN(ID:CSDNnews)近日,中国电子书厂商Oynx拒绝开源其基于Linux 内核修改的设备源码,这一做法违反了Linux的GPL协议,在Reddit社区引发了开源…

系统重构的道与术

最近参与了很多重构项目,有以提高服务器资源利用率为目标的Gateway网关、AMAPS等服务的重构,也有以提升架构合理性和研发效率为目标的共享业务服务化拆分,借此机会把相关内容梳理一下,是分享更是自我总结和学习。准备以重构工作中…

小程序开发(4)-之登录

#为了获取token,所以需要搞个模拟登陆,用一个特定的账号,对密码进行md5加密,也只是在app.js那里进行一次调用,这里主要是说一下globalData.checkLogin、checkLoginReadyCallback,这时this指向的是全局的app…

SpringBoot2 整合 AXIS2 服务端和客户端

文章目录一、AXIS2服务端1. 版本选型2.导入依赖3. services.xml4.Axis2配置类5.服务接口6.服务接口实现类7. FileCopyUtils工具类8. 测试验证二、AXIS2服务端2.1. 客户端类2.2. 服务调用测试开源源码.一、AXIS2服务端 1. 版本选型 阿健/框架版本spring-boot2.5.5axis21.7.9 2…

阿里风控大脑关于大数据应用的探索与实践

以下内容根据演讲视频以及PPT整理而成。本次分享主要围绕以下三个方面: 一、阿里风控大脑整体介绍二、近线引擎三、离线引擎一、阿里风控大脑整体介绍1. 阿里风控大脑是什么? 阿里的风控主要分为两大块。一块是金融领域,主要业务是支付宝,另…

我和美国 AI 博士聊了聊:2020 年,这件事比存钱更重要!

今年还有什么比股市更赚钱的技能?那就是正处于 IT 风口的人工智能所需的 Python 。我见过市面上很多的 Python 讲解教程和书籍,他们大都这样讲 Python 的:先从 Python 的发展历史开始,介绍 Python 的基本语法规则,Pyth…

idea创建springmvc项目

文章目录1. 创建项目2.配置3. 加载tomcat4. 完成5. 启动项目6. 效果图7. 修改访问路径1. 创建项目 2.配置 3. 加载tomcat 4. 完成 5. 启动项目 6. 效果图 7. 修改访问路径