百度提出新冠高风险小区预警算法,AAAI21收录!

编:夕小瑶

几个月前,小屋推送了一期上帝视角看新型冠状病毒(COVID-19)对公众出行影响的顶会论文解读——《这篇顶会paper,讲述了疫情期间憋疯的你和我》,这篇有趣的paper来自百度地图团队,发表在KDD2020。

几个月后,新冠病毒仍在全球范围肆虐,并对人们的日常工作与生活产生了严重的影响。与此同时,社会责任感爆棚的百度研究人员再次发挥时空大数据优势,又发表一篇硬刚新冠疫情的最新研究成果!这次的研究不单是有趣,还在科学疫情防控方面具有很高的应用价值。

引言

关注疫情动态的小伙伴都有所了解,面对疫情,目前有效的非药物干预方案通常需要及时、准确地在城市中选择一些高风险区域进行重点疫情防控,例如出行限制甚至病例隔离。对于高风险区域的预测,现有的研究工作主要将已确诊病例的空间分布视为重要依据,其主要问题在于确诊病例的统计数据往往粒度过粗且通常具有滞后性,同时,不少新冠病毒携带者在确诊前就可能已经将病毒传播开了。

为了解决这些问题,百度的研究人员提出了一个名为C-Watcher的机器学习框架,旨在从新冠疫情重灾区传播到目标城市之前,预测出目标城市中每个社区的疫情感染风险。

首先,C-Watcher从百度地图数据中抽取了多种特征来刻画城市中的每个住宅小区。其次,为了在疫情爆发前将有助于识别风险的知识及时迁移到目标城市,研究人员提出了一个创新性的对抗编码器框架,可以提取疫情重灾区城市和目标城市之间的共性特征,并从中学习高风险社区的普遍特点。利用该方法从城市相关的特征中抽取有用信息,可以实现在目标城市进行早期高风险小区的高效预测。基于国内COVID-19爆发早期的真实数据对C-Watcher进行评测后,实验结果表明C-Watcher能够在疫情早期有效地从大量住宅小区中成功筛查出高风险小区。该论文已入选人工智能领域顶级会议AAAI 2021,向国际同行分享科学抗疫最新研究成果。

▲图1 C-Watcher 的使用场景

论文名称:
C-Watcher: A Framework for Early Detection of High-Risk Neighborhoods Ahead of COVID-19 Outbreak

论文链接:
https://arxiv.org/abs/2012.12169

Arxiv访问慢的小伙伴也可以在 【夕小瑶的卖萌屋】订阅号后台回复关键词 【0205】 下载论文PDF~

小区特征构建

本文基于百度地图数据抽取特征来描述住宅小区的社会经济情况、人口特点以及时空迁徙情况,主要包括POI半径特征(POI Radius Features)、人口学特征(Demographic Features)和交通方式特征(Transportation-related Features)等。这里以POI半径特征(POI Radius Features)为例做简要介绍。

POI半径特征主要反映一个住宅小区周边的基础设施情况,因为小区住户感染新冠的风险与基础设施水平具有紧密的联系。如果周边基础设施不完备,住户往往需要到更远的地方以满足日常生活基本需求;同时,基础设施匮乏的小区往往物业管理不够科学与精细,在科学疫情防控力度上存在较大差异,这都可能增加新冠传播风险。作者构建了15种POI半径(如医院半径)来刻画小区的基础设施,每种POI半径均定义为该小区到某种类别POI(如医院)的最短直线距离,图2(a)中示意了POI半径特征的计算规则。

为了更直接地反映基础设施的完备情况,作者还构建了一个二值的基础设施完备水平指标,将半径1km内同时含有医院、学校、餐厅等多种基础生活设施的小区视为基础设施完备的小区,如图2(b)所示。

文中对新冠爆发初期武汉市高/低风险小区的数据进行统计后,发现新冠风险确实与基础设施存在较强的相关性。如图2(c)所示,大部分高风险小区的基础设施都不完备;与此相反,大部分低风险小区具有更为完备的基础设施。

方法

图3展示了在目标城市预测新冠高风险小区的城市迁移学习模型的总体框架。

▲图3 城市迁移学习模型总览

该模型是一个对抗编码器-解码器框架,能够提取疫情重灾区城市(epicenter city)和目标城市之间(target city)的共性特征,并依靠重灾区城市的大量数据,从中学习高风险社区的普遍特点,再将这种共性的知识迁移到疫情尚未爆发的目标城市,实现早期的高风险小区预测。模型主要有两部分组成:1)利用对抗学习框架提取城市间的共性特征;2)对表征空间进行约束,实现新冠高风险小区预测。

对抗学习框架

对抗学习框架由编码器(encoder)和鉴别器(discriminator)构成,如图4所示:

▲图4 对抗学习框架

Encoder将住宅小区的特征向量 n 作为输入,具体地记 n^E 为epicenter cities中小区的特征向量,n^T 为target city中小区的特征向量,输出编码后的表征向量。通常来说,因为编码后的表征向量来自于对不同城市的住宅小区的描述,它们的分布存在较大差异,这种差异使得encoder提取到高风险小区的特点可能仅适用于epicenter city,这阻碍了模型将epicenter cities中学到的经验迁移到target city。

为了解决这个问题,作者引入了discriminator来缩小编码后表征向量在分布上的差异。Discriminator是一个分类器,它的作用是从Encoder输出的表征中区分出样本来自epicenter cities还是target city,即把编码后的表征向量作为输入,并完成一个二分类任务,将来自于epicenter cities的编码表征向量,和来自于target city的编码表征向量判定为不同的两类。相反的是,encoder学习来自两个不同城市样本的共性特征,让discriminator难以正确分类。

表征空间约束

在Adversarial Learning的框架中,Encoder仅仅能够学到epicenter cities和target city中小区样本的共性特征,为了提高新冠风险的识别能力,作者引入图5中的模块对表征空间进行约束,主要包括特征重构和新冠高风险小区识别分类两部分。

▲图5 表征空间约束示

特征重构部分包括Encoder以及两个Decoder,两个Decoder分别用于epicenter cities和target city中小区特征的重构。将Encoder输出的表征向量输入Decoder,得到解码后的表征向量,利用重构损失函数优化Encoder和Decoder,使得Decoder能够从编码后的表征中恢复出原始输入,以保证Encoder学习到的表征仍然具有描述一个小区的信息,而不是单纯地能够在epicenter cities和target city中相似。

高风险小区识别分类的部分则有Encoder和Classifier组成。Classifier将epicenter cities小区的编码表征向量作为输入,利用epicenter cities中大量有标记样本,让Encoder从中提取能够判断新冠风险的特征。

“Reference city”验证机制

由于C-Watcher的设计是为了在没有爆发疫情的目标城市进行高风险小区的早期预测,为了避免将目标城市高风险小区的先验信息引入模型的超参数中,作者提出了“reference city”验证机制,为模型选择合适的超参数。C-Watcher使用epicenter city的数据训练模型,并将reference city的真值数据当作验证集来选择模型的超参数。在本文中,reference city是按照距离target city最近的城市作为标准来选取的。图6对该验证机制作了简单介绍。

▲图6 “Reference city“验证机制

实验分析

新冠高风险小区早期预测

作者收集了国内新冠肺炎爆发初期16个城市的高风险小区数据对C-Watcher进行测试,其中包含重灾区武汉市,5个参考城市和10个目标城市。C-Watcher在目标城市上的预测性能远好于不采用城市迁移学习的机器学习模型。

▲表1 目标城市高风险小区预测性能对比

特征重要性分析

作者还采用Lasso Logistic Regression的方法,以各个特征系数的绝对值为依据,筛选出最重要的20个特征,如图7所示。

▲图7 Lasso系数最大的20个特征

从中我们可以获得一些对新冠疫情防控具有指导意义的信息。比如,实验结果表明,在POI半径特征中,除了二值的基础生活设施指数特征(P: PFLF & P: PRLF)与新冠风险显著相关以外,距火车站远(P: RTS)的住宅小区风险较低。

总结

本文提出了一个识别城市中新冠高风险小区的框架C-Watcher,它基于百度地图数据提取了大量描述住宅小区的社会经济情况、人口特点以及时空迁徙情况等有助于识别新冠风险的特征,采用对抗学习的框架从重灾区学习高风险小区的特点,并将这些知识迁移到未爆发疫情的目标城市,实现了在早期阶段对潜在新冠高风险小区进行预测。

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479121.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

搜狗地图2016-Android-社招笔试题(包含Java基础部分)

下面是搜狗地图的社招笔试题,由于条件有限,全是手机拍的,请将就着看。另请忽略上面的答案,不一定准确。 大伙可在下方讨论答案,上方答案仅供参考,不一定准确。

机器学习常用的算法整理:线性回归、逻辑回归、贝叶斯分类、支持向量机、K-means聚类、决策树、随机森林以及常用的应用场景整理

什么是机器学习? 机器学习是计算机利用已有的数据(经验)得出了某种模型,并利用这些模型预测未来的一种方法。这个过程其实与人的学习过程极为相似,只不过机器是一个可以进行大维度数据分析而且可以不知疲倦地学习的“怪兽”而已。 具体的机器…

新一代数据库TiDB在美团的实践

1. 背景和现状 近几年,基于MySQL构建的传统关系型数据库服务,已经很难支撑美团业务的爆发式增长,这就促使我们去探索更合理的数据存储方案和实践新的运维方式。而随着分布式数据库大放异彩,美团DBA团队联合基础架构存储团队&#…

我在哥大读博的五年

文 | Mike Shou知乎(ID:Showthem)本文已获作者授权,禁止二次转载0. 写在前面「 开始写这边总结的时候是三月,纽约成了疫情震中,看着新闻报道里的中央公园,中国城,第五大道,往事浮现&…

论文浅尝 | AAAI2020 - 多分量图卷积协同过滤方法

论文笔记整理:郝凯龙,南京大学硕士。来源:AAAI2020链接:https://arxiv.org/pdf/1911.10699.pdf动机推荐系统实际上是在做用户-商品二部图上的链路预测,仅仅用用户-商品之间的单一购买关系无法精确的进行描述为什么购买…

from torchcrf import CRF

报错CRF函数有问题,多了一个参数。通过源代码查找,发现两个torchcrf。通过pip list安装的时候是大写的TorchCRF,所以导入包的时候肯定也写大写的,没想到报错,后来改成全小写的就对了。

LeetCode 312. 戳气球(DP,难)

1. 题目 有 n 个气球,编号为0 到 n-1,每个气球上都标有一个数字,这些数字存在数组 nums 中。 现在要求你戳破所有的气球。每当你戳破一个气球 i 时,你可以获得 nums[left]∗nums[i]∗nums[right]nums[left] * nums[i] * nums[ri…

美团即时物流的分布式系统架构设计

本文根据美团资深技术专家宋斌在ArchSummit架构师峰会上的演讲整理而成。 背景 美团外卖已经发展了五年,即时物流探索也经历了3年多的时间,业务从零孵化到初具规模,在整个过程中积累了一些分布式高并发系统的建设经验。最主要的收获包括两点&…

论文浅尝 | AAAI2020 - 基于规则的知识图谱组合表征学习

论文笔记整理:康矫健,浙江大学计算机科学与技术系,硕士研究生。论文链接:https://arxiv.org/pdf/1911.08935.pdf发表会议:AAAI 2020Motivation现有的KG Embedding方法大部分仅关注每个三元组的结构化信息有部分的工作把…

26岁!年入100万,两周把 Github 项目推向全球榜首,他是怎么做的?

今天要为大家介绍一位很厉害的朋友 —— 小浩。九零后,20 年年收入近百万。 大家不需要质疑他的收入,在他没做公众号的时候,我知道收入已有五六十。而公众号,只是疫情期间他因无聊而产出的结果,那结果怎么样呢&#xf…

美团餐饮娱乐知识图谱——美团大脑揭秘

前言 “ I’m sorry. I can’t do that, Dave.” 这是经典科幻电影《2001: A Space Odyssey》里HAL 9000机器人说的一句话,浓缩了人类对终极人工智能的憧憬。让机器学会说这样简单一句话,需要机器具备情感认知、自我认识以及对世界的认识,来辅…

Android官方开发文档Training系列课程中文版:OpenGL绘图之图形定义

原文地址:http://android.xsoftlab.net/training/graphics/opengl/shapes.html 使用OpenGL绘制图形的第一步就是要定义一个图形。如果不清楚OpenGL如何绘制自定义图形的相关基础知识时,那么使用OpenGL一定要仔细。 这节课将会简单讲述OpenGl ES的坐标系…

LeetCode 765. 情侣牵手(贪心)

1. 题目 N 对情侣坐在连续排列的 2N 个座位上,想要牵到对方的手。 计算最少交换座位的次数,以便每对情侣可以并肩坐在一起。 一次交换可选择任意两人,让他们站起来交换座位。 人和座位用 0 到 2N-1 的整数表示,情侣们按顺序编号…

Python 捕获异常

Python捕获异常 一.常见异常 1.语法错误:SyntaxError:invalid syntax (1)案例: (1)解决方法: ①查看代码有没有红色波浪线 ②熟悉python基本语法 2.变量名不存在:NameError:name b is not defined (1)案例: (2)解决方法: ①检查对应的变量名是否有定义并赋值,是否写错了变量名…

论文浅尝 | WWW2020 - 知识图谱中的实体摘要:算法、评价和应用 (PPT)

本文转载自公众号:专知。知识图谱封装了实体和关系。知识图谱的简洁表示格式和图的特性使得许多新的Web应用程序得以创建,并增强了现有的应用性能。然而,在一个知识图谱中,描述一个实体的几十个或几百个事实可能会超出一个典型用户…

一条互联网广告多少钱?

文 | 申探社本文已获作者授权,禁止二次转载一. 导读互联网广告中的出价模式发展经历了许多变迁。从一开始的CPM,到CPC出价模式,随着Facebook的oCPX (如oCPM/oCPC) 成为了网红,之后的双出价,激活且付费,Face…

LeetCode 100. 相同的树(二叉树遍历)

1. 题目 给定两个二叉树,编写一个函数来检验它们是否相同。 如果两个树在结构上相同,并且节点具有相同的值,则认为它们是相同的。 2. 解题 2.1 递归 class Solution { public:bool isSameTree(TreeNode* p, TreeNode* q) {if(!p &&am…

Android官方开发文档Training系列课程中文版:OpenGL绘图之图形绘制

原文地址:http://android.xsoftlab.net/training/graphics/opengl/draw.html 如果你还不清楚如何定义图形及坐标系统,请移步:Android官方开发文档Training系列课程中文版:OpenGL绘图之图形定义。 在定义了图形之后,你…

Python之极验滑动验证码的识别(教程+案例)+识别豆瓣登录滑动验证码(附源码)

Python之极验滑动验证码的识别(教程案例) def get_tracks(distance, rate0.6, t0.2, v0):"""将distance分割成小段的距离:param distance: 总距离:param rate: 加速减速的临界比例:param a1: 加速度:param a2: 减速度:param t: 单位时间…

论文浅尝 | ICLR 2020 - 一文全览知识图谱研究

本文转载自公众号:AI科技评论 作者 | Michael Galkin编译 | 贾伟ICLR 2020 正在进行,但总结笔记却相继出炉。我们曾对 ICLR 2020 上的趋势进行介绍,本文考虑的主题为知识图谱。作者做波恩大学2018级博士生 Michael Galkin,研究方…