CCAI2018 | 韩家炜:大规模文本数据挖掘的新方向

640?wx_fmt=png

来源:中国人工智能学会


现实中的大数据常常表示为一种非结构化,交叉和动态变化的文本数据。如何从大规模文本数据中抽取结构化知识是一个非常值得研究的任务。很多研究工作依赖于劳动密集型的数据标注,用有监督的方法去抽取知识。但是,这些方法不具有普适性,难以扩展,进而难以处理具有动态性或领域限定性的文本数据。我们认为大规模的文本数据其自身蕴含着大量的模式、结构或知识。通过将无领域限制的大规模文本数据和具有领域限制的知识库结合,我们可以充分发挥大规模文本数据的优势去处理非结构化数据转换为结构化数据的难题。

——韩家炜


 2018中国人工智能大会(CCAI2018)将于7月28日至29日在深圳举行,韩家炜教授届时将在会上分享他关于大规模文本数据挖掘的最新研究,发表题为《基于海量文本数据的结构化知识抽取:数据挖掘、机器学习和自然语言处理的融合技术》的主题演讲,探讨如何借助大规模文本数据自身的力量去做大规模的知识提取。


适逢盛会,心向往之。会前,我们整理了韩教授以往关于大数据挖掘的相关观点,方便大家一睹为快。


韩家炜现为美国伊利诺伊大学香槟分校计算机系教授,ACM会士和IEEE会士,被称为“数据挖掘第一人”。他在数据挖掘领域有重要的学术影响力,发表论文600余篇,出版多部专著。曾担任国际知名会议KDD、SDM和ICDM程序委员会主席,创办了学术期刊ACM TKDD并担任主编。曾荣获2004 ACM SIGKDD创新奖、2005 IEEE计算机分会技术成就奖、2009 IEEE计算机协会的M. Wallace McDowell奖。他的专著Data Mining: Concepts and Techniques被公认为数据挖掘领域的经典教材。


大数据挖掘,数据结构化首当其冲


大数据(Big data或Megadata),或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模十分巨大,以至于无法在合理时间内通过人工截取、管理、处理、并整理成为人类所能解读的信息。在总数据量相同的情况下,与个别分析独立的小型数据集(data set)相比,将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性,可用来察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定实时交通路况等;这样的用途正是大型数据集盛行的原因。


我们这个时代,由于互联网的发展,产生了大量数据。这些数据中绝大部分(超过 80%)都是以文本等无结构或半结构的方式存储。所以,挖掘大数据首先就是要系统地研究如何挖掘无结构的文本数据,也就是说,要实现从Big Data 到Actionable Knowledge的转变。

 

韩家炜认为,要将无结构的 Big Data 变成有用的 Knowledge,首先要做的就是将数据结构化。他提出两种结构化数据的形式,一种是异质网络(Heterogeneous Network),另一种是多维文本立方体(Multi-dimensional Text Cube)。由结构化数据生成 Knowledge 已经证明是很强大的,但是如何将原始无结构的数据变成有结构的数据(Network 或 Text Cube)则是非常困难的。


在 Network/Text Cube 到 Knowledge 的问题上,韩家炜等人已经做了很多研究工作,也已经由此获得了很多奖项;在无结构文本数据到有结构 Network/Text Cube 的路上他们也做出了许多尝试和成果,现在仍在不断求索中。


数据挖掘三部曲


韩家炜认为,数据挖掘的研究工作可以总结为三部曲:


(1)从文本数据中挖掘隐藏的结构。文本数据中隐藏着大量的结构,这步工作就是将这些数据挖掘出来


(2)将文本数据转化为有类型的 Network/Text Cube。将文本数据变成有结构、有类型的数据(Network/Text Cube)


(3)挖掘 Network/Text Cube 生成有用的知识。最后一步才是挖掘。


此外,在研究的推进过程中,他们也曾遇到了很多困难。


一是领域限制。用一般语料获得的实体标注在特定领域、动态领域或者新兴的领域无法很好的工作。


二是名称的歧义性。多个实体可能共享同一个表面名字(Surface Name,例如「Washington」,它可能是州、市、人名、球队名等)。


三是上下文稀疏。对同一个关系可能有许多种表示方法(想想中文有多少中表示体育比赛结果的方法)。


虽然数据挖掘已经有了成型的结构,但仍有重重困难需要克服。韩教授曾说:“在这条路上,我们现在只是找到了几个口子可以往前走。现在这还不是一条大路,只是一条小路。要想变成一条康庄大道,需要大家共同努力。这条路通宽了,将来我们就可以从大量的无结构的文本,变成大量的有用的知识。”


在即将到来的盛夏,韩家炜教授作为中国人工智能大会的特邀嘉宾,将会介绍他最近的研究:如何借助大规模文本数据自身的力量去做大规模的知识抽取?主要包括关键短语抽取,基于远监督的实体识别和关系分类,基于模式的信息提取方法,多元分类的自动发现以及多维文本数据集的构建等方法。在CCAI2018的报告中,韩家炜教授将证明数据挖掘、机器学习和自然语言处理三个技术进行融合是一个“非常重要且极有前途”的方向。

 

在CCAI2018,跟随开路先锋韩家炜教授,一起踏上这条非常重要且极有前途的路吧!


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/495466.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

关于面试宝典中的各个问题(一)

1、关于浮点数1.0f在内存中的表示:是3f800000. 各个类型所占的字节数(byte),1byte8bit char 1 short 2 bool 1 int 4 long 4 float 4 double 8 long double 8 char * 4 int * 4 float * 4 以上是对于我的电脑,在典型…

安卓手机 Python 自动化( uiautomation、uiautomation2、weditor )

其他自动化工具或者框架: Airtest:https://airtest.readthedocs.io/zh_CN/latest/autojs:Auto.js快速入门实战教程:https://zhuanlan.zhihu.com/p/90065914appium:https://blog.csdn.net/freeking101/article/details…

揭秘|多伦多大学反人脸识别,身份欺骗成功率达99.5%

来源 :机器人大讲堂摘要:在一些社交媒体平台,每次你上传照片或视频时,它的人脸识别系统会试图从这些照片和视频中得到更多信息。比如,这些算法会提取关于你是谁、你的位置以及你认识的其他人的数据,并且&am…

安卓逆向_8 --- Android 调试工具 DDMS 和 Monitor ( 去掉 车来了 app 的广告 )

From:https://www.e-learn.cn/topic/3527658 Android SDK 中的 ddms 使用详解:https://blog.csdn.net/x83853684/article/details/80643131 ADB、Android Monitor、DDMS、HierarchyViewer、MAT、SysTrace、TraceView 性能分析工具使用大全:…

杂谈 | 微软复兴,它与苹果竟有这么多相似之处!

来源:网易智能摘要:且不要谈CEO们是否会让他们公司的“重生”,仅仅是成为一个成功帝国的好管家就已经是一项了不起的成就了。上周,微软市值超过了谷歌母公司Alphabet,成为继苹果(Apple)和亚马逊…

全能终端神器 --- MobaXterm 、开启 linux 远程桌面

From:https://cloud.tencent.com/developer/news/244102 官网地址:https://mobaxterm.mobatek.net MobaXterm 20.2_Professional.7z 下载地址:https://download.csdn.net/download/freeking101/12363312 MobaXterm 又名 MobaXVT&#xff0c…

教机器遗忘或许比学习更重要:让AI健忘的三种方式

大数据文摘出品编译:臻臻、Shan LIU、龙牧雪大部分人不会喜欢遗忘的感觉。回到家顺手把钥匙丢在一个角落就再也想不起来放在哪儿了,街角偶遇一个同事却怎么拍脑袋也叫不出他的名字……我们害怕遗忘,讨厌遗忘。然而,生而为人&#…

一套价值十万的微信公众号采集解决方案

From:http://www.blog2019.net/post/138 原文地址 相关阅读: 一套价值十万的微信公众号采集解决方案(免费送) 数据采集采集架构中各模块详细分析 基于大数据平台的互联网数据采集平台基本架构 教你一种1分钟下载1万个网页的方法,你学吗&a…

2018 年全球人工智能与机器人峰会将在深圳举办

来源:雷锋网摘要:第三届 CCF-GAIR —— 2018 年全球人工智能与机器人峰会,深圳,2018 年 6 月 29 日至 7 月 1 日。2018 年,AI 学术界与工业界的核心议题已演变为“基础理论技术创新”和“行业解决方案落地”&#xff0…

Grafana 使用教程 --- 开源的度量分析与可视化套件

原文链接:https://blog.csdn.net/bbwangj/article/details/81109615 Linux下使用GrafanaInfluxDBMongoDB实现爬虫可视化动态监控【附代码及详细教程】 https://www.jianshu.com/p/9de223e05a5e Grafana是一个开源的度量分析与可视化套件。经常被用作基础设施的时间…

美国重夺超算“头把交椅”,专家建议中国加快E级超算研制

“顶点”超算 橡树岭国家实验室网站图来源:科技日报摘要:美国能源部下属橡树岭国家实验室6月8日正式宣布,已研发出被命名为“顶点”的超级计算机。美国能源部下属橡树岭国家实验室6月8日正式宣布,已研发出被命名为“顶点”的超级计…

安卓逆向_9 --- log 插桩、Toast 弹窗、smali代码编写和植入 ( 好搜小说 )

From:https://www.bilibili.com/video/BV1UE411A7rW?p36 如果仅仅用 Smali 来分析代码,效果其实不如用 dex2jar 和 jd-gui 更直观,毕竟看反编译的 java 代码要更容易一些。 但 Smali 强大之处就是可以随心所欲的进行插桩操作。何为插桩&…

智能哲学:“学习机器”与“机器学习” ——解读图灵思想中的人工智能

周剑铭,自由学者。研究方向为中西文化比较研究,智能哲学,算法、不确定性和不确定性问题(NP)理论。柳渝,法国儒勒凡尔纳公立综合大学计算机(Dpartement Informatique, UFR des Sciences, Universit de Picardie Jules V…

安卓逆向_10 --- Log 日志的插入和分析、toast方法、栈跟踪

From:https://blog.csdn.net/weixin_42680210/article/details/90384358 在安卓逆向中,常常用到 栈跟踪、toast方法、Log日志的插入 等,以便于我们更好的分析代码,下面就演示下这三个方法的使用及简单的分析。。。 1. 插入 Log 信…

事实--思维导图笔记

事实--思维导图笔记 https://www.processon.com/view/5d330846e4b058ef96ae5529?fromnew1#map 完整版

未来20年内,无人驾驶将颠覆这33大行业

来源:智车科技在未来的20年里,无人驾驶汽车将在美国广泛使用,这几乎是必然的。包括谷歌、苹果和梅赛德斯-奔驰在内的二十多家大型企业都在努力打造自己的无人驾驶汽车品牌。特斯拉的Model S已经推出了一种可以在高速公路上形式的无人驾驶车型…

安卓逆向_11 --- methodprofiling(方法分析)【在 smali 代码中打印信息 --- 协议分析常用】

From【修改 smali 代码打印信息】:https://www.bilibili.com/video/BV1UE411A7rW?p38 【Android】开发优化之 --- 调优工具:TrackView、Method Profiling:https://blog.csdn.net/fcly2013/article/details/38080333 TrackView、Method Prof…

Getting Started with Google Guava--思维导图笔记

Getting Started with Google Guava--思维导图笔记 分享地址:https://www.processon.com/view/link/5d413527e4b020861117eb7b

德国科学院院士:传统企业寻求变革,向智能制造靠近

来源:亿欧摘要:中新人工智能高峰论坛上,德国科学院院士汉斯乌思克尔特详细介绍了AI在工业上的概念和具体运用案例。他把“AI工业”原理分为三层,由内到外分别是:生产层、运行层和数据结合层。经由这三层,智…

安卓逆向_12 --- jeb工具的使用 ( 动态调试 smali 代码 【 普通调试 和 debug调试 】)

From:https://www.52pojie.cn/forum.php?modviewthread&tid742250 jeb 动态调试 smali 代码:https://www.bilibili.com/video/BV1UE411A7rW?p39 使用 JEB 调试 Android App:https://www.jianshu.com/p/a1a7cf687cd2 了解 JEB 和 IDA 使…