唐刘之辩:行业知识图谱的schema构建的难点、重点与困惑

一、议题

昨日,阿里达摩院唐呈光老师与我就行业知识图谱的schema的构建对于业务人员是不是有困难以及其中的难点或者耗时点做了一个简短的讨论,我觉得很有趣,发出来与大家一同思考。
唐:唐呈光,阿里巴巴算法专家小蜜对话开发平台对话引擎负责人
刘:刘焕勇,中国科学院软件研究所工程师、数据地平线算法总监

二、 正文

唐:焕勇,有个问题想和你探讨一下,你觉得行业知识图谱的schema的构建对于业务人员是不是有困难?这其中的难点或者耗时点,到底在哪里?

刘:唐老师,简单说两点自己的拙见。

刘:1、是的,尤其是刚入行不久的业务小白,构造一个标准的知识本体都很难。业务人员需要需要了解什么是主体、客体、复杂的怎么拆分,什么是属性,属性关系和实体关系怎么去区分,等等,这个既需要了解细节的业务,也需要将业务抽离、抽象,这个对于业务人员来讲是很难的。我觉得,知识架构师,知识产品经理是未来知识图谱的一个十分必要的工种。

刘:2、难点的话,包括1)一个是对业务的梳理或者说理解,既需要有跳出来的宏观把控,只有跳出来才能尽可能地建模场景元素,也需要对细节的把控,针对不同的需求,如问答、检索等,制定不同的本体,这个要求比较高;2)另外一个就是动态的schema的问题,schema的版本都会一直变化,根据业务变化,也会根据自己对业务的认识而变化,如何尽可能地减少这种变化,也是一个难点。

唐:分析得很到位[强],你觉得从技术角度,我们能从哪方面发力,降低这个构建难度呢?

刘:是两个域

刘:kg技术就是基于schema而展开的,是schema的后续操作。如果要做的话,那做shcema的自动生成,辅助schema的编辑?

唐:你觉得schema自动生成,这个技术的难点在哪里?我们自己搞了半年,效果也不太好啊

刘:我反问一个问题,为什么事件抽取搞来搞去都是ace那8大类23小类

刘:schema不存在一个标准的benchmark去评测,所以说好与不好也很难讲,现有的技术做不了太细的东西,可以笼统地搞一些出来,但业务不一定接受。

刘:换句话说,如果存在一种技术能够自己把某个行业知识体系搭出来,那么这个技术本身就相当于这个行业的专家水准,这是个悖论。

唐:因为事件是动态的,事件的类别发展太快了,没办法实时更新覆盖,这也导致事件不容易大范围定义 也不容易标注,所以大家都在常用公开数据 在都认可的事件类别上做模型方法和研究。
唐:这是我的理解。

刘:这是一方面,一是因为动态,类别发展太快,另一个是事件类型自身都是变化的,而且具有相对的主观性,所以很难有统一的标准,现在虽然有很多基于抽象泛化的方法去生成schema,但效果很差。与此相类似,kg的schema也是一样的,很难统一、很难细化、很难全量。

唐:那这个未来怎么才能做到规模化应用呢?

刘:不过,选择一个封闭的领域,找一个相对简单的场景,做下理论研究还是可以的。

刘:这个未来会很未来【我比较悲观】,规模化应用的话,还是上面说的,选择一个封闭的领域,找一个相对简单的场景去做小规模化,比如小蜜的问答,结构清晰的问答场景。

唐:明白

唐:我的感觉,现在的benchmark可以总结为三种:一是业务人员从应用出发的评价标准;二是研究人员从方法模型上的评价标准;三是实际使用情况反应的评价标准;三种标准都有道理,但是是三个角度,gap还挺大

刘:[强],到位

三、总结

知识图谱schema这个东西对于一个从无到有进行知识图谱构建的人来说,是个十分头疼的事情,无论是业务人员,还是技术人员,都存在诸多困惑,schema是对领域或者行业知识的一个高度抽象化建模,是个十分耗时的过程。对话中抛出几个观点,知识架构师,知识产品经理是未来知识图谱 的一个十分必要的工种,技术人员用技术的方式去学习生成图谱的schema,难度比较大,并且也不一定会为业务人员买账。所以,schema这个东西,道路且长。

关于作者

刘焕勇, Liu Huanyong,2017年硕士毕业,目前就职于中国科学院软件研究所,兼任数据地平线科技算法总监。专注金融、情报两大领域,从事事件抽取、事件演化、情感分析、事理(知识)图谱、常识推理、语言资源构建与应用等研发工作。主持研发自然语言处理技术开放平台数地工场、大规模实时事理知识学习系统学迹、全行业因果链查询与溯源项目寻链系统,并在智能金融、智能情报落地中负责实施了多个项目。致力于面向中文处理的基础知识库建设与理论技术开源共享,目前累计对外开放自然语言处理实践项目六十余项,其中知识图谱和事理图谱项目十六项。在openkg开放知识图谱联盟中开放工业应用知识库七类,主笔数地工场技术类系列文章二十余篇。

如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作,可联系我:
1、我的自然语言处理开源项目:https://liuhuanyong.github.io
2、我的csdn技术博客:https://blog.csdn.net/lhy2014
3、我的联系方式: 刘焕勇,中国科学院软件研究所,lhy_in_blcu@126.com.
4、我的共享知识库项目:刘焕勇,事理类知识库数据集,http://www.openkg.cn/organization/datahorizon.
5、我的工业项目:刘焕勇,以事理为核心的金融情报探索:https://datahorizon.cn.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480265.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据结构--堆 Heap

文章目录1. 概念2. 操作和存储2.1 插入一个元素2.2 删除堆顶元素3. 堆排序(不稳定排序)3.1 建堆3.2 排序3.3 思考:为什么快速排序要比堆排序性能好?两者都是O(nlogn)4. 堆应用4.1 优先级队列4.2 用堆求 Top K(前K大数据…

金融时报:人工智能在银行中的应用—对全球30家大型银行的调查

原文地址:https://cloud.tencent.com/developer/article/1144829 (微信公众号 点滴科技资讯)尽管银行业对新技术感到兴奋,但仍采取比较谨慎的方式。德意志银行首席执行官约翰•克莱恩(John Cryan)曾经提出将…

百度Java三面:现场面试39题目实拍含答案!

百度一面(现场) 自我介绍 Java中的多态 为什么要同时重写hashcode和equals Hashmap的原理 Hashmap如何变线程安全,每种方式的优缺点 垃圾回收机制 Jvm的参数你知道的说一下 设计模式了解的说一下啊 手撕一个单例模式 算法题目 手撕算…

CCKS2020事理图谱应用工作:刘焕勇等.面向开放文本的逻辑推理知识抽取与事件影响推理探索

一、背景介绍 第十四届全国知识图谱与语义计算大会(CCKS 2020) 11 月 12 日至 15 日在江西南昌举行,CCKS(China Conference on Knowledge Graph and Semantic Computing)是由中国中文信息学会语言与知识计算专委会定期举办的全国年度学术会议…

ACL20 Best Paper揭晓!NLP模型评价体系或将迎来重大转折

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术文 | 北大小才女小轶昨晚ACL2020的Main Conference落下帷幕,今年的最佳论文颁给了这篇《Beyond Accuracy: Behavioral Testing of NLP Models with CHECKLIST》。在ACL录用的778篇论文中&#xff…

论文浅尝 | 基于多模态关联数据嵌入的知识库补全

链接&#xff1a;https://arxiv.org/pdf/1809.01341.pdf动机&#xff08;摘要&#xff09;当前的知识库补全的方法主要是将实体和关系嵌入到一个低维的向量空间&#xff0c;但是却只利用了知识库中的三元组结构 (<s,r,o>) 数据&#xff0c;而忽略了知识库中大量存在的文本…

智能投顾原理与主流产品分析

原作者 王希&#xff0c;CFA&#xff0c;中国光大银行。核心观点&#xff1a;1、智能投顾的模式是通过技术实现财富管理的流程自动化&#xff0c;为客户定制FOF产品来投资并赚取管理费。目前尚未看出大数据分析、人工智能等技术在其中发挥出关键作用。2、智能投顾在美国的快速…

POJ 1442 Black Box(大小堆,求第K小的元素)

文章目录1. 题目链接2. 题目解读3. 代码3.1 Runtime Error 代码1. 题目链接 http://poj.org/problem?id1442 2. 题目解读 可以利用大小堆&#xff0c;大堆长度从1开始&#xff0c;每次1 大堆元素都比小堆的小&#xff0c;那么大堆顶的元素就是第k小的元素 3. 代码 3.1 Run…

阿里java架构师面试128题含答案:分布式架构+Dubbo+多线程+Redis

一、Java基础和高级 1.String类为什么是final的。 2.HashMap的源码&#xff0c;实现原理&#xff0c;底层结构。 3.反射中&#xff0c;Class.forName和classloader的区别 4.session和cookie的区别和联系&#xff0c;session的生命周期&#xff0c;多个服务部署时session管理…

KerasSeq2seqGeneration:基于seq2seq模型的文本生成任务项目

项目的由来 1、分类、抽取、序列标注、生成任务是自然语言处理的四大经典任务&#xff0c;其中&#xff0c;分类、抽取任务&#xff0c;可以使用规则进行快速实现。而对于生成而言&#xff0c;则与统计深度学习关系较为密切。 2、当前&#xff0c;GPT系列&#xff0c;自动文本…

LightGBM——提升机器算法(图解+理论+安装方法+python代码)

原文地址&#xff1a;https://blog.csdn.net/huacha__/article/details/81057150 前言 LightGBM是个快速的&#xff0c;分布式的&#xff0c;高性能的基于决策树算法的梯度提升框架。可用于排序&#xff0c;分类&#xff0c;回归以及很多其他的机器学习任务中。 在竞赛题中&am…

这个NLP工具,玩得根本停不下来

今天推荐一个有趣的自然语言处理公众号AINLP&#xff0c;关注后玩得根本停不下来&#xff01;AINLP的维护者是我爱自然语言处理&#xff08;52nlp&#xff09;博主&#xff0c;他之前在腾讯从事NLP相关的研发工作&#xff0c;目前在一家创业公司带技术团队。AINLP公众号的定位是…

论文浅尝 | 基于Universal Schema与Memory Network的知识+文本问答

来源&#xff1a;ACL 2017链接&#xff1a;http://aclweb.org/anthology/P17-2057本文提出将 Universal schema 用于自然语言问答中&#xff0c;通过引入记忆网络&#xff0c;将知识库与文本中大量的事实信息结合起来&#xff0c;构建出一个由问答对&#xff08;question-answe…

数据结构--图 Graph

文章目录1. 概念2. 存储方法2.1 邻接矩阵 Adjacency Matrix2.2 邻接表 Adjacency List3. 图的遍历3.1 广度优先搜索BFS&#xff08;Breadth First Search&#xff09;3.2 BFS代码&#xff08;基于邻接表&#xff09;3.3 深度优先搜索DFS&#xff08;Depth First Search&#xf…

ChineseDiachronicCorpus项目,大规模中文历时语料库

ChineseDiachronicCorpus ChineseDiachronicCorpus&#xff0c;中文历时语料库&#xff0c;横跨六十余年&#xff0c;包括腾讯历时新闻2009-2016&#xff0c;人民日报历时语料1946-2003&#xff0c;参考消息历时语料1957-2002。基于历时流通语料库&#xff0c;可用于历时语言变…

2019最新拼多多Java面试题:幻影读+分段锁+死锁+Spring Cloud+秒杀

拼多多Java一面 简短自我介绍 事务的ACID&#xff0c;其中把事务的隔离性详细解释一遍 脏读、幻影读、不可重复读 红黑树、二叉树的算法 平常用到哪些集合类&#xff1f;ArrayList和LinkedList区别&#xff1f;HashMap内部数据结构&#xff1f;ConcurrentHashMap分段锁&…

视频问答兴起,多跳问答热度衰退,92篇论文看智能问答的发展趋势

星标/置顶小屋&#xff0c;带你解锁最萌最前沿的NLP、搜索与推荐技术文 | 舒意恒&#xff08;南京大学硕士生&#xff0c;知识图谱方向&#xff09;编 | 北大小才女小轶2019年的时候&#xff0c;舒意恒Y.Shu整理了一份《2019年&#xff0c;智能问答有哪些研究方向&#xff1f;…

论文浅尝 | 知识图谱相关实体搜索

本文转载自公众号&#xff1a;南大Websoft。相关搜索&#xff08;Relevance Search&#xff09;是信息检索中的一个经典问题&#xff0c;相关搜索是指给定一个查询实体&#xff0c;返回与其相关度最高的实体&#xff08;一个类似的问题Similarity Search&#xff0c;一般来说指…

最新美团Java面试题目(共3面)

一面 线程池用过哪些&#xff0c;线程池有哪些参数&#xff0c;然后问我几个常用线程池的用法和实际场景问题。 集合框架的知识&#xff0c;hashmap&#xff0c;ArrayList&#xff0c;LinkedList源码相关知识&#xff0c;基本整个介绍了一遍&#xff0c;与hastable&#xff0c…

PersonGraphDataSet近十万的开放人物关系图谱项目

PersonGraphDataSet PersonGraphDataSet, nearly 10 thousand person2person relationship facts that build from extraction method, which can be applied to person kg search and inference applications。 人物图谱数据集&#xff0c;近十万的人物关系图谱事实数据库&am…