一、议题
昨日,阿里达摩院唐呈光老师与我就行业知识图谱的schema的构建对于业务人员是不是有困难以及其中的难点或者耗时点做了一个简短的讨论,我觉得很有趣,发出来与大家一同思考。
唐:唐呈光,阿里巴巴算法专家小蜜对话开发平台对话引擎负责人
刘:刘焕勇,中国科学院软件研究所工程师、数据地平线算法总监
二、 正文
唐:焕勇,有个问题想和你探讨一下,你觉得行业知识图谱的schema的构建对于业务人员是不是有困难?这其中的难点或者耗时点,到底在哪里?
刘:唐老师,简单说两点自己的拙见。
刘:1、是的,尤其是刚入行不久的业务小白,构造一个标准的知识本体都很难。业务人员需要需要了解什么是主体、客体、复杂的怎么拆分,什么是属性,属性关系和实体关系怎么去区分,等等,这个既需要了解细节的业务,也需要将业务抽离、抽象,这个对于业务人员来讲是很难的。我觉得,知识架构师,知识产品经理是未来知识图谱的一个十分必要的工种。
刘:2、难点的话,包括1)一个是对业务的梳理或者说理解,既需要有跳出来的宏观把控,只有跳出来才能尽可能地建模场景元素,也需要对细节的把控,针对不同的需求,如问答、检索等,制定不同的本体,这个要求比较高;2)另外一个就是动态的schema的问题,schema的版本都会一直变化,根据业务变化,也会根据自己对业务的认识而变化,如何尽可能地减少这种变化,也是一个难点。
唐:分析得很到位[强],你觉得从技术角度,我们能从哪方面发力,降低这个构建难度呢?
刘:是两个域
刘:kg技术就是基于schema而展开的,是schema的后续操作。如果要做的话,那做shcema的自动生成,辅助schema的编辑?
唐:你觉得schema自动生成,这个技术的难点在哪里?我们自己搞了半年,效果也不太好啊
刘:我反问一个问题,为什么事件抽取搞来搞去都是ace那8大类23小类
刘:schema不存在一个标准的benchmark去评测,所以说好与不好也很难讲,现有的技术做不了太细的东西,可以笼统地搞一些出来,但业务不一定接受。
刘:换句话说,如果存在一种技术能够自己把某个行业知识体系搭出来,那么这个技术本身就相当于这个行业的专家水准,这是个悖论。
唐:因为事件是动态的,事件的类别发展太快了,没办法实时更新覆盖,这也导致事件不容易大范围定义 也不容易标注,所以大家都在常用公开数据 在都认可的事件类别上做模型方法和研究。
唐:这是我的理解。
刘:这是一方面,一是因为动态,类别发展太快,另一个是事件类型自身都是变化的,而且具有相对的主观性,所以很难有统一的标准,现在虽然有很多基于抽象泛化的方法去生成schema,但效果很差。与此相类似,kg的schema也是一样的,很难统一、很难细化、很难全量。
唐:那这个未来怎么才能做到规模化应用呢?
刘:不过,选择一个封闭的领域,找一个相对简单的场景,做下理论研究还是可以的。
刘:这个未来会很未来【我比较悲观】,规模化应用的话,还是上面说的,选择一个封闭的领域,找一个相对简单的场景去做小规模化,比如小蜜的问答,结构清晰的问答场景。
唐:明白
唐:我的感觉,现在的benchmark可以总结为三种:一是业务人员从应用出发的评价标准;二是研究人员从方法模型上的评价标准;三是实际使用情况反应的评价标准;三种标准都有道理,但是是三个角度,gap还挺大
刘:[强],到位
三、总结
知识图谱schema这个东西对于一个从无到有进行知识图谱构建的人来说,是个十分头疼的事情,无论是业务人员,还是技术人员,都存在诸多困惑,schema是对领域或者行业知识的一个高度抽象化建模,是个十分耗时的过程。对话中抛出几个观点,知识架构师,知识产品经理是未来知识图谱 的一个十分必要的工种,技术人员用技术的方式去学习生成图谱的schema,难度比较大,并且也不一定会为业务人员买账。所以,schema这个东西,道路且长。
关于作者
刘焕勇, Liu Huanyong,2017年硕士毕业,目前就职于中国科学院软件研究所,兼任数据地平线科技算法总监。专注金融、情报两大领域,从事事件抽取、事件演化、情感分析、事理(知识)图谱、常识推理、语言资源构建与应用等研发工作。主持研发自然语言处理技术开放平台数地工场、大规模实时事理知识学习系统学迹、全行业因果链查询与溯源项目寻链系统,并在智能金融、智能情报落地中负责实施了多个项目。致力于面向中文处理的基础知识库建设与理论技术开源共享,目前累计对外开放自然语言处理实践项目六十余项,其中知识图谱和事理图谱项目十六项。在openkg开放知识图谱联盟中开放工业应用知识库七类,主笔数地工场技术类系列文章二十余篇。
如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作,可联系我:
1、我的自然语言处理开源项目:https://liuhuanyong.github.io
2、我的csdn技术博客:https://blog.csdn.net/lhy2014
3、我的联系方式: 刘焕勇,中国科学院软件研究所,lhy_in_blcu@126.com.
4、我的共享知识库项目:刘焕勇,事理类知识库数据集,http://www.openkg.cn/organization/datahorizon.
5、我的工业项目:刘焕勇,以事理为核心的金融情报探索:https://datahorizon.cn.