来源:AI科技大本营
“所有在 AI 领域深耕的人,最终都会发现语义鸿沟仍是一个非常具有挑战性的问题,这最终还需要借助知识图谱等技术,来帮助将整体的 AI 认知取得新进展。”在 5 月 26 日的 CTA 峰会机器学习专场,Hulu 首席研究主管谢晓辉如此说道。
某种程度上,机器学习技术的发展可能碰到了天花板,他的观点说明知识图谱对增强机器学习至关重要。当然,作为实现科学认知非常重要的一步,知识图谱自身也有着复杂的技术和应用。
5 月 27 日,由 CSDN 与数字经济人才发展中心联合主办的CTA 核心技术及应用峰会在杭州国际博览中心继续进行。在知识图谱专场,来自学界和业界的知名技术专家就知识图谱领域的技术应用实践、以及未来发展方向进行了全面深入的探讨。他们分别是:
东南大学教授漆桂林
清华大学长聘教授李涓子
乐言科技 CTO、中文知识图谱 zhishi.me 创建人王昊奋
百度知识图谱构建与认知团队负责人张扬
复旦大学教授、复旦大学知识工场实验室负责人肖仰华
上海交通大学电子信息与电气工程学院教授朱其立
蚂蚁金服人工智能部技术专家刘阳阳
海知智能联合创始人&CTO 丁力
北京知识图谱科技有限公司CEO 吴刚
以下为上述各位嘉宾演讲精华内容,本文整理如下:
漆桂林:知识图谱平台化是知识图谱成功的保证
作为本次知识图谱论坛的出品人,东南大学教授漆桂林围绕《知识图谱的技术分析和平台化路线》对相关需要关注的问题做了全局性的深入分析。
在他看来,知识图谱平台的出现极大促进了人工智能的发展,为机器提供认知思维能力和关联分析能力。现在,企业开始构建知识图谱平台已是必然趋势。不过技术研发周期长、技术选项难、人才稀缺、成本高都是企业平台化过程中的困难。未来,不仅有行业平台,也会有公共平台帮助降低知识图谱技术应用的门槛,这需要我们沉淀各种数据和技术,快速构建知识图谱以支撑行业应用,充分发挥知识图谱的价值。
他还给出了知识图谱构建经验总结,主要有四点:知识图谱项目应该紧紧把握需求驱动原则;知识图谱项目成功与否不是看图谱建多好,而是看需求是否满足;每一个知识图谱构建都是一个项目,控制成本是图谱构建中的一个核心要素;简单才是美,不要过于强调复杂算法(比如说很多 DL 模型)。
最后他总结称,知识图谱平台化是知识图谱成功的保证。知识图谱平台将跟机器学习平台一样,让知识图谱更好普及,而随着知识图谱平台的发展,企业将需要更多知识工程师,而不是算法工程师,知识图谱门槛也将降低。
李涓子:知识是人工智能的核心命题与关键基础
清华大学长聘教授李涓子以《用知识为 AI 赋能》为题带来了精彩的分享。她提到,知识是人工智能的核心命题与关键基础。
专家系统让人工智能应用于行业,让计算机解决领域中的问题。现在到了构建一个生产知识的知识引擎,大规模应用知识的时代。而要实现机器智能,需要语言知识、常识知识、行业知识的知识。实现全类型知识的支持,要经历三个阶段:增加专家系统的阶段、统计学习的阶段、可解释的、鲁棒性的人工智能阶段,她希望实现一个可解释的、鲁棒的、可信的、安全的人工智能,未来主要的实现方法是知识驱动和数据驱动相结合的方法。
在她看来,未来可能在五到十年内是知识图谱逐渐成熟和发展的阶段。从技术研究和整个核心技术发展与应用过程中可以看到,实现大规模的知识还面临很多挑战,她还希望能有一个知识生态,让大家能共同贡献知识。最后,她认为需要把知识图谱技术平台化,把数据转化成知识,提供创新应用,发挥知识的价值。
王昊奋:知识图谱不是一门学科,更像是一个工程
乐言科技 CTO、中文知识图谱 zhishi.me 创建人王昊奋主要讲述了知识驱动的智能问答在企业计算中的落地实践。
为什么说智能问答越来越重要?因为它解决了信息过载的问题,同时知识图谱技术的提出,使智能问答系统的能力更加强大。随后,他从 IRQA(基于信息检索的问答)、KBQA(基于知识库的问答)、MRC(基于阅读理解的回答)三种问答技术形态出发,指出不同的 QA 技术擅长回答的问题不同,需要取长补短。
此外,王昊奋认为,知识图谱并不是一个学科,其实更像是一个工程,它未来会结合自然语言处理、机器学习、数据库等各方面技术的优点和成果来去形成本身的应用。
张扬:构建易于开发者使用的开放知识图谱平台
百度知识图谱构建与认知团队负责人张扬主要回顾了百度知识图谱的发展历程,分为四个阶段:
第一阶段:2013 年以前,Pre-KG,其主要用于解决结构化数据生产与处理,以及稳定的数据通路与时效性。
第二阶段:2014 年-2015 年,领域知识图谱,其主要挑战在于知识表示、知识生产、知识更新、实体抽取、Tag 抽取等。
第三阶段:2016 年-2017 年,通用知识图谱。仅靠垂类数据无法满足用户在搜索推荐场景下的多样化知识需求,这导致海量知识获取、自动化知识表示、以及知识化搜索与推荐等方面的挑战。期间,主要采用了知识抽取、知识抽取、知识化搜索、知识化推荐等方法。
第四阶段:2018 年以后,多元异构知识图谱,不仅包括关注点图谱,还有实体图谱、事件图片、用户图片、POI 图谱,同时将这些图谱进行关联。
最后张扬强调,构建知识图谱的过程具有一定工作量和门槛。百度希望构建一个开放的知识图谱平台,让开发者更加聚焦于知识库的应用,从而简化开发过程。
肖仰华:知识图谱技术引领下的大数据知识工程全新阶段
复旦大学教授、复旦大学知识工场实验室负责人肖仰华,详细讲述了大规模知识图谱的构建过程,主要有三个核心要素:成本、规模、质量。如果要更省人力进行验证,以知识抽取为例:首先,利用弱监督、远程监督的策略进行自动标注;其次,利用端到端深度学习模型降低特征工程代价;最后,利用先验知识降低样本依赖。
此外,他还回溯了知识工程的起源,是由符号主义推动。然后,互联网时代的大规模开放应用,需要全新的知识表示,Google 知识图谱诞生,代表着知识工程迈入大数据时代。这个时代下,传统的方法已经不适用,新的机遇与使命由数据驱动的大规模自动化知识抽取,可以利用众包技术、高质量的 UGC 等。
他还提到,知识将显著增强加学习能力,包括降低机器学习模型的大样本依赖,提高学习的经济性;提高机器学习模型对先验知识的利用效率;提高机器学习模型与先验知识的一致性。
肖仰华总结称,大数据时代的到来,使得自动化知识获取成为可能,知识工程有望突破知识库的规模与质量瓶颈。知识工程在知识图谱技术引领下进入大数据知识工程全新阶段(BigKE),BigKE 将显著提升机器认知智能水平。
朱其立:构建电商概念的认知知识图谱
上海交通大学电子信息与电气工程学院教授朱其立讲述了阿里巴巴电商认知图谱构建的原因、认知图谱的结构和算法模块,以及主要的应用案例及前景介绍。他表示,对于电商,首先需要认识到用户有哪些需求;其次,以商品为中心的知识体系在理解用户需求时,存在天然缺陷。他还指出,要想来弥补这样的语义鸿沟,需要构建开放域概念和电商概念的认知知识图谱。
那么,在构建认知知识图谱的过程中,团队提出了原子概念 (Primitive Concepts)的策略。他依次讲述了原子概念的分类体系、原子概念的消歧、电商概念的挖掘、电商概念的生成、以及关系构建。此外,他还指出,构建该知识图谱需要在实体识别、文本消歧、关系识别、短文本生成等关键 NLP 技术上实现突破,目前主要应用于搜索、推荐、解释等场景中。
刘阳阳:金融场景下知识图谱技术的应用实践
蚂蚁金服人工智能部技术专家刘阳阳分享了蚂蚁金服知识图谱相关的进展,以及金融场景下知识图谱技术的实践与应用,他分别从智能理赔、智能保顾、智能推荐三个场景对此进行了说明。刘阳明表示,知识图谱的应用更主要是深入理解业务的痛点是什么,知识图谱在其中能解决什么问题。
丁力:构建知识图谱的五点实践经验
知识图谱是开放人机协同管理的知识组织机制,不但为开放数据互联与融合提供了规范,也为领域知识图谱的积累与复用提供协同管理机制。海智智能联合创始人&CTO 丁力表示,在应用层上,知识图谱要考虑算法,另一方面还需要考虑如何在终端用户中体现价值与特色,让更多终端用户使用平台解决实际问题。
何时使用知识图谱?知识图谱作为一种面向人机协同的开放知识管理机制,有特定价值和成本。对于具体业务问题而言,知识图谱并非唯一的解决方案,也不总是更好的解决方案。海智智能联合创始人&CTO 丁力给出了五点实践经验:
这是一个封闭的系统还是开放的系统。 涉及到融合外部数据,尤其是文本数据与结构化数据的融合,或者后续未知的数据修订,知识图谱会产生价值。
是否涉及复杂的关系查询。关系数据库同样可以处理关系查询,知识图谱结合图数据处理平台则可以高效处理对复杂子图(多层 JOIN)的探索式查询。
是否要作为企业内部数据标准化的一部分。一个独立的业务系统可自洽运行,但是当与企业内部其他信息系统对接,需要标准化的可理解的数据接口。
系统可以复用规则推理、图分析、机器学习等常见人工智能模块,知识图谱通过通用的数据接口和可复制的研发流程,提升系统构建效率
能否承担实施知识图谱基础设施的成本。
此外,他还从知识图谱的模板化解决方案、数据模型的选择、本体概念体系的选择三大层面讲述了知识图谱建模的技术要点。
吴刚:知识图谱如何赋能企业智能化升级
北京知识图谱科技有限公司 CEO 吴刚总结了五点知识图谱项目挑战:数据壁垒,高质量知识获取难,数据结构化、知识融合难;平台工具:技术栈长,知识图谱构建和运维成本相对高;专业知识:知识专业性强,需行业专家技术团队的磨合,知识模型建立;闭环系统:半自动化学习、可迭代更新的闭环智能应用。
由此,他给出业界在做知识图谱项目技术应用建议:控制成本、小步快走、快速迭代。这就需要具备以下能力:实践与理论的鸿沟,从解决问题出发;工程开发能力;算法落地(nlp,机器学习);数据处理(爬虫、ETL、数据清洗、本体构建、图谱构建)。
最后,他还给出了知识图谱技术及应用趋势:
知识图谱与深度学习、语音识别、图像识别等技术深度结合,打通感知到认知;
知识图谱应用场景由浅至深,逐渐沉淀高质量精细化行业知识图谱;
企业数据壁垒逐渐打通,应用从 BI 到 AI;
全生命周期知识图谱开放平台化,构建与运维成本大大降低,人机协同,集成算法和行业模型,闭环迭代,半自动化自学习。
圆桌对话:知识图谱产学研合作如何兼顾研究和落地?
在知识图谱圆桌对话环节,乐言科技 CTO 王昊奋发问,知识图谱处在一个半实用、半研发的阶段,如何去迭代螺旋上升?同时,现在在知识图谱的项目合作上,如何兼顾阳春白雪的研究和扎扎实实的落地?在场嘉宾分享了各自观点。
肖仰华:与人合作很重要,我觉得阳春白雪的研究和扎扎实实的落地都需要。高校可以在这两个方面发挥作用。阳春白雪探索一些新的知识表示机制、模型、算法,企业很难花时间做的事情委托高校去研究。为什么说高校也可以发挥落地作用?企业不缺某一个算法,缺的是不知道怎样把这些算法拼起来,在工程咨询方面可以找高校合作,但工业界不要对学校团队有过高的期望。另外,偏研究的团队不要期望落地,偏落地的团队不要期望偏阳春白雪。
李涓子:知识图谱落地肯定是企业切实的需求,学界可以帮助建立知识图谱整体架构。而企业落地本身存在的问题,也可以把它变成研究问题。另外高校可能还应该在研究的前沿性要有一定前瞻性,比如我们还是希望能做常识知识的表示和推理,通过能够结合知识驱动和数据驱动的方法做一些常识知识推理工作。
张扬:企业和高校其实各有各的优势。高校的研究可能比较前沿,企业的优势就是可以快速的把技术转换成商业产品。企业跟高校的合作,可以把问题的边界定义清楚,这样项目会更加可控。
朱其立:企业和高校双方应该坐下来,让高校先了解企业需求,然后把这个需求抽象成一个科学问题,高校负责解决科学问题,科学问题在公开的数据上面做得比较好后,再把解决问题上获取的知识传递给公司或者企业去具体实现,在数据上做一些测试、评估。如此迭代做下去,既有阳春白雪,又有实际应用。
吴刚:像创业公司肯定不能像BAT的合作方式,后者有大量资金和时间支持。创业公司更多从应用层面出发,不完全是做工程。高校可能在参与国家大型课题或者算法有很多的积累,双方可以结合起来,通过结合算法,少部分的工程能力,为客户做出产品,最后再投钱进行更好的产学研合作。
至此,为其两天的 CTA核心技术与应用峰会圆满结束。最后,再次奉上本次大会官方链接,一键获取大会活动详情及部分嘉宾演讲 PPT:
https://bss.csdn.net/m/topic/cta_meet/index#
未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。
如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”