为什么说深耕AI领域绕不开知识图谱?

640?wx_fmt=jpeg

来源:AI科技大本营


“所有在 AI 领域深耕的人,最终都会发现语义鸿沟仍是一个非常具有挑战性的问题,这最终还需要借助知识图谱等技术,来帮助将整体的 AI 认知取得新进展。”在 5 月 26 日的 CTA 峰会机器学习专场,Hulu 首席研究主管谢晓辉如此说道。


某种程度上,机器学习技术的发展可能碰到了天花板,他的观点说明知识图谱对增强机器学习至关重要。当然,作为实现科学认知非常重要的一步,知识图谱自身也有着复杂的技术和应用。


5 月 27 日,由 CSDN 与数字经济人才发展中心联合主办的CTA 核心技术及应用峰会在杭州国际博览中心继续进行。在知识图谱专场,来自学界和业界的知名技术专家就知识图谱领域的技术应用实践、以及未来发展方向进行了全面深入的探讨。他们分别是:


  • 东南大学教授漆桂林

  • 清华大学长聘教授李涓子

  • 乐言科技 CTO、中文知识图谱 zhishi.me 创建人王昊奋

  • 百度知识图谱构建与认知团队负责人张扬

  • 复旦大学教授、复旦大学知识工场实验室负责人肖仰华

  • 上海交通大学电子信息与电气工程学院教授朱其立

  • 蚂蚁金服人工智能部技术专家刘阳阳

  • 海知智能联合创始人&CTO 丁力

  • 北京知识图谱科技有限公司CEO 吴刚


以下为上述各位嘉宾演讲精华内容,本文整理如下:


漆桂林:知识图谱平台化是知识图谱成功的保证


640?wx_fmt=jpeg

作为本次知识图谱论坛的出品人,东南大学教授漆桂林围绕《知识图谱的技术分析和平台化路线》对相关需要关注的问题做了全局性的深入分析。


在他看来,知识图谱平台的出现极大促进了人工智能的发展,为机器提供认知思维能力和关联分析能力。现在,企业开始构建知识图谱平台已是必然趋势。不过技术研发周期长、技术选项难、人才稀缺、成本高都是企业平台化过程中的困难。未来,不仅有行业平台,也会有公共平台帮助降低知识图谱技术应用的门槛,这需要我们沉淀各种数据和技术,快速构建知识图谱以支撑行业应用,充分发挥知识图谱的价值。


他还给出了知识图谱构建经验总结,主要有四点:知识图谱项目应该紧紧把握需求驱动原则;知识图谱项目成功与否不是看图谱建多好,而是看需求是否满足;每一个知识图谱构建都是一个项目,控制成本是图谱构建中的一个核心要素;简单才是美,不要过于强调复杂算法(比如说很多 DL 模型)。


最后他总结称,知识图谱平台化是知识图谱成功的保证。知识图谱平台将跟机器学习平台一样,让知识图谱更好普及,而随着知识图谱平台的发展,企业将需要更多知识工程师,而不是算法工程师,知识图谱门槛也将降低。


李涓子:知识是人工智能的核心命题与关键基础


640?wx_fmt=jpeg

清华大学长聘教授李涓子以《用知识为 AI 赋能》为题带来了精彩的分享。她提到,知识是人工智能的核心命题与关键基础。


专家系统让人工智能应用于行业,让计算机解决领域中的问题。现在到了构建一个生产知识的知识引擎,大规模应用知识的时代。而要实现机器智能,需要语言知识、常识知识、行业知识的知识。实现全类型知识的支持,要经历三个阶段:增加专家系统的阶段、统计学习的阶段、可解释的、鲁棒性的人工智能阶段,她希望实现一个可解释的、鲁棒的、可信的、安全的人工智能,未来主要的实现方法是知识驱动和数据驱动相结合的方法。


在她看来,未来可能在五到十年内是知识图谱逐渐成熟和发展的阶段。从技术研究和整个核心技术发展与应用过程中可以看到,实现大规模的知识还面临很多挑战,她还希望能有一个知识生态,让大家能共同贡献知识。最后,她认为需要把知识图谱技术平台化,把数据转化成知识,提供创新应用,发挥知识的价值。


王昊奋:知识图谱不是一门学科,更像是一个工程


640?wx_fmt=jpeg

乐言科技 CTO、中文知识图谱 zhishi.me 创建人王昊奋主要讲述了知识驱动的智能问答在企业计算中的落地实践。


为什么说智能问答越来越重要?因为它解决了信息过载的问题,同时知识图谱技术的提出,使智能问答系统的能力更加强大。随后,他从 IRQA(基于信息检索的问答)、KBQA(基于知识库的问答)、MRC(基于阅读理解的回答)三种问答技术形态出发,指出不同的 QA 技术擅长回答的问题不同,需要取长补短。


此外,王昊奋认为,知识图谱并不是一个学科,其实更像是一个工程,它未来会结合自然语言处理、机器学习、数据库等各方面技术的优点和成果来去形成本身的应用。


张扬:构建易于开发者使用的开放知识图谱平台


640?wx_fmt=jpeg

百度知识图谱构建与认知团队负责人张扬主要回顾了百度知识图谱的发展历程,分为四个阶段:


第一阶段:2013 年以前,Pre-KG,其主要用于解决结构化数据生产与处理,以及稳定的数据通路与时效性。


第二阶段:2014 年-2015 年,领域知识图谱,其主要挑战在于知识表示、知识生产、知识更新、实体抽取、Tag 抽取等。


第三阶段:2016 年-2017 年,通用知识图谱。仅靠垂类数据无法满足用户在搜索推荐场景下的多样化知识需求,这导致海量知识获取、自动化知识表示、以及知识化搜索与推荐等方面的挑战。期间,主要采用了知识抽取、知识抽取、知识化搜索、知识化推荐等方法。


第四阶段:2018 年以后,多元异构知识图谱,不仅包括关注点图谱,还有实体图谱、事件图片、用户图片、POI 图谱,同时将这些图谱进行关联。


最后张扬强调,构建知识图谱的过程具有一定工作量和门槛。百度希望构建一个开放的知识图谱平台,让开发者更加聚焦于知识库的应用,从而简化开发过程。


肖仰华:知识图谱技术引领下的大数据知识工程全新阶段


640?wx_fmt=jpeg

复旦大学教授、复旦大学知识工场实验室负责人肖仰华,详细讲述了大规模知识图谱的构建过程,主要有三个核心要素:成本、规模、质量。如果要更省人力进行验证,以知识抽取为例:首先,利用弱监督、远程监督的策略进行自动标注;其次,利用端到端深度学习模型降低特征工程代价;最后,利用先验知识降低样本依赖。


此外,他还回溯了知识工程的起源,是由符号主义推动。然后,互联网时代的大规模开放应用,需要全新的知识表示,Google 知识图谱诞生,代表着知识工程迈入大数据时代。这个时代下,传统的方法已经不适用,新的机遇与使命由数据驱动的大规模自动化知识抽取,可以利用众包技术、高质量的 UGC 等。


他还提到,知识将显著增强加学习能力,包括降低机器学习模型的大样本依赖,提高学习的经济性;提高机器学习模型对先验知识的利用效率;提高机器学习模型与先验知识的一致性。


肖仰华总结称,大数据时代的到来,使得自动化知识获取成为可能,知识工程有望突破知识库的规模与质量瓶颈。知识工程在知识图谱技术引领下进入大数据知识工程全新阶段(BigKE),BigKE 将显著提升机器认知智能水平。


朱其立:构建电商概念的认知知识图谱


640?wx_fmt=jpeg

上海交通大学电子信息与电气工程学院教授朱其立讲述了阿里巴巴电商认知图谱构建的原因、认知图谱的结构和算法模块,以及主要的应用案例及前景介绍。他表示,对于电商,首先需要认识到用户有哪些需求;其次,以商品为中心的知识体系在理解用户需求时,存在天然缺陷。他还指出,要想来弥补这样的语义鸿沟,需要构建开放域概念和电商概念的认知知识图谱。


那么,在构建认知知识图谱的过程中,团队提出了原子概念 (Primitive Concepts)的策略。他依次讲述了原子概念的分类体系、原子概念的消歧、电商概念的挖掘、电商概念的生成、以及关系构建。此外,他还指出,构建该知识图谱需要在实体识别、文本消歧、关系识别、短文本生成等关键 NLP 技术上实现突破,目前主要应用于搜索、推荐、解释等场景中。


刘阳阳:金融场景下知识图谱技术的应用实践


640?wx_fmt=jpeg


蚂蚁金服人工智能部技术专家刘阳阳分享了蚂蚁金服知识图谱相关的进展,以及金融场景下知识图谱技术的实践与应用,他分别从智能理赔、智能保顾、智能推荐三个场景对此进行了说明。刘阳明表示,知识图谱的应用更主要是深入理解业务的痛点是什么,知识图谱在其中能解决什么问题。


丁力:构建知识图谱的五点实践经验


640?wx_fmt=jpeg

知识图谱是开放人机协同管理的知识组织机制,不但为开放数据互联与融合提供了规范,也为领域知识图谱的积累与复用提供协同管理机制。海智智能联合创始人&CTO 丁力表示,在应用层上,知识图谱要考虑算法,另一方面还需要考虑如何在终端用户中体现价值与特色,让更多终端用户使用平台解决实际问题。


何时使用知识图谱?知识图谱作为一种面向人机协同的开放知识管理机制,有特定价值和成本。对于具体业务问题而言,知识图谱并非唯一的解决方案,也不总是更好的解决方案。海智智能联合创始人&CTO 丁力给出了五点实践经验:


  • 这是一个封闭的系统还是开放的系统。 涉及到融合外部数据,尤其是文本数据与结构化数据的融合,或者后续未知的数据修订,知识图谱会产生价值。

  • 是否涉及复杂的关系查询。关系数据库同样可以处理关系查询,知识图谱结合图数据处理平台则可以高效处理对复杂子图(多层 JOIN)的探索式查询。

  • 是否要作为企业内部数据标准化的一部分。一个独立的业务系统可自洽运行,但是当与企业内部其他信息系统对接,需要标准化的可理解的数据接口。

  • 系统可以复用规则推理、图分析、机器学习等常见人工智能模块,知识图谱通过通用的数据接口和可复制的研发流程,提升系统构建效率

  • 能否承担实施知识图谱基础设施的成本。


此外,他还从知识图谱的模板化解决方案、数据模型的选择、本体概念体系的选择三大层面讲述了知识图谱建模的技术要点。


吴刚:知识图谱如何赋能企业智能化升级


640?wx_fmt=jpeg

北京知识图谱科技有限公司 CEO 吴刚总结了五点知识图谱项目挑战:数据壁垒,高质量知识获取难,数据结构化、知识融合难;平台工具:技术栈长,知识图谱构建和运维成本相对高;专业知识:知识专业性强,需行业专家技术团队的磨合,知识模型建立;闭环系统:半自动化学习、可迭代更新的闭环智能应用。


由此,他给出业界在做知识图谱项目技术应用建议:控制成本、小步快走、快速迭代。这就需要具备以下能力:实践与理论的鸿沟,从解决问题出发;工程开发能力;算法落地(nlp,机器学习);数据处理(爬虫、ETL、数据清洗、本体构建、图谱构建)。


最后,他还给出了知识图谱技术及应用趋势:


  • 知识图谱与深度学习、语音识别、图像识别等技术深度结合,打通感知到认知;

  • 知识图谱应用场景由浅至深,逐渐沉淀高质量精细化行业知识图谱;

  • 企业数据壁垒逐渐打通,应用从 BI 到 AI;

  • 全生命周期知识图谱开放平台化,构建与运维成本大大降低,人机协同,集成算法和行业模型,闭环迭代,半自动化自学习。


圆桌对话:知识图谱产学研合作如何兼顾研究和落地?


640?wx_fmt=jpeg


在知识图谱圆桌对话环节,乐言科技 CTO 王昊奋发问,知识图谱处在一个半实用、半研发的阶段,如何去迭代螺旋上升?同时,现在在知识图谱的项目合作上,如何兼顾阳春白雪的研究和扎扎实实的落地?在场嘉宾分享了各自观点。

    

肖仰华:与人合作很重要,我觉得阳春白雪的研究和扎扎实实的落地都需要。高校可以在这两个方面发挥作用。阳春白雪探索一些新的知识表示机制、模型、算法,企业很难花时间做的事情委托高校去研究。为什么说高校也可以发挥落地作用?企业不缺某一个算法,缺的是不知道怎样把这些算法拼起来,在工程咨询方面可以找高校合作,但工业界不要对学校团队有过高的期望。另外,偏研究的团队不要期望落地,偏落地的团队不要期望偏阳春白雪。

    

李涓子:知识图谱落地肯定是企业切实的需求,学界可以帮助建立知识图谱整体架构。而企业落地本身存在的问题,也可以把它变成研究问题。另外高校可能还应该在研究的前沿性要有一定前瞻性,比如我们还是希望能做常识知识的表示和推理,通过能够结合知识驱动和数据驱动的方法做一些常识知识推理工作。


张扬:企业和高校其实各有各的优势。高校的研究可能比较前沿,企业的优势就是可以快速的把技术转换成商业产品。企业跟高校的合作,可以把问题的边界定义清楚,这样项目会更加可控。

    

朱其立:企业和高校双方应该坐下来,让高校先了解企业需求,然后把这个需求抽象成一个科学问题,高校负责解决科学问题,科学问题在公开的数据上面做得比较好后,再把解决问题上获取的知识传递给公司或者企业去具体实现,在数据上做一些测试、评估。如此迭代做下去,既有阳春白雪,又有实际应用。


吴刚:像创业公司肯定不能像BAT的合作方式,后者有大量资金和时间支持。创业公司更多从应用层面出发,不完全是做工程。高校可能在参与国家大型课题或者算法有很多的积累,双方可以结合起来,通过结合算法,少部分的工程能力,为客户做出产品,最后再投钱进行更好的产学研合作。


至此,为其两天的 CTA核心技术与应用峰会圆满结束。最后,再次奉上本次大会官方链接,一键获取大会活动详情及部分嘉宾演讲 PPT:

https://bss.csdn.net/m/topic/cta_meet/index#

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。


  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”


640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/491737.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

机器学习中的相似性度量总结

来自 机器学习算法那些事公众号 在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 目录 1. 欧氏距离 …

吴恩达《机器学习》学习笔记十二——机器学习系统

吴恩达《机器学习》学习笔记十二——机器学习系统一、设计机器学习系统的思想1.快速实现绘制学习曲线——寻找重点优化的方向2.误差分析3.数值估计二、偏斜类问题(类别不均衡)三、查准率P与召回率R——代替准确率的评估指标四、查准率与召回率的权衡——…

增强现实:一场正在到来的医疗革命

来源: 资本实验室图像化可以让医生的诊断、决策和治疗更加准确,可以说是医疗史上非常重要的一项技术突破。近几年,通讯技术的发展推动了空间计算的快速商业化。在医疗领域,增强现实(AR)、虚拟现实&#xff…

吴恩达《机器学习》学习笔记十三——机器学习系统(补充)

这次笔记是对笔记十二的补充,之前讨论了评价指标,这次主要是补充机器学习系统设计中另一个重要的方面,用来训练的数据有多少的问题。 笔记十二地址:https://blog.csdn.net/qq_40467656/article/details/107602209 之前曾说过不要…

全球CMOS图像传感器厂商最新排名:黑马杀出

来源:半导体行业观察近期,台湾地区的Yuanta Research发布报告,介绍了其对CMOS图像传感器(CIS)市场的看法,以及到2022年的前景预期。从该研究报告可以看出,2018年全球CMOS图像传感器的市场规模为137亿美元,其…

吴恩达《机器学习》学习笔记十四——应用机器学习的建议实现一个机器学习模型的改进

吴恩达《机器学习》学习笔记十四——应用机器学习的建议实现一个机器学习模型的改进一、任务介绍二、代码实现1.准备数据2.代价函数3.梯度计算4.带有正则化的代价函数和梯度计算5.拟合数据6.创建多项式特征7.准备多项式回归数据8.绘制学习曲线𝜆0𝜆1&…

刘锋 吕乃基:互联网中心化与去中心化之争

前言:本文发表在2019年5月《中国社会科学报》上,主要从神经学角度分析互联网的发育过程,并对云计算和区块链为代表的中心化与去中心化技术趋势进行了探讨。当前,学术界和产业界对互联网的未来发展出现了分歧。随着谷歌、亚马逊、F…

iOS-BMK标注覆盖物

在iOS开发中,地图算是一个比较重要的模块。我们常用的地图有高德地图,百度地图,谷歌地图,对于中国而言,苹果公司已经不再使用谷歌地图,官方使用的是高德地图。下面将讲述一下百度地图开发过程中的一些小的知…

PyTorch框架学习二——基本数据结构(张量)

PyTorch框架学习二——基本数据结构(张量)一、什么是张量?二、Tensor与Variable(PyTorch中)1.Variable2.Tensor三、Tensor的创建1.直接创建Tensor(1)torch.tensor()(2)to…

十年空缺一朝回归,百度正式任命王海峰出任CTO

来源:机器之心百度要回归技术初心了吗?自 2010 年李一男卸任百度 CTO 之后,百度对这一职位就再无公开任命,一空就是 10 年。而今天上午李彦宏突然发出的一纸职位调令,让这个空缺多年的百度 CTO 之位有了新的掌舵手。就…

Windows下卸载TensorFlow

激活tensorflow:activate tensorflow输入:pip uninstall tensorflowProceed(y/n):y如果是gpu版本: 激活tensorflow:activate tensorflow-gpu输入:pip uninstall tensorflow-gpuProceed&#xf…

PyTorch框架学习三——张量操作

PyTorch框架学习三——张量操作一、拼接1.torch.cat()2.torch.stack()二、切分1.torch.chunk()2.torch.split()三、索引1.torch.index_select()2.torch.masked_select()四、变换1.torch.reshape()2.torch.transpace()3.torch.t()4.torch.squeeze()5.torch.unsqueeze()一、拼接 …

'chcp' 不是内部或外部命令,也不是可运行的程序

在cmd窗口中输入activate tensorflow时报错chcp 不是内部或外部命令,也不是可运行的程序 添加两个环境变量即可解决: 将Anaconda的安装地址添加到环境变量“PATH”,如果没有可以新建一个,我的安装地址是“D:\Anaconda”&#xf…

2019年全球企业人工智能发展现状分析报告

来源:199IT互联网数据中心《悬而未决的AI竞赛——全球企业人工智能发展现状》由德勤洞察发布,德勤中国科技、传媒和电信行业编译。为了解全球范围内的企业在应用人工智能技术方面的情况以及所取得的成效,德勤于2018年第三季度针对早期人工智能…

PyTorch框架学习四——计算图与动态图机制

PyTorch框架学习四——计算图与动态图机制一、计算图二、动态图与静态图三、torch.autograd1.torch.autograd.backward()2.torch.autograd.grad()3.autograd小贴士4.代码演示理解(1)构建计算图并反向求导:(2)grad_tens…

美国准备跳过5G直接到6G 用上万颗卫星包裹全球,靠谱吗?

来源:瞭望智库这项2015年提出的计划,规模极其巨大,总计要在2025年前发射近12000颗卫星。有自媒体认为,该计划表示美国将在太空中建立下一代宽带网络,绕过5G,直接升级到6G,并据此认为“6G并不遥远…

PyTorch框架学习五——图像预处理transforms(一)

PyTorch框架学习五——图像预处理transforms(一)一、transforms运行机制二、transforms的具体方法1.裁剪(1)随机裁剪:transforms.RandomCrop()(2)中心裁剪:transforms.CenterCrop()&…

IBM Watson大裁70% 员工,撕掉了国内大批伪AI企业最后一块遮羞布!

来源:新医路Watson 是IBM 的重量级AI 系统;近年IBM 大力发展AI 医疗,在2015 年成立独立的 Watson Health 部门,并收购多家医疗数据公司,前景看好。然而短短三年,这个明星部门就要裁员50% 到70% 的员工,代表…

PyTorch框架学习六——图像预处理transforms(二)

PyTorch框架学习六——图像预处理transforms(二)(续)二、transforms的具体方法4.图像变换(1)尺寸变换:transforms.Resize()(2)标准化:transforms.Normalize()…

numpy方法读取加载mnist数据集

方法来自机器之心公众号 首先下载mnist数据集,并将里面四个文件夹解压出来,下载方法见前面的博客 import tensorflow as tf import numpy as np import osdataset_path rD:\PycharmProjects\tensorflow\MNIST_data # 这是我存放mnist数据集的位置 is_…