67 亿美金搞个图,创建知识图谱的成本有多高你知道吗?

640?wx_fmt=jpeg

来源:算法与数学之美

摘要:我们知道强大的深度模型需要很多计算力,那你知道创建一个知识图谱的成本到底是多少吗?德国 Mannheim 大学的研究者最近仔细估算了各种知识图谱每创建一条记录所需要的成本,他们表示对于大型知识图谱,手动创建一个三元组(即一条记录)的成本在 2 到 6 美元之间,总成本在数百万到数十亿美元之间。


知识图谱 广泛用于各种领域,它的统计信息也常被分析。但有一个问题一直缺乏研究:产出价格是多少?在此论文中,研究者提出了一种方法预估知识图谱的成本。他们表示手动创建一个三元组(triple)的成本大约在 2 到 6 美元左右,而自动创建知识图谱的成本要降低 15 到 250 倍(即一个三元组 1 美分到 15 美分)。


注意其中 15 美分每条的「自动化」知识图谱还是需要大量人力进行数据的验证。此外,作者表示成本也应该作为知识图谱的评价标准,例如可以使用每个三元组的成本或其他更优的度量方法。


论文:How much is a Triple? Estimating the Cost of Knowledge Graph Creation


640?wx_fmt=png


论文地址:http://ceur-ws.org/Vol-2180/ISWC_2018_Outrageous_Ideas_paper_10.pdf


估计知识图谱的成本


随着知识图谱的广泛应用,我们越来越关注大型知识图谱,例如 DBpedia、YAGO 等。我们已经有很多方法从各种角度检查这些大型知识图谱,例如大小、覆盖度和质量等。然而这些分析不足的地方在于成本,即创建知识图谱的价格。


人工创建:Cyc 和 Freebase


对于人工创建的知识图谱,我们必须评估提供这些陈述语句(statement)的工作量,从而估计平均成本。


Cyc 是最早的通用知识图谱之一,同时它的开发成本也能公开获得。在 2017 年的一项会议中,Cyc 的创建者 Douglas Lenat 表示:构建 Cyc 的成本为 1.2 亿美元。在同一个 PPT 中,Lenat 表示 Cyc 一共有 21M 断言(assertion),因此每条陈述语句或断言需要 5.71 美元。若 1000 人有一年的时间完成,则每人每 9.5 分钟需要完成一条断言。


Freebase 是由志愿者共同完成的,因此其工作量更难判断。截止至 2011 年 4 月份,创建英文维基百科的估计时长为 41M 工时。同时维基百科包含 3.6M 的页面,平均每一个页面 36.4 个句子,因此换算下来每一条语句需要 18.7 分钟。由于大多数维基百科条目都是由美国构建的,我们可以使用每小时 7.25 美元的美国联邦最低工资作为人工成本估算,因此每一句的成本可以换算为 2.25 美元。借鉴这个成本,我们可以假设 Freebase 每一条陈述语句的成本也是 2.25 美元。


这比 Cyc 的平均成本低了一半,这种低成本也是合理的,因为 Cyc 是由人类专家构建的,而 Freebase 由非专业人员创建。总的而言,对于包含 30 亿事实(fact)的最新版 Freebase,它的总成本约为 67.5 亿美元($6.75B)。

 

自动创建: DBpedia、YAGO 和 NELL


评估自动创建知识图谱所花费成本不同于人工创建知识图谱。我们参考了用于创建知识图谱的软件,基于代码行数(LOC)来估计开发知识图谱的成本。我们遵循 [2] 中的分析,即一个软件生成项目平均每小时生产 37 行代码(LOC)。


DBpedia 主要是基于 DBpedia 提取框架从维基百科 Dump 得到的,它通过映射中心实体而创建知识图谱。DBpedia 两部分需要 4.9M 和 2.2M LOC,它需要的总开发成本为 510 万美元。鉴于英语 DBpedia[11] 共有 400M 陈述语句,每一条成本约为 1.85 美分。相比于人工搭建的知识图谱(每一条 2.25 美元),自动搭建的要节省百倍的成本。


YAGO 也是一种知识图谱,它将维基百科提取的知识与 WordNet[7] 相结合。为了公平比较,它的成本应该包含 WordNet 的搭建费用。YAGO 代码库有 1.6M LOC(包括将信息框映射到本体的规则),因此它的总体成本为 160 万美元。此外,WordNet 本身还包含了 117k 个同义词集,每一个包含一条注释。我们估计定义一个同义词集的成本与构建一个维基百科页面的成本相近,即最高 1000 万美元。若 YAGO 有 14 亿条陈述语句 [11],那么每一条的成本为 0.83 美分。相比人工搭建,它的成本要节省 250 倍。


NELL 是一个学习关系抽取 [8] 模式的系统,其核心技术包含 103k 的 LOC,预估开发成本为 10.9 万美元。此外,该数据集每月还需要人工校验 1467 条陈述语句。假设人工校验一条陈述语句的成本和创建成本一样,那么总的校验成本为 37.6 万美元,即通成本为 48.5 美元。因此换算下来,NELL 每条陈述语句的成本为 14.25 美分,即比手动搭建便宜 16 倍。


新的评估标准


把成本作为创建知识图谱的一种测量方法也能为其他评估方法铺平道路。例如,可以通过成本查验为知识图谱补充缺失信息提供新方法 [9]:一个人一年半开发知识图谱应该可以添加 2800 条陈述语句,这应该是人力手动产出的三元组数量。


另一个有趣的思路是开发成本与数据质量之间的关系。在图 1 中,我们图像描述了该论文讨论的知识图谱中每个三元组成本与错误率之间的关系。我们可以看到,高成本创建的三元组准确率也会更高,NELL 是个例外,准确率与成本之间关系极差。


640?wx_fmt=png

每个三元组成本与错误率之间的关系展示图。


总结


在这篇论文中,我们大体估计了创建一个流行的知识图谱所花费的成本,这也是当前研究忽视的一个方面。我们量化了自动创建知识图谱相比于手动方法的收益,并提出使用成本定义新型的评价标准,例如权衡成本与准确率。


有研究者反馈,我们也意识到有很多假设或估计在计算中都存在着问题(例如,我们没有考虑第三方库或基础设施的成本)。其次,知识图谱的来源或数据成本当前也没有考虑在内。然而,我们相信:知识图谱自身带来的价值将远超过各种构建成本的总和。 


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。


  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”


640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/492484.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

怎样修改MFC中应用程序标题的图标?

一、单文档中修改程序标题的图标 1. 切换到ResourceView视图,右键点击Icon,选择“import” ,导入图标(.ico)文件 2. 在CMainFrame中的OnCreate()函数中添加如下代码: //设置标题栏的图标 HICON m_hIcon AfxGetApp()->LoadIcon(IDI_ICON…

黄仁勋的“数据梦” 英伟达豪掷69亿美金虎口夺食

来源 : Bloomberg 编译:网易智能 晗冰3月12日消息,据国外媒体报道, 图形图像芯片制造商英伟达同意斥资69亿美元收购芯片制造商Mellanox,其欲通过此举大举进军不断增长的数据中心芯片市场。据悉,英伟达对Mel…

即使达到5级自动驾驶阶段,自动驾驶“卡车”也不可能完全“无人”

来源:IEEE编译:大数据文摘 李雷、周素云感谢Waymo和Uber等创业公司,让我们知道了无人驾驶汽车是怎么回事。这些汽车或卡车上配备了大量的传感器,并且依靠强大的计算能力使人们可以放心乘坐。愿景是美好的,但是却忽视了…

MFC中如何给对话框添加背景图片

定位到 void CXXXDlg::OnPaint(),在if()...else()中的else()下添加如下代码: else { //CDialog::OnPaint();//要禁止这个调用 CPaintDC dc(this); CRect rect; GetClientRect(&rect); CDC dcMem; dcMem.CreateCompatibleDC(&am…

孙正义万字访谈:AI是我现在唯一关注的事情,我是科技的绝对信徒

来源:腾讯科技科技变革丝毫没有减速,自动化就是科技的终极使命!这是孙正义在最新采访中再次强调的理念。在接受CNBC超长采访中,软银创始人、千亿美元愿景基金掌舵者一再表示,AI能解决人类无法解决的问题,未…

Oracle 直方图理论

一.何为直方图 直方图是一种几何形图表,它是根据从生产过程中收集来的质量数据分布情况,画成以组距为底边、以频数为高度的一系列连接起来的直方型矩形图,如图所示 二.ORACLE 直方图 在Oracle中直方图是一种对数据分布情况进行描述的工具。它…

怎样把MySQL的编码方式改为utf8?

一、当我们安装好MySQL后,单击电脑开始,然后运行cmd,记得必须要用管理员的身份运行。然后输入net start mysql 前面操作如果忘记采用管理员身份运行的话,会出现系统访问错误。 二、修改MySQL的编码方式为utf8 1、找到默认MySQL的安…

要更有钱、更烧钱,OpenAI 重组,加速融资之路

来源:AI 科技评论OpenAI 是一个非盈利性的 AI 组织,他们雇佣了许多一流的研究和开发人员,在机器学习理论和深度学习应用方面多有诸多成果,我们曾经报道过的许多强化学习连续控制成果、5v5 DOTA AI「OpenAI Five」、自动生成人类水…

MFC基于单文档制作吹彩色泡泡程序

1、代码如下: // 吹彩色泡泡Doc.h : interface of the CMyDoc class // /#if !defined(AFX_DOC_H__559CF0A7_41F7_48A5_A356_774764C0E60F__INCLUDED_) #define AFX_DOC_H__559CF0A7_41F7_48A5_A356_774764C0E60F__INCLUDED_#if _MSC_VER > 1000 #pragma once #e…

MFC制作贪吃蛇教程详解

写在前面的话 本次贪吃蛇教程主要知识点包括以下几个方面 1 CView类中的消息响应 2 控件的消息响应 3 基于CView类内的具体游戏实现 4 数组 5 游戏图形的实现用CDC类实现。 本版游戏的具体实现是在CViewl类中实现,所以其他…

人们对社会与金钱奖赏的预期共享神经环路

来源:神经科技摘要:在日常生活中,作为多种多样的目标导向行为的诱因,社会性奖赏与物质性奖赏扮演着同样重要的角色。2019年2月23日,国际神经科学杂志《Neuroscience & Biobehavioral Reviews》(影响因子&#xff1…

埃塞俄比亚空难,人机控制权争夺后的悲剧

来源:姬扬科学网博客2019年3月10日,埃塞俄比亚航空客机起飞后6分钟突然坠毁,机上157人死难、无人生还,包括8名来自中国大陆的旅客。这次失事的飞机是刚投入使用不久的波音737-MAX8,与去年十月份印度尼西亚航空失事的飞…

MFC制作员工信息管理系统

1.在MFC中建立如下的对话框。 2.修改相关控件的ID如下: 添加按钮的ID为:IDC_ADD,删除按钮的ID为:IDC_DEL,修改按钮的ID为:IDC_MOD。 三个编辑框的ID分别为:IDC_NUMB,IDC_NAME,IDC_SALA。列表控件的ID为&a…

中国AI创新者论坛将于3月21日在清华大学举办

来源:网易智能创新者是如何改变世界的?史蒂夫乔布斯生前在苹果产品发布会上,经常会用同一张幻灯片作为总结,在他身后的大屏幕上会出现一个路标,上面标示着“技术”(Technology)和“人文”&#…

边缘计算:5G 时代的万亿市场

来源:安信证券摘要:边缘计算将能力从云端下沉至边缘,有效支撑对时延等指标要求较高的城市、交通、家居、制造等场景应用落地,带来边缘节点、服务商两个核心增量机遇。▌边缘计算,5G时代的万亿市场边缘计算成为物理世界…

MFC创建模式对话框与非模式对话框

一、创建模式对话框 1、分别添加如下三个对话框,其ID分别为IDD_ABOUT、IDD_CHAT、IDD_MFCTEST_DIALOG 双击”关于“按钮,添加相应的消息函数如下: void CMFCTestDlg::OnAbout() {// TODO: Add your control notification handler code here…

Mobdata:2019大数据行业研究报告

来源:网络大数据未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网&…

怎样在MySQL中显示中文,而不出现乱码?

1、首先修改MySQL的服务器的编码方式为utf8。具体怎样修改, 可以参考http://blog.csdn.net/ywxk1314/article/details/51280839 2、修改好之后,如果我们想查看数据表中的内容,我们会发现,表中原来的中文会出现部分乱码。如下图所示…

全球回报最好的 40 个 VC 投资案例,我们可以从中学到什么?

来源:IT桔子(itjuzi521)美国知名创投研究机构 CBInsights 日前发布文章《From Alibaba to Zynga: 40 Of The Best VC Bets Of All Time And What We Can Learn From Them》,统计了他们所认为的 VC 最好回报的 40 个案例&#xff0…

php 实现同一个账号同时只能一个人登录

php 实现同一个账号同时只能一个人登录 张映 发表于 2015-01-22 分类目录: php 标签:mysql, nginx, openfire, php, redis 以前考虑过这个问题,今天实现了一下,挺快的,从研究到开发完成差不多4个小时。有点类似QQ&…