可信知识实证在UGC时代情报应用中的思考与探索

可信知识实证在UGC时代情报应用中的思考与探索

在当前互联网高度发达、可发布信息源和信息渠道猛增且多元化的大背景下,信息形态变得广泛且多模。从传统的纸质文档,到中期的电子结构化文档、电子非结构化文本,再到如今的语音信息、图片信息、视频流信息鼎立的局面,信息市场变得复杂而多变。

在UGC(用户生产内容)以及数据众包生产的大环境下,存在广泛的信息过载和信息混乱的问题。但情报的挖掘、信息的二次加工显得尴尬且必须,这对数据生产中的数据获取端、知识抽取环节以及业务端三个方向提出了更高的要求。

事实上,支撑起目前自然语言处理相关落地产品的数据来源大多来自开源信息情报,门户网站、各大垂直网站、论坛社区、“两微一条”、政府报告、研究报告、政策公告、百科问答等公共数据。这为舆情监控、事件热点挖掘、智能问答、文本生成、知识图谱可视化、风险推理等多个落地应用带来了诸多挑战。

数据地平线充分认识到“可信知识实证”的重要性,并在底层知识库构建、自然语言处理组件开发、产品应用上引入了可信知识溯源的思想,探索形成了多个可信语言资源库、知识抽取平台、大规模事理学习系统以及投研逻辑管理平台。本期围绕“可信知识实证在UGC时代情报落地中的思考与探索”这一主题进行分享。

一、UGC时代下的信息乱象

搜索引擎和UGC(用户创作内容)无疑是当代生活中重要的科技力量,但它们产生的副作用也是客观存在的,这直接带来了两个突出的问题,即信息过载以及信息模糊化。信息过载带给用户一种视觉上的压迫感,而模糊化使得信息流中混杂着可信度参差不齐的元素,极大地扰乱了信息市场的正常运转和人为决策。

在这里插入图片描述

图1-谣言不断的信息乱象图

例如,新冠肺炎疫情防控过程中,关于防护措施以及感染情况的造谣传播行为直接干扰疫情决策;杭州女子莫名失踪案中,网红蹲守事发现场直播并对案情涉及主人公进行身份、行为猜测,并发布不实信息的行为,直接妨碍公安事务管理;搜索引擎中返回用户问题不实答案造成伤害;用户对常用成语、对联、古诗词的篡改所引起的学生误导等,明显揭露出了当前社会对信息可靠性的迫切需求。

谣言与辟谣两者之间的斗争在信息市场上频频上演,信息的准确性、可靠性、实时性与全面性成为了目前信息处理领域对信息本身提出的四个要求,这一点,在严重依赖该信息而作出某种决策的行为或工作中表现得更为强烈。然而,就谣言和不实信息的斗争而言,其需要花费大量的人力、物力,并对现行技术提出了极高的要求,无论在内容生产、内容加工还是在内容消费上,“知识可靠性验证”的需求呼之欲出。

二、信息乱象下的情报挖掘应对措施

在信息乱象下的大背景下,进行情报的挖掘、信息的二次加工显得尴尬且必须,这对数据生产中的各个环节的监控提出了更高的要求:

1、 在数据获取端引入评分和审核机制
数据获取端还有一道前序操作,即数据的生产控制,这一部分质量和可靠性的把控需要由发布平台的机构进行控制,但由于这一措施需要将用户进行创作限制,并可能会因此引起部分用户的抵触,还需为事先制定出发布规范和惩罚措施,这一控制需要花费大量的人力物力。有代表性的,如学术论文的写作、众包环节下的Wiki百科编辑等都是这一工作的典型代表。

在这里插入图片描述

图2-Wiki百科中对知识信息的来源控制

在数据生产环节之后,许多数据获取方式都具备限制性。这主要体现在对数据源的考虑上,在实际的业务场景中,需要充分考虑网站的权威性(从发布主体性质、发布主体的发布行为)、网站的安全性、网站来源的数据规模等多个因素。典型地,在具体实施的过程中,会请相关业务专家通过对网站的建模结果中对网站进行打分,并从中选择得分较高的数据源(若国家政府部门、意见领袖等)作为目标数据源,或者将得分作为一个知识置信度计算因子融入到结构化知识的打分模型当中。

2、 在抽取环节加入知识校验和过程数据关联组件
知识抽取是对信息进行挖掘,也是保证知识准确性和可靠性最关键,也是难度最大的环节,主要体现在对原始真实内容的还原、数据内容真假性甄别、数据内容的算法抽取可靠性三个方面。

首先,对原始真实内容的还原,指的是对所获取到的多源异构文本的内容处理上。在工业场景中,会经常遇到图片型pdf、文本型pdf、docx、ppt、纯文本等文本格式,mp3、wav等音频格式,mp4、rmvb等视频格式,如何通过格式转换、版式分析以及文字流转写等方式将原始文本中的信息准确、完整的整理输出,十分重要。例如,进行pdf处理过程中,常处理表格合并、段落合并,网页文本处理中常需要处理噪声标签的干扰去除等,OCR处理中常常存在偏差,这都使得原始真实内容上存在误差。

在这里插入图片描述

图3-pdf文档内容还原中的表格问题

其次,针对数据内容真假性甄别,是在进行原始内容抽取后需要准确处理的一道工序。在数据内容真假上,存在通过人工构造谎言和谣言数据集进行训练,形成分类模型的工作,但这一工作受限于训练语料的规则,效果会受到很大限制。

另一个工作是真假性核查的工作,例如,在进行金融文档核查过程中,借助数据指标知识、跨篇章文本之间的关联关系等外部消息,以及内部文本上下文之间的勾稽关系对内部文本的准确性进行核查,也可以引入成立性规则与外部常识知识库的方式进行准确性校验。

在这里插入图片描述

图4-pdf文档真实性审查中的数据真实性校验

最后,在数据内容的算法抽取可靠性的把控上,引入迭代模型,实现递增式学习,在抽取过程中,充分重视人机协作的方式,开发各类的数据观察工作、数据校验工具、错误归因工具、错误解释工具以及回归测试工具等,使系统可配置。同样地,过程文本数据也重要,在算法进行知识抽取的环节中,应该将该结构化知识来源的各项元数据信息进行记录和关联,这一关联的操作能够给后续的业务开展留出较高的可扩展性和灵活性。

3、 在业务端调整知识交互形式与用户反馈接口
知识交互形式与用户反馈接口的建立是业务端进行调整的一个可行方向,虽然这在具体实施上会因业务而异。知识的可靠性、实时性和全面性是制约知识应用的重要因素,在充分承认现有自然语言处理知识抽取技术还不成熟的现实条件下,需要在技术现有情况和用户需求这一天平中选择一个平衡点,即在用户端和产品展示端之间的一个信任支点。

将抽取过程、展示过程以及推理决策过程透明化是取信用户的一条可行方式,这与现在知识可解释性上存在某种关联。例如,在结构化搜索场景中,将已给出结构化知识的关联来源信息、评分信息进行关联展示,并让用户参与对评分或结果的标记,这能够使得这层信任逐步建立起来。采用这种人机协作,机器负责推荐并透明化,用户负责对结果进行自行判定和干预,无论对于系统自身,还是对于业务的推进来说,都是大有裨益的。

三、基于多环节可信知识溯源的大规模实时事理学习系统

知识溯源是有效减轻当前输入数据源不准确的重要途径,从底层数据获取中引入数据源的评分机制,并使用可解释程度高的语言资源和处理组件,在多环节中确保知识可信。

数据地平线一直致力于可信的底层语言资源建设。一方面,我们建成了可信度较高的基础语言知识库,包括几十个种类的领域词典、词法和句法规则库、基础知识图谱等。其中,同义知识库、概念知识库、抽象知识库、事理知识库等知识库已部分对外开放。另一方面,我们建设了可信知识抽取过程中所需要的自然语言处理平台,如数地工场。

在这里插入图片描述

图5-可信模式下的知识处理平台-数地工场

基于可信的基础语言知识库和文本处理组件,我们在大规模实时事理学习系统“学迹”中引入了动态知识可溯源的展示模式。其核心思想在于:在返回用户所检索字符串关联知识的基础上,从知识可信度评分、知识存现出处(句子级)两个角度,结合动态友好的交互方式,做到“来源可查”、“可信量化”、“精确到句”、“一触即达”。如下图所示,给出了“新冠肺炎疫情蔓延”在基于开源情报数据中得到的结构化事理知识的结果。

在这里插入图片描述

图6-学迹搜索结果中的知识实证截图

为此,数据地平线为此设计了一套可靠的知识可信度评分算法。随着信息源不断增加,先前学习到的知识的可信度会被不断更新,错误结果的权重被自动纠正,根据可信度排序,可以看到“学迹”最有把握的知识。

同样,数据地平线尝试了一种友好的方式来最大化地展示事理学习的动态过程。我们用连线和层级表示的方式,为每条知识都提供可视化的学习实证,从中可以看到知识的创造者、知识的创造时间、知识出现的上下文,知识学习来源的评分。

四、人机协作和实证模式下的投研逻辑管理平台

数据地平线在金融事理图谱以及金融领域的业务和技术沉淀,推出了一款基于人机协作和实证模式的投研管理平台“投研云图”。

投研云图平台是一款面向投资研究人员的逻辑图谱创建、管理和研究工具,通过结合大规模数据采集技术,事理逻辑抽取、知识图谱、情感分析等自然语言处理技术以及用户可视化交互等技术,以机器智能推荐辅助、人工自定义编辑相结合的人际协作交互方式,从而支持投资逻辑图谱的创建、共享、管理、应用等服务。

在这里插入图片描述

图7-投研云图的用户场景截图

“人机协作”和“知识实证”是投研云图思想的两个基本核心点,从消息面和数据面两个角度出发,完成研究逻辑的自管理。在具体实现上:

首先,在底层可信知识的构建环节,依托后台面向开源情报挖掘形成的事理图谱、产业链图谱数据,也可根据用户自定义自有文本,自动挖掘形成相关结构化知识,完成海量实证逻辑知识自动构建。

其次,在人机交互方式的逻辑链条构建环节,基于事理图谱知识库,结合底层推荐组件,以实证的方式推荐给用户,并使得用户可以根据自己的主观判断,结合关联的实证信息,快速地完成事件、行业数据、产业链三个层面的推荐,完成基于海量实证逻辑知识库的潜在事件推荐和行业数据推荐。

最后,在利用人机交互完成逻辑知识库的自动构建之后,可实现基于海量实证逻辑知识库的历史实证展示、基于自建领域事理的逻辑监测等多个功能。

投研云图平台的核心目标是构建一个以现有自然语言处理技术为核心的机器智能辅助、人工编辑为主的领域逻辑知识管理的监测预警平台,以满足各行业逻辑知识的创建、积累和管理。知识的可信、可控、通过实证方式辅助用户进行自查、自管理是其中的核心。

五、总结

支撑目前自然语言处理相关落地产品的数据来源,大多来自开源信息情报、门户网站、各大垂直网站、论坛社区、“两微一条”、政府报告、研究报告、政策公告、百科问答等公共数据,这为舆情监控、事件热点挖掘、智能问答、文本生成、知识图谱可视化、风险推理等多个落地应用带来了诸多挑战。

为了应对这一挑战,从经验上来说,可以在数据获取端引入评分和审核机制,在抽取环节加入知识校验和过程数据关联组件,对原始真实内容的还原、数据内容真假性甄别、数据内容的算法抽取可靠性等三个方面作相应工作。

数据地平线充分认识到了“可信知识实证”的重要性,并在底层知识库构建、自然语言处理组件开发、产品应用上引入了可信知识溯源的思想,探索形成了多个可信语言资源库、知识抽取平台、大规模事理学习系统、投研逻辑管理平台。

在大规模事理学习系统“学迹”中,数据地平线设计了一套可靠的知识可信度评分算法,并尝试了一种友好的方式来最大化地展示事理学习的动态过程。

投研逻辑管理平台“投研云图”以现有自然语言处理技术为核心的机器智能辅助、人工编辑为主进行领域逻辑知识管理的监测预警,知识的可信、可控、通过实证方式辅助用户进行自查、自管理是其中的根本核心点。

参考
1.数据地平线:https://datahorizon.cn
2.数地工场:https://nlp.datahorizon.cn
3.学迹:https://xueji.datahorizon.cn
4.投研云图:https://yuntu.datahorizon.cn
5.https://zh.wikipedia.org/wiki/天问一号

If any question about the project or me ,see https://liuhuanyong.github.io/.
如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作,可联系我:
1、我的github项目介绍:https://liuhuanyong.github.io
2、我的csdn技术博客:https://blog.csdn.net/lhy2014
3、我的联系方式: 刘焕勇,中国科学院软件研究所,lhy_in_blcu@126.com.
4、我的共享知识库项目:刘焕勇,数据地平线,http://www.openkg.cn/organization/datahorizon.
5、我的工业项目:刘焕勇,数据地平线,大规模实时事理学习系统:https://xueji.datahorizon.cn.
6、我的工业项目:刘焕勇,数据地平线,面向事件和语义的自然语言处理工具箱:https://nlp.datahorizon.cn

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480283.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Google | 创造Youtube单次上线最高收益!解决推荐中的信息茧房困境

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术文 | 江城编 | 夕小瑶今天分享一下Google在WSDM 2019的一篇将强化学习应用于Youtube推荐的论文,作者宣称是获得了Youtube近两年来单次上线的最高收益。文章仔细介绍了RL在Youtube上的实践方案细节…

POJ 2785 有多少种4个数相加等于0的方案(二分查找 or hash)

文章目录1.二分查找法1.1 思路:1.2 AC代码2.hash查找法2.1 思路:2.2 Wrong Answer 代码2.3 Time Limit Exceeded 代码2.4 偷懒失败,hash_map在poj中不存在2.5 哈希表二叉查找树(超时)2.6 AC代码(哈希数组法…

2018最新阿里Java技术三面(已拿Offer):JVM+高并发性能+单点登录+微服务

一面 1.自我介绍 2.谈一个你觉得你学到最多的项目,使用了什么技术,挑战在哪里 3.Spring的bean的作用域?(比如:singleton,prototype等) 4.Spring的IOC实现原理?没有无参构造函数能…

论文浅尝 | 基于局内去噪和迁移学习的关系抽取

动机在远程监督任务中,除了语料的错误标注问题,还存在句内噪声单词过多的问题,即多数句子都存在一些与表达关系无关的词汇,这个问题未有人关注。当前研究的另一个问题是,句子特征抽取器采用随机初始化的方法&#xff0…

关于知识图谱,我们接下来该研究什么?斯坦福教授们给出了答案

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术文 | 舒意恒(南京大学硕士生,知识图谱方向)编 | 北大小才女小轶本文整理了斯坦福大学 CS 520 知识图谱研讨会课程的第 10 集的内容,主要是关于知识图谱未来的研…

POJ 2967 (水题,考察putchar()按位输入)

题目链接:http://poj.org/problem?id2967 题目大意: 给定系列长度,求是否有规定的三角形 (不是所有的都可以组成三角形&&有至少一种组合可以组成三角形)-> 打印通过,否则打印拒绝。 题目有时…

四大银行(工建农中)大数据进展如何?

原文地址:https://cloud.tencent.com/developer/article/1052576 中国建设银行中国建设银行信息技术管理部资深经理林磊明▼▼1、银行压力越来越大从十二五走到十三五期间,银行业面临的各方面的压力越来越大,从我们的年报数字可以看出去年四大…

论文浅尝 | 多内容实体和关系联合抽取的对抗训练

链接:https://arxiv.org/pdf/1808.06876.pdf动机Szegedy 在 14 年发现,对于图像分类问题的神经网络,若是在输入中人为的添加很小尺度的扰动,会让已经训练好的神经网络做出错误的判断,并且可能以很高的置信度输出。很多…

BAT面试进阶:最全Memcached面试30题含答案

【memcached面试题目】 Memcached服务在企业集群架构中应用场景? Memcached服务在不同企业业务应用场景中的工作流程? Memcached服务分布式集群如何实现? Memcached服务特点及工作原理是什么? Memcached内存管理机制原理? Memcached的…

一份从入门到精通NLP的完整指南 | NLPer

该小博主介绍本人:笔名zenRRan,方向自然语言处理,方法主要是深度学习。未来的目标:人工智能之自然语言处理博士。写公众号目的:将知识变成开源,让每个渴求知识而难以入门人工智能的小白以及想进阶的小牛找到…

论文浅尝 | 基于知识库的类型实体和关系的联合抽取

链接:http://hanj.cs.illinois.edu/pdf/www17_xren.pdfGitHub项目地址:https://github.com/INK-USC/DS-RelationExtraction动机现有的利用远程监督进行实体关系抽取的方法中存在以下三个问题:1、依赖事先训练的命名实体识别工具,而…

POJ 2255 Tree Recovery(已知前序中序,求后序)

1. 题目链接:http://poj.org/problem?id2255 2. 题目大意: 给定二叉树的前序和中序序列,输出其后序序列 3. 思考过程: 4. AC代码 /*** description: 给出前序和中序二叉树节点序列,求后序二叉树节点输出序列* auth…

美团内推:java高级开发(一面+二面+三面),面试58题实拍!

美团内推(一面二面三面)面试题目 美团一面(电话) 自我介绍 项目介绍 Redis介绍 了解redis源码么 了解redis集群么 Hashmap的原理,增删的情况后端数据结构如何位移 hashmap容量为什么是2的幂次 hashset的源码 …

ACL20 best paper荣誉提名 | DO NOT STOP Pre-training!

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术文 | JayLou娄杰(NLP算法工程师,信息抽取方向)编 | 可盐可甜兔子酱在昨晚23点的best paper典礼上我惊了,这篇论文竟然获得了今年ACL2020 best paper荣誉提名..…

论文浅尝 | 对于知识图谱嵌入表示的几何形状理解

论文链接:http://anthology.aclweb.org/attachments/P/P18/P18-1012.Presentation.pdf发表会议:ACL 2018摘要知识图谱的嵌入表示在近几年已经成为一个非常活跃的研究领域,众多相关方法相继被提出,这些嵌入方法是将知识图谱中的实体…

数据结构--堆 Heap

文章目录1. 概念2. 操作和存储2.1 插入一个元素2.2 删除堆顶元素3. 堆排序(不稳定排序)3.1 建堆3.2 排序3.3 思考:为什么快速排序要比堆排序性能好?两者都是O(nlogn)4. 堆应用4.1 优先级队列4.2 用堆求 Top K(前K大数据…

金融时报:人工智能在银行中的应用—对全球30家大型银行的调查

原文地址:https://cloud.tencent.com/developer/article/1144829 (微信公众号 点滴科技资讯)尽管银行业对新技术感到兴奋,但仍采取比较谨慎的方式。德意志银行首席执行官约翰•克莱恩(John Cryan)曾经提出将…

百度Java三面:现场面试39题目实拍含答案!

百度一面(现场) 自我介绍 Java中的多态 为什么要同时重写hashcode和equals Hashmap的原理 Hashmap如何变线程安全,每种方式的优缺点 垃圾回收机制 Jvm的参数你知道的说一下 设计模式了解的说一下啊 手撕一个单例模式 算法题目 手撕算…

CCKS2020事理图谱应用工作:刘焕勇等.面向开放文本的逻辑推理知识抽取与事件影响推理探索

一、背景介绍 第十四届全国知识图谱与语义计算大会(CCKS 2020) 11 月 12 日至 15 日在江西南昌举行,CCKS(China Conference on Knowledge Graph and Semantic Computing)是由中国中文信息学会语言与知识计算专委会定期举办的全国年度学术会议…

ACL20 Best Paper揭晓!NLP模型评价体系或将迎来重大转折

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术文 | 北大小才女小轶昨晚ACL2020的Main Conference落下帷幕,今年的最佳论文颁给了这篇《Beyond Accuracy: Behavioral Testing of NLP Models with CHECKLIST》。在ACL录用的778篇论文中&#xff…