我被“非结构化数据包围了”,请求支援!

阿里妹导读:非结构化数据的内容占据了当前数据海洋的80%。换句话来说,就是我们都被“非结构化数据”包围了。由于非结构化数据的信息量和信息的重要程度很难被界定,因此对非结构化数据的使用成为了难点。如果说结构化数据用详实的方式记录了企业的生产交易活动,那么非结构化数据则是掌握企业命脉的关键内容,所反映的信息蕴含着诸多企业效益提高的机会。而对大部分组织而言,掌握先进的非结构化数据分析能力仍是从“大数据”中获得价值的重大挑战。

当前,数据技术及产品部对结构化数据处理和应用已经具备了成熟的技术以及产品方案。为了应对日益增长的非结构化数据诉求,非结构化数据体系通过覆盖非结构化数据规范、数据设计、算法能力、服务能力等来解决这一问题,该体系是对OneData体系的非结构化数据的补充和完善。已经赋能了集团内很多业务取得了非常好的效果,而这只是刚刚开始。

非结构化数据概述

“非结构化数据”是什么?相较于记录了生产、业务、交易和客户信息等的结构化数据,非结构化的信息涵盖了更为广泛的内容。非结构化数据指的是:数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML、 HTML、各类报表、图像和音频/视频信息等。

相对于结构化数据,非结构化数据具有以下特点:数据存储占比高、数据格式多样、结构不标准且复杂、信息量丰富、处理门槛高。

当前行业公认:非结构化数据占数据总量的80%以上。结构化数据仅占到全部数据量的20%,其余80%都是以文件形式存在的非结构化和半结构化数据,非结构化数据包含各种办公文档、图片、视频、音频、设计文档、日志文件、机器数据等。

图:非结构化数据的占比图 图片来源:《大数据分析行业网》

非结构化数据没有预定义的数据模型,不方便用数据库二维逻辑表来表现。

下面对比一下结构化数据和非结构化数据的区别:

结构化数据,是指由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。

结构化数据格式形式如图下:

图:结构化数据

非结构化数据,是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、HTML、各类报表、图像和音频/视频信息等等。

非结构化数据-图片格式如下图所示:

图:非结构化数据 图片来源:《数字时代》

非结构化数据包含的信息量丰富。非结构化数据与结构化数据最大的区别在于蕴含信息量非常丰富,同样以图片为例,请看下图:

图:图片蕴含的信息 图片来源:淘宝

你看到了多少信息?不妨我们一起看一看:

  1. 人物:女人,短发,佩戴项链,做了美甲,......
  2. 衣服:女装,黑色T恤,长袖,低领,白色裤子,薄款,紧身
  3. 文字:秋定制,流金诗意,2折包邮,custom

这是一些显性信息,可以看出一张图片里面的显性信息就已经很多了,当然还有很多隐形信息。比如:

1.衣服材质:纯棉
2.特点:时尚的版型,贴身,显身材
......

由此可以看出非结构化数据隐含的信息量非常丰富。

非结构化数据一般不能直接使用,需要通过算法等手段进行处理。但因非结构化数据本身的特点,处理难度大。比如:对评论文本信息的情感分析。为了实现情感分析,需要使用算法进行复杂的处理,通过大量的数据训练才能完成。以商品评论数据来看,对于结构化的评论如下表:

结构化评论数据

可以直观看出用户感情是负向的。

同一个买家的非结构化评论:我在这家买了,缺少螺丝,商品还有划痕直接不管。

根据以上的评论内容,如果要确定买家的情感,就没那么简单了。需要使用NLP算法,并经过算法效果评估等一系列过程。

因此,当前非结构化数据的处理门槛还是很高,处理难度还比较大。

非结构化数据的价值及应用

非结构化数据因其包含丰富的内容、多样化的形态以及广阔的想象空间,必将引爆将来的市场,无论是娱乐、教育、医疗、生活等,都将产生更丰富的非结构化数据场景、使用更智能的数据处理方式。接下来,我们就针对当前的一些场景简单了解一下非结构化数据的价值。

ImageNet:改变AI和世界的图片[1]

2006 年,李飞飞开始反复思考一个问题。

当时的李飞飞才刚刚在伊利诺伊大学香槟分校(UIUC)任教,她看到整个学界和工业界普遍流行一种想法,都在致力于打造更好的算法,认为更好的算法将带来更好的决策,不论数据如何。

但李飞飞意识到了这样做的局限——即使是最好的算法,如果没有好的、能够反映真实世界的训练数据,也没办法用。

李飞飞的解决方案是:构建一个更好的数据集。

“我们要详细描绘出整个世界的物体。”李飞飞说。由此生成的数据集名叫 ImageNet。

相关论文发表于 2009 年,最初作为一篇研究海报在迈阿密海滩会议中心的角落展示出来。但没过多久,这个数据集就迅速发展成为一项年度竞赛,衡量哪些算法可以以最低的错误率识别数据集图像中的物体。许多人都认为 ImageNet 竞赛是如今席卷全球 AI 浪潮的催化剂。

尽管经历了很多艰辛,但是最终 ImageNet改变了人们认识数据和算法的方式。“ImageNet 思维所带来的范式转变是,尽管很多人都在注意模型,但我们要关心数据,”李飞飞说:“数据将重新定义我们对模型的看法。”

自 2010 年以来,谷歌、微软和 CIFAR 推出了其他一些数据集,因为事实表明深度学习需要像ImageNet 这样的大数据。

“图片,很多很多的图片”,作为非结构化数据的一种,ImageNet向我们展示了图片的巨大威力,而我们相信,这只是刚刚开始。

图: ImageNet 图片来源:《数据科学浅谈》

店小蜜:智能客服的养成之道[2]

2016年3月,一个名叫“我的小蜜”的人工智能客服就出现在了手机淘宝和手机天猫的APP中,它可以说是店小蜜的前身,当时,它的主要工作是担当平台客服,为用户解决催发货、退货退款、投诉和售后保障等问题。“我们开发‘我的小蜜’,是为了让用户能以最快的方式找到解决问题的途径。” 小蜜的产品经理南山回忆起团队初创时的往事,这样说道。

整个淘宝天猫电商平台的用户有好几亿,如果让每个用户都能用快速客服通道来联系客服,显然会对淘宝客服团队造成巨大压力。怎么办呢?人力不能解决的问题,就靠技术来解决。客服人员忙不过来,就请智能客服来帮忙。阿里每天大量的真实交易互动,让用户的问题都以数据的形式沉淀下来。通过这些数据,开发团队可以得知哪些问题最高频。而这些数据也让小蜜不断地进行强化学习,变得越来越“聪明”,应答准确度越来越高。

客服系统产生的文本、语音成了丰富的宝藏,通过对这些文本、语音的智能化处理,店小蜜逐渐成为了“最懂电商的客服机器人”。

“知识,各行各业的知识”,店小蜜的成功从一个角度证明了对文本、语音的运用,可以释放出来的巨大能力。我们相信,这只是刚刚开始。

图:客服机器人 图片来源:浙江在线-钱江晚报

智能安保:智能化办案[3]

2018年11月5日到10日,首届中国国际进口博览会在上海成功举办。本次进博会有一个大的亮点:智能安保。

在本次安保活动中,上海公安局“智慧公安”产品“智能警务中台”成功亮相,通过对辖区1.5万摄像头的全量接入,实时解析,实现民警的智能化办案。基于全网全视频数据结构化的提取,实现人、车多维特征布控,触网自动告警,融合视频结构化信息、MAC、IMEI、RFID等进行多维研判,对目标嫌疑人进行行为轨迹跟踪。

图:首届中国国际进口博览会 图片来源:环球网

“视频,流动的视频”,首届中国国际进口博览会上智能安保的成功应用,使我们相信了对视频监控智能化处理的巨大。我们仍然相信,这只是刚刚开始。

狂奔的应用:被“惯坏”的应用

随着网络的加速和人工智能的兴起,仿佛一夜之间信息流、短视频、网红直播这些新的娱乐方式涌现在人们面前,躁动的人们搅动着躁动的市场,躁动的市场搅动着躁动的应用。头条、抖音、斗鱼、小红书、淘宝直播等等新的娱乐或电商模式喷薄而出,网红经济、内容电商、信息流等新兴的词汇也如雨后春笋般涌现出来。正如苹果广告Think different里面描述的那样:“你可以赞美他們,引用他們,反对他们,质疑他們,颂扬或是诋毁他们,但唯独不能漠视他们。”也许你跟我一样,对某些产品不以为然甚至嗤之以鼻,但是新的娱乐形态毕竟挡无可挡,每个人都不能置身事外。

仔细分析,其实不难发现,当我们经历了互联网时代的洗礼,对信息的渴望被极大的唤起,常规的结构化数据交互已经不能满足人们的欲望,而伴随着技术成熟而来的非结构化数据:图片、视频、语音,正式登上舞台,催生着一个接一个的应用一路狂奔。

图:狂奔的应用 图片来源:百度百科

非结构化数据的问题和挑战

非结构化数据虽然具有很大的价值,但是当前对非结构化数据的处理和管理却存在很多问题和挑战,下面结合我们的理解对这些问题和挑战进行一个初步整理。

实体和关系分离

非结构化数据因为其自身不具有规整的形式,因此不能像结构化数据一样按照二维表的形式存储。因此其实体和关系是分离的。

举个简单例子:对于淘宝商品的图片,其商品的信息是通过二维表的形式存储的,但是主图的图片却存在在OSS中,需要通过cdn映射才能访问图片内容。

这种情况出现在大部分的非结构化数据的身上,实体和关系的分离,造成了场景分析的困难。如果我们单独看一张图片(可参考图:图片蕴含的信息),其蕴含的丰富的信息如果全部靠算法去处理,不仅耗费巨大的资源,而且无法追溯其来源、曝光、使用场景等,会造成大量精准信息的缺失。如果我们从结构化数据去看,却无法直接使用图片本身所包含的信息(图片的特点、图片包含的文字、图片包含的促销信息)等。
实体和关系的分离,造成了非结构化数据使用的困难,降低了数据的完整性。

数据分散,未形成合力

无论是从ImageNet的例子还是从集团数据的角度去看,当前非结构化数据普遍存在数据分散的现象。而实际的生活中,数据不应该是分散的,而应该形成联动,更充分的发挥价值,便利我们的生活。

处理复杂,开发门槛高

现在对于非结构化数据的处理,离不开算法,依托于集团人工智能实验室、各个部门的算法团队,集团内智能化场景遍地开花,欣欣向荣。

但是,这并没有解决非结构化数据处理复杂,开发门槛高的问题。算法的高门槛和业务的高要求,制约了非结构化数据能力的释放。

随着5G时代的到来,各种新的应用产生的巨量非结构化数据,仅仅依托人工的合作形态,恐怕不足以很好的实现非结构化数据的使用。工具化、平台化、规模化将会成为将来的重点。

非结构化数据的思考

经过前文的描述和分析,我们对非结构化数据进行了深入的思考。

构建完整的非结构化数据资产意义重大

“单丝不成线,孤木不成林”,构建非结构化数据资产意义重大。当我们将分散的非结构化数据汇集在一起,会形成完整的用户、商品、内容、品牌等的数据集,会形成完整的资产视图和商业视图。数据汇集后,各个BU看数据的视角不再是孤立的,不再是受限的。从广度上来讲,能够从整个集团甚至整个市场的层面去查看业务的全貌;从深度上来讲,能够深入行业,形成行业专业化的知识,将业务深耕进去。

集成通用及专用的算法能力至关重要

当非结构化数据遇到MIT、PAI等集团强大算法平台或工具后,将会充分降低算法的使用门槛,充分发挥数据的价值。届时,80%的非结构化数据不再是放在仓库中积灰的矿石,而是可以被加工成闪闪发光的金子;算法不再是针对具体业务去赋能的途径,而是可以被规模化使用的利器。

提供标准化、快速的非结构化数据服务前景可观

当前无论是AWS、Azure还是阿里云,对于非结构化处理主要提供工具、算法,并没有针对数据本身提供解决方案,不同的行业数据应该如何组织、如何训练、如何形成行业知识库。所谓,提供了“器”,却没有提供“术”。而市场上很多数据公司,则专注于某个领域的数据,如公安、电商、咨询等行业,提供行业性的解决方案,并且取得了可观的成果。如果我们能够与业务深度结合,提供标准化、快速的非结构化服务,前景将会非常可观,小到BU,大到集团乃至外部市场,具备极大的想象空间。

非结构化数据的价值还远未充分挖掘,未来:广阔天地,大有可为。

非结构化数据作为一种数据量大、类型丰富、与人工智能可以深度结合的数据类型,将会发挥越来越大的价值。然而如何管理、使用、快速价值化非结构化数据,当前并没有很好的解决方案,我们团队在综合分析市场上的产品和深度思考后结合DT强大的数据能力,提出了“非结构化数据体系”的设想和解决方案。


原文链接
本文为云栖社区原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/517947.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

82年 AI程序员征婚启示火了!年薪百万,女生神回复

最近在某社区,一则程序员征婚启示火了!很多女生在评论区表示“全中”,想交流看看。然后评论区就炸了,有人恶意说yp,有人说看中了楼主的钱。笔者一翻,发现楼主果然无意中透露了百万年薪收入,虽然…

AWS 专家教你使用 Spring Boot 和 DJL ,轻松搭建企业级机器学习微服务!

作者 | Qing Lan,Mikhail Shapirov责编 | Carol封图 | CSDN 下载自视觉中国出品 | CSDN云计算(ID:CSDNcloud)许多AWS云服务的用户,无论是初创企业还是大公司,都在逐步将机器学习 (ML) 和深度学习 (DL) 任务…

【从入门到放弃-ZooKeeper】ZooKeeper入门

前言 ZooKeeper是一个分布式服务协调框架,可以用来维护分布式配置信息、服务注册中心、实现分布式锁等。在Hbase、Hadoop、kafka等项目中都有广泛的应用。随着分布式、微服务的普及,ZooKeeper已经成为我们日常开发工作中无法绕过的一环,本文…

ln: failed to create symbolic link ‘/usr/bin/mysql’: File exists

问题描述: ln -s /usr/local/mysql/bin/mysql /usr/bin 在centos7进行软链接设置的时候,出现了这么问题:问题就是说这个文件已存在, 解决方法:覆盖之前的 ln -sf /usr/local/mysql/bin/mysql /usr/bin

读透《阿里巴巴数据中台实践》,其到底有什么高明之处?

最近阿里巴巴分享了《阿里巴巴数据中台实践》这个PPT(自行搜索原始文章),对于数据中台的始作俑者,还是要怀着巨大的敬意去学习的,因此仔细的研读了,希望能发现一些不一样的东西。 读这些专业的PPT&#xf…

如果你也想做实时数仓…

数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务,数据仓库的建设也是“数据智能”中必不可少的一环。本文将从数据仓库的简介、经历了怎样的发展、如何建设、架构演变、应用案例以及实时数仓与离线数仓的对比六个方面全面分享关于数仓的详细内容。 …

华为云战略投入政企市场,发布华为云Stack

2020年5月15日,华为云发布政企战略,并宣布华为云Stack系列新品正式上市。华为云Stack是位于政企客户本地数据中心的云基础设施,能为政企客户提供在云上和本地部署体验一致的云服务。随着政企智能升级进入深水区,华为云将战略投入政…

如何在 Apache Flink 中使用 Python API?

本文根据 Apache Flink 系列直播课程整理而成,由 Apache Flink PMC,阿里巴巴高级技术专家 孙金城 分享。重点为大家介绍 Flink Python API 的现状及未来规划,主要内容包括:Apache Flink Python API 的前世今生和未来发展&#xff…

阿里云HBase Ganos全新升级,推空间、时空、遥感一体化基础云服务

1、HBase Ganos是什么 Ganos是阿里云时空PaaS服务的自研核心引擎。Ganos已作为云数据库时空引擎与数据库平台融合,建立了以自研云原生数据库POALRDB为基础,联合NoSQL大数据平台(Ali-HBASE和X-Pack Spark)的完整时空地理信息云化管…

看完这篇操作系统,和面试官扯皮就没问题了!

作者 | Cxuan责编 | Carol来源 | 程序员 cxuan封图 | CSDN 付费下载于视觉中国1、解释一下什么是操作系统操作系统是运行在计算机上最重要的一种软件,它管理计算机的资源和进程以及所有的硬件和软件。它为计算机硬件和软件提供了一种中间层。通常情况下,…

Linux centos7 安装 MySQL5.7.x

文章目录一、下载安装2. wget 下载方式3. 安装4. 初始化数据库二、修改密码2.1. 修改密码2.2. 修改密码2.3. 允许远程访问2.4. 关闭防火墙2.4. 建立mysql软连接一、下载安装 下载地址:https://dev.mysql.com/downloads/mysql/5.7.html#downloads 下载地址&#xff…

顺序结构,选择结构,反编译

顺序结构 Java基本结构就是顺序结构,除非特别指明,否则就按照顺序一句一句的执行顺序结构是最简单的算法结构任何一个算法都离不开的一种基本算法结构 package com.boss.struct;public class ShunXuDemo {public static void main(String[] args) {Sys…

助力共享经济,芝麻信用背后的技术

近期,CCTV9播放了自制的系列纪录片《大数据时代》,该片是国内首部大数据产业题材纪录片,节目细致而生动地讲述了大数据技术在政府治理、民生服务、数据安全、工业转型、未来生活等方面给我们带来的改变和影响。在第四集中,讲述了芝…

你的项目是否真的需要 DevOps?

DevOps即服务(DevOps-as-a-Service)是一种新兴的开发理念。DevOps作为一种方法,将传统的团队协作转移到开发和运维团队中,通过使用可堆叠的虚拟扩展工具实现自动化。作者 | raghuraji300译者 | Arvin,责编 | 屠敏头图 …

与你同行,才能无障碍

先给大家分享一个笔者的真实故事。前阵子她被诊断得了急性结膜炎,医生切切叮嘱 72 小时里多闭目养神不能目视任何自光源体,“尤其是电脑和手机!”医生特地关照了一句。 她好不容易挪回家,想起一整天未能进食,作为淘宝…

震惊!阿里的程序员竟被一个简单的 SQL 查询难住了!

作者 | 唐磊责编 | Carol来源 | 程序猿石头封图 | CSDN 付费下载于视觉中国最近工作上遇到一个”神奇”的问题,或许对大家有帮助,因此形成本文。问题大概是,我有两个表 TableA,TableB,其中 TableA 表大概百万行级别(存…

ETL异构数据源Datax_datax-web安装部署_10

文章目录1. 解压2. 一键安装3. 修改执行器py地址4. 一键启动5. 查看启动日志6. 访问地址登录7. 操作记录1. 解压 tar -zxvf datax-web-2.1.2.tar.gz2. 一键安装 # 执行一键安装脚本,系统中需要有mysql环境,会自动执行sql文件初始化bin/install.sh cd datax-web-2.1.2/ bin/in…

3D 真的很难吗,瞧瞧支付宝怎么做?

阿里妹导读:图像作为人类感知世界的视觉基础,是我们在这个信息化时代获取信息、表达信息及传递信息的重要手段,而生成图像最高效准确的方式就是由计算机生成、显示、绘制,这些技术又统称计算机图形技术。计算机图形技术已经是许多…

OpenStack发布Ussuri版本 实现智能开源基础设施的自动化

从2010年到2020年,OpenStack项目整整走过了十个春夏秋冬。10年来,关于OpenStack的争议持续不断,但不可否认的是,在不同技术路线的争执中,OpenStack所展现的蓬勃生命力仍无可比拟。据451研究机构2019年9月发布的市场监测…

ETL异构数据源Datax_图形化数据同步_11

数据同步全量增量知识SQL和执行频次不一样,其他的都一样 文章目录一、Oracle同步Mysql(全量)1. 添加项目2. 添加数据源3. 添加任务4. 构建json5. 任务执行6. 查看日志7. 同步数量对比二、Mysql同步Oracle(全量)2.1. 添加构建reader2.2. 添加构建writer2.3. 配置同步…