扩展学习|商业智能和分析:从大数据到大影响

文献来源:Chen H, Chiang R H L, Storey V C. Business intelligence and analytics: From big data to big impact[J]. MIS quarterly, 2012: 1165-1188.

下载链接:https://pan.baidu.com/s/1JoHcTbwdc1TPGnwXsL4kIA 
提取码:a8uy

        在不同的组织中,与数据和分析相关的机会有助于产生对BI&A的极大兴趣,BI&A通常被称为分析关键业务数据的技术、技术、系统、实践、方法和应用程序,以帮助企业更好地了解其业务和市场,并及时做出业务决策。

        图1显示了本文的关键部分,包括BI&A的发展、应用程序和新兴的分析研究机会。然后,我们报告了一项基于十多年来相关BI&A学术和行业出版物的重要BI&A出版物、研究人员和研究主题的文献计量学研究。

一、BI&A演进:关键特征和能力

表1 总结了与Gartner BI平台核心功能和炒作周期相关的BI&A 1.0、2.0和3.0的关键特征

关键特性Gartner BI平台核心功能Gartner炒作周期
BI&A 1.0

基于dbms的结构化内容

•RDBMS和数据仓库

•ETL和OLAP

•仪表板和记分卡

•数据挖掘和统计分析

•基于特别查询和搜索的商业智能

•报告、仪表板和记分卡

•人机交互

•可视化

•预测建模和数据挖掘

•基于列的DBMS

•内存DBMS

•实时决策

•数据挖掘工作台

BI&A 2.0

基于Web的非结构化内容

•信息检索和提取

•意见挖掘

问题回答

•网络分析和网络智能

•社会媒体分析

•社会网络分析

•时空分析

•信息语义服务

•自然语言问答

•内容和文本分析

BI&A 3.0

移动和基于传感器的内容

•位置感知分析

•以人为中心的分析

•上下文相关分析

•移动可视化和HCI

• Mobile BI

ps:Gartner BI平台是指由全球知名科技研究与咨询公司 Gartner Inc. 评定或推荐的商业智能(Business Intelligence,BI)平台。Gartner 是一家在科技行业享有盛誉的研究和咨询公司,其分析报告和市场鉴定具有广泛的影响力。

(一)BI&A 1.0

        作为一种以数据为中心的方法,BI&A植根于长期存在的数据库管理领域。它在很大程度上依赖于各种数据收集、提取和分析技术。目前在工业中采用的BI&A技术和应用程序可以被视为BI&A 1.0,其中的数据主要是结构化的,由公司通过各种遗留系统收集,并且通常存储在商业关系数据库管理系统(RDBMS)中。这些系统中普遍使用的分析技术于1990年代普及,主要基于1970年代发展的统计方法和1980年代发展的数据挖掘技术。

        数据管理和仓储被认为是BI&A 1.0的基础。设计用于提取、转换和加载(ETL)的数据集市和工具对于转换和集成特定于企业的数据至关重要。数据库查询、在线分析处理(OLAP)和基于直观但简单的图形的报告工具用于探索重要的数据特征。使用记分卡和仪表板的业务性能管理(BPM)有助于分析和可视化各种性能指标。除了这些完善的业务报告功能外,统计分析和数据挖掘技术还用于各种业务应用中的关联分析、数据分割和聚类、分类和回归分析、异常检测和预测建模。这些数据处理和分析技术中的大多数已经被整合到主要IT供应商提供的领先商业BI平台中,包括微软、IBM、甲骨文和SAP 。

(二)BI&A 2.0

        自21世纪初以来,互联网和Web开始提供独特的数据收集和分析研究与开发机会。基于http的Web 1.0系统,以Web搜索引擎(如Google和Yahoo)和电子商务业务(如Amazon和eBay)为特征,允许组织在线展示其业务并直接与客户交互。除了将传统的基于rdbms的产品信息和业务内容在线移植之外,通过cookie和服务器日志无缝收集的详细且特定于ip的用户搜索和交互日志已经成为了解客户需求和识别新业务机会的新金矿。通过基于Web 2.0的社交和众包系统收集的网络智能、网络分析和用户生成的内容在2000年代迎来了一个新的和令人兴奋的BI&A 2.0研究时代,主要集中在非结构化网络内容的文本和网络分析上

        大量的公司、行业、产品和客户信息可以从网络上收集,并通过各种文本和网络挖掘技术进行组织和可视化。通过分析客户点击流数据日志,像Google analytics这样的网络分析工具可以提供用户在线活动的踪迹,并揭示用户的浏览和购买模式。网站设计、产品布局优化、客户交易分析、市场结构分析和产品推荐都可以通过网络分析来完成。除了捕捉名人聊天、对日常事件的引用以及在这些媒体中表达的社会政治观点之外,Web 2.0应用程序还可以有效地从不同类型的企业的不同客户群体中收集大量及时的反馈和意见。

        与已经集成到商业企业IT系统中的BI&A 1.0技术不同,未来的BI&A 2.0系统将需要在现有的基于dbms的BI&A 1.0系统中集成文本挖掘(例如,信息提取、主题识别、意见挖掘、问答)、web挖掘、社会网络分析和时空分析等成熟且可扩展的技术。

(三)BI&A 3.0

        移动和互联网设备支持高度移动、位置感知、以人为中心和上下文相关的操作和交易的能力,将在整个2010年继续为研究提供独特的挑战和机遇。移动界面、可视化和HCI(人机交互)设计也是很有前途的研究领域。尽管Web 3.0(基于移动和传感器的)时代的到来似乎是确定无疑的,但用于收集、处理、分析和可视化此类大规模流动移动和传感器数据的潜在移动分析、位置和上下文感知技术仍然未知

二、BI&A应用:从大数据到大影响

        下面介绍了其中一些有前途和高影响力的BI&A应用,并讨论了数据和分析的特征、潜在影响,以及精选的示例或研究:(1)电子商务和市场情报,(2)电子政务和政治2.0,(3)科学技术,(4)智能健康和福祉,以及(5)安全和公共安全。

        表2总结了有前途的BI&A应用程序、数据特征、分析技术和潜在影响。

电子商贸

及市场情报

电子政务

与政治2.0

科学技术智能健康和医疗公共安全
应用

•推荐系统

•社交媒体监测和分析

•众包系统

•社交和虚拟游戏

•无处不在的政府服务

•平等的机会和公共服务

•公民参与

•政治运动和电子投票

•科技创新

•假设检验•知识发现

•人类和植物基因组学•医疗保健决策支持

•患者群体分析

•犯罪分析

•计算犯罪学

•恐怖主义信息学

•开源情报

•网络安全

数据安全

•客户交易记录搜索

•用户日志

•客户生成内容

•政府信息和服务

•规章制度

•市民反馈和意见

•科技仪器和系统生成的数据

•传感器和网络内容

•基因组学和序列数据•电子健康记录(EHR)

•健康和患者社交媒体

•犯罪记录
•犯罪地图
•犯罪网络
•新闻和网络
目录
•恐怖主义事件
数据库
•病毒、网络
攻击,以及
僵尸网络
特点:基于web的结构化,用户生成的内容,丰富的网络信息,非结构化的非正式客户意见特征:碎片化的信息源和遗留系统,丰富的文本内容,非结构化的非正式公民对话特点:基于仪器的高通量数据采集,细粒度多模态和大规模记录,科技特定数据格式特点:不同但高度关联的内容,针对个人的内容,HIPAA, IRB和道德问题特点:个人身份信息,内容不完整,具有欺骗性,群体和网络信息丰富,内容多语种
分析

•关联规则挖掘

•数据库分割和聚类

•异常检测

•图挖掘

•社交网络分析

•文本和网络分析

•情感和影响分析

•信息集成

•内容和文本分析

•政府信息语义服务和本体

•社交媒体监控和分析

•社交网络分析

•情绪和影响分析

•基于特定领域的科学技术

•数学和分析模型

•基因组学和序列分析和可视化

•EHR关联挖掘和聚类

•健康社交媒体监测和分析

•健康文本分析

•健康本体

•患者网络分析

•不良药物副作用分析

•隐私保护数据挖掘

•犯罪关联规则挖掘和聚类

•犯罪网络分析

•时空分析和可视化

•多语言文本分析

•情绪和影响分析

•网络攻击分析和归因

影响长尾营销,有针对性和个性化的推荐,增加销售和客户满意度改革政府,赋予公民权力,提高透明度,参与和平等科技进步,科学影响改善医疗保健质量,改善长期护理,增强患者能力公共安全保障水平不断提高

三、BI&A研究框架:分析学的基础技术和新兴研究

        新兴的分析研究机会可以分为五个关键技术领域——(大)数据分析、文本分析、web分析、网络分析和移动分析——所有这些都可以为BI&A 1.0、2.0和3.0做出贡献。这五个主题领域的分类是有意地突出每个区域的主要特征;然而,其中一些领域可能利用类似的底层技术。在每个分析领域中,我们都展示了成熟和发展良好的基础技术,并建议了一些新兴的研究领域(见表3):

(大)数据分析文本分析网页分析网络分析移动分析
基本的技术

•数据挖掘

•聚类

•回归

•分类

•关联分析

•异常检测

•神经网络

遗传算法

•多元统计分析

•优化

•启发式搜索

•信息检索

•文档表示

•查询处理

•相关性反馈

•用户模型

•搜索引擎

•企业搜索系统

•信息检索
•计算语言学
•搜索引擎
•网络爬网
•网站排名
•搜索日志分析
•推荐系统
•网络服务
•混搭

•文献计量分析

•引文网络

•合著网络

•社会网络理论

•网络度量和拓扑

数学网络模型

•网络可视化

•网络服务

•智能手机平台

新兴的研究

•统计机器学习

•顺序和时间挖掘

•空间挖掘

•挖掘高速数据流和传感器数据

•过程挖掘

•隐私保护数据挖掘

网络挖掘

•web挖掘

•基于列的DBMS

•内存DBMS

•并行DBMS、

•云计算

•统计NLP

•信息提取

•主题模型

•问答系统

•意见挖掘

•情感/影响分析

•网络风格分析

•多语言分析

•文本可视化

•多媒体IR

•移动IR

•Hadoop

•MapReduce

•云服务

•云计算

•社交搜索和挖掘

•声誉系统

•社交媒体分析

•网络可视化

•基于网络的拍卖

•互联网货币化

•社交营销

•网络隐私/安全

•链接挖掘

•社区检测

•动态网络建模

•基于代理的建模

•社会影响和信息扩散模型

•E R G M s

•虚拟社区

•犯罪/黑暗网络

•社会/政治分析

•信任和声誉

•移动网络服务、

移动普及应用、

移动传感应用、

移动社交创新、

移动社交网络、

移动可视化/

人机交互、

个性化和行为建模、

游戏化、

移动广告和营销

        (1)其中,数据分析是指主要基于数据挖掘和统计分析的BI&A技术。如前所述,这些技术大多依赖于关系DBMS、数据仓库、ETL、OLAP和BPM等成熟的商业技术(Chaudhuri et al 2011)

        自20世纪80年代末以来,人工智能、算法和数据库社区的研究人员开发了各种数据挖掘算法。在IEEE 2006年数据挖掘国际会议(ICDM)上,根据专家提名、引用计数和社区调查确定了10个最具影响力的数据挖掘算法。按排名依次为C4.5、k-means、SVM(支持向量机)、Apriori、EM(期望最大化)、PageRank、AdaBoost、kNN (k-近邻)、Naïve贝叶斯和CART (Wu et al . 2007)。这些算法包括分类、聚类、回归、关联分析和网络分析。这些流行的数据挖掘算法中的大多数已被纳入商业和开源数据挖掘系统。

        诸如用于分类/预测和聚类的神经网络以及用于优化和机器学习的遗传算法等进步都为数据挖掘在不同应用中的成功做出了贡献。

        商学院通常教授的另外两种数据分析方法对财务分析也至关重要。多元统计分析以统计理论和模型为基础,涵盖了回归、因素分析、聚类和判别分析等分析技术,这些分析技术已成功地应用于各种业务应用中。在管理科学界发展起来的优化技术和启发式搜索也适用于选定的BI&A问题,如数据库特征选择和网络爬行/蜘蛛爬行。这些技巧大多可以在商学院的课程中找到。 由于数据挖掘和统计分析社区共同取得的成功,数据分析仍然是一个活跃的研究领域。统计机器学习通常基于良好的数学模型和强大的算法,如贝叶斯网络、隐马尔可夫模型、支持向量机、强化学习和集成模型等技术,已应用于数据、文本和web分析应用程序。其他新的数据分析技术探索和利用独特的数据特征,从顺序/时间挖掘和空间挖掘,到高速数据流和传感器数据的数据挖掘。

        在各种电子商务、电子政务和医疗保健应用中,对隐私的关注日益增加,这使得保护隐私的数据挖掘成为一个新兴的研究领域。其中许多方法是数据驱动的,依赖于各种匿名化技术,而其他方法是过程驱动的,定义如何访问和使用数据。在过去的十年中,过程挖掘也作为一个新的研究领域出现,它侧重于使用事件数据分析过程。由于各种行业(例如,医疗保健、供应链)中事件日志的可用性以及新的流程发现和一致性检查技术,流程挖掘已经成为可能。此外,网络数据和网络内容有助于在网络分析和网络分析方面产生令人兴奋的研究,如下所示。

        除了活跃的数据分析学术研究之外,行业研究和发展也产生了很多兴奋,特别是在半结构化内容的大数据分析方面。与可以通过RDBMS重复处理的结构化数据不同,半结构化数据可能需要在可扩展和分布式的MapReduce或Hadoop环境中进行临时和一次性的提取、解析、处理、索引和分析。MapReduce被誉为大规模、大规模并行数据访问的革命性新平台。

        受到MapReduce的部分启发,Hadoop提供了一个基于java的软件框架,用于分布式处理数据密集型转换和分析。前三大商业数据库供应商——oracle、IBM和Microsoft——都采用了Hadoop,其中一些采用了云基础设施。

(2)组织收集的非结构化内容中有很大一部分是文本格式的,从电子邮件通信和公司文档到网页和社交媒体内容。文本分析的学术根源在于信息检索和计算语言学。在信息检索中,文档表示和查询处理是发展向量空间模型、布尔检索模型和概率检索模型的基础,进而成为现代数字图书馆、搜索引擎和企业搜索系统的基础(Salton 1989)。在计算语言学中,用于词汇习得、词义消歧、词性标注(POST)和概率上下文无关语法的统计自然语言处理(NLP)技术对于表示文本也变得非常重要。除了文档和查询表示之外,用户模型和相关反馈在增强搜索性能方面也很重要.

四、绘制BI&A知识景观:学术和行业出版物的文献计量学研究

        为了更好地了解BI&A相关研究的现状并确定未来的知识来源,我们进行了文献计量学研究,分析了相关文献、主要BI&A学者、学科和出版物以及重点研究课题。本研究遵循了收集、转换和分析过程,这与其他应用程序中采用的典型的BI&A过程非常相似

五、BI&A教育和项目发展

        BI&A研究框架内的特刊论文摘要

作者和书名演变应用数据分析或研究介绍影响
Chau and Xu, “Business
Intelligence in Blogs:  Under-
standing Consumer Inter-
actions and Communities
社交媒体和网络分析的BI&A 2.0消费者和社区的市场情报从博客中提取的用户生成内容

•文本和网络分析

•社区检测

•网络可视化

提高了销售额和客户满意度
Park et al., “A Social
Network-Based Inference
Model for Validating
Customer Profile Data
BI&A 1.0 & 2.0社会网络分析和统计分析预测客户资料的市场情报自报用户资料和手机通话记录

•网络分析

•异常检测

•预测分析

个性化推荐,提高客户满意度
Lau et al., “Web 2.0
Environmental Scanning and
Adaptive Decision Support
for Business Mergers and 
Acquisitions
关于记分卡和网络分析的BI&A 1.0和2.0环境扫描市场情报从互联网和专有财务信息中提取的业务信息

•文本和网络分析

•情感和影响分析

•关系挖掘

并购中的战略决策
Hu et al., “Network-Based
Modeling and Analysis of
Systemic Risk in Banking
Systems”
关于统计分析的BI&A 1.0银行系统的系统性风险分析与管理美国银行信息提取自FDIC和联邦储备银行网络

•网络和数据分析

•描述性和预测性建模•离散事件模拟

监测和减轻传染性银行倒闭
Abbasi et al., “MetaFraud:  A
Meta-Learning Framework
for Detecting Financial
Fraud”
关于数据挖掘和元学习的BI&A 1.0欺诈检测财务比率,以及组织和行业层面的背景特征

•数据分析

•分类与泛化

•自适应学习

财务欺诈侦查
Sahoo et al., “A Hidden
Markov Model for Col-
laborative Filtering
关于统计分析的BI&A 1.0不断改变用户偏好的推荐系统博客阅读数据、Netflix奖励数据集和Last。调频数据

•数据和网络分析

•统计动态模型

•协同过滤

个性化推荐

六、总结与讨论

        通过BI&A 1.0计划,来自所有部门的企业和组织开始从通过各种企业系统收集并由商业关系数据库管理系统分析的结构化数据中获得关键见解。在过去的几年里,网络智能、网络分析、web 2.0以及挖掘非结构化用户生成内容的能力引领了一个新的、令人兴奋的BI&A 2.0研究时代,带来了前所未有的关于消费者意见、客户需求和识别新商业机会的智能。现在,在这个大数据时代,即使会计与审计2.0仍在成熟,我们发现自己正处于会计与审计3.0的边缘,伴随着所有新的和潜在的革命性技术带来的不确定性。学术信息系统课程如何继续满足传统学生的需求,同时也满足需要新的分析技能的在职IT专业人员的需求?这是一个值得我们深思的问题。

        通过强调电子商务、市场情报、电子政务、医疗保健和安全等几个应用,以及绘制当前BI&A知识格局的重要方面,我们希望为未来的知识来源做出贡献,并加强当前关于(相关)学术研究重要性的讨论。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/214645.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue-第七天

智慧商城项目: 1.创建项目选项: 2.调整: 主要是增加两个文件夹,删除倒是没什么 3.组件库(vant-ui): 点击进入官网:Vant 2 - Mobile UI Components built on Vue 4.导入: 全部导入…

MES系统需要具备哪些性能方面的需求?

MES系统需要具备哪些“性能需求”?关于这个问题,我觉得有必要先和大家解释一下,到底什么是性能需求?性能需求在MES系统的作用是什么?讲明白了这2点,问题自然而然就解决了。 什么是性能需求? 通…

选择最适合您的数据集成工具

个人 对于个人而言,选择最适合的数据集成工具可能会有一些不同的考量因素。以下是一些个人选择数据集成工具时可能需要考虑的因素: 技术水平和经验: 如果个人具有较深的技术水平和经验,可能更倾向于选择功能丰富、灵活性强的数据…

自编码器 AutoEncoder

自编码器(AutoEncoder),也称自编码模型,是一种基于无监督学习的数据维度压缩和特征表示方法,目的是对一组数据学习出一种表示。1986年 Rumelhart 提出自编码模型用于高维复杂数据的降维。由于自动编码器通常应用于无监…

《PySpark大数据分析实战》-02.了解Hadoop

📋 博主简介 💖 作者简介:大家好,我是wux_labs。😜 热衷于各种主流技术,热爱数据科学、机器学习、云计算、人工智能。 通过了TiDB数据库专员(PCTA)、TiDB数据库专家(PCTP…

云降水物理基础

云降水物理基础 云的分类 相对湿度变化方程 由相对湿度的定义,两边取对数之后可以推出 联立克劳修斯-克拉佩龙方程(L和R都为常数) 由右式看出,增加相对湿度的方式:增加水汽(de增大)和降低…

开源好用EasyImages简单图床源码

源码介绍 开源好用EasyImages简单图床源码分享,虽然它是开源程序,但功能一点也不弱,不仅支持多文件上传、文字/图片水印、支持API和鉴黄、还能自定义代码,最重要的是它不强制使用数据库运行,这就给我们的部署和维护带…

人工智能的技术演进与未来趋势

人工智能的技术演进与未来趋势 一、引言 人工智能(AI)已经成为当今科技领域的热门话题,其在各个行业的应用越来越广泛。从智能语音助手到自动驾驶汽车,从智能家居系统到医疗诊断,AI技术已经深入到我们的日常生活。在…

OpenVINS学习2——VIRAL数据集eee01.bag运行

前言 周末休息了两天,接着做上周五那个VIRAL数据集没有运行成功的工作。现在的最新OpenVINS需要重新写配置文件,不像之前那样都写在launch里,因此需要根据数据集情况配置好estimator_config.yaml还有两个标定参数文件。 VIRAL数据集 VIRAL…

WooCommerce商城个人微信支付网关 适合个人微信收款

点击获取WooCommerce商城个人微信支付网关 适合个人微信收款原文https://gplwp.eastfu.com/product/woocommerce-ge-ren-wei-xin-zhi-fu-wang-guan-shi-he-ge-ren/ 个人微信支付网关接口,无需提现,100%资金安全,官方清算,金额无限…

XCube——用于超高分辨率 3D 形状和场景的生成模型!

他们的方法在稀疏体素网格的层次结构上训练潜在扩散模型的层次结构。他们在稀疏结构 VAE 的潜在空间上进行扩散,它为层次结构的每个级别学习紧凑的潜在表示。 XCube 是稀疏体素层次上的分层潜在扩散模型,即从粗到细的 3D 稀疏体素网格序列,使…

智能优化算法之粒子群模型(含python案例代码)

粒子群优化模型概述 粒子群优化(Particle Swarm Optimization,简称PSO)是一种基于群体智能的优化算法,最早由美国社会心理学家James Kennedy和Russell Eberhart于1995年提出。PSO的灵感来自鸟群和鱼群等自然界群体行为的观察。 PS…

Linux驱动入门——编写第一个驱动

目录 前言 驱动入门知识 1.APP 打开的文件在内核中如何表示 2.打开字符设备节点时,内核中也有对应的 struct file 编写 Hello 驱动程序步骤 1.流程介绍 2.驱动代码: 3.应用层代码: 4.本驱动程序的 Makefile 内容: 5.上机…

4fiddler抓包工具的使用

一、定义 1.1 抓包的定义 说明:客户端向服务器发送请求以及服务器响应客户端的请求,都是以数据包来传递的。 抓包(packet capture):通过工具拦截客户端与服务器交互的数据包 1.2 fiddler的介绍 Fiddler是一个http协议调试代理工具&#…

市场全局复盘 20231208

一、板块成交额排名: 资金流入前三个板块K 线: 行业成交额排名: 个股资金流入排名: select 成交额排名 ,近日指标提示 ,短线主题 ,涨停分析,CODE,名称,DDE大单净量,现价,量比,连板天,周涨停,月涨停,年涨停天,连涨天,…

【每日一题】—— B. StORage room(Codeforces Round 912 (Div. 2))(位操作符)

🌏博客主页:PH_modest的博客主页 🚩当前专栏:每日一题 💌其他专栏: 🔴 每日反刍 🟡 C跬步积累 🟢 C语言跬步积累 🌈座右铭:广积粮,缓称…

使用阿里云国际CDN加速后网站无法访问的排查步骤

使用阿里云国际CDN加速后网站无法访问的排查步骤,下面是一些常见的问题,以:www.c.9he.com为例,如果解决不了来信服务器厂商解决。 检查CDN访问异常是CDN节点的问题还是源站问题 如果是源站访问异常,请直接排查源站服务…

Faster R-CNN

Faster R-CNN是作者Ross Girshick继Fast R-CNN后的又一力作。同样使用VGG16作推理速度在GPU上达到5fps(包括候选区域的生成),准确率为网络的backbone,也有进一步的提升。在2015年的ILSVRC以及COCO竞赛中获得多个项目的第一名。 算法流程 右边这部分和Fa…

算法Day27 身材管理(三维背包)

身材管理(三维背包) Description Input Output Sample 代码 import java.util.Scanner;public class Main {public static void main(String[] args) {Scanner scanner new Scanner(System.in);int n scanner.nextInt(); // 输入n的值int money sca…

KaiOS 运营商相关文件operator_variant_manager.js代码功能和调试

gaia/apps/system/js/operator_variant_manager.js at master mozilla-b2g/gaia GitHub js文件接口功能 No 接口/常量 功能 1 OperatorVariantManager var OperatorVariantManager function(core) 2 OperatorVariantManager.IMPORTS OperatorVariantManager.I…