数据分析和数据挖掘的理论研究必要性

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

数据分析,并不抽象,传统的数据分析,包括很多。例如信号处理中的DCT,滤波,IDCT变换。由于确定了滤波窗口的特性,使得对一个时间轴上的数据进行了频谱处理,增强了我们希望的信息,弱化了我们不想要的噪声。这就是数据分析。而如果这个滤波窗口的参数在根据期望目标而改变时,以检测期望的目标在数据中是否存在,则是数据挖掘。例如我们尝试判断在不同频带中是否有,具备有机组合的频率信号存在。或许是火星人‘s 妈喊他回家吃饭的信号呢?哈。

我不想和别人讨论狭义的数据分析或数据挖掘,例如,指定什么数据流程,指定什么数据处理工具。如同oracle,DB2才是数据库,mysql则不是数据库一样,有点偏激了。这会如同除了C就不是编程一样极端,记得嵌入式有个uc/OS,我也看过部分代码。严格说,只是个OS的kernel,但是也仍然是OS,OS不代表一定要谈linux, windows。早期的DOS也是OS。

如果一个团队,一个从业者,将数据分析,数据挖掘这个业务行为混为某个工具,某个设计流程规范,那么恐怕他们要被最早的数据分析和数据挖掘的技术人员BS了。就是无线电监听信号的模拟电子工程师们。

这里简单的再说两个例子。

1、例如假设京东商城,在上海,存在三个仓库,分别在北,西,南三个外环以外的地方。任意仓库都不能满足所有物品的摆放。那么如何规划,使得物品能够有效的摆放,以满足更多用户的一次性采购需求,而不要额外增加运输成本。

这不是个系统可预先规划的问题。因为,结论和客户的动态行为有关联。这里将客户的行为,经过分析,反过来影响系统运行状态,就是数据分析和数据挖掘区别其他数据处理的差异。也是数据分析和数据挖掘和数据库化的差异所在。

不妨可以简单的说一句,任何数据库只能作为数据分析或数据挖掘的一个可选择工具,而不能作为数据分析和数据挖掘的必要条件。更别提指定的数据库。库化操作是可预先规划的,而特别是数据挖掘是无法预先确认的。

这里不再讨论数据分析和数据挖掘的区别,另有水贴已讨论。

2、例如假设一个客户周末去百货,通常会不只买一个物品。那么什么样的物品组合销售(包括优惠)的方式,即能让客户感到实惠,也提高了销售额和利润率?这是即定向广告之后,定向营销的新研究内容。任何成熟的案例,有价值的是抽象出来的理论方法,而不是案例中的数据结论和案例处理中使用的工具。

这个也不是系统可预先规划的问题。而是动态分析的。

不过,以上两点,均存在一个数据来源问题。但是数据来源并不属于数据挖掘,数据分析本身。有些数据是系统自身产生的,很容易收集,有些数据则反之,例如第2个案例。百货具备统一收银系统,而商场并不必备,此处对后者会引出数据从何来的问题。包括数据准确性的问题。但这些都不属于数据分析和数据挖掘本身所要面对的问题。

数据分析,和数据挖掘,最有价值的在于解决方案的有效性。有效性则需要足够的理论作为支撑,专设这个BLOG分类,就是希望从集合论开始梳理,并将集合论补充到现有图论中人为描述过多的定义中。由此另更多的方案具备一定的理论基础。希望要理解,此处的理论,并不是所谓“聚类,分类,关联学习”等名词手段。聚类分类,滤波,神经网络,等等,都是一种手段的名词,不会因为名称时髦而有价值。有价值的在于具备良好的理论支撑,哪怕理论解释复杂,如下谈论的模糊类型的理论描述。

特别是数据挖掘,和数据统计很像,同样也存在这一个悖论。即,我知故我在,我在故我知。简单说,我知道数据确实存在,由此我做了很多方法来从数据中找到我的结论。数据挖掘不是金矿挖掘,必须要在指定坑里挖到金子。数据挖掘的价值在于,不同角度的观测,是否有具备可价值化的信息,同时对同一个角度观测,可以判断是否存在价值化的信息。如果形而上学的为了挖掘而挖掘。努力的构造算法,使用工具,是为了证明自身的观测角度正确,那么对最终客户又有何用。

如下:

1、一个数据统计表格中有两个选项。你对这款产品的感受是: 1、好,2、还不错。

由这种题目,获得的数据,不考虑是否真实有效。但得出的统计结果,始终会带有设计者的倾向性,至少我的产品不差。如果存在理论基础,例如集合论的分析,命题中并不是在观测空间中存在互补,这个命题则需要缩小观测空间,同时增补对空间的额外约束条件。就是,针对不排斥此产品的人群,好的百分比,还不错的百分比。而不能简单说,根据统计,觉得非常满意(就是好)的人群百分比为多少多少。这对实际客户有价值吗?没有,甚至会迷惑和伤害到客户未来的业务开展。

而数据挖掘,和数据统计之所以很象,是数据挖掘需要带有主观偏好性。例如古代人在一个稀土矿中找金子,金子没找到,不妨碍现代人挖稀土。同样的数据,有没有价值,在于挖掘者根据需求来做不同的筛选判断。这又需要理论进行严格的外部约束,以防止自娱自乐的情况出现。

例如,第一个例子,京东的例子,数据挖掘的对象是“客户的大概率采购集中度是否存在?从而获得以通过调整仓储的存储方式以优化成本的方法”。

过小的样本会出现的结论的实际概率并不大,甚至不如静态规划更为有效的情况。

过短的样本窗口会导致,仓储方案调整密集,而额外带来不必要的成本。

过大的样本会导致信息均衡化(结论就是不需要调整)无用论的情况。

过长的窗口,会导致调整过于缓慢,好时是好,差时周期也不短的现象。

如果4个人,每个人坚持固守上述4个方法,估计最终结果就是不了了之。做等于没做,所以不如不做,因为谁的结论中都有缺陷。出现这种情况,如果没有理论支撑,则没有办法区分每个人的不同方法中,好坏的内容。不可能某个人的方法中任何信息都是有价值的,也不可能所有的信息和手段都没有价值。那么评价标准难道是老板的喜好?老板唯一喜好的是省钱,省心,而不是到处当裁判,落个偏袒美女之名。其实评价的标准是在于成本的优化。不择手段的在保证客户体验度下,最大可能的优化成本。而前面的一个?只是一个选择性的条件。后面的陈述才是目标。数据挖掘没有动态修正观测期望的动作,就不是挖掘了。

我是个工程师,不是个理论研究者。但是很多理论虽然抽象,对实际工程生产却具备重要的指导作用。甚至包括那些不可细分一一对应的模糊理论。这种指导作用更大的来源于告诉你,什么不可为,而不是什么可为。例如,上面假设4个人都没有错,那么则告诉我们不能通过采购集中度的概率方式来判断,因为基本等概率。以此不可为,则可以引出其他再次数据挖掘的策略。

说到理论对工程的价值,在于限制,而非指导,例如,我的本行是做算法优化。充分利用系统资源,无论软件硬件,是我的手段,以在稳定性,健壮性的前提下,尽可能的提升系统的速度或规模。但是系统资源我只使用85%左右。你让我一一说明,为什么86%就不行,我没有办法。但我可以理论并且联系具体实例的告诉你。系统资源是组合资源。组合过程中存在成本。当系统资源占用过多时,瞬时负载过大,也就是传说中的峰值达到时,没有一定的系统资源余量,保证组合过程的成本得以消化,会使得系统负载能力迅速下降。

哈。你一定会觉得很抽象。我举2个例子,就不说我擅长的C的算法设计了。谈下抽象理论对实际的工作的意义和不可一一对应的现实。

1、马路上,车越多,开的越慢。当然车越少,开的越快。难道是最快和最慢的车速下,马路上的流量最大吗?显然不是,这个是常识,而且大家的常识是对的。车最少,开的最快的时候,和车最多,马路停车场状态下,开的最慢的时候,都不是车网流量最大的时候。

即便每辆车之间没有复杂的同步关系,对资源站用也是分空间,分时间的,够简单了吧,连死锁都没有,除了十字路口。但车就是车,不是火车的车厢。当车与车的距离过于紧密时,车速会急速下降。再加点复杂的,车网流量不同压力下,红绿灯的等候时间的规划问题。这就是个模糊理论。

2、企业支付大量资金做广告。几乎很难找到一个具体自然人,是因为看了这个广告,决定购买产品的,就是有,这个人群对产品购买的总贡献度也不大。那么广告没有必要吗?这么多企业做广告,谈不上每家的策略都是对的,至少整体,广告行为是有存在价值的。但是如果没有理论的支撑,行为学,心理学,社会学(当然这些不是我的方向),企业做广告几乎和赌博没有区别。

但专业的广告公司,和不专业的广告公司,不是以所用的流程,工具,手段来区分的。而是在于谁更多的将理论应用,通过理论,决策什么可为,什么不可为,使得企业的投入,更大概率的获取对应的回报。

数据分析和数据挖掘同样需要理论进行支撑。重复,别和我提工具,语言和流程。我本身是做系统优化的。系统本身是我的优化目标。而不是针对一个具体的系统、具体的工具、具体的流程,来静态的实现一个任务指标。杀鸡焉牛刀?我只在讨论理论,并帮助你选择杀鸡的方式和对刀的态度。因为这样对实际客户更有价值。

最后,简单重复一句话:理论的力量在于让你远离不合理的危险区域,而不是直接帮你达到目标,但这并不妨碍理论对你价值存在。

转载于:https://my.oschina.net/luckystar/blog/56190

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/295635.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

这个国家太奇怪了!全球最落后的国家之一,却又是世界上最幸福的国家!

全世界只有3.14 % 的人关注了爆炸吧知识中国和印度之间喜马拉雅山脉附近存在着一个弹丸小国国家人口仅有75万左右国土面积不足4万平方公里这里没有军队只有人们彼此诚挚的信任这里是最快乐的国度也是世间最神秘纯净的世外桃源这里是徒步天堂没有车水马龙的街道和红绿灯没有高楼…

嵌套饼图_旭日图的效率,高到饼图都羡慕

在展示占比情况时,饼图是我们最常用的选择。但是,饼图只能展示单层数据的占比情况,在面对多层级数据时,我们真的要用10个饼图进行可视化吗?不用挠头苦思,今天我们就来看看多个饼图的组合升级版——旭日图是…

Android之BaseAdapter—convertView回收机制与动态控件响应

前言:对于listView的BaseAdapter的派生,难度比较大。最难理解的莫过于getView(int position, View convertView, ViewGroup parent)这个函数是如何产生每条记录的,有些博客中利用holderView,有些博客却没有用,种种方法…

刚刚还在做菜,瞬间人就没了!厨房里一定不要再做这些事

全世界只有3.14 % 的人关注了爆炸吧知识厨房是一个家最有生活气息的地方,即使在外面,只要闻到别人家厨房飘出的饭菜香味,就很让人想家。但是,如果不注意细节,厨房也容易酿成悲剧!今天,给大家看几…

poj 3125 Printer Queue(STL注意事项)

http://poj.org/problem?id3125 这道题没什么突出的地方,是一道很水的题,可以用list,也可以用queue来解决。(用list解决的代码我就不写了)把它写上来,只是因为我在使用STL的时候犯了一个小错误&#xff0c…

TCTDB存储结构

TCTDB是tokyo cabinet家族中的表格数据库(如上图),其实现基于TCHDB(hash database)和TCBDB(B-tree database)。TCHDB参考:http://blog.chinaunix.net/space.php?uid20196318&doblog&id327754 TCBD…

Android之px 与 dp, sp换算公式

px: pixels(像素). 不同设备显示效果相同,一般我们HVGA代表320x480像素,这个用的比较多。 pt: point,是一个标准的长度单位,1pt=1/72英寸,用于印刷业,非常简单易用; sp: scaled pi…

05Prism WPF 入门实战 - Navigation

1.概要源码及PPT地址:https://github.com/JusterZhu/wemail视频地址:https://www.bilibili.com/video/BV1KQ4y1C7tg?share\sourcecopy\web本章分为以下三个部分来了解:Part1 视图导航、参数传递Part2 确认导航Part3 导航日志2.详细内容Part1…

明明没PS,看起来却像PS过的32张照片

全世界只有3.14 % 的人关注了爆炸吧知识现在PS太普遍,以至于人们看到不同寻常的东西,第一时间会怀疑经过技术处理。但也有一些照片,真的没有PS过!1、这些轮胎痕迹令人产生了3D的错觉:2、截然分开的几种景观&#xff0c…

没有什么是日本牛郎店做不到的......

1 第一眼你看见了啥?▼2 确实很悲伤(dy:李逍遥)▼3 貌似真是这样▼4 我不爱打麻将咋办?▼5 短短十几个字,满满的江湖纷争▼6 少了男主的朋友不要轻易尝试▼7 哦吼▼8 双十一如你所愿,哈哈…

持续集成、持续交付(CI/CD)开篇,先来唠唠嗑

前言现在稍微有点规模的系统,很多都是采用分布式/微服务架构,将一个大系统拆分为很多个功能模块进行开发、测试、发布、管理等,如果全部流程都采用人工的形式进行的话,效率肯定是超级不高效滴。而且现在很多项目都采用极限编程的模…

100例经典炒菜_Python3经典100例(②)

实例6题目:斐波那契数列;分析:利用递归计算斐波那契数列,输入斐波那契数列的n位,调用递归计算出第n位的数列值;代码:#!/usr/bin/python3 # -*- coding: utf-8 -*- # Time : 2018-10-3 21:10 …

分享10个2012年最新发布的jQuery插件

为什么80%的码农都做不了架构师?>>> 日期:2012-5-9 来源:GBin1.com 本文收集了最新的jQuery社区发布的jQuery插件,绝对是你没有见过的,希望大家喜欢! 1. SearchMeme 一个即时搜索的jQuery插件…

博士毕业的人也会交“智商税”?现实远比我们想象的残酷……

全世界只有3.14 % 的人关注了爆炸吧知识2018 年的那个多事之秋,我终于在人生快要过半的时候拿到了博士学位。大毛和小鱼是我博士期间玩得最好的兄弟,我们三人水平差不多,志向差不多,博士毕业后都进了双非高校。现实不像是想象中那…

聊一聊声明式接口调用与Nacos的结合使用

背景 对于公司内部的 API 接口,在引入注册中心之后,免不了会用上服务发现这个东西。现在比较流行的接口调用方式应该是基于声明式接口的调用,它使得开发变得更加简化和快捷。.NET 在声明式接口调用这一块,有 WebApiClient 和 Refi…

三次握手和四次挥手图解_三次握手和四次挥手简单理解

TCP三次握手TCP标志位TCP在其协议头中使用大量的标志位或者说1位(bit)布尔域来控制连接状态,一个包中有可以设置多个标志位。TCP是主机对主机层的传输控制协议,提供可靠的连接服务,采用三次握手确认建立一个连接&#…

Android之基于BaseAdapter和SimpleAdapter的GridView

GridView 第一种方式:用SimpleAdapter 先来贴出本文代码运行的结果: 本文需要添加/修改3个文件:main.xml、night_item.xml、JAVA源代码。 main.xml源代码如下,本身是个GirdView,用于装载Item: <?xml version="1.0" encoding="utf-8"?> <…

IOS开发CAKeyframeAnimation的基本使用与keypath的列举

2019独角兽企业重金招聘Python工程师标准>>> CAKeyframeAnimation跟CABasicAnimation的区别是&#xff1a;CABasicAnimation只能从一个数值(fromValue)变到另一个数值(toValue)&#xff0c;而CAKeyframeAnimation会使用一个NSArray保存这些数值 - (void)value {CAKe…

少女为什么会身上香香的?

1 一旦接受这个设定苏打窃瓦辛格&#xff08;via.煎甜担担面&#xff09;▼2 有被冒犯到▼3 哈哈哈哈哈▼4 就差了难忘今宵▼5 还是挺在理的▼6 欣慰中带着点点悲伤▼7 原来是你的错▼8 哈哈哈哈哈▼你点的每个赞&#xff0c;我都认真当成了喜欢

Android之Android Studio三种方式导入外部资源 以及 报错处理

Android Studio三种方式导入外部资源 以及 报错处理 android studio提供了三种方式导入外部资源: 1. Library dependency – 在线添加、需联网下载 、 2. File dependency – 从本地添加一些jar包(要先将jar包</