2019独角兽企业重金招聘Python工程师标准>>>
数据分析,并不抽象,传统的数据分析,包括很多。例如信号处理中的DCT,滤波,IDCT变换。由于确定了滤波窗口的特性,使得对一个时间轴上的数据进行了频谱处理,增强了我们希望的信息,弱化了我们不想要的噪声。这就是数据分析。而如果这个滤波窗口的参数在根据期望目标而改变时,以检测期望的目标在数据中是否存在,则是数据挖掘。例如我们尝试判断在不同频带中是否有,具备有机组合的频率信号存在。或许是火星人‘s 妈喊他回家吃饭的信号呢?哈。
我不想和别人讨论狭义的数据分析或数据挖掘,例如,指定什么数据流程,指定什么数据处理工具。如同oracle,DB2才是数据库,mysql则不是数据库一样,有点偏激了。这会如同除了C就不是编程一样极端,记得嵌入式有个uc/OS,我也看过部分代码。严格说,只是个OS的kernel,但是也仍然是OS,OS不代表一定要谈linux, windows。早期的DOS也是OS。
如果一个团队,一个从业者,将数据分析,数据挖掘这个业务行为混为某个工具,某个设计流程规范,那么恐怕他们要被最早的数据分析和数据挖掘的技术人员BS了。就是无线电监听信号的模拟电子工程师们。
这里简单的再说两个例子。
1、例如假设京东商城,在上海,存在三个仓库,分别在北,西,南三个外环以外的地方。任意仓库都不能满足所有物品的摆放。那么如何规划,使得物品能够有效的摆放,以满足更多用户的一次性采购需求,而不要额外增加运输成本。
这不是个系统可预先规划的问题。因为,结论和客户的动态行为有关联。这里将客户的行为,经过分析,反过来影响系统运行状态,就是数据分析和数据挖掘区别其他数据处理的差异。也是数据分析和数据挖掘和数据库化的差异所在。
不妨可以简单的说一句,任何数据库只能作为数据分析或数据挖掘的一个可选择工具,而不能作为数据分析和数据挖掘的必要条件。更别提指定的数据库。库化操作是可预先规划的,而特别是数据挖掘是无法预先确认的。
这里不再讨论数据分析和数据挖掘的区别,另有水贴已讨论。
2、例如假设一个客户周末去百货,通常会不只买一个物品。那么什么样的物品组合销售(包括优惠)的方式,即能让客户感到实惠,也提高了销售额和利润率?这是即定向广告之后,定向营销的新研究内容。任何成熟的案例,有价值的是抽象出来的理论方法,而不是案例中的数据结论和案例处理中使用的工具。
这个也不是系统可预先规划的问题。而是动态分析的。
不过,以上两点,均存在一个数据来源问题。但是数据来源并不属于数据挖掘,数据分析本身。有些数据是系统自身产生的,很容易收集,有些数据则反之,例如第2个案例。百货具备统一收银系统,而商场并不必备,此处对后者会引出数据从何来的问题。包括数据准确性的问题。但这些都不属于数据分析和数据挖掘本身所要面对的问题。
数据分析,和数据挖掘,最有价值的在于解决方案的有效性。有效性则需要足够的理论作为支撑,专设这个BLOG分类,就是希望从集合论开始梳理,并将集合论补充到现有图论中人为描述过多的定义中。由此另更多的方案具备一定的理论基础。希望要理解,此处的理论,并不是所谓“聚类,分类,关联学习”等名词手段。聚类分类,滤波,神经网络,等等,都是一种手段的名词,不会因为名称时髦而有价值。有价值的在于具备良好的理论支撑,哪怕理论解释复杂,如下谈论的模糊类型的理论描述。
特别是数据挖掘,和数据统计很像,同样也存在这一个悖论。即,我知故我在,我在故我知。简单说,我知道数据确实存在,由此我做了很多方法来从数据中找到我的结论。数据挖掘不是金矿挖掘,必须要在指定坑里挖到金子。数据挖掘的价值在于,不同角度的观测,是否有具备可价值化的信息,同时对同一个角度观测,可以判断是否存在价值化的信息。如果形而上学的为了挖掘而挖掘。努力的构造算法,使用工具,是为了证明自身的观测角度正确,那么对最终客户又有何用。
如下:
1、一个数据统计表格中有两个选项。你对这款产品的感受是: 1、好,2、还不错。
由这种题目,获得的数据,不考虑是否真实有效。但得出的统计结果,始终会带有设计者的倾向性,至少我的产品不差。如果存在理论基础,例如集合论的分析,命题中并不是在观测空间中存在互补,这个命题则需要缩小观测空间,同时增补对空间的额外约束条件。就是,针对不排斥此产品的人群,好的百分比,还不错的百分比。而不能简单说,根据统计,觉得非常满意(就是好)的人群百分比为多少多少。这对实际客户有价值吗?没有,甚至会迷惑和伤害到客户未来的业务开展。
而数据挖掘,和数据统计之所以很象,是数据挖掘需要带有主观偏好性。例如古代人在一个稀土矿中找金子,金子没找到,不妨碍现代人挖稀土。同样的数据,有没有价值,在于挖掘者根据需求来做不同的筛选判断。这又需要理论进行严格的外部约束,以防止自娱自乐的情况出现。
例如,第一个例子,京东的例子,数据挖掘的对象是“客户的大概率采购集中度是否存在?从而获得以通过调整仓储的存储方式以优化成本的方法”。
过小的样本会出现的结论的实际概率并不大,甚至不如静态规划更为有效的情况。
过短的样本窗口会导致,仓储方案调整密集,而额外带来不必要的成本。
过大的样本会导致信息均衡化(结论就是不需要调整)无用论的情况。
过长的窗口,会导致调整过于缓慢,好时是好,差时周期也不短的现象。
如果4个人,每个人坚持固守上述4个方法,估计最终结果就是不了了之。做等于没做,所以不如不做,因为谁的结论中都有缺陷。出现这种情况,如果没有理论支撑,则没有办法区分每个人的不同方法中,好坏的内容。不可能某个人的方法中任何信息都是有价值的,也不可能所有的信息和手段都没有价值。那么评价标准难道是老板的喜好?老板唯一喜好的是省钱,省心,而不是到处当裁判,落个偏袒美女之名。其实评价的标准是在于成本的优化。不择手段的在保证客户体验度下,最大可能的优化成本。而前面的一个?只是一个选择性的条件。后面的陈述才是目标。数据挖掘没有动态修正观测期望的动作,就不是挖掘了。
我是个工程师,不是个理论研究者。但是很多理论虽然抽象,对实际工程生产却具备重要的指导作用。甚至包括那些不可细分一一对应的模糊理论。这种指导作用更大的来源于告诉你,什么不可为,而不是什么可为。例如,上面假设4个人都没有错,那么则告诉我们不能通过采购集中度的概率方式来判断,因为基本等概率。以此不可为,则可以引出其他再次数据挖掘的策略。
说到理论对工程的价值,在于限制,而非指导,例如,我的本行是做算法优化。充分利用系统资源,无论软件硬件,是我的手段,以在稳定性,健壮性的前提下,尽可能的提升系统的速度或规模。但是系统资源我只使用85%左右。你让我一一说明,为什么86%就不行,我没有办法。但我可以理论并且联系具体实例的告诉你。系统资源是组合资源。组合过程中存在成本。当系统资源占用过多时,瞬时负载过大,也就是传说中的峰值达到时,没有一定的系统资源余量,保证组合过程的成本得以消化,会使得系统负载能力迅速下降。
哈。你一定会觉得很抽象。我举2个例子,就不说我擅长的C的算法设计了。谈下抽象理论对实际的工作的意义和不可一一对应的现实。
1、马路上,车越多,开的越慢。当然车越少,开的越快。难道是最快和最慢的车速下,马路上的流量最大吗?显然不是,这个是常识,而且大家的常识是对的。车最少,开的最快的时候,和车最多,马路停车场状态下,开的最慢的时候,都不是车网流量最大的时候。
即便每辆车之间没有复杂的同步关系,对资源站用也是分空间,分时间的,够简单了吧,连死锁都没有,除了十字路口。但车就是车,不是火车的车厢。当车与车的距离过于紧密时,车速会急速下降。再加点复杂的,车网流量不同压力下,红绿灯的等候时间的规划问题。这就是个模糊理论。
2、企业支付大量资金做广告。几乎很难找到一个具体自然人,是因为看了这个广告,决定购买产品的,就是有,这个人群对产品购买的总贡献度也不大。那么广告没有必要吗?这么多企业做广告,谈不上每家的策略都是对的,至少整体,广告行为是有存在价值的。但是如果没有理论的支撑,行为学,心理学,社会学(当然这些不是我的方向),企业做广告几乎和赌博没有区别。
但专业的广告公司,和不专业的广告公司,不是以所用的流程,工具,手段来区分的。而是在于谁更多的将理论应用,通过理论,决策什么可为,什么不可为,使得企业的投入,更大概率的获取对应的回报。
数据分析和数据挖掘同样需要理论进行支撑。重复,别和我提工具,语言和流程。我本身是做系统优化的。系统本身是我的优化目标。而不是针对一个具体的系统、具体的工具、具体的流程,来静态的实现一个任务指标。杀鸡焉牛刀?我只在讨论理论,并帮助你选择杀鸡的方式和对刀的态度。因为这样对实际客户更有价值。
最后,简单重复一句话:理论的力量在于让你远离不合理的危险区域,而不是直接帮你达到目标,但这并不妨碍理论对你价值存在。