大数据时代
[英] 维克托 · 迈尔 — 舍恩伯格 肯尼斯 · 库克耶 ◎ 著 盛杨燕 周涛◎译
《大数据时代》是国外大数据研究的先河之作,本书作者维克托·迈尔·舍恩伯格被誉为“大数据商业应用第一人”,他在书中前瞻性地指出,大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型,并用三个部分讲述了大数据时代的思维变革、商业变革和管理变革。
舍恩伯格最具洞见之处在于,指出大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。这就颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。
本书认为大数据的核心就是预测,大数据已经成为了新发明和新服务的源泉,而更多的改变正蓄势待发。书中展示了谷歌、微软、亚马逊、IBM、苹果、facebook、twitter、VISA等大数据先锋们最具价值的应用案例。
—— 网络
读后感
引言
在一开始作者举例在流感中之所以谷歌可以预测冬季流感的传播。 就是因为谷歌保存了每天来自全球的30亿条搜索指令。奥伦 · 埃奇奥尼通过大数据解释了为什么季节影响飞机票的价格,他把这个发现命名为 “哈姆雷特”。于是他收购了Farecast公司,这时的预测准确率已经高达75%, 平均每张机票节省50美元。
天文学,信息爆炸的起源
信息爆炸的起源可以追溯到多个领域的发展,而天文学是其中的一个重要领域。随着计算机技术的全面融入和社会的发展,天文学在数据收集和处理方面取得了巨大的进步。在这个过程中,天文学家们积累了大量的观测数据,这些数据主要依赖于观测电磁辐射获得。这些数据的增长速度非常快,远超过了传统数据处理和分析的能力,从而形成了信息爆炸的现象。
具体来说,天文学作为信息爆炸的起源之一,主要体现在以下几个方面:
- 观测技术的进步:随着望远镜和探测器技术的不断改进,天文学家能够观测到更远的星系、更暗的天体和更精细的结构。这些观测技术的进步使得数据量迅速增长,为信息爆炸提供了丰富的原始素材。
- 数据处理技术的发展:随着计算机技术的不断进步,数据处理和分析能力得到了极大的提升。这使得天文学家能够更高效地处理和分析大量的观测数据,从而发现更多的天文现象和规律。
- 跨学科的合作与交流:天文学与其他学科的交叉融合,如物理学、数学、计算机科学等,为信息爆炸提供了更多的可能性。这些跨学科的合作与交流促进了数据共享和资源整合,进一步推动了信息爆炸的发展。
——网络
国际单位制前缀&字节
在书中多次提到国际单位制(SI)前缀:
- 千(kilo):10³ 或者1000
- 百万(mega):10⁶ 或者1,000,000
- 十亿(giga):10⁹ 或者1,000,000,000
- 兆(tera):10¹² 或者1,000,000,000,000
- 拍(peta):10¹⁵ 或者1,000,000,000,000,000
- 艾(exa):10¹⁸ 或者1,000,000,000,000,000,000
- 泽(zetta):10²¹ 或者1,000,000,000,000,000,000,000
- 尧(yotta):10²⁴ 或者1,000,000,000,000,000,000,000,000
- 毫(milli):10⁻³ 或者0.001
- 微(micro):10⁻⁶ 或者0.000001
- 纳(nano):10⁻⁹ 或者0.000000001
- 皮(pico):10⁻¹² 或者0.000000000001
- 飞(femto):10⁻¹⁵ 或者0.000000000000001
- 厄(atto):10⁻¹⁸ 或者0.000000000000000001
- 兹(Zepto):10⁻²¹ 或者0.000000000000000000001
- 幺(Yocto):10⁻²⁴ 或者0.000000000000000000000001
据了解人类在2007年就储存了300艾字节
字节 Byte:
1Byte = 8bit, 俗称1大B = 1小b。
Byte进制是1024,艾字节到泽字节的进位就是1024 = 2¹⁰。
模拟数据&数字数据
众所周知使用东西是一般分为获取数据——传输数据——处理数据——发挥作用。
模拟数据和数字数据是两种主要的数据类型,它们在表示、传输和处理数据时有显著的不同。
模拟数据(Analog Data)是指连续变化的数据,它们可以取任意值,并且在时间和幅度上都是连续的。例如,温度、压力、声音、图像等都属于模拟数据。模拟数据的特点是可以平滑地变化,没有固定的量化级别。这种类型的数据通常通过模拟信号进行传输,如电话线中的语音信号或电视广播中的图像信号。
数字数据(Digital Data)则是以离散的数值形式表示的数据。在计算机科学中,数字数据通常是用二进制代码(0和1)表示的。这种数据类型只能取特定的、离散的数值。0表示恒定的负电压,1表示恒定的正电压。
作者一直强调量变 = 质变,全数据模式 样本 = 总体这是很正确的, 作者在书中举例一个图片和一个视频有什么区别(量变 = 质变)。
我推荐大家看一下这本书:
谢谢大家,欢迎点赞, 收藏,关注。