大数据给每个科研领域的研究方式带来了前所未有的变化。每个领域中,研究人员可使用的工具皆有显著性,大数据现在逐渐成为横跨各学科领域的共同工具。大数据集的可取得性以及可存储并共享大量的数据的能力为研究人员打开了科学探索的几条途径。
数据是研究工作的基础,对研究人员有非常重要的价值,因此,大多数的研究人员都认为海量数据是一个福音,尤其是在遗传学、天文学与粒子物理领域工作的人。虽然大数据现在被认为是一种无与伦比的科学模式,但统计人员建议科研人员要谨慎对待大数据,因为大数据的本质是多维度的,而且永远都在变化。研究人员已经接受了大数据,但大数据不止带来了机会,也带来了复杂性。在处理大数据时候,学术圈面临的主要挑战有:
1. 有效管理数据:存储大量数据集对研究人员来说不止有设备问题还有经济上的困难,尤其是单位不提供支持时。除此之外,因为数据的隐私性、安全性和完整性可能会在跨国研究中牵涉到利益冲突,管理和共享大数据集变得异常复杂。因此,需要一个可以克服设备挑战还有能让已数据为本的研究能顺利进行的永续发展的经济模式。
2. 数据收集重于研究设计:虽然数据对任何研究来说都是至关重要,很多时候收集数据的重要性要大于用心设计研究。有些科研人员都存在这样的误解,即更多的数据直接关系到更好的研究。许多时候收集大量数据的原因是人们认为这可以帮助研究,而忽略了数据的收集方式和用途,英国有一个类似案例,一个涉及 20,000 多名儿童的研究,要评估巴氏杀菌奶的好处,这个研究的设计和试验执行的规模遭到统计学家 William Gosset 的批评,他指出由于随机化不足,不如只用 6 对双胞胎进行研究会更可靠。
3. 大数据需要特殊工具才能分析:传统的数据分析工具无法处理大数据。标准的软件技术通常是设计用来分析小的数据集,但是大数据包含的数据量之大,传统的工具可能要花大量的时间进行分析,或根本无法处理。因此,需要特殊的工具来连接数据到模型,实现准确的数据评估,微软有一个的称为 FaST-LMM(Factored Spectrally Transformed Linear Mixed Model)的算法就是一例。
4. 海量数据可能使数据解读更具挑战性:大数据包含不同来源的数据,使得数据多元化并难以解释。比如说,包含世界人口信息的数据集会有基于不同地理位置、生活方式等的数据,并且可能使用不同的技术进行收集,研究人员可能无法考虑数据的所有面向,最后导致不正确的结论。因此,有必要制定可靠、能克服统计偏差的数据解释程序。
5. 意图在数据中找到模式是非常危险的:大数据很大,研究人员需要将数据集中有用的数据分开。然而,大多数情况下,与其排除不需要的数据,人们倾向于直接寻找模式,直到找到能支持原先假设观念的证据。这是进行研究时非常危险的陷阱。
数据是有价值的资产,这点毋庸置疑,2012 年世界经济论坛中发表的宣言中,将数据当作经济资产的新类别说明了这个事实,大数据在推动科学发展中起到重要的作用。然而,处理大数据的缺点显示出大数据并不总是等于好数据,因此研究人员需要平衡数据与领域专业知识和科学推理,将大数据的潜力最大化。