这是我学习 Data Science Research Methods 这门课程的笔记。这门课程的讲师是一名教授和数据科学家,可能因为他既有理论背景,又有实践经验,所以整个课程听下来还比较舒服,学到了一些不错的理论知识。
这门课比较系统地介绍了什么是研究(Research),有哪几种类型的研究,它跟一般的数据科学有什么区别,以及如何去做研究。
研究分为基础性研究和应用性研究。
研究和分析(数据科学)都是我们解决问题的一种手段,而且比较容易混淆。简单地说,他们有如下的根本区别
分析是已经有数据,而且往往问题已经提出来,你要做的是在数据中找到一些规律,来回答这个问题。
研究,从某种程度上包括了分析这个环节。但是,它是要求研究者从头到尾掌握情况,你遇到了一个现象,然后你要定义问题(这是最核心的不同),然后根据问题的需求去收集数据,然后分析等等。
严格意义上来说,做研究会有一个可以遵循的流程如下
设定一个问题
形成一个理论
提出假设
设计实验和测试(包括收集调查表)
形成结论,如果必要的情况下,重复1到4
最终结论
在设定问题这个环节,其实很不容易,而且这很可能是区别好的研究人员和一般的研究人员的关键能力,从人类行为和心理分析角度来看,有如下的参考准则
问题要尽量少(1个,或者最多2个)
问题要具体,而不是抽象的
探寻问题背后的问题,即你到底为什么会有这个问题
并非要取得博士学位才能做研究,实际上每个人都可以是一个研究者。例如课程中讲了一个案例:某一天你站在自家的楼下,发现天花板上面漏水。你要解决这个问题。你会怎么定义问题呢?
一旦定义了问题,你会形成一个自己的理论(通常是对问题的详细描述),然后你需要开始提出假设(有可能会有多个),接下来就是你怎么验证和测试你的假设了。这里面有一个很有意思的环节,就是我们通常会依赖于向潜在的客户或用户做调查表来得到一些数据,此时要特别注意学习受访者的心理规律,以便你能得到真正有用的数据。
尽量避免问WHY(为什么),因为人们通常并不知道,你如果非要问,那么他们就可能胡乱回答一下(真有意思的观察)
避免问过于复杂的问题。这个其实是第一个原则的延申。
避免隐含或明确的倾向。例如你拿了一个新的logo,问别人新的logo是不是比旧的好。
如果一个人感觉自己在被监控,他的行为是不一样。例如你拿着糖果给五个小朋友做调查,并说首先回答完成的前两位可以获得糖果等之类。
尽量让受访者少知道背景,让他们尽量“幼稚”,避免偏见
尽量扩大样本,样本越大,可信度越高。
课程中的范例:某个公司开发了一个绿色产品,在前期小范围调研的时候反馈很好,因为大家都觉得绿色的产品对环境有保护,理应得到更多消费者的青睐。但实际上推向市场后,反应却平平。研究人员需要解决这个问题。他该怎么提出问题呢?怎么去假设和调查呢?
未完待续,敬请关注。这门课程还有很多技术性的内容,例如如何抽样等。后面消化消化一下给大家再分享。
请通过 https://aka.ms/learningAI 或者扫描下面的二维码关注本系列文章《人工智能学习笔记》