0 abstract
- 本文介绍了一项对GitHub Copilot(一种人工智能编程助手)的控制实验结果。
- 研究人员招募了软件开发人员,要求他们尽可能快地用JavaScript实现一个HTTP服务器。实验组可以访问人工智能编程助手,比对照组完成任务的速度快55.8%。
- 观察到的异质性效应表明,人工智能编程助手有望帮助人们过渡到软件开发职业。
1 实验设计
- 计算了两个指标作为衡量每个组的表现:任务成功率和任务完成时间。
- 任务成功率是指一个组中成功完成任务的参与者所占的百分比。
- 任务完成时间是从任务开始到结束所需的时间
- 在参与者完成任务后,研究者向他们发送了退出调查的链接。
- 询问了实验组他们在执行任务时发现GitHub Copilot有多有帮助,以及他们估计与不使用GitHub Copilot相比,他们完成任务的速度提高了多少。
- 还要求对照组估计如果他们使用了GitHub Copilot,他们会经历多大的速度提升,这是在向他们展示了一分钟的演示视频之后
2 实验对象
- 95名开发者被随机分配到对照组和实验组,实验组45人,对照组50人。实验组和对照组各有35名开发者完成了任务和调查
- 大多数参与者的年龄在25-34岁之间,来自印度和巴基斯坦。
- 这组参与者的特点是相对较低的收入(与美国标准相比,年中位收入在10,000至19,000美元之间)但教育水平较高(大多数人拥有4年制学位及以上)。
- 这个组别的平均编程经验为6年,并且平均报告在一个工作日中花费9小时进行编程。
3 实验结果
实验组——使用copilot
对照组——不适用copilot
3.1 完成时间
- 实验组的平均完成时间为71.17分钟,对照组为160.89分钟。
- 这代表了55.8%的完成时间缩短。t检验的p值为0.0017,改善的95%置信区间在[21%, 89%]之间。
- 有四个异常值的完成时间超过300分钟。
- 所有异常值都在对照组,但即使去掉这些异常值,我们的结果依然稳健。
- 这一结果表明,在我们的实验人群中,Copilot显著提高了平均生产力。
3.2 完成时间在不同维度上是否有差异
- 然后,论文调查这种效应在不同维度(包括经验、就业状况、收入、教育和软件语言偏好)上是否存在异质性。
- 应用Horvitz-Thomson转换,然后对观测到的转换后结果进行回归分析。
- 表1中的估计结果报告了这次回归的系数。
- 结果显示,经验较少的开发者(职业编程年数)、编码负载较重的开发者(每天编程时间)、以及年龄较大的开发者(年龄在25至44岁之间的开发者)从Copilot中获益更多。
3.3 受试对象的体验
- 进行了一项包含两个问题的退出调查,以了解受试对象的体验。
- 首先,要求他们估计Copilot在完成任务方面提供的生产力增益或损失(以百分比表示)。
- 虽然对照组在执行任务期间没有接触到Copilot,但在回答这个问题之前,他们观看了教程视频,因此了解了Copilot的功能。
- 图7展示了对照组和实验组自我报告的生产力增益估计的分布。
- 平均而言,实验组和对照组的参与者估计生产力增加了35%,与他们实际显示的55.8%的增幅相比,这是一种低估。
3.4 支付意愿
- 在第二个问题中,参与者被问到他们愿意为获取GitHub Copilot发布通知的最高月价格是多少。
- 这个问题的目的是了解开发者支付Copilot的意愿,因为这个问题的答案提供了开发者支付意愿的上限。
- 图8展示了对照组和实验组分开的无关价格分布。
- 实验组的平均无关价格为每月27.25美元,对照组的平均无关价格为每月16.91美元。
- 这种差异在95%的水平上具有统计学意义。
- 这一结果间接证明了实验组在任务中受益于Copilot,因为他们的支付意愿显著高于对照组。
- 图8展示了对照组和实验组分开的无关价格分布。