AutoCodeRover: Autonomous Program Improvement

AutoCodeRover：自主程序改进

Abstract

过去几十年来，研究人员在软件开发过程自动化方面取得了重大进展。大型语言模型 (LLM) 的最新进展对开发过程产生了重大影响，开发人员可以使用基于 LLM 的编程助手来实现自动化编码。然而，软件工程除了编码之外还涉及程序改进的过程，特别是为了实现软件维护（例如错误修复）和软件演化（例如功能添加）。在本文中，作者提出了一种解决 GitHub 问题的自动化方法，以自主实现程序改进。在我们称为 AutoCodeRover 的方法中，LLM 与复杂的代码搜索功能相结合，最终导致程序修改或补丁。与人工智能研究人员和从业者最近的法学硕士代理方法相比，我们的前景更加面向软件工程。致力于程序表示（抽象语法树），而不是将软件项目视为单纯的文件集合。代码搜索利用类/方法形式的程序结构来增强 LLM 对问题根本原因的理解，并通过迭代搜索有效地检索上下文。只要有可用的测试套件，使用测试进行的基于频谱的故障定位可以进一步增强上下文。在由 300 个现实 GitHub 问题组成的 SWE-bench-lite 上进行的实验表明，解决 GitHub 问题的效率有所提高（SWE-bench-lite 上的效率为 22-23%）。在包含 2294 个 GitHub 问题的完整 SWE-bench 上，AutoCodeRover 解决了大约 16% 的问题，这高于最近报告的来自 Cognition Labs 的 AI 软件工程师 Devin 的效率，同时与 Devin 花费的时间相当。作者的工作流程能够实现自主软件工程，未来LLM自动生成的代码可以得到自主改进。

1. 超越自动程序编程

这一章节讨论了自动化软件工程任务的历史和背景。作者指出，尽管自动程序编程已经取得了一定的进展，如自动生成测试、程序修复等，但自然语言需求的模糊性仍然是一个挑战。文章介绍了利用大型语言模型（LLM）如Github Copilot来增强自动编程的可能性，并探讨了这些自动生成的代码在被集成进软件项目前所需的改进和信任建立。

2. 相关文献

作者回顾了自动程序修复（APR）技术的研究历史，详细讨论了基于测试套件的APR技术。介绍了几种APR技术，包括基于搜索的APR（如GenProg）、基于语义的APR、以及基于模式/学习的APR。此外，文中也提到了最近关于如何利用LLM进行APR的研究，这表明了解决实际bug报告中的错误定位问题的重要性。