python构建矩阵 x y_生成Python函数一半没问题,当前最正统的代码生成是什么样的?...

机器之心原创

参与:思源

大家都说深度神经网络能力很强,那么从函数注释生成函数代码,以及从函数代码总结函数注释这种最基础的代码任务到底能不能行?像 Python、Java 这样的通用高级语言,到底在代码生成上能达到什么水平?本文介绍的就是这样一篇北大前沿研究。

开发者写代码,和数学家写公式一样是非常自然的一件事。开发者将完成某个任务的步骤和逻辑,一行行写成代码,并期待达到预定的效果。数学家从某个事实出发,将思考过程一行行写成表达式,并期待找到复杂逻辑背后的简单关系。这两者经常会有交叉,也会有融合。数学推导结果可以大量简化代码,并提供新的解决路径;而代码可以快速验证推导过程,并用于实际的生活中。代码和表达式都是一种形式化语言,而另一种必不可少的是用来描述它的自然语言,也就是注释或文档。通过注释,我们能知道这段代码干了什么,甚至很自然地想到「如果是我,这段代码该怎么写」。通过阅读代码,我们能沿着开发者的思路走一遍,总结出它到底干了什么。这两者似乎是一种对偶关系,从代码到注释、从注释到代码,这就是代码生成与代码总结两大任务。在这篇文章中,我们将介绍代码生成与总结的最新进展,北大 Bolin Wei、李戈等研究者提出的对偶学习在 Python 和 Java 代码生成上获得了新的 SOTA,并且被接收为 NeurIPS 2019 论文。如下是北大新研究根据注释生成的两段代码,其中 dcsp 表示 tab 键、dcnl 表示换行符,它们控制 Python 代码的缩进结构。

8bcf15516d8e76c8d40b9d8fa95a9f2c.png

值得注意的是,在 Python 语言上,根据注释这种自然语言,生成有效的代码已经达到了 51.9% 的准确率。也就是说,生成的一半代码能通过词法分析、语法分析,并生成正确的抽象语法树代码生成与总结,是一对兄弟之前这两项研究大多都是独立的,代码总结会利用 Encoder-Decoder、抽象语法树和 Tree RNN 等技术生成意图,代码生成会利用 Seq2Seq、语法规则和基于语法的结构化 CNN 来生成代码,这些研究并没有深入挖掘它们之间的关系。而北大的这一项研究从对偶学习出发,探索如何利用它们之间的关系促进提升学习效果。具体而言,研究者考虑了概率与注意力权重中的对偶性,从而设计了一种正则项来约束对偶性。更直观而言,这种「对偶性」表示代码生成任务的输入"意图"同样是代码总结的输出,反之亦然。其中意图指开发者写这一段代码的目的,一般而言会通过注释的方式用自然语言表达。

df272cb5cf3813597f1c023261d3a02e.png

利用对偶学习,研究者获得了当前最优的效果。其实这种提升也非常合理,例如当前效果最好的神经机器翻译模型 Transformer Big + BT,它就大量采用回译机制,希望根据原语与目标语之间的相互翻译,从而得到更好的最终模型。统一的联合训练框架如下所示为代码生成、总结的对偶学习框架,总体上生成与总结两条路径都非常容易理解,它们都采用了常规基于注意力机制的 Seq2Seq 模型。现在重要的是理解中间的对偶约束,该约束用于给损失函数加正则项,从而令它们之间相互促进。

00b292789b680f6199301d84aeb8621b.png

对偶训练的整体过程,代码生成模块与总结模块会联合训练。上面 Seq2Seq 的过程就不再赘述了,它们采用的损失函数也是常规将所有时间步上的损失相加。不过需要注意的是,源代码的词汇量要比注释更大一些,因此代码生成模块输出层的参数量要大于代码总结的输出层参数量。联合概率来约束如前所述,对偶训练框架包含了非常重要的对偶约束,它由两个对偶正则项组成,分别用于约束两个模型的对偶性。这两种正则项受到了注意力权重具有对称性的启发,也受到了两种模型之间概率相关性的启发。若现在给定输入样本,其中假设 x 为代码,y 为对应的代码注释。那么代码生成可以描述为 p(x|y)、代码总结可以描述为 p(y|x)。现在如果要找到它们之间的概率相关性,那么根据联合概率与条件概率之间的关系式就可以快速得出:48524eb4578302370be0cf36e883d754.png也就是说,logP(x) + logP(y|x) 需要等于 logP(y) + logP(x|y),这是代码生成与总结的内在联系。如果两项差别很大,那么至少可以判定代码生成与总结都没有达到最优。所以,常规的做法就是把这个约束构建为损失函数:cf09ff3602b82adde3253598e4f06281.png其中 P(x) 和 P(y) 分别是针对代码和注释的语言模型,它们都是边缘分布。这个损失有点类似于回归模型常用的均方误差,如上所示,只要两个子模型不满足理论上的概率条件,那么肯定会产生损失,在训练中就会建立起代码生成与总结的关系。注意力权重也来约束上面是其中一个正则项,另一个正则项主要是考虑两个子模型之间的对称性。在北大的这一项研究中,他们考虑了注意力权重的对称性。研究者表明,因为注意力权重能度量源代码 Token 与注释 Token 之间的匹配关系,而这种匹配关系又是对称的,所以注意力权重也需要是对称的。研究者举了一个例子,例如代码注释为「find the position of a character inside a string」,那么对应源代码可能为「string . find ( character )」。现在,不论是从代码到注释还是从注释到代码,源代码中的「find」一定需要匹配到注释中的「find」,它们之间的关系是不变的。所以,现在最直观的思想是,我们希望两个注意力权重矩阵 A_xy 和 A_yx,它们之间对应的元素尽可能相等。因为 A_xy 表示代码部分注意到注释部分的程度,所以,A_xy 矩阵的每一行表示代码的某个 Token,与注释的所有 Tokens 之间的关系。同理 A_yx 表示注释部分注意到代码部分的程度,A_yx 的每一列表示代码的某个 Token,和注释的所有 Tokens 之间的关系。具体而言,如果 8f8e3e8c645a4c2898f2ecbc990c35b9.png,其中 i 表示 A_xy 的第 i 行;1732fb6db37bfdef9f177dacdd469ccb.png,其中 i 表示 A_yx 的第 i 列。那么很明显,我们需要令 b_i 尽可能等于 b_i'。如果它们非常相近,那么可以表明注意力权重矩阵是对称的,源代码和代码注释之间的匹配是成功的。因为经过 softmax 的 b_i 和 b_i'都是一种概率分布,所以北大研究者通过 JS 散度度量这两类分布之间的距离。最常见的 KL 散度是不对称的,也就是说 KL(b_i || b_i') 不等于 KL(b_i' || b_i),而 JS 散度是 KL 散度的「对称版」,所以采用 JS 散度非常合理。此外,因为 JS 散度是对称的,所以代码生成模型与代码总结模型都能采用这样的距离度量作为约束条件。最后,以注意力权重的对称性作为正则项,JS 散度可以表述为:6dd3e6210e0901022eba2498cd4a0681.png伪代码带你走近联合训练现在两种正则项都已经完成了,只需要联合训练两个子模型就行了。如下算法 1 所示,输入两种数据源的语言模型预计对应的数据,模型就能开始学。8cc15803155da0ffdfb8f78e5f339edd.png如上所示,对于每一个批量数据,模型会计算两个子模型各自的预测损失,并同时计算两个公共的对偶正则项。这样的损失能算出对应的梯度,并分别更新两个子模块的权重。目前该研究的开源实现已经放到了 GitHub,研究者使用 PyTorch 实现了整个模型的训练过程。如上伪代码所示,模型架构方面,Seq2Seq 大家已经比较熟了,我们需要重点理解的是目标函数。

1a28ce36ac012d6940a1d4606bd22bdb.png

如上代码片段所示,损失函数主要由三部分组成:即常规的交叉熵损失函数,它度量生成序列与标注序列间的距离;对偶损失函数,它度量的是代码与注释的概率相关性;最后是注意力损失,它度量的是两组注意力权重之间的分布距离。通过这些训练目标的约束,代码生成与总结才会真正地相辅相成。真实的 GitHub 代码生成这种最正统的代码生成与总结无疑是非常困难的,它远远不能像 UI 界面那样生成简易的代码。也许借助卷积神经网络,UI 界面的代码生成已经能用于实际的界面设计,但是对于「更正统」的纯代码生成,目前的准确度还远远不能满足我们的要求。在这篇论文中,北大研究者在 Java 与 Python 两个数据集,测试了代码生成与总结的效果。其中 Java 数据集是从 GitHub Java 项目中抽取的 Java 方法,以及对应的自然语言注释,该自然语言了这个方法的用途。与 Java 类似,Python 数据集也是从 GitHub 中抽取的。两种数据集的统计信息如下所示:

e53bad3d1c547635ab9e77f43e36b956.png

论文表 1,我们可以看到,训练集有 5 万到 7 万段代码,且确实一段 Python 代码平均长度要远远少于 Java 代码。最后,我们可以看看北大研究者得出的最终效果。他们主要通过 BLEU 值、METEOR 和 ROUGE-L 三种度量方法评估模型生成的代码注释,这对于自然语言生成来说是比较常规的度量标准;此外,研究者通过 BLEU 值与有效代码率(PoV)来评估代码生成的效果,其中 PoV 指生成代码能解析为抽象语法树的比例。1f31f09c5f6547508c6425e8e4640431.png

如上所示为代码生成与总结的总体效果,我们可以发现对偶训练效果要超过其它方法,且相比独立训练的 Basic Model,效果也要更好一些。

值得注意的是,在代码生成中,Java 和 Python 的 PoV 分别只有 27.4 与 51.9%。也就是说,生成的代码首先不管是不是完成了自然语言描述的功能,它能通过词法分析、语法分析,最终成功地构建成抽象语法树,占比并不高。这样的效果,也许代表着正统代码生成,最前沿的水平。它离生成合理的代码,辅助开发者完成实战开发还太远了。正如该论文作者李戈教授所说,程序的数据空间非常稀疏,而自然语言数据空间也比较稀疏,这两个稀疏空间的变换肯定会比较困难。它并不能像图像生成这种连续空间的变换,程序的生成还有很长的路要走。文为机器之心原创,转载请联系本公众号获得授权✄------------------------------------------------加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com投稿或寻求报道:content@jiqizhixin.com广告 & 商务合作:bd@jiqizhixin.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/365094.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

福大软工 · 第七次作业 - 需求分析报告(404 Note Found队)

目录 组队后的团队项目的整体计划安排项目logo及思维导图项目logo思维导图产品思维导图产品思维导图-引导产品思维导图-后端数据处理、存储产品思维导图-短信识别产品思维导图-智能分析产品思维导图-壁纸生成产品思维导图-注册界面产品思维导图-登录界面产品思维导图-使用1产品…

Web设计前沿:CSS3 在网页设计中的20个惊艳应用

作为 CSS 的下一个版本,CSS3 给 Web 开发带来了革命性的影响。例如,以前很多需要图片呈现的界面效果,现在使用 CSS3 结合 HTML 就可以实现,CSS3 甚至还可以实现需要 JavaScript 才能实现的复杂动画效果。下面向大家展示 CSS3 圆角…

Websockets与Spring 4

我将整个厨盆放入一个小型Web应用程序中,此应用程序是我在该帖子中开发的一部分-Spring Boot,Spring Integration,RabbitMQ,最后是该帖子的主题,Spring MVC与Spring 4中的Websocket支持。 实时地震清单应用 最终的应用…

计算机算力英语怎么说,MIT警告深度学习正逼近算力极限,突破瓶颈会让人类成为上帝?...

原标题:MIT警告深度学习正逼近算力极限,突破瓶颈会让人类成为上帝?摩尔定律提出的时候,人们从来没有想到过芯片的算力会有到达极限的一天,至少从来没有想到芯片算力极限会这么快到来。MIT发出警告:算力将探…

推荐40个简单的 jQuery 导航插件和教程【下篇】

在这篇文章中,我为大家收集了40款非常棒的 jQuery 导航插件和教程。导航作为网站重要的组成部分,能够帮助用户找到他们想要的内容,因此导航设计的好坏决定了用户能够在你的网站停留更长的时间,浏览更多的内容。在下面的集合中&…

福大软工 · 第七次作业 - 需求分析报告

【 组长博客链接】 031602428 苏路明 【计划安排】 阶段主要任务时间任务内容1项目选题09.22 - 10.10确定选题内容,收集用户需求,明确定位,竞品分析,选题报告2需求分析10.11 - 11.4梳理需求,输出思维导图,原…

网站页面左右_广州网站优化的技巧是什么?

说到网站优化,大家都不陌生,但首先,我们知道为什么要优化网站吗?我们网站优化是为了改善网站在百度,搜狗等搜索引擎搜索结果排名中的网站页面,以增强搜索引擎的流量。下面拓王朝广州网站优化公司小编针对网站的优化技…

python: 爬取[博海拾贝]图片脚本

练手代码,聊作备忘: # encoding: utf-8 # from __future__ import unicode_literalsimport urllib import urllib2 import re import os import time from threading import Threadclass BhsbSpider(object):_url rhttps://bh.sb/post/category/main/;_…

Java八岁生日快乐!

这是另外一段漫长的旅程,但是昨天,恰好是Java 7发布两年零七个月零十八天之后,我们现在有了可用于生产的构建 Java 8可供下载 ! 这个新的主要版本包含一些新功能和增强功能,这些功能和增强功能可以提高现有应用程序的…

精心挑选的23款美轮美奂的 jQuery 图片特效插件

jQuery是一个非常优秀的 JavaScript 框架,使用简单灵活,同时还有许多成熟的插件可供选择。其中,jQuery 最令人印象深刻的应用之一就是对图片的处理,它可以让帮助你在你的项目中加入各种精美的图片展示效果。下面向大家分享精心挑选…

arduino定时器函数如何使用_excel如何使用函数公式来查找图片

先看效果:是不是有点意思啊。好,咱们看看如何实现这样的效果。步骤一:准备好图片资料,话说巧媳妇难做无米之炊,没有资料,如何查询?如下图所示:A列是产品名称,B列是对应的…

精美的手机界面设计素材和线框图设计工具推荐

在制作界面原型的时候,如果有现成的界面基础元素可以使用的话,设计师就可以非常快速的完成原型的制作,能够节省大量的时间和精力。在这篇文章,我向大家分享45套非常有用的 UI 和 Wireframe 套件素材包,帮助设计们用于 …

c语言求数列的和_例15:C语言求Fibonacci数列的前30个数

例15:求Fibonacci数列的前30个数。这个数列有以下特点:第1,2两个数为1,1,。从第三个数开始,该数是其前两个数之和。(斐波那契不死神兔)解题思路:从前两个月的兔子数可以推出第3个月的兔子数。设第1个月的兔…

哈工大未来计算机院士,中国双一流大学拥有院士校友数排名,这是真实力!哈工大依然很强...

原标题:中国双一流大学拥有院士校友数排名,这是真实力!哈工大依然很强校友是一个神奇的资源,就是曾经在同一个学校、大学、研究院(所)进行学习、工作和进修的人,就称为校友,以学校为标准,并不以…

GT sport赛道详解 - Dragon Trail | 龙之径

参考:GT sport所有赛道简介 今天的心情变化挺大,从绝望放弃到豁然开朗。 前言:GT sport有个排位赛,是每位sim赛车手提升自己等级的唯一途径,其中一个排位赛就是龙之径II(逆时针跑),我…

优秀网页设计:带给你灵感的联系页面设计

在设计网站的时候,我们需要考虑到各个方面,从页眉到脚,从着陆页(landing page)到关于页(about us page),还有联系页面(contact page)都要考虑。联系页面是网站…

前端项目难点及解决方法_预埋件施工重点难点的解决方法

点击箭头处“蓝色字”,关注我们哦!!关于施工重难点的问题,可根据主体结构施工情况,想从根本上解决几大重难点,必须严格按照设计图纸及规范要求放线定位,将预埋件施工精度控制合格率,…

视差滚动(Parallax Scrolling)技术在网页中应用的精美案例

视差滚动(Parallax Scrolling)是一种独特的网页内容表现形式,其基本原理是让多层背景以不同的速度移动,形成立体的运动效果,带来出色的视觉体验。作为今年网页设计的热点趋势,越来越多的网站应用了这项技术…

用Java可外部化

在理解Externalizable接口之前,您需要了解序列化。您可以在java中的序列化上阅读有关序列化的更多信息。 Java提供一种称为序列化的机制,以按字节顺序或字节顺序持久化Java对象,其中包括对象的数据以及有关对象的类型和存储在对象中的数据类…

批量删除html网页,批量删除.html · panghuamama/Clearly Local - Gitee.com

批量删除$axure.utils.getTransparentGifPath function() { return resources/images/transparent.gif; };$axure.utils.getOtherPath function() { return resources/Other.html; };$axure.utils.getReloadPath function() { return resources/reload.html; };…