前言:Hello大家好,我是小哥谈。作为决定神经网络是否传递信息的「开关」,激活函数对于神经网络而言至关重要。不过今天被人们普遍采用的ReLU真的是最高效的方法吗?最近在社交网络上,人们找到了一个看来更强大的激活函数:GELU,这种方法早在2016年即被人提出,然而其论文迄今为止在Google Scholar上的被引用次数却只有34次。其实,GELU已经被很多目前最为领先的模型所采用。据不完全统计,BERT、RoBERTa、ALBERT等目前业内顶尖的NLP模型都使用了这种激活函数。另外,在OpenAI声名远播的无监督预训练模型GPT-2中,研究人员在所有编码器模块中都使用了GELU激活函数。🌈
目录
🚀1.论文解析
🚀2.添加方法
💥💥步骤1:修改activations.py文件