多头:多个相同结构的线性变换层(方阵),要求分别线性变换
B站教学视频参考:https://www.bilibili.com/video/BV1eG4y1N7Jp/?p=17&spm_id_from=pageDriver&vd_source=f4c7dcac0ad5ae8189bd414a3b23020d
什么是多头注意力机制?
多头注意力机制结构图:
变换矩阵必须是方阵
多头注意力机制作用:
优化每个词汇的不同特征部分
实现词义更多元表达
多头:多个相同结构的线性变换层(方阵),要求分别线性变换
B站教学视频参考:https://www.bilibili.com/video/BV1eG4y1N7Jp/?p=17&spm_id_from=pageDriver&vd_source=f4c7dcac0ad5ae8189bd414a3b23020d
变换矩阵必须是方阵
优化每个词汇的不同特征部分
实现词义更多元表达
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/186542.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!