一、说明
我知道transformer 架构可能看起来很可怕,你可能在网上或博客上遇到了各种解释。但是,在我的博客中,我将通过提供一个全面的数值示例来努力澄清它。通过这样做,我希望简化对变压器架构的理解。
二、输入和位置编码
让我们解决初始部分,我们将确定输入并计算它们的位置编码。
2.1 步骤 1(定义数据)
第一步是定义我们的数据集(语料库)。
在我们的数据集中,有 3 个句子(对话)取自《权力的游戏》电视节目。虽然这个数据集可能看起来很小,但它的大小实际上有助于我们使用即将到来的数学方程找到结果。
2.2 第 2 步(查找词汇大小)
为了确定词汇量,我们需要确定数据集中唯一单词的总数。这对于编码(即将数据转换为数字)至关重要。