引言
这是论文ON LAYER NORMALIZATION IN THE TRANSFORMER ARCHITECTURE的阅读笔记。本篇论文提出了通过Pre-LN的方式可以省掉Warm-up环节,并且可以加快Transformer的训练速度。
通常训练Transformer需要一个仔细设计的学习率warm-up(预热)阶段:在训练开始阶段学习率需要设…
题目传送门
题目意思:
给你一个长度为 n n n 的序列 a i a_i ai,再给一个数 x x x。每一步你可以将序列中的一个数与上 x x x。请问最少要多少步才可以使得序列中出现两个相同的数,如果无解输出 − 1 -1 −1。 思路:
首…
M.Fair Equation
签到题
题目大意
给定一个式子 A B C ABC ABC ,其中正整数 A , B , C ≤ 1 0 6 A,B,C\le 10^6 A,B,C≤106 问能否在 A , B , C A,B,C A,B,C 其中一个数的某一位置(可以是开头和结尾)插入一个数字,使得等式…
字符串哈希
给定一个长度为 n n n的字符串,再给定 m m m个询问,每个询问包含四个整数 l 1 , r 1 , l 2 , r 2 l_1,r_1,l_2,r_2 l1,r1,l2,r2,请你判断 [ l 1 , r 1 ] [l_1,r_1] [l1,r1]和 [ l 2 , r 2 ] [l_2,r_2] [l2,r2]这…
参考文章
更新 state 中的数组
数组是另外一种可以存储在 state 中的 JavaScript 对象,它虽然是可变的,但是却应该被视为不可变。同对象一样,当想要更新存储于 state 中的数组时,需要创建一个新的数组(或者创建一份已…