文章目录
- 一:过拟合
- 1.1 直接finetune
- 1.2 layer finetune
- 1.3ULMFiT
- 2 Bert节省内存
- 3 Bert蒸馏
- 4.post train
一:过拟合
1.1 直接finetune
容易过拟合
1.2 layer finetune
拷贝部分预训练参数,而其他随机初始化
- 两部分一同训练:提升(左下线5)
- 只训练随机初始化的部分:破坏(左下线2),但在此基础上再解冻剩余部分会恢复(左下线3)
李宏毅transfer learning.
How transferable are features in deep neural networks? 论文笔记
How transferable are features in deep neural networks?
1.3ULMFiT
Universal Language Model Fine-tuning for Text Classification
从最后一层到前层,逐层解冻
2 Bert节省内存
以时间节省内存
3 Bert蒸馏
Bert短路–>加速了
4.post train
不是很懂,大体是对已经与训练过的模型,使用新的数据集进一步预训练,之后再做finetune。
疫情期间微博数据情感分析的任务中,第一名(还是第三名?)用这个方法进行进一步预训练,数据集大小10w