多年来,光学字符识别 (OCR) 出现了多项创新。它对零售、医疗保健、银行和许多其他行业的影响是巨大的。尽管有着悠久的历史和多种最先进的模型,研究人员仍在不断创新。与深度学习的许多其他领域一样,OCR 也看到了变压器神经网络的重要性和影响。如今,我们拥有像TrOCR(Transformer OCR)这样的模型,它在准确性方面真正超越了以前的技术。
在本文中,我们将介绍 TrOCR 并重点关注四个主题:
- TrOCR的架构是怎样的?
- TrOCR 系列包括哪些型号?
- TrOCR 模型是如何预训练的?<