2024 旷视的work
- 图表解析模型
1 背景
- 对于之前的视觉语言模型,论文认为其有两点不足需要改进:
- 需要充分训练一个真正会看 chart 的 vision encoder
- 单纯对文本输出算交叉熵损失,并不是最优的(如上图所示,当ground-truth 是 7008 时,模型输出 70.8 和 7007 损失是一样的【都是没分类到正确的内容】,但显然 7007 是相对可以接受的误差)
- ——>Onechart 的做法是引入了一个辅助 decoder,并设计 L1 loss 来进行监督
2 方法