学习论文:ScreenAI: A Vision-Language Model for UI and Infographics Understanding
摘要部分介绍了作者的screenai,是一个专门用于UI和信息图形理解的视觉语言模型。模型利用pix2struct灵活的补丁策略改进了PaLI架构,并在独特的数据集混合上进行了训练。
他的主要任务是屏幕注释(识别UI的类别,位置),用这些注释交给大语言模型,并自动生成问答(QA)、UI导航和摘要训练数据集。最后还做了消融实验。
接下来的之后再看。论文链接:2402.04615 (arxiv.org)