近期看了一些多模态方向的工作,包括图像、文本多模态,图像、视频、语音、文本多模态,做个总结。 Yi Qwen-VL LLaVA MobileVLM LanguageBind Video-LLaVA VAST