Zhengyuan Yang∗, Linjie Li∗, Kevin Lin∗, JianfengWang∗, Chung-Ching Lin∗, Zicheng Liu, Lijuan Wang
摘要:
大型多模型(LMMs)通过增加视觉理解等多感知技能来扩展大型语言模型(LLMs),以实现更强大的通用智能。在本文中,我们分析了最新的模型——GPT-4V(ision)(以下简称“GPT-4V”),以深化对LMM的理解。分析重点关注了GPT-4V 可以执行的有趣任务,其中包含了用于探测其能力质量和通用性的测试样本,以及模型支持的输入和工作模式,以及有效的提示模型的方法。在我们探索GPT-4V 的方法中,我们精心设计和组织了一系列有关各个领域和任务的定性样本。这些样本的观察结果表明,GPT-4V在处理任意交错的多模态输入方面具有前所未有的能力,并且其通用性使其成为一个强大的多模态综合智能系统。GPT-4V独特的能力在理解输入图像上绘制的视觉标记的同时,还能产生新的人机交互方法,例如视觉指引提示。我们通过深入讨论以基于GPT-4V 的系统为基础的新兴应用场景和未来研究方向,对报告进行了总结。我们希望这一初步的探索能够激发未来对下一代多模态任务制定、利用和增强LMM解决现实问题的新方法以及对多模态基础模型的更好理解的研究。
关键词:
GPT-4语言模型;通用性的测试样本;新型应用场景






