语言模型的黎明：GPT-4V(ision)的初步探索

Zhengyuan Yang∗, Linjie Li∗, Kevin Lin∗, JianfengWang∗, Chung-Ching Lin∗, Zicheng Liu, Lijuan Wang

摘要：
大型多模型（LMMs）通过增加视觉理解等多感知技能来扩展大型语言模型（LLMs），以实现更强大的通用智能。在本文中，我们分析了最新的模型——GPT-4V(ision)（以下简称“GPT-4V”），以深化对LMM的理解。分析重点关注了GPT-4V 可以执行的有趣任务，其中包含了用于探测其能力质量和通用性的测试样本，以及模型支持的输入和工作模式，以及有效的提示模型的方法。在我们探索GPT-4V 的方法中，我们精心设计和组织了一系列有关各个领域和任务的定性样本。这些样本的观察结果表明，GPT-4V在处理任意交错的多模态输入方面具有前所未有的能力，并且其通用性使其成为一个强大的多模态综合智能系统。GPT-4V独特的能力在理解输入图像上绘制的视觉标记的同时，还能产生新的人机交互方法，例如视觉指引提示。我们通过深入讨论以基于GPT-4V 的系统为基础的新兴应用场景和未来研究方向，对报告进行了总结。我们希望这一初步的探索能够激发未来对下一代多模态任务制定、利用和增强LMM解决现实问题的新方法以及对多模态基础模型的更好理解的研究。

关键词：

GPT-4语言模型；通用性的测试样本；新型应用场景

Click here for a preview.

Judo

Taekwondo

Archery

GO

Iaido & Kendo

Fencing

Judo

Taekwondo

Archery

GO

Iaido & Kendo

Fencing