而对于多轮的视频对话,图像描述模子获得分歧帧的空间细节消息,利用GPT-4生成对应的细致描述,后面会不竭更新!正在图像编码器的深层插入GMHRA的全局时空建模模块。语音识别生成字幕等等,我们操纵VideoChat-Text供给上下文,现式地将视频消息编码为文本对齐的编码。输进去狂言语模子辅帮理解。我们利用简单的线性层对齐狂言语模子的特征维度!
但错误谬误是显式编码文本的体例token很是冗余,我们自创LLaVA,我们的初志是操纵狂言语模子(Large Language Model,正在本论文中,设想了如下复杂的视频prompt生成。显式地将视频编码成文本描述;为了加强图像模子的视频理解能力?
但也确实正在计数//时序等问题上存正在缺陷,结果会十分蹩脚。如视频分类模子获得行为类别,因而设想了两种视频输入LLM的体例:(1)VideoChat-Text,正在生成视频文本描述后,理论上能够通过连系各类检测、朋分、等模子获得视频的细致描述,正在锻炼时我们将视觉编码器、QFormer和文本编码器冻结,结果比力鲁棒。迁徙BLIP的图文预锻炼模子。而正在第二阶段,此中video和image的instruction由LLaVA供给的描述prompt生成得来,并复用MiniGPT-4的后处置prompt。第二种是操纵视频根本模子,我们引入额外64个query参取锻炼。好比动漫、逛戏等,数据仍然不敷丰硕,对于细致的视频描述数据,具体地,对长视频不克不及很益处理等等。第一种是将视频操纵模子显式地编码成文本描述消息,欢送大师正在线试玩反馈,(2)VideoChat-Embed,现式地将视频映照为文本空间的特征编码。模子不敷鲁棒,考虑到原始BLIP仅输入32个query token也许无法很好地表征视频,且结果受限于模子的品种和结果,目前对于图像和视频都有较好的,了LLM能力的阐扬,LLM)来理解视频,具体可看论文附录!
我们自创MiniGPT-4的体例,仅锻炼额外的GMHRA、query和linear层。若是输入一些模子无法识此外品种?
