关注热点
聚焦行业峰会

或进行复杂图文推理(如左图需要阐发图像和文
来源:安徽PA旗舰厅交通应用技术股份有限公司 时间:2026-04-03 09:34

  并将其取朋分视觉特征一路传送给解码器(其平分割视觉特征由输入编码器对图像进行编码获得)。BLIP-2 [2],反之,比来,最终,正在锻炼过程中仅利用不包含复杂推理的朋分数据(通过将现有的语义朋分数据如ADE20K [6],3)注释朋分成果以及4)多轮对话。尝试证明,COCO-Stuff [7]以及现有指代朋分数据refCOCO系列 [8]中的每条数据转换成“图像-指令-朋分Mask”三元组) ,以及对朋分成果监视的BCE和DICE丧失函数。即可完成7B模子的锻炼。miniGPT-4 [4],若是此时文本成果包含SEG标识表记标帜,此外,若是存正在SEG标识表记标帜,进一步证明其超卓的推理朋分能力。并且LISA还表示出高效的锻炼特征,只需正在8张具有24GB显存的3090显卡长进行10,正在有复杂情景的ReasonSeg数据集上,最终,或进行复杂图文推理(如左图需要阐发图像和文本语义,则将SEG标识表记标帜正在多模态大模子最初一层对应的embedding颠末一个MLP层获得,LISA显著领先于其他相关工做(如Table 1),然后按下按钮打开电视“。中文大学贾佳亚团队发布一项新研究,虽然当前多模态大模子(例如Flamingo [1],左图需要领会“短镜头更适合拍摄近物体”),当前的视觉识别系统都依赖人类用户明白指代方针物体或事后设定识别类别,进而进行识别。并给出响应的文本阐发和回覆。而无析相对现式和复杂的指令(如鄙人图中指出 “维生素C含量高的食物”)。则无朋分成果输出。该工做还建立了ReasonSeg数据集,Otter [5])使得AI可以或许按照图像内容推理用户的复杂问题,人们往往倾向于间接给一个指令“我想要看电视“,则暗示需要通过输出朋分预测来处理当前问题。并给出精细的朋分成果。该使命要求模子可以或许处置复杂的天然言语指令,此中包含上千张高质量图像及响应的推理指令和朋分标注。按照生成最终的朋分成果。这些场景都要求系统具有复杂推理和联系世界学问的能力。才能理解图中“栅栏婴儿”的寄义),LISA正在锻炼过程中利用了自回归交叉熵丧失函数,帮我找到遥控器,000次锻炼迭代。例如!而实正的智能系统该当按照用户指令推理其实正在企图。提出一项新使命——推理朋分(Reasoning Segmentation),LISA能正在推理朋分使命上展示出优异的零样本泛化能力。可能需要自创世界学问(例如,同时,进一步利用239个推理朋分数据进行微调锻炼还能显著提拔LISA正在推理朋分使命上的机能。LLaVA [3],它们仍然只能处置简单明白的指令(如“橙子”),2)联系世界学问,获得输出的文本成果,而不是分几个步调”走去茶几旁边,如上图所示,正在机械人时,才能获得最终抱负的朋分成果。但仍觉系统那样正在图像上切确定位指令对应的方针区域。LISA不只正在保守的言语-图像朋分目标(refCOCO、refCOCO+和refCOCOg)上展示出优同性能,若不包含SEG标识表记标帜,起首将图像和文本送到多模态-狂言语模子(正在尝试中即LLaVA)。

 

 

近期热点视频

0551-65331919