ECCV 2024 | PSALM:基于大型多模态模型的逐像素分割
题目:PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model
PSALM:基于大型多模态模型的逐像素分割
作者:Zheng Zhang, Yeyao Ma, Enming Zhang, Xiang Bai
源码:https://github.com/zamling/PSALM
- 模型架构的创新:PSALM通过在大型多模态模型(LMM)之上外化一个掩码解码器,并设计了一个灵活的输入模式,将不同的分割任务统一到一个单一模型中。这种设计使得模型能够处理包括图像、任务指令、条件提示和掩码标记在内的多样化输入,有效地生成和分类分割掩码。
- 灵活的输入模式:PSALM的输入模式包括四部分:图像、任务指令提示、条件提示和掩码标记。这种设计使得模型能够灵活地适应不同的分割任务,包括语义分割、实例分割和泛化分割等,同时支持跨多个数据集和任务的联合训练,提高了模型的性能和任务泛化能力。
- 条件提示的设计:PSALM根据任务类型设计了三种条件提示:类别条件、句子条件和视觉先验条件。这些条件提示不仅提供了解决任务所需的必要信息,而且其输出嵌入还被用作分类器权重,以预测掩码提议的类别,增强了模型对任务的理解和分类能力。
作者提出的PSALM(Pixelwise SegmentAtion with Large Multi-Modal Model)是大型多模态模型(LMM)的一个强大扩展,旨在解决分割任务的挑战。为了克服LMM仅限于文本输出的限制,PSALM引入了一个掩码解码器和精心设计的输入模式来处理各种分割任务。该模式包括图像、任务指令、条件提示和掩码标记,使模型能够有效地生成和分类分割掩码。PSALM的灵活设计支持跨多个数据集和任务的联合训练,从而提高性能和任务泛化能力。PSALM在几个基准测试中取得了优异的结果,例如RefCOCO/RefCOCO+/RefCOCOg、COCO Panoptic Segmentation和COCO-Interactive,并且在未见任务(如开放词汇分割、泛化指代表达分割和视频对象分割)上展现出零样本能力,为计算机视觉中的GPT时刻迈出了重要一步。通过广泛的实验,PSALM展示了其在图像分割领域变革的潜力,利用LMMs在自然语言处理中的强大视觉理解能力。大型多模态模型(LMM)通过将图像和语言信息压缩到单一自回归模型中,在各种高级视觉理解任务中取得了突破性进展,从而点燃了视觉GPT时刻的曙光。然而,在实现视觉GPT的道路上仍有许多障碍,其中一个重要的障碍是当前的LMM只能执行文本输出,这使得直接解决像素级图像理解问题变得具有挑战性,即图像分割,这是计算机视觉中最关键的任务之一。背后的挑战有很多。首先,LMM的默认输出是离散标记,没有明显的方法直接生成掩码。其次,图像分割任务的多样性需要不同形式的输入和输出。例如,语义分割需要支持不同类别的输入。实例分割要求生成对象ID和每个对象的类别置信度分数。指代分割应该以语言句子作为输入,而交互分割的输入比其他任务更多样化,可以是点、涂鸦、边界框或掩码。第三,用共享权重模型统一不同的分割任务也是一个挑战,因为不同的任务需要不同的能力。在这项工作中,作者提出了一种名为PSALM(Pixelwise SegmentAtion with Large Multi-Modal Model)的方法,旨在解决上述挑战,并将LMM的能力从文本输出任务扩展到一般分割任务(图1显示了代表性任务)。具体来说,PSALM在LMM之上外化了一个掩码解码器,并设计了一个灵活的输入模式,将不同的分割任务统一到一个单一模型中。输入模式由四部分组成:图像、任务指令提示、条件提示和一组掩码标记,其中指令提示是描述任务本身的文本句子,条件提示包含解决任务所需的额外信息,无论是类别名称、句子还是视觉特征,掩码标记是一组可学习的嵌入。所有这些输入都输入到LMM中,产生的输出掩码标记进一步用作掩码生成器的输入以呈现掩码提议。除了产生掩码提议外,还需要预测每个分割掩码的类别或估计置信度分数,这可以通过使用条件提示的输出嵌入作为分类器权重来实现。一些其他方法,如LISA,也旨在使用LMM进行分割任务。然而,这些方法通常为指代分割设计,未能证明其解决泛化分割任务的能力(见表1)。相比之下,由于所提出的架构的通用性和灵活性,PSALM不仅能解决各种分割任务,而且能够联合训练不同任务,这使得模型具有任务泛化能力,同时允许模型充分利用不同数据集/任务之间的内在联系,以实现更好的性能。具体来说,通过联合训练COCO Panoptic Segmentation、RefCOCO/RefCOCO+/RefCOCOg和COCO Interactive,作者观察到与单独训练不同任务相比,性能有显著提升,因此性能甚至优于其他特定任务的方法。在指代分割任务上,PSALM在RefCOCO、RefCOCO+和RefCOCOg上超越了其他基于LLM的像素推理方法(例如LISA、PixelLM和GSVA),值得注意的是,作者仅使用Phi-1.5 1.3B模型,而其他方法采用Vicuna-7B或LLama2-13B模型。架构和输入模式的灵活设计、多任务联合训练以及LMM的强大视觉理解能力,不仅使PSALM在训练的领域内任务上表现良好,而且使其能够以零样本的方式泛化到领域外任务,即直接处理未见任务而无需额外训练。作者在三个任务上进行了测试:开放词汇分割、泛化指代表达分割和视频对象分割。PSALM在这些任务上取得了有希望的零样本性能。作者认为,这种任务级泛化能力至关重要,这是大型语言模型在自然语言处理中成功的一个关键属性。通过在各种分割任务上的广泛实验,作者展示了PSALM具有解决一般图像分割任务的强大潜力,并表现出与NLP中LLM相似的一定程度的任务泛化能力。作者相信,这项工作可以激发对实现计算机视觉中GPT时刻的广泛研究,并促进其到来。图2提供了PSALM的概述图,它由一个大型多模态模型(LMM)、一个掩码生成器和一个为通用分割任务设计的灵活输入模式组成。输入模式有四种不同类型的输入:图像、任务指令提示、条件提示和一组掩码标记。LMM处理输入标记,掩码标记的输出嵌入进一步输入到掩码生成器以生成掩码。以下,作者将详细介绍作者的方法。PSALM基于大型多模态模型(LMM),有许多不同的LMM架构,如LLaVA、BLIP和Flamingo。这里,作者采用了LLaVA的设计,因为它的性能和简单性得到了证明,但其他LMM架构也与作者的方法兼容,没有任何理论困难。作者工作中使用的LMM有一个视觉编码器和预训练的大型语言模型(LLM)。两个模型通过一个轻量级视觉-语言对齐模型连接,这是一个3×3的卷积层,后面跟着一个线性层。官方的LLaVA模型使用冻结的CLIP模型作为视觉编码器,其特征缺乏分割任务所需的细粒度信息。因此,作者训练了一个定制的LLaVA模型,使用Swin Transformer,并且由于资源限制,作者将LLM从Vicuna 7B模型替换为更小的Phi-1.5 1.3B模型。这里,作者只应用了LLaVA的第一个视觉-语言对齐阶段,并遵循其默认设置。在作者的消融研究中,作者发现对齐阶段对于开放词汇分割和指代分割任务至关重要。不同的分割任务需要不同形式的输入和输出,这激发了作者提出一个灵活的输入模式来统一各种需求。除了在视觉编码器中使用的输入图像外,作者的输入模式还有另外三种类型的输入:任务指令提示、条件提示和一组掩码标记。作者将介绍它们,并在附录中总结所有不同任务使用的提示。任务指令提示
任务指令提示通常是描述和指定模型任务的文本句子。例如,在泛化分割中,任务指令可以是“您需要分割所有对象。这是所有候选类别。”在指代分割中,指令可以是“请根据以下指令进行分割。”条件提示
有些任务需要额外的信息来执行,例如,泛化分割需要指定要分割的类别集合,交互分割需要交互输入。条件提示就是为这些任务设计的。除了提供信息外,条件提示还在预测类别或估计每个分割掩码的置信度分数方面发挥着重要作用。在第3.3节中,作者将详细讨论不同任务的条件提示设计。掩码标记
LLM旨在输出文本,不能直接生成分割掩码。为了绕过这一挑战,作者在其他输入之后追加一组掩码标记,然后这些掩码标记由掩码生成器解码成分割掩码。这种设计受到Mask2Former被启发,与Mask2Former不同的是,作者的方法是先将掩码标记输入到LMM中进行更新,然后再用于掩码生成器,作者发现这种方法在实践中能够带来更好的性能(见表2)。一些工作,如LISA和PixelLM,采取类似的seg标记作为输入,并使用解码器生成掩码。然而,作者的目标是根本不同的:在LISA和PixelLM中,seg标记用于生成最终预测,而作者的方法首先生成掩码提议,然后基于条件提示对它们进行分类。与LISA和PixelLM的设计相比,作者的方法更灵活,适应性更强,可以应用于更广泛的分割任务,尤其是那些需要预测类别或置信度分数的任务。其次,作者的方法将掩码预测和分类解耦,这减轻了某些任务的学习难度。在表3中,作者研究了这种解耦设计对COCO语义分割性能的影响,发现作者的解耦设计明显更好。第三,掩码提议允许为单个实例生成多个掩码,这使得掩码精度优于LISA等只预测单个掩码的解决方案。表4显示,在RefCOCO上使用更多的掩码提议比使用单个掩码有明显改进。掩码生成器从三个输入中预测掩码及其类别概率:一组多级视觉特征,一组掩码标记,和一组条件嵌入。它可以被正式定义为:其中是第i个预测的分割掩码,是对应的类别概率。在实践中,多级视觉特征是LMM中使用的Swin视觉编码器的内部特征。掩码生成器的设计遵循Mask2Former,它采用多尺度可变形注意力作为像素解码器,以及基于变换器的掩码解码器来生成分割掩码。每个掩码的类别由条件嵌入预测,它基本上是从条件提示的输出中获得的,对于不同类型的条件,获取方法略有不同。在作者的方法中,条件提示发挥两个重要作用:首先,它提供了解决任务所需的必要信息;其次,作者使用LLM中条件提示的输出嵌入作为分类器权重,以预测掩码提议的类别。条件提示的设计与任务类型密切相关,根据不同任务所需的信息,作者将条件类型总结为三类:类别条件、句子条件和视觉先验条件。类别条件
这种条件类型用于需要指定要分割的类别集合的任务,如语义分割、实例分割和泛化分割,通常需要预测每个分割掩码的类别概率。具体来说,给定一组类别名称,作者用逗号分隔符将它们连接成一个句子,例如,给定三个类别:人、自行车和汽车,连接后的句子是“人,自行车,汽车”。然后通过LMM处理这些连接后的句子以获得输出嵌入,这些嵌入可以进一步用于分类预测的分割掩码。具体来说,对于每个类别,作者选择其对应的输出嵌入,并对其应用avg_pooling以获得条件嵌入,其中是嵌入维度,因此所有类别的条件嵌入是一组,其中是类别的数量(见图3(a))。这个嵌入集合可以被掩码生成器用来预测类别。句子条件
这种条件通常用于指代表达分割。与类别条件不同,类别名称通常很短,而句子要长得多,并非句子中的每个词都是有用的,因此avg_pooling不是最佳选择。相反,作者引入了一个特殊的[REF]标记,它被追加在条件句子之后作为一个锚点来聚合有用信息,[REF]标记的输出嵌入,即LMM在[REF]标记位置上的输出特征,被用作条件嵌入,并被掩码生成器使用,如图3(b)所示。视觉先验条件
作者将大多数交互(例如点、涂鸦、边界框或涂鸦)用在交互分割任务中的形式化为视觉先验条件。以涂鸦为例,作者首先在与Swin视觉编码器输入图像大小相同的二进制图上生成一个宽度为5像素的涂鸦曲线,然后将二进制图应用于视觉-语言对齐模型的输出特征上,通过上采样输出特征图到二进制图的大小进行平均掩码池化。平均池化的特征被用作视觉先验条件并输入到LMM中。如果有多个交互,每个交互都重复该过程,产生多个池化特征作为输入,每个特征用类似于类别条件的策略分隔开。对于其他类型的交互,作者采用类似的方法。具体来说,对于边界框或掩码,作者直接将它们视为二进制掩码来应用池化操作;对于点,作者将其扩展到一个10像素的圆,然后应用掩码池化。之后,作者使用视觉先验条件的输出嵌入作为掩码生成器中的分类器权重,以估计每个掩码提议的置信度,如图3(c)所示。PSALM的训练过程分为两个阶段:在第一阶段,作者按照LLaVA设置训练视觉-语言对齐模型,同时冻结视觉编码器和LMM;在第二阶段,作者只冻结视觉编码器,并微调所有其他模块,包括掩码生成器。与Mask2Former类似,作者在第二阶段训练中使用匹配损失,即作者使用二分图匹配找到掩码提议和真实掩码之间的最优分配,通过最小化匹配损失并使用这些分配进行训练。损失包含两个项:其中表示掩码损失,包括像素级的二元交叉熵(BCE)损失和Dice损失,而表示类别分类损失,作者对类别条件使用交叉熵损失,对其他情况使用BCE损失。作者在各种数据集和任务上进行了广泛的实验,以分析PSALM。数据集和实现的详细信息在附录中给出。作者首先消融关键设计,并在本节中展示背后的洞察。为了更好地展示不同设计如何在广泛的任务上影响性能,作者主要报告在三个领域内基准测试:COCO Panoptic Segmentation(COCO-Pan)、RefCOCO-val(RefCOCO)和带有点输入的COCO Interactive Segmentation(COCO-Point),以及一个领域外基准测试:ADE20K-150(A150-OV)上的开放词汇实例分割的结果。掩码标记的设计。
在作者的方法中,作者使用一组掩码标记来预测掩码提议。在实践中,作者发现将掩码标记作为LLM的输入比直接将它们应用于掩码生成器能带来更好的性能,这是Mask2Former的默认方法。表2显示了结果,直接使用掩码标记导致RefCOCO和A150-OV的性能明显下降。作者认为这是因为将掩码标记作为输入能更好地意识到完成任务所需的信息,从而提高性能,这对于这两个任务至关重要。为了更好地验证,作者将掩码标记放在条件提示和任务指令提示之前,发现与不使用掩码标记在LMM中相比,性能下降相似,这进一步支持了作者的假设。与LISA和其他直接使用seg标记生成最终分割结果的方法相比,作者的掩码提议方法有三个优势:首先,作者的设计更灵活,因此可以应用于更广泛的分割任务,尤其是需要预测类别或置信度分数的任务;其次,作者的设计将掩码预测和分类解耦,这减轻了某些任务的学习难度。在表3中,作者研究了这种解耦设计对COCO语义分割性能的影响,发现作者的解耦设计明显更好。第三,掩码提议允许为单个实例生成多个掩码,这使得掩码精度优于LISA等只预测单个掩码的解决方案。表4显示,在RefCOCO上使用更多的掩码提议比使用单个掩码有明显改进。条件提示的设计。
PSALM中的另一个关键设计是条件提示,特别是作者获取条件嵌入的方式,这些嵌入被用作掩码生成器中的分类器权重,以预测掩码提议的类别。如第3.3节所述,对于类别条件,作者使用每个类别名称的输出嵌入上的平均池化作为条件嵌入,对于句子条件,作者采用[REF]标记来聚合有用信息。表5显示了消融研究,作者首先尝试对所有条件使用相同的设计,并发现avg_pooling在COCO-Pan上表现略好,对A150-OV有更大的改进,而[REF]在RefCOCO上表现更好。作者进一步使用不同的设计,并发现每种设计的优势得以保留,最佳的整体性能得以实现。视觉-语言对齐的重要性。
视觉-语言对齐阶段(即第一训练阶段)是将视觉特征投影到文本输入空间的重要步骤,对于使LLM理解图像至关重要。在表6中,作者检验了这一阶段的影响,发现没有VL对齐,所有四个任务的性能都变差,A150-OV和RefCOCO的性能受到显著影响,例如,A150-OV的mAP下降了-1.1,RefCOCO甚至下降了-4.4 cIoU,可能是因为这两个任务对视觉和语言之间的关系有强烈的要求。这个结果也表明,VL对齐是必不可少的,基于LMM的分割模型具有强大的潜力。联合训练。作者的架构设计和输入模式有助于整合各种分割任务,使它们可以在一个模型上进行训练。表7显示了这种联合训练对不同任务的影响。对于特定任务的模型,作者在相应的任务数据上进行18k次迭代训练。相比之下,联合训练设置(详见实现部分)总共有56k次训练迭代,相当于每个任务14k次迭代。结果表明,不同任务的联合训练极大地提高了性能。这表明,任务之间的学习是相互有益的,这也是LLM成功的秘诀。例如,通用分割任务有助于提炼指代分割中的掩码预测,而指代表达也增强了模型识别更多未见类别的能力,这反过来又提高了开放词汇分割任务的性能。在本节中,作者比较了PSALM在三个领域内任务上与其他最先进方法的性能,以说明作者方法的有效性。指代分割。
大多数旨在使LMM执行图像分割的工作都是为指代分割任务设计的。作者在RefCOCO、RefCOCO+和RefCOCOg上与其他工作进行了比较,表8显示了结果。由于PSALM的泛化和灵活设计以及在多个任务和数据集上联合训练的优势,作者的系统在RefCOCO和RefCOCO+上实现了最先进的性能,在RefCOCOg上也展现了有竞争力的性能,尽管驱动LLM的参数只有1.3B。值得注意的是,与其他方法如LISA和GSVA可能通过特定任务的微调(灰标结果)实现改进不同,PSALM没有进行额外的微调,但在RefCOCO和RefCOCO+上仍然比它们的微调模型表现更好。通用分割
在通用分割任务中,作者在COCO全景分割验证集上使用最先进的方法对PSALM进行了评估(表9)。在这里,他们遵循了Mask2Former使用的评估协议来报告PQ,这是全景分割的主要指标,以及对实例分割的thing类别的mAP,和通过合并同一类别的实例掩码来计算语义分割的mIoU。与其他方法相比,PSALM在相似的视觉主干尺寸上取得了可比的性能,证明了PSALM是一个强大的架构,即使与为特定任务设计的解决方案相比也毫不逊色。交互式分割
在交互式分割任务中,作者也对PSALM进行了评估。由于该任务没有包含所有四种指令的成熟数据集,以往的研究通常使用内部数据集,因此作者重新评估了其他方法在COCO交互验证集上的表现。结果如表10所示,PSALM在点、涂鸦和掩码指令上的性能领先于所有其他方法,而在边界框指令上,SAM在mIoU上表现更好,但在cIoU上表现较差,作者推测这可能是由于训练数据分布的不同,以及SAM是在SA-1B上训练的,其数据规模远大于作者所使用的数据。此外,作者还报告了SEEM的官方结果,作为参考,SEEM仅评估了COCO验证集中的600个样本。得益于架构和输入模式的灵活设计、多任务联合训练,以及LMM的强大视觉理解能力,PSALM不仅在训练的领域内任务上表现出色,更重要的是,PSALM还展现出了在零样本情况下对领域外任务的泛化潜力,即直接处理未见任务而无需额外训练。作者在三个不同的领域外任务上进行了实验:开放词汇分割、泛化指代表达分割和视频对象分割。同时,在附录中还测试了Ego-Exo4D中的对应基准测试和视频对象分割的零样本结果。开放词汇分割
首先,作者评估了PSALM在开放词汇分割任务上的表现,这要求模型能够处理训练中未见过的类别。在这里,作者进行了开放词汇实例分割和开放词汇语义分割的实验,表11显示了结果。PSALM在没有任何特殊设计的情况下取得了相当好的成绩,虽然它仍然不如这个任务中的最佳特定方法,如SAN,但作者相信PSALM有很大的改进潜力,特别是通过增加更多多样化的训练数据。作者还尝试将LVIS数据集进一步纳入,正如预期,性能有了显著提升。此外,现有的开放词汇分割方法都是基于CLIP模型或扩散模型构建的,而PSALM的方法基于LMM模型,这是一条新的道路,为社区带来了新的启示,作者认为这比性能更重要。泛化指代表达分割
指代分割数据集在训练中只包含单个对象,然而,掩码提议的设计允许PSALM直接处理多目标任务,无需进一步的训练或微调。作者评估了gRefCOCO基准测试,其中包含多个分割目标。实际上,给定一个表达式,作者计算与所有掩码提议的相似度,并保留相似度大于0.6的掩码作为前景。表12显示了结果,PSALM也取得了非常出色的性能,甚至超过了只在gRefCOCO上预训练而没有任务特定微调的LISA版本。作者认为,这种任务级泛化能力至关重要,这是大型语言模型在自然语言处理中成功的一个关键属性。通过在各种分割任务上的广泛实验,作者展示了PSALM具有解决一般图像分割任务的强大潜力,并表现出与NLP中LLM相似的一定程度的任务泛化能力。作者相信,这项工作可以激发对实现计算机视觉中GPT时刻的广泛研究,并促进其到来。本研究提出的PSALM将LMM的能力从文本输出任务扩展到图像分割,解决了LMM的输出限制,并统一了各种分割任务。PSALM在多个领域内任务上表现出色,其在领域外任务的泛化能力进一步凸显了其潜力。本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与作者联系,作者将在第一时间回复并处理。
阅读原文
本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕,E-mail:xinmeigg88@163.com
本文链接:http://www.xrbh.cn/tnews/2369.html