摘要:
针对参考图像分割(RIS)任务中多模态特征交互不充分和对模型精准分割能力要求高的问题,提出一种基于多层级特征融合与解码的RIS模型MFD。MFD模型在编码阶段可选用不同的常见图像编码器和文本编码器,用于提取图像和文本特征。随后直接引入简单的轻量级融合块,来融合与对齐图文特征以生成具有更强表征能力的融合特征。为丰富像素不同层级的语义特征,用多尺度可变形注意力机制的Transformer作为像素解码器。最后利用具有文本信息指导的、多层Transformer结构的Query解码器进一步提升图像-文本对齐和图像分割能力。在RefCOCO系列数据集上训练MFD模型,并进行测试和消融实验。结果表明,MFD模型能较为精确地分割出参考文本指示物体,且在关键组件仅少量增加模型参数量的前提下,上述策略对模型性能均有明显的提升。