参考图像分割,多模态融合,Transformer,图像-文本对齐,注意力机制," /> 参考图像分割,多模态融合,Transformer,图像-文本对齐,注意力机制,"/> 基于多层级特征融合与解码的参考图像分割模型

南开大学学报(自然科学版) ›› 2025 ›› Issue (3): 19-.

• • 上一篇    下一篇

基于多层级特征融合与解码的参考图像分割模型

  

  • 出版日期:2025-06-20 发布日期:2025-06-27

  • Online:2025-06-20 Published:2025-06-27

摘要:

针对参考图像分割(RIS)任务中多模态特征交互不充分和对模型精准分割能力要求高的问题,提出一种基于多层级特征融合与解码的RIS模型MFDMFD模型在编码阶段可选用不同的常见图像编码器和文本编码器,用于提取图像和文本特征。随后直接引入简单的轻量级融合块,来融合与对齐图文特征以生成具有更强表征能力的融合特征。为丰富像素不同层级的语义特征,用多尺度可变形注意力机制的Transformer作为像素解码器。最后利用具有文本信息指导的、多层Transformer结构的Query解码器进一步提升图像-文本对齐和图像分割能力。在RefCOCO系列数据集上训练MFD模型,并进行测试和消融实验。结果表明,MFD模型能较为精确地分割出参考文本指示物体,且在关键组件仅少量增加模型参数量的前提下,上述策略对模型性能均有明显的提升。

关键词: 参考图像分割')">

参考图像分割, 多模态融合, Transformer, 图像-文本对齐, 注意力机制