基于多层级特征融合与解码的参考图像分割模型

南开大学学报（自然科学版） ›› 2025 ›› Issue (3): 19-.

基于多层级特征融合与解码的参考图像分割模型

出版日期:2025-06-20 发布日期:2025-06-27

Online:2025-06-20 Published:2025-06-27

摘要/Abstract

摘要：

针对参考图像分割（RIS）任务中多模态特征交互不充分和对模型精准分割能力要求高的问题，提出一种基于多层级特征融合与解码的RIS模型MFD。MFD模型在编码阶段可选用不同的常见图像编码器和文本编码器，用于提取图像和文本特征。随后直接引入简单的轻量级融合块，来融合与对齐图文特征以生成具有更强表征能力的融合特征。为丰富像素不同层级的语义特征，用多尺度可变形注意力机制的Transformer作为像素解码器。最后利用具有文本信息指导的、多层Transformer结构的Query解码器进一步提升图像-文本对齐和图像分割能力。在RefCOCO系列数据集上训练MFD模型，并进行测试和消融实验。结果表明，MFD模型能较为精确地分割出参考文本指示物体，且在关键组件仅少量增加模型参数量的前提下，上述策略对模型性能均有明显的提升。

关键词: 参考图像分割')">

参考图像分割, 多模态融合, Transformer, 图像-文本对齐, 注意力机制

王业辉, 黄咏秋, 甄先通, 张磊. 基于多层级特征融合与解码的参考图像分割模型 [J]. 南开大学学报（自然科学版）, 2025,(3): 19-.

基于多层级特征融合与解码的参考图像分割模型

摘要/Abstract

引用本文

使用本文