近日,我院视觉计算与智能感知创新团队成员冯光副教授针对指称分割中跨模态融合问题,首次探索多模态特征间的编码融合策略,并取得原创性研究成果。相关成果以“Referring Segmentation Via Encoder-Fused Cross-Modal Attention Network”为题,发表于国际顶级期刊IEEE Transactions on Pattern Analysis and Machine Intelligence (T-PAMI,人工智能、计算机视觉、模式识别等多个领域的顶级期刊,影响因子高达24.314,CCF A类期刊)。冯光副教授为第一作者,太阳集团tcy8722为第二贡献单位,实现了我院在人工智能领域顶级期刊T-PAMI发表论文的历史性突破。
指称分割任务旨在根据语言表达的描述定向地分割图像(或视频)中相应的视觉区域。对于这个跨模态任务,现有的方法通常在网络的解码端考虑多模态特征之间的相互作用,但它们通常忽略了多尺度特征之间的相关性。论文首次提出了编码器融合策略,其利用协同注意力机制,将语言特征嵌入到视觉编码器中,将其转换成多模态特征编码器,并实现语言对不同尺度多模态特征的渐进式引导。其中协同注意力机制用于学习多模态特征的共同映射,使它们在新的特征子空间有更好的语义一致性,以最大程度发挥语言的引导作用。对于视频数据,该文章引入了非对称的跨帧注意力机制,其在保证合理计算量的同时,有效地从视频帧中捕获了时序信息。在应用方面,该文章所提出的模型在指称图像/视频分割国际标准数据集上取得领先结果,分割性能显著地优于已有模型。
冯光博士系我院2022年以高层次人才(学术骨干,副教授)引进,加入信息科学与工程学院视觉计算与智能感知创新团队。冯博士先后在国际期刊和会议发表学术论文20篇,其中第一作者发表论文12篇(包含T-PAMI、CVPR、TNNLS、Pattern Recognition 等)。