创纪录！网易数帆夺冠CVPR 2023多模态竞赛

2023-08-01 17:49:09 来源：

近日，由国际计算机视觉与模式识别会议（CVPR）主办的第19届多模态超光谱感知系列竞赛（PBVS 2023）结果公布，网易数帆AI团队在此次竞赛中击败了复旦大学、西安电子科技大学、中科院、韩国科技大学、印度大学、美国空军研究实验室等国内外105支知名队伍，以绝对优势夺得多模态赛道冠军，并在更严苛的评估规则下，将识别准确率大幅提升了29%，刷新了赛事纪录。

CVPR是计算机视觉和模式识别领域最重要和权威的国际顶级会议，由电气与电子工程师协会（IEEE）和计算机视觉基金会（CVF）共同主办。CVPR举办的多模态超光谱感知系列竞赛是计算机视觉和模式识别领域的重要赛事之一，自2004年以来已举办19届。多模态是指用不同类型的数据协同推理，结合数据融合技术，让结果更加准确。可以把它类比成人类用视觉、听觉、嗅觉和触觉等感官来感知事物。这项赛事的特点是鼓励参赛团队用创新的多模态方法，利用不同的光谱图像，比如SAR（合成孔径雷达）和EO，来检测、识别和跟踪复杂场景中的目标，让感知更加精确。

建模、数据与规则的多重挑战

(相关资料图)

多模态算法将不同来源的信息以适当的方式进行融合，这是AI领域对单独使用SAR或EO模态算法效果不理想的解决方案。例如PBVS 2022中SAR最佳准确率只有36%，利用多模态技术结合SAR和EO则可以达到51%的准确率。

为了提高算法准确率，参赛团队不仅需要在处理多模态数据时获取关键信息，还要发掘不同模态之间的互补信息，并设计高效的特征提取和融合方法。换言之，多模态建模能力的优劣对最终准确率具有决定性影响，而多模态信息的交互和挖掘也是竞赛的关键和难点。

类别之间混淆严重是竞赛设置的挑战。如下图所示，SAR模态的10个不同类别数据（每列为一个类别），每个类别提供了2张样例图片数据，红框的类别1和2，蓝框的类别5和类别6，单从图像上看近乎一样，识别难度极大。

类别数据不平衡，图片尺寸小，也为比赛带来了一定挑战。例如sedan类别数据有36.3w条，而flatbed truck with trailer等类别只有600条。而且这些数据中，尺寸最大的只有55x55px，最小的仅有31x31px。

和以往竞赛不同，新的评估规则与类别不平衡形成了“双杀”。具体而言，PBVS 2023在历年的模型识别准确度（Accuracy）指标之外，还引入AUROC指标评估模型检测异常样本的能力，最终得分 Score = 0.75 Accuracy + 0.25 AUROC。相比Accuracy关注分类正确的样本比例，AUROC更关注不同阈值下的性能，因而在类别不平衡的情况下更可靠，但也意味着参赛团队在建模中必须考虑样本稀少的类别。

Transformer与级联算法建功

对于多模态问题，网易数帆在尝试、比对多种方法之后，最终选择使用Transformer构建不同模态之间的关系，进行特征交互，提升识别性能。由谷歌于2017年提出的Transformer模型，在NLP、视觉、语音、强化学习与推荐等领域都有成功应用，在跨模态建模上优势明显，是深度学习领域近年来的重要进展，也是当前引发AI技术革命的大语言模型的基础。网易数帆AI团队对于Transformer的创新和应用具有多年的实践和深厚的积累，也曾凭此技术创新获得ASRU2019大赛端到端语音识别赛道冠军。

对于混淆严重的问题，网易数帆提出了一个基于检索增强的级联结构。该结构包含两级分类器，分别用于较为容易识别的类别和困难的类别。其中，一级分类器由CNN + Transformer + 分类头构成，能够很好地识别较容易的样本，同时过滤出难以区分的混淆样本，并传递给二级分类器；二级分类器则采用p-Hash Retriever算法，包含一个p-Hash检索器和一个细粒度分类器。p-Hash算法基于纹理相似性找出所有相似的类别形成类别簇，细粒度分类器对于该簇的所有样本进行投票，投票最多的标签被选举为该簇所有样本的最终标签，由此解决混淆类别难以区分的问题。

此外，对于尺寸小，类别不平衡等难题，网易数帆使用了数据插值、数据增广、动态采样、Focal Loss损失函数等手段进行进一步的优化性能。

经过多重设计和优化，网易数帆多模态算法总得分及各项指标成绩排名均大幅度领先于竞争对手（下图中overfittinghhh为网易数帆AI团队），其中Accuracy指标达到了80%，相对于2022年冠军的51%，提升了29个百分点，大幅刷新了纪录。

业务智能化倒逼算法进步

网易数帆多模态算法研发与打磨，得益于业务实践的需求。这一算法已被用在LOFTER图文多模态低质审核项目中，帮助业务拦截了超过70%的恶意攻击，日均过滤内容7w左右，获得了业务的好评。在网易云音乐业务，如在质量审核中，多模态算法线上准确度超过了95%，基本达到了人工审核效果。整个2022年度，该算法大约承担了网易云音乐10位专业运营人员一年的总工作量。

从整个行业来看，多模态是全球学术界、工业界和政府机构的研究人员持续关注的热点领域，常应用传感/成像技术、监控和侦察系统等，且在无人驾驶、公共安全和国防等特殊领域具有重大的研究价值。在跨模态大模型成为星辰大海的今天，网易数帆认为，基于多模态的创新及相关技术积累，将为智慧生产力模型进一步迭代夯实“内功”，帮助企业增加智慧资产的丰富度，在业务数字化、智能化转型中发挥更大的作用，实现技术创新与业务发展的双赢。

本文来源：财经报道网

关键词：