UniMatch项目原作解读：统一光流、立体匹配和深度估计三个任务

机器之心

2022-12-26 12:51发布于北京机器之心官方账号

从二维图像中理解场景的三维结构和运动信息是计算机视觉领域的一项核心研究目标，也是许多实际应用的基石。近年来，许多不同的网络结构被提出来解决几何和运动相关的任务，如深度估计、立体匹配和光流等。然而，现有的工作大多致力于设计特定的网络结构来独立解决每一个特定的任务，忽视了许多几何和运动估计任务是本质上相关的对应关系估计问题。这种针对特定任务的研究理念不可避免地导致需要处理大量的网络结构。此外，独立地研究每一项特定的任务使得无法很好地复用预训练的模型，因为各任务之间的网络结构和模型参数往往有所差异。

机器之心最新一期线上分享邀请到了苏黎世联邦理工学院与图宾根大学联合培养博士生徐豪飞，为大家解读他们CVPR 2022的Oral论文 GMFlow 及其后续工作UniMatch。

这项工作提出了一个统一模型 UniMatch 来解决三个稠密感知任务：光流、立体匹配和深度估计。作者的主要观察在于这三个任务可以通过一种显式地稠密特征匹配框架来进行统一，进而这一问题被转化为提取任务无关的、判别能力强的特征来进行匹配。为此，文章提出采用 Transformer，尤其是 cross-attention 来实现。其中 cross-attention 可以建模两张图片之间的相互依赖关系，从而极大地提升特征的质量。由于网络结构和参数在不同任务之间是共享的，因此可以很自然地支持跨任务之间的迁移。文章提出的最终模型在10个流行的数据集上取得了最好或具有竞争力的结果，同时网络结构更加简单和高效。

分享主题：UniMatch: 统一光流、立体匹配和深度估计三个任务

分享嘉宾：徐豪飞，苏黎世联邦理工学院与图宾根大学联合培养博士生。硕士毕业于中国科学技术大学。研究方向包括光流、立体匹配和三维场景表征学习。

分享摘要：本次分享将首先介绍相关领域的发展历程，进而介绍我们 CVPR 2022的Oral论文 GMFlow 及其后续工作UniMatch：统一光流、立体匹配和深度估计三个任务，并展示该统一模型的独特性与优势，最后会讨论该工作的局限性及可能的未来研究方向。