旷视Oral:密集场景检测新思路

作为计算机视觉领域的三大国际顶会之一,CVPR 每年都会吸引全球领域众多专业人士参与。如 2019 年,CVPR 注册参会人数高达 9227 人,突破历届记录。其中,来自国内的参会人数就达到 1044 位,仅次于大会举办地美国(4743 位)。
CVPR 2020 原定于 6 月 16 日至 20 日在华盛顿州西雅图的华盛顿州会议中心举行,但是当前全球疫情势态严峻,越来越多的国际 AI 顶会开始转向线上,CVPR 也不例外。
虽然无法去现场交流,但这无法阻挡我们学习的热情。
为向读者们分享更多 CVPR 优质内容,在 CVPR 2020 开幕之前,机器之心将策划多期线上分享。这是机器之心 CVPR 2020 线上分享的第二期,我们邀请到旷视研究院基础模型组实习生、北京大学软件工程系硕士楚选耕为我们分享 Oral 论文《Detection in Crowded Scenes: One Proposal, Multiple Predictions》。在此论文中,旷视研究院提出了一种一个候选框可以预测多个目标的检测方法,更加适用于密集物体的检测。
图片
演讲主题:密集场景检测新思路:从一个区域预测更多目标
个人介绍:楚选耕,旷视研究院基础模型组实习生,北京大学软件工程系硕士二年级在读,同济大学计算机科学与技术系学士。研究兴趣主要包括计算机视觉、机器学习和深度学习。目前主要研究方向为解决图像检测中遮挡重叠的问题。
分享概要:在传统的目标检测框架中,一个候选框往往仅输出一个预测框,这为处理遮挡目标增添了很多困难。旷视研究院提出了一种一个候选框可以预测多个目标的检测方法,更加适用于密集物体的检测。为了适应一个候选框预测多个结果的方法,还设计了 EMD Loss 和 Set NMS,前者确保了在网络训练过程中结果的排列不变性,后者让检测器能够在后处理阶段中保留来自同一个候选框的多个预测框。相对于经典的 FPN 检测器,该方法在存在大量遮挡的 CrowdHuman 数据集上可以取得明显涨点,在较为稀疏的数据集例如 COCO 上,也会有少量的性能提升。本文已入选 CVPR2020 Oral。
论文地址:https://arxiv.org/abs/2003.09163
Github 代码地址:https://github.com/megvii-model/CrowdDetection
时间:北京时间 4 月 29 日 20:00
CVPR 2020 机器之心线上分享
在 CVPR 2020 收录的大量优秀论文中,我们将选出数篇优质论文,邀请论文作者来做线上分享。整场分享包括两个部分:论文解读和互动答疑。
线上分享将在「CVPR 2020 交流群」中进行,加群方式:添加机器之心小助手(syncedai4),备注「CVPR」,邀请入群。入群后将会公布直播链接。