《Science Robotics》发表!浙大FAST-LAB团队推出AMI-EV,从根本消除基于事件的视觉中的运动依赖性问题!

随着科技的不断进步,神经形态视觉传感器或事件相机以其极低的反应时间,为高动态机器人应用开辟了新的领域。这类事件相机的独特之处在于,其输出直接依赖于场景中的运动和纹理信息,但同时也存在一项固有的挑战——无法有效捕捉与相机运动平行的物体边缘。这一问题限制了事件相机的应用范围,也激发了科研团队寻求创新的解决方案。
人类的视觉系统是一个高度复杂且精密的感知系统,其中小眼跳(microsaccades)现象尤为引人瞩目。这是一种在注视时眼睛进行的轻微、持续的移动,有助于保持视觉场景中纹理的稳定性和连续性。尤其是微扫视,它通过不断地微调眼球位置,几乎可以确保纹理的稳定性和持久性,从而有效应对视觉感知的衰退。
图片
微扫视如何抵消视觉衰退的演示:建议将图像放大到至少 15 厘米 x 15 厘米,并将眼睛与屏幕保持 40 厘米的距离。注视红点几秒钟后,蓝色环和背景将褪色。这是因为微扫视在此期间受到抑制,因此眼睛无法提供有效的视觉刺激来防止周边褪色。另一方面,当在紫色点之间扫视时,环总是会出现,即使扫视很小,也可能褪色得更慢,通常为 0.5° 到 1.0°,具体取决于观看者与图形的距离。
受启发于人类视觉系统中的小眼跳(microsaccades)现象,前不久,来自浙大湖州研究院FAST-LAB实验室的研究人员设计了一种人工微扫视增强事件相机(Artificial MIcrosaccade-enhanced EVent camera AMI-EV),这一系统不仅集成了先进的硬件设计,还配套了独特的软件算法,构成了一个软硬件一体化的系统级解决方案。
AMI-EV的核心在于一个安装在事件相机光圈前的旋转楔形棱镜。这一设计巧妙地使入射光线持续变化并触发相机事件,同时通过精心设计的算法补偿棱镜旋转带来的图像运动。这使得AMI-EV能够在微秒级响应时间内,实现独立于外部运动的稳定纹理和高信息输出,从而保持了事件相机的所有优势。在传统RGB相机和事件相机难以胜任的场景中,AMI-EV展现出了卓越的性能。其不仅能够提供高质量的数据,还能在复杂环境中保持稳定的视觉感知,为机器人视觉系统的发展开辟了新的可能性。
图片
该研究成果的相关论文以“Microsaccade-inspired Event Camera for Robotics”为题发表在国际机器人权威期刊《Science Robotics》上。马里兰大学计算机科学系博士研究生、FAST-LAB实习生何博涛为第一作者,浙江大学控制学院长聘副教授高飞为论文通讯作者,马里兰大学计算机科学系研究员Cornelia Fermüller为共同通讯作者。
接下来,一起来和机器人大讲堂深入探索这一研究成果!
▍AMI机制设计
为了在所有边缘上持续触发事件,研究人员巧妙地运用了楔形棱镜偏转器的工作原理。当棱镜开始旋转时,它精确调整入射光的方向,如图2B所示。最初,楔形棱镜设定在一个特定角度,对入射光进行固定角度的偏转,如下图B(1)所示。随后,执行器模块驱动光学偏转器模块沿相机的z轴(z_c)旋转,促使入射光在图像平面上以圆周轨迹持续改变其偏转角度,如下图B(2)所示。这种设计确保了入射光在移动过程中不断生成事件,如下图B(3)所示。因此,相机内连续变化的旋转运动得以产生。
图片
整个系统概览,包括硬件和软件:( A ) 真实世界的硬件和计算机辅助设计 (CAD) 模型。( B ) 楔形棱镜旋转时入射光折射的图示。( C ) 事件生成和补偿过程,左侧的图像是通过累积右侧显示的事件流而产生的。( D ) 系统概述。
AMI的全方位覆盖使得相机能够捕获图像平面上的所有方向,从而确保输出的事件流包含了场景的详尽边界信息,如上图(C和D)所示。与先前的研究相比,研究人员此次设计的创新之处在于移动的是相机外部的组件,而非相机本身,从而避免了易碎部件如相机在高速旋转中可能受到的损害,使其更加坚固耐用。此外,相机的系统以恒定的速度进行旋转,相较于此前探讨的振动运动,其运行更为平稳和可靠。
在AMI补偿机制方面,研究人员的方法也展现出了显著的优势。通过分组短时间间隔内的事件以创建累积事件图像(见上图C),研究人员能够清晰地观察到未进行运动补偿时的模糊边界。同时,为了获得锐利的边缘,研究人员利用校准的楔形方向来补偿由楔形运动引起的事件空间位移,确保由相同入射光线方向触发的事件能够准确地对齐到同一像素上。由于执行器系统配备了绝对位置传感器(旋转编码器),补偿参数只需一次校准,便可直接应用于后续记录,极大地提高了操作的便捷性和准确性。
图片
▍AMI-EV模拟器与AMI-EV转换器
为了促进未来研究的深入,研究人员开发并发布了一个模拟器。该模拟器基于团队之前的工作WorldGen,能够生成高度逼真的3D场景,并赋予用户丰富的控制权,如调整场景纹理、相机和镜头属性等。
特别的是,该模拟器支持用户生成针对特定任务的合成AMI-EV数据。下图展示了为人体姿势估计任务而定制的一个场景示例。模拟器不仅提供合成AMI-EV数据,还附带场景的视觉表示列表,以便用户更直观地理解场景构成。
图片
发布软件包生成的图片:( A )(左)具有多个移动物体的 3D 渲染场景;(右)高尔夫场景。(B)已发布的翻译器的输出。(左)来自 Neuromorphic-Caltech 101 数据集的图像以及分别由 S-EV 和 AMI-EV 生成的两个事件计数图像;(右)来自多车辆立体事件摄像机数据集的场景。
除了模拟器,研究人员还推出了一个翻译器,旨在从标准数据集创建合成的AMI-EV数据。这款翻译器支持三种输入类型:灰度图像、结合事件的灰度图像或仅事件数据。借助先进的视频插值算法,研究人员能够生成高帧率视频,随后这些视频被输入到专门设计的AMI模块中,以生成AMI事件流。
▍AMI机制性能测试
纹理增强的定量评估
为了验证AMI机制在纹理增强方面的有效性,研究人员进行了一系列实验测试并与标准事件相机(S-EV)进行了对比。
实验主要围绕三种表示形式展开:事件流、累积事件图像和重建强度图像。所有实验都在无运动和具有六个自由度运动的场景下进行,以全面评估AMI机制的性能。
1.事件流评估:
通过计算事件位置密度的核密度估计(KDE)方差,研究人员发现AMI-EV产生的事件流比S-EV更加均匀(方差分别为0.196和0.425)。这意味着AMI-EV输出的事件流具有更高的稳定性,能够更稳定地表示场景特征,减少受相机运动的影响。
2.累积事件图像评估:
AMI-EV生成的累积事件图像在稳定性和对相机运动的依赖性方面均优于S-EV。通过Canny边缘检测器和图像配准技术,AMI-EV显示出更高的ODS-F分数(边缘检测指标)和更低的图像熵,表明其能够更完整、稳定地记录边缘信息,尤其是在运动模式与环境边缘平行的情况下。
图片
AMI机制在纹理增强方面的改进说明:( A ) ODS-F(越高越好)用于测量累积事件图像的结构完整性。( B ) (A) 的时间快照。( C ) 重建的灰度图像比较。(C) 是 (F) 的快照,框的颜色为红色表示系统处于静态,紫色表示系统正在向上移动(沿y轴)。( D ) 原始事件流和我们增强的事件流的事件密度分布直方图。更详细的说明可以在图 S10 中找到。( E ) 累积事件图像的熵比较。在 (A) 和 (E) 中,实线表示 10 个数据点的时间窗口内的中值。相反,透明区域的顶部和底部边界表示它们的最大值和最小值。( F ) 使用 NIQE 对重建图像质量进行定量比较(越低越好)
3.重建强度图像评估:
增强重建强度图像质量对于基于事件的机器人视觉至关重要。尽管本研究未直接提供重建强度图像的定量比较结果,但鉴于AMI机制在事件流和累积事件图像上的出色表现,可以推测AMI-EV在重建强度图像方面也将展现出显著的优势。
图片
以上实验结果表明,与标准事件相机相比,研究人员所提出的系统能够获取更丰富的环境信息。同时,它能够在保持事件相机的固有优势(如高动态范围和高时间分辨率)的基础上,维持更高的信息输出水平。
特征检测与匹配
为了验证AMI机制在特征检测和匹配方面的性能,特别是在机器人视觉中的关键任务中。研究人员围绕低级视觉中最具代表性的任务,即各种机器人应用的基本构建块进行了实验测试。
实验使用了四种典型场景:结构化环境、非结构化环境、具有挑战性的照明环境和动态环境。前三种场景用于角点特征检测和跟踪,最后一种场景用于运动特征检测和匹配,也称为运动分割。对于所有实验,研究人员均将AMI机制与灰度相机和S-EV进行了比较。为了保留数据的高时间分辨率(微秒级),研究人员直接从异步事件流中提取特征,不进行任何累积。
1.角点检测和追踪实验:
在角点检测和追踪的实验中,研究人员模拟了结构化、非结构化以及具有挑战性的照明环境这三种不同的场景设置。实验结果显示,AMI机制相较于标准事件相机(S-EV)展现出了卓越的性能。AMI系统不仅能够检测和跟踪更多的角点特征,而且在信息提供上也更加稳定。特别是在光照条件复杂的场景下,AMI机制凭借其事件传感器的高动态范围(HDR)特性,显著优于标准相机。尽管在精确度上略有牺牲,约为1.5像素的误差,这主要源于数值计算和AMI补偿时的不完美时钟同步,但AMI机制仍然实现了比S-EV更长的跟踪寿命。此外,AMI机制和S-EV的更新率远超过标准相机,这一特性对于处理高动态场景尤为关键。
图片
特征检测和匹配的评估:( A ) 四个实验的环境设置。( B ) 角点检测和跟踪实验的结果。(i) 至 (iii) 的左栏提供了可跟踪角点数量的比较,右三栏显示快照。(iv) 和 (v) 是使用箱线图和条形图可视化的度量比较。(iv) 表示所有可跟踪角点的寿命,(v) 显示响应时间。( C ) 运动分割实验的结果。蓝色部分表示背景,红色部分表示独立移动的物体。
2.运动分割实验:
运动分割实验的目的在于验证AMI机制和S-EV在快速移动物体分割任务中的性能,并与标准相机进行了对比测试。AMI系统通过优化运动补偿图像的清晰度,并借助聚类技术将运动物体精确识别为非清晰区域,从而出色地完成了运动分割任务。与标准相机相比,AMI机制和S-EV在捕捉运动信息方面更为高效,因为它们不受运动模糊和低时间分辨率的局限。此外,实验证明,即便引入了一定的运动干扰,AMI机制在运动分割任务中的准确性和鲁棒性也并未受到影响。
图片
以上实验结果表明,与标准事件相机相比,AMI机制不仅能够保持事件相机固有的优势,同时还能够提供高质量且独立于自身运动的特征信息。
人体检测和姿势估计
为了验证AMI机制在常见的高级视觉问题、人体检测和姿势估计等方面的应用潜力,研究人员就人体检测和姿势估计进行了实验测试。
近年来,事件摄像机因其对快速运动检测的卓越性能而备受瞩目。然而,以往的方法要么依赖灰度图像进行实时检测更新,要么需要在开始时就初始化姿势估计,且在摄像机移动或动态环境中表现不佳。
图片
人体检测和姿势估计的评估:(A至C)S-EV(A)、AMI-EV(B)和标准相机(C)对四个动作的人体姿势估计结果:挥手、摇手臂、棒球击球动作和乒乓球击球。前两个动作较慢,后两个动作较快,这导致 RGB 帧中的运动模糊。(D )指标比较。帧速率表示 E2VID配置为生成的fps。IoU衡量人体检测性能,PDJ 衡量检测到的关节定位精度和完整性。由于不同传感器的采样帧速率差异很大,我们使用半对数图(x轴具有对数刻度)来可视化数据。
在本项研究中,研究人员成功地展示了AMI机制在人体高速运动估计中的稳定性和可靠性。为了更精准地捕捉人体的纹理和强度信息,研究人员采用了从事件数据重建的图像作为核心的事件表示方式,这种方法已经在不同场景中,包括动态环境内,被证实为稳健有效。
为了进行人体检测和姿势估计,研究人员采用了当前最流行且高效的算法之一——OpenPifPaf。在评估过程中,研究人员使用了交并比(IoU)和检测到的关节百分比(PDJ)这两个关键指标来衡量系统的准确度和鲁棒性。这些评估结果与视频帧速率密切相关,帧速率直接反映了标准事件到视频转换算法E2VID能够实现的帧率。
图片
实验结果表明,AMI-EV在不同帧速率下均展现出了卓越的性能。使用AMI机制时,用户能够配置远高于S-EV的帧速率,同时保持图像质量的稳定性。
▍关于未来
为了进一步推动相关研究的发展,研究团队进行了软硬件的全面开源,包括硬件设计、AMI生成算法、标定补偿软件、仿真平台,以及与公开事件相机数据集的转换接口。有了这些工具,开发者们可以基于仿真环境、现有的事件视觉数据集,乃至实际场景,为自身的特定任务生成定制化的AMI-EV数据集。
同时,关于未来研究,团队规划将主要集中在提高所提出硬件设备和软件解决方案的能源效率,并优化数据处理方法以更好地处理新的事件数据格式。
为了降低AMI生成机制的功耗,团队计划探索使用电光材料代替机械结构,并通过光相阵列技术控制入射光方向。此外,团队还计划优化旋转速度,使其适应不同动态场景的需求,以降低在低速或静态场景中不必要的能量消耗。
针对新的事件数据格式,团队计划研究更有效的数据处理方法,探索更复杂的拟合模型(如定向椭圆)来减少补偿误差,并研究训练神经网络来回归精确的逐像素补偿函数。考虑到基于事件数据流的特性,团队还将探索使用脉冲神经网络(SNN)来执行这些任务。
参考文章:
https://www.science.org/doi/10.1126/scirobotics.adj8124