依图科技行为识别算法破世界纪录,已在智能城市领域落地

2020年8月3日,国内人工智能企业依图科技宣布在行为识别领域取得突破。在由全球多媒体领域顶级学会ACM国际多媒体会议(ACM MM)主办的 “大规模复杂场景人体视频解析”挑战赛中,依图科技取得“Track-4:行为识别”的第一名。比赛中,依图算法的指标将以往学术界中的基准算法提升了近3倍。

行为识别以人为基础单位,分析人的行为,关注单人的动作以及多人的动作,例如一起走路、奔跑、打架等。因场景复杂多变、动作差异化大、需要捕捉连续动作和长时间动作,行为识别和分析是一项复杂度较高的任务。ACM MM此次竞赛注重对拥挤场景的考察和较少见动作的识别,对于人体框定位的精确性要求更高。

与其他成熟的国际竞赛不同,这次竞赛是首次举办,参赛队伍在赛前无法了解识别的类别、数据集的大小和识别的具体需求,需在短短一个多月的时间内,设计出最优的算法。

依图科技称,不同于其他参赛队伍,其此次没有使用复杂的多模型融合策略,而采用单模型,借助背景提取和分割算法,将行为的解析与场景结合,降低了问题难度。

视频中行为识别是挑战赛的重点项目,目的是考察算法在复杂场景下对行为的解析能力,包括多人追踪、人体姿态、行为识别等。相较于图像,视频的行为识别更加复杂,如何建模、视频帧之间的相关性是学术界一直存在的难题。在此次挑战赛中,上百支参赛队伍参与了超过56000个复杂事件下的人体行为(包括排队、打架、俯身、同行、跑动、滞留等)的解析。

依图科技介绍,为解决视频中行为识别的难题,其将算法与场景进行了结合。一方面从视频中自动提取场景信息,结合行人检测、行人重识别算法,构建人与人、人与场景、人与物之间在视频中的关系;另一方面,借助算法和对行业场景的理解,对比赛中要求的特定的14类任务进行了深度算法优化。

据悉,行为识别的应用可以帮助判断行人夜晚路遇劫匪而自动报警、在家中老人倒地时及时预警并告知监护人、判断生产线上的工人施工顺序出错并即刻发出告警,还能在在视频中对内容进行精准理解,并为其贴上更合适的标签使得能够被更精准和更容易检索到。

目前,这套行人识别算法已搭配其他算法技术在智能城市领域落地应用。