依图科技行为识别算法破世界纪录，已在智能城市领域落地

2020年8月3日，国内人工智能企业依图科技宣布在行为识别领域取得突破。在由全球多媒体领域顶级学会ACM国际多媒体会议（ACM MM）主办的 “大规模复杂场景人体视频解析”挑战赛中，依图科技取得“Track-4:行为识别”的第一名。比赛中，依图算法的指标将以往学术界中的基准算法提升了近3倍。

行为识别以人为基础单位，分析人的行为，关注单人的动作以及多人的动作，例如一起走路、奔跑、打架等。因场景复杂多变、动作差异化大、需要捕捉连续动作和长时间动作，行为识别和分析是一项复杂度较高的任务。ACM MM此次竞赛注重对拥挤场景的考察和较少见动作的识别，对于人体框定位的精确性要求更高。

与其他成熟的国际竞赛不同，这次竞赛是首次举办，参赛队伍在赛前无法了解识别的类别、数据集的大小和识别的具体需求，需在短短一个多月的时间内，设计出最优的算法。

依图科技称，不同于其他参赛队伍，其此次没有使用复杂的多模型融合策略，而采用单模型，借助背景提取和分割算法，将行为的解析与场景结合，降低了问题难度。

视频中行为识别是挑战赛的重点项目，目的是考察算法在复杂场景下对行为的解析能力，包括多人追踪、人体姿态、行为识别等。相较于图像，视频的行为识别更加复杂，如何建模、视频帧之间的相关性是学术界一直存在的难题。在此次挑战赛中，上百支参赛队伍参与了超过56000个复杂事件下的人体行为（包括排队、打架、俯身、同行、跑动、滞留等）的解析。

依图科技介绍，为解决视频中行为识别的难题，其将算法与场景进行了结合。一方面从视频中自动提取场景信息，结合行人检测、行人重识别算法，构建人与人、人与场景、人与物之间在视频中的关系；另一方面，借助算法和对行业场景的理解，对比赛中要求的特定的14类任务进行了深度算法优化。

据悉，行为识别的应用可以帮助判断行人夜晚路遇劫匪而自动报警、在家中老人倒地时及时预警并告知监护人、判断生产线上的工人施工顺序出错并即刻发出告警，还能在在视频中对内容进行精准理解，并为其贴上更合适的标签使得能够被更精准和更容易检索到。

目前，这套行人识别算法已搭配其他算法技术在智能城市领域落地应用。