受发展心理学启发，研究员开发出能预测物体运动的AI模型

人类可以轻松地识别事物并对其行为进行推理，这是我们认知发展的核心。即使是儿童，他们也会根据物体动态对其进行细分，并用持久性、稳定性、连续性的概念来解释物体发生了什么，以及推测在其他情况下物体会发生什么。

受此启发，为了简化人工智能模型的视觉识别问题，来自麻省理工学院-IBM Watson人工智能实验室、麻省理工学院计算机科学与人工智能实验室、DeepMind和哈佛大学的一组研究人员引入了一套动态视频推理基准——CLEVRER，并开发出了一套能预测物体运动的模型。

CLEVRER包含了由物理引擎生成的2万多个时长为5秒的碰撞物体视频，每个视频里包含了三种形状、两种材料和八种颜色。同时还包括30多万个问题和答案。这些视频和问题全部都集中在逻辑推理的四个要素上：描述，什么颜色；说明，什么原因造成；预测，接下去会发生什么；反事实，如果发什么。

模型运行示意图

通过解析CLEVRER，研究人员确定了在描述性、解释性、预测性和反事实性问题上，训练AI模型需要的内容，分别是：对物体、事件之间的运动、因果关系，以及背后的逻辑关系进行推理的符号描述。随后，研究人员据此开发了神经符号动态推理模型（NS-DR）。

这个模型实际由四个部分合成。分别是：视频帧解析器，神经动态预测器，问题解析器和符号程序执行器。给定输入视频，视频帧解析器会检测场景中的对象并提取其轨迹和属性（即位置，颜色，形状，材质）。形成视频的抽象描述后，将其发送到神经动态预测器以预测对象的运动和碰撞。问题解析器接收输入问题以获得代表其逻辑的功能程序。然后，符号程序执行器在动态场景上运行该程序并输出答案。

根据该团队报告，在用1000个程序应用了该模型后，他们的模型对问题的识别准确率达到了88.1％，优于其他基准模型。在解释性，预测性和反事实性问题上，则有更好的表现。

研究人员指出：“ NS-DR 将动态规划纳入视觉推理任务中，可以直接预测未观察到的运动和事件，并可为预测性和反事实性任务启用。其次，符号描述为视觉，语言，动力和因果关系提供了强大的基础。通过设计，它使模型能够明确捕捉视频的因果结构和问题背后的逻辑构成。”

不过，研究人员也承认，即便训练所需的数据量相对较少，但模型在实际应用中仍很难使用。此外，在需要长期动态预测的任务（例如反事实问题）上，NS-DR的性能也没有那么高，这表明未来仍需要一种能够生成更稳定和准确轨迹的动态模型。