拿下DiCOVA两项冠军,靠声音也能检测新冠肺炎?

近日,由ICASSP2022发起的第二届DiCOVA新冠声音信号检测挑战赛落下帷幕,由科大讯飞与中国科学技术大学共建的语音及语言信息处理国家工程研究中心团队(NERCSLIP-USTC)获得两项冠军。
图片
DiCOVA比赛要求参赛队伍利用被检测人的呼吸、咳嗽、语音信号判断是否为新冠肺炎阳性,比赛包括呼吸、咳嗽、语音及融合任务四个赛道,共吸引全球21支队伍参赛。
最终NELSLIP-USTC团队获得语音赛道、融合赛道两项冠军,为新冠肺炎辅助检测提供的一种全新的思路。
AI+音频信号,检测新冠肺炎
2021年,印度理工学院的学者们在INTERSPEECH2021国际会议上发起了第一届DiCOVA新冠咳嗽声诊断挑战赛,在此基础上,依托信号处理,顶会ICASSP2022举行了第二届DiCOVA比赛,并增加了呼吸、语音和融合三个赛道。
训练集共包含965位志愿者的声音数据,包括793位新冠阴性志愿者和172位新冠阳性志愿者。测试集包含471位志愿者的声音数据,其中阳性60位,阴性411位,训练集与测试集无重复数据。
声音数据的时长从1秒到29秒不等,每位志愿者的声音包括呼吸、咳嗽和语音三类,每类各一条,咳嗽声来源于志愿者的主动咳嗽,语音内容是用英语读1至20的数字。
在数据时长统计方面,咳嗽赛道共计有4.62小时, 呼吸赛道共计1.68小时, 语音赛道共计3.93小时。
比赛设置的主要目的是在声音信号的基础上探索如何使用少量的音频数据来检测新冠肺炎的可能性。
本次比赛共吸引了伊利诺伊大学厄巴纳-香槟分校(UIUC)、瑞士洛桑联邦理工学院(EPFL)、法国通信系统工程师学校与研究中心(EURECOM)、印度理工学院(IIT)等全球共21支队伍参赛。最终NELSLIP-USTC团队获得语音赛道和融合赛道冠军,其中最高检测AUC指标达到88.44%(满分为100%),如图1所示。
图片
图1 团队参加的2个赛道成绩
在比赛中,团队提出了基于有监督和自监督预训练的COVID-19检测方法,如图2所示。
有监督预训练阶段通过不同的声学信号分别训练网络,为呼吸、咳嗽、语音三个任务建立单独的模型,然后通过模型参数融合得到有监督预训练模型,该预训练方法可以显著提高三个任务的性能。
在自监督预训练阶段,采用wav2vec2.0模型和官方DiCOVA数据集开展自监督学习,用于提取音频的高维表征以代替传统的梅尔频率倒谱特征。
参赛方案创新性在于融合了有监督预训练带来的网络泛化性提升和自监督预训练带来的深度高维特征,实验结果表明,将高维特征和梅尔频率倒谱特征结合使用可以显著提高性能。
图片
图2 系统框图
比赛结果表明,采用“AI+音频信号”方法进行新冠检测具有一定的可行性。基于“AI+音频信号”的新冠检测可以克服RT-PCR核酸检测方法的缺陷,更重要的是可在手机APP平台实现,有效避免了人群聚集。
但另一方面,“AI+音频信号”方法的检测准确度相比RT-PCR核酸方法仍然差距明显,并且模型应对病毒变异等因素的推广能力仍缺乏评估。所以,后续如何将“AI+音频信号”初筛与RT-PCR精筛相结合,在保证准确率的情况下,大幅提升检测效率是非常值得深入研究的方向。
感知声音属性,实现广阔应用
人类能够听到的所有声音都称之为音频,其中承担人类语言信息传递的声音我们称之为语音。除了对智能语音的持续研究之外,科大讯飞也在积极开展更丰富的音频属性分析研究,包括声学场景分类、声音事件检测与定位以及动物声音识别等。
2020年,科大讯飞在DCASE2020国际声音场景识别和事件检测竞赛--声音事件定位与检测(Sound Event Localization and Detection,Task3)任务中摘得桂冠。在“有没有声音”“有什么样的声音”“声音在哪个方位”三项指标上均有较大优势。声音定位与检测技术的日趋成熟,也为行业带来广阔的应用前景。
首先,基于领先的声音事件定位和检测技术,科大讯飞已经研发出“声学照相机”和“工业听诊器”等产品,并陆续在电力、水利、轨道交通、汽车制造等行业领域发挥效用。
图片
其中,讯飞声学照相机可以利用高精度麦克风阵列技术定位声源位置,再配合摄像头,实现可以直接在设备上看到声源位置,方便工作人员的日常设备检修。
目前,讯飞声学照相机已陆续在国内多个地区、项目中进行试点和应用。此外,依托声音定位和检测技术,讯飞工业听诊系统可实现实时检测设备声音,避免设备故障导致生产中断,还可通过声音监测产品质量,避免不良品流向市场。
其次,科大讯飞近日发布了旗下首个C端医疗系列产品——讯飞智能助听器。基于科大讯飞在声学场景分类方面的研究产出,这款智能助听器集成了自研的AiScene场景识别系统,能够实时追踪用户所在环境,进行均衡通道降噪调节,最终得到完善的环境噪声抑制方案。
图片
最后,在家庭场景中,针对特殊声音事件(如婴儿哭泣声、爆炸声和呼救声等)的检测与识别对于智能安防、智能陪护等产品有着重要应用价值。
基于领先的声音事件检测与识别技术,科大讯飞已经研发出全离线低功耗声音事件检测解决方案,目前婴儿哭声检测能力已在科大讯飞开放平台上线,可实时监测婴儿啼哭,协助听障人士或外出父母第一时间感知婴儿的需求。
除了人与机器之外,科大讯飞还关注于对动物叫声的分析研究。通过动物的叫声,可以对动物进行分类,也可以对动物的意图进行一定的预测。在2021年“iFLYTEK A.I. 开发者大赛”中,讯飞组织发布了“鸟类鸣叫声识别”挑战赛,旨在推动人工智能前沿科学在生物多样性保护方面的研究工作。
声音中携带了大量有关日常环境、物理事件和行为意图的信息,科大讯飞将持续开展针对声音的感知能力研究,对各种场景下的声音中蕴含的信息进行识别和分析。