脑机接口?最强读心术?真相不是你想的那样

  一项研究显示,人工智能(AI)可以从人类听觉皮质区的神经活动直接还原语音。但这并不意味着AI能“读心”。

  1月上旬,三个国际科研小组尝试破译大脑的语言信号。他们使用大脑数据训练出了一种人工智能系统,可以将大脑活动数据转化成语音,转化准确率约在40%-80%之间。尽管三个科研小组均表示,收集大脑的活动数据十分艰难,到了2月上旬,这一研究成果仍被不少人解读为“AI读心术”的开始,甚至“有望实现脑机接口,使失语者重新开口说话”。

  此前,澎湃新闻已做过相关报道,该研究还处于早期阶段,只能收集并解读人们说话时的大脑信息,尚不能为完全丧失语言功能的人服务。这是因为就目前的技术而言,大脑相关信息的收集需要借助外部声音的产生。

  说话者说出的话以声波的形式,通过介质传到聆听者耳朵内的鼓膜,鼓膜振动,通过听小骨放大之后传到内耳,刺激耳蜗内的纤毛细胞,从而产生神经冲动。神经冲动沿着听神经传到大脑皮层的听觉中枢,形成听觉。

  形成听觉的过程是顺而有序的。因此,研究人员通过收集人类大脑听觉皮质区的神经活动,利用深度学习和语音合成算法,重构出了受试者的听觉刺激。这一研究结果于1月下旬刊登在《自然》杂志的子刊《科学报告》(Scientific Reports)上。

  《科学报告》创刊于2011年,是顶级期刊《自然》杂志的子刊,采取在线发表的形式,实行开源制(Open Access),关注生物学、化学、物理和地球科学在内所有自然科学领域的初步研究。2017年,《科学报告》的影响因子为4.122;同为《自然》杂志子刊的《自然-生物技术》(Nature Biotechnology)影响因子为35.724。

  重构听觉刺激,是指从诱发神经活动的群体中,找到听觉刺激的最佳近似值,是一种逆向的映射技术。这项研究将从人类听觉皮质区记录的神经反应中重构原始的语言刺激。

  该研究的五名受试者是正在接受癫痫治疗但具有正常听力的患者,研究人员使用皮层脑电图(ECoG)的植入式脑-机接口,测量患者在听到连续语音时的神经活动。

  美国神经科学家菲利普·肯尼迪(Philip Kennedy)的电极草图。肯尼迪是世界上第一位将电极植入到人大脑中的科学家。1998年,在获得美国食品及药物管理局(FDA)的临床批准后,肯尼迪将一个特制的电极植入全瘫的病人中。通过数月的训练,病人可以通过集中注意力地想象,来控制鼠标运动。

  五个受试者中有两个受试者的左脑被植入了高密度硬膜下网格电极,主要覆盖在颞上回(STG)。五个受试者中有四个被植入了深度电极,可覆盖听觉皮区(Heschl氏回)。

  随后,这五名受试者只需要听声音,脑机接口会用模型重建语言信息,最后由电脑读出来。受试者收到外界的语音刺激后,大脑听觉皮层的神经网络开始活跃,神经电信号同时被植入脑中的电极接收。这些信号被收集起来,研究人员从中提取有效的信息,包括低频(LF)信号和高γ包络(HG)。最后根据这些信号重建声音。

  为了更精准地重构语音,研究人员使用了两种回归模型和两种声学表示形式,探究两两组合共四种组合形式下,哪种重构方式的效果最好。这四种组合分别是:线性回归+听觉图谱(Aud Spec);线性回归+声码器(Vocoder);非线性深度神经网络(DNN)+听觉图谱;和非线性深度神经网络+声码器。

  受试者听到自然语句,其听觉皮质区因受到刺激而产生神经活动,再利用这一神经活动,重建之前受试者听到的自然语句。示例对象中的响应电极显示为红色。

  研究人员比较了低神经频率范围和高神经频率范围的重建精度。结果显示,在数字识别任务中,用深度神经网络模型直接估计所有神经频率的声码器的方法(DNN+Vocoder),获得了最高的主观和客观评分,相比使用线性回归重构听觉图谱的基线处理方法,提高了65%的可理解度。

  为了比较重建的音频效果,11位听力正常的志愿者被要求随机收听用四种模型组合重建的音频效果,并进行打分。

  结果显示,非线性深度神经网络+声码器组合(红色,DV)的得分最高,为3.4分;其还原度也最高,志愿者的正确还原率达到了75%。此外,在志愿者对受试者的性别判断,这一组合的性别正确识别率达到了约80%。

  此前已有研究从人类的听觉皮质区(包括颞上回),成功地解码了想象发音、重复想象单词和无声阅读等等。这支来自美国哥伦比亚大学的研究团队认为,重建后的声音质量差是目前阻碍语音脑机接口系统发展的主要因素。而从人类的听觉皮质区重建语音,为创造语音神经假体提供了可能。

  语音神经假体的最终目标,是找到脑电波与语音的联系,从而创造出一种直接与大脑沟通的途径,使丧失说话能力的人能够“重新开口”。

  对此,圣地亚哥州立大学语言脑动力学实验室主任Stephanie Riès则表示,人们在默念时产生的大脑信号与说话时的大脑信号并不相同。如果没有外部声音的配合,计算机甚至很难分辨出大脑语言信号的起始点。这也意味着,人类距离使用脑机接口和人工智能技术让失语者“开口说话”的那一天还很远。