你以为小鹏只是换了语音包?我们来聊聊它的新技术

图片
不知道你们看过《Her》这部电影没有,其中的Samantha是一款先进的AI智能操作系统,它能和人类自由无阻的沟通,但这是以2025年为背景的科幻故事。
电影中的它虽然没有真实载体,但有着拟人的声音、情感和灵魂。
以上,是小鹏汽车语音团队内部对于未来车载语音的一个"小共识"。他们要做的事儿,是让未来车载语音识别系统,更接近电影中的Samantha。
这一次小鹏的语音团队带来了更新后的声音,那具体怎么让这种声音贯穿人与车的整个交互过程?不能把所有算法都集中在云端、也不能把所有算法都堆在离线存储上。所以,小鹏这次怎么玩儿?
好声音不难,难在端与云切换
图片
之前小鹏对车载语音系统更新的多轮对话、语义打断、双音区锁定和可见即可说的四个功能,不是本文重点。
这次体验的小鹏语音系统,如果你是已经更新公测版的用户,最能直接的感受到的应该是一个更拟人的声音。使用感受或许是:语音助手的声音听起来更温柔,语气也没那么死板、冷漠了。
以上,是小鹏语音系统这一次最大的变化。弱化了原来语音交互的机械感,而且让声音听着更舒服。但你想过一个问题没有,小鹏怎么实现让你在无论任何时候任何地点,听到的都是这种声音?
表面你能很好理解的逻辑是用24k采样技术的声音+高保真的音响=好听的语音交互声音。这样一来你可能就会认为:小鹏换了个语音包,然后用了好的品牌音响?就这?
其实不然,在这背后藏着的是语音合成引擎。24k采样技术只是保证了语音交互的声音质感,背后的深层逻辑,是"在线神经网络引擎+离线拼接引擎"支撑的连贯性。
"端"与"云"的切换策略
图片
首先,汽车的语音交互用的还是语音合成(TTS)这个方向,然后语音合成里还包括了原声拼接法、参数法、声道模拟法。好,小鹏用的是拼接法,拿在线数据拼离线数据,实现动态在线转离线的切换策略。
在线云数据接通的是大量的、且经过训练的语音库,其中的思路应该是这样:我们要做语音库,然后用模型学习每个音的频率之后再根据学习的特征进行复原。那么,离线的拼接引擎里,存入的是会被高频次使用的数据和预加载数据。
这种深度神经网络引擎的算法非常复杂,车载算力做不到实时的响应就必须依赖在线云端数据。但现在智能汽车基本都已经接通网络信号,但还有难点。比如,网络不稳定的情况下,汽车需要应对复杂多变的使用场景,还需要稳定的发挥。而且,车辆还需要在使用过程中做出及时响应。
总之,不能在AI智能声音和机械感强的声音之间来回切换对应有网和没网的使用场景。所以,小鹏P7用上在线神经网络语音合成功能,应该不是算法的突破(语音系统算法应该是供应商提供),可能是更好的解决了在没有网络信号的场景下语音合成一致性的问题。
端云融合多级缓存,这是官方给出的名词。里面包含的网络环境预测,比方导航情况下,要进入长隧道然后就会面临没有网的情况,这样一来导航数据上传云端、云端处理数据做出回应、存入离线数据做出提前判断出要播报的台词,然后在网络环境良好的时候提前合成、储存的数据就能解决网络信号不好的场景下语音的一致性。
还有一个智能预加载算法,理解成个性化训练就行。这是一个神经网络根据用户使用习惯的训练过程,举个例子,你上车发出的第一个指令是查询天气,好,在多次使用之后神经网络模型的占比会提高,从而在网络条件不好的情况下对这类的信息预加载,然后,在没有网络信号的情况下也能做出正常的信息回馈。
图片
最后,是算法的端云分割策略。这方面的难点,无非是算法和存储,小鹏P7用的820A芯片算力尚可,用的是128G的内存。接着就是在端与云之间进行分割,分时调用不同的数据,在有网的时候调用云数据、没网的时候调用端数据。
总结
小鹏给小P的新声音用了新的技术组合"在线神经网络+小型离线拼接引擎",这其中的重点放在了在线神经网络的学习功能和端与云的流畅分割,来保证小P语音交互体验感。
之后,小鹏还会给小P做出什么新花样?一开始讲的AI人工智能Samantha还记得吧,我想他们应该是把Samantha当成最终的发展目标;所以,未来按照小鹏汽车的规划小P会有更多的情绪,会欢喜、羡慕、忧愁与热爱,能和人类产生更多的感情共鸣。