“声纹识别”中文课上线：从理论到编程实战，谷歌声纹团队负责人主讲

机器之心

2022-08-16 12:16发布于北京机器之心官方账号

对任意一个领域的学习，如果有人可以指导你完成从基本概念、实践方法到系统认知的构建，你的职业发展将事半功倍。

声纹识别领域，现在就有这样一门课程刚刚上线。

什么是声纹识别？

声纹识别（Speaker Recognition）是一门位于音频信号处理、生物信息学以及 AI 等领域交汇点的交叉学科。声纹识别技术既是声纹技术中最为核心的一项，也是生物特征识别技术的一种，该技术利用算法和神经网络模型，让机器从人们的语音信号中识别出说话人的身份信息。而随着 2014 年以来深度学习（DL）技术的发展，声纹识别技术进入全新阶段。

如何在深度学习时代系统深入的学习声纹识别技术与不断更新自己的知识储备，对领域的初学者提出了全新的要求。谷歌声纹识别与语种识别团队负责人王泉博士的最新课程《声纹识别：从理论到编程实战》可以带你完成知识体系的构建。

必要的课前准备

课程视频总时长超过 12 小时，并配有大量课后练习，包括课后测验、编程练习与大作业。所以首先希望大家可以规划好学习时间，安排一段较紧凑的学习计划完成课程学习。

其次，这门课是技术性很强的专业课程，对标大学本科高年级研讨课与研究生课程，并非科普视频，所以在学习过程中需要随时停下查阅资料、推导公式与消化思考，也欢迎大家在课程中提问。

最后，学习课程需要较基础的大学数学知识与一定的Python编程基础，因为课程采用「中文授课、英文课件」，所以还需要一点英文基础。

谁适合学习？

学生与科研人员：熟悉领域全貌，为毕业论文与科研方向提供参考。

企业从业人员：完善知识与实践体系，了解学术界的前沿进展，保持职场竞争力。

任何对声纹领域充满兴趣与热情的人：建立声纹领域包括学术与产业界的系统认识，扩展知识面，辅助相关决策。

课程讲授哪些内容？

课程将从声学、感知基础知识以及音频、信号处理等开始介绍，深入理解声纹的本质。所以，即使是没有任何语音方面基础和背景的同学，也可以轻松上手这门课程。

课程会涵盖从上世纪 60 年代一直到 2022 年出现的所有主流声纹识别技术，让大家既可以对整个声纹技术的发展史有一个全面的认知，又能熟悉学术界和工业界最前沿、最先进的技术，保持自己的知识储备领先于其他从业人员。

同时，本课程将着重介绍基于深度学习的声纹识别系统，包括卷积神经网络、循环神经网络、注意力机制、Transformer 等常用于声纹识别的神经网络结构，并对主流的深度学习声纹识别系统进行归纳总结，横向对比各种推理方法和损失函数之间的优劣，帮助大家理解所有系统的底层设计思路。

此外，课程还将讲解数据清洗、数据增强和数据融合等数据处理相关技术。