语音信号是人类交流时运用得最广泛、最熟悉、也最至关重要的信息载体。各种各样的语音信号处理技术和其实践已应用到人类的生活当中去,组成了当今社会信息化的一部分[1]。
语音信号产生的过程需要心理以及生理等各个方面的动作协力促成。在一般的情况下,当人类想表达一种思想或者传递某种信号的时候,语音是最佳的选择。这时候,这种信号首先会以一种抽象的印象产生在人类的大脑里面,然后大脑自动的将其转换为一组神经信号,这组神经信号通过神经组织将其传递给人类的发声器官,发声器官收到这组信号之后便按照信号的内容产生携带人类所要表达的信息的语音信号[3]。82536
目前对语音信号的研究大都是对语音信号进行数学处理,而将语音信号进行数字化表示是对其进行数学处理的基础。我们可以根据采样定理,在语音信号的时域上每隔一段固定的时间取一个样本来表示一个带限信号(取足够多的样本点)。因此语音信号数字化之后必然是离散的点,当我们把这些点按照顺序和固定时间间隔表示在二维图像上连在一起就变成了波形。语音信号的另一种数字化表示是参数表示,参数化表示的意思是把语音信号表示成某种语音产生模型的参数。而只是通过采样和量化来绘制波形但并未丢失其他信息的过程(大致地保留了模拟语音信号的“波形”)则属于波形表示(即本文第一个要绘制的图形)的范畴[1]。论文网
由于语音信号有着不可替代的作用(对比肢体语言、文字语言、图像语言有着方便快捷准确等优势),人们对语音信号的研究从未中断过(我国的学者自古以来就在研究韵律学)。随着人们生活水平的提高(智能计算机的普及),这些方面的需求对于语音信号的处理也提出了更高的要求,从而不断的驱使科研工作者钻研语音信号处理技术。比如,人工智能要求计算机能够通过语音实现人机交流,这就对机器提出了很高的要求,人对机器说话,需要机器能够识别人的语音,这就需要机器能都进行语音编码和语音识别,如果要求更高一点,还会要求机器进行说话人识别,机器回应人,就要求机器能都进行思考并且能够进行语音合成(合成和人类一样自然的声音还是很有难度的),因此语音合成技术和语音识别技术在近十几年来一直是语音信号处理技术研究的前沿;要高效率并且准确的的处理语音信号,必须对语音信号的特征进行数字化,而不是基于一些模糊的认识,而语音编码、语音识别、说话人识别、语音合成等技术都是基于语音信号的特征分析,通过对语音信号运用一些基本技术来进行数字化处理。而想要更科学更深入地了解语音信号,就必须掌握一些其他方面的知识。例如人说话的过程语音的形成以及我们听到语音并且接受后在大脑中形成映射的整个过程,这就涉及到很多方面的知识了,例如心理学、生理学、语言学和逻辑学等[1]。
虽然科学工作者的研究已经取得了比较显著的成果,但离人类对语音信号处理的要求还很远。目前人们生活所能接触到的语音信号的研究成果,如苹果手机的语音助手Siri,国产手机的语音助手(大多是使用科大讯飞的引擎)已经极大地方便了我们的生活,但是其准确度可信度以及应用范围还远远不能满足我们的需求,同样,在科研工作中也需要更加强有力的语音处理技术,因此我们还面临着很大的挑战。还有很多理论知识不完备,有很多问题亟待解决。目前我们尚没有比较好的办法来对语音进行连续分割(将大段的连续语音信号分成一个字一个字一个词一个词以及一句一句),也不能够识别大词汇语音(一段包含很多词汇的语音信号),也不能很好地识别说话人;语音编码的速度和质量也不尽人意;语音理解更是发展缓慢,没有一个统一准确的标准,不过这也与其复杂的语境和语言文化有关。解决这些问题是我们语音信号处理方向的“头等大事”,也是未来一二十年的热门方向[1,2,3]。