2。2 语音的分类
语音是虽然是语音符号的载体,但它也具有一定的物理意义,语音的物理基础主要有音高、音强、音长、音色,这也是构成语音的四要素。按照语音产生方式的不同我们可以将语音分为三大类,如图2-3:
(1)清音:气流通过声门时,如果声带不振动的部分在收缩,迫使气流从一个收缩的狭窄通道通过产生一股湍流,这就是清音[1]。清音波形曲线较平稳,振幅较弱。
(2)浊音:气流通过声门时,如果声带弛豫振荡,产生爆炸的准周期气流,这股气流通道便可激励出浊音[1]。浊音的波形曲线振幅较强。
(3)爆破音:如果我们先关闭声道中的气流压力,然后我们突然重新产生压力并迅速地释放气流,发出塞音,这就是爆破音[1]。爆破音的波形曲线振幅小但曲线不如轻音平滑。
(a)清音 (横坐标:采样序号;纵坐标:振幅)
(b)浊音(横坐标:采样序号;纵坐标:振幅)
(c)爆破音(横坐标:采样序号;纵坐标:振幅)
图2-3 三种语音的典型波形图
根据图2-3从振幅来看,浊音的振幅明显高于清音和爆破音,从震动频率上看,爆破音在急促部分最高,其他部分较低,清音整体较低。浊音高于清音且频率相对时间保持不变。
3 语音信号的时域特征分析
本章将介绍语音信号的短时能量和短时过零率参数,并且介绍这两个参数在双门限法中的具体运用,以及如何用双门限法完成端点检测。
语音时域分析的特点:
(1)简单易懂,时间复杂度低。
(2)时域波形曲线图能直观清楚地表达出语音特性。
3。1 语音信号的预处理
为了得到语音信号,我们首先要对语音数据进行预处理。预处理大致包括预加重和加窗分帧两个步骤。我们接下来介绍这两个步骤的意义。
预加重处理的目的是让语音信号波形图的频谱曲线变得平坦,在高频阶段也能和低频阶段一样使用一样的信噪比得出频谱曲线。分帧的目的是借助语音在时域上的短时平稳性,讲语音分为一帧一帧进行处理。同时由于语音在时域上信号不连续且有噪声干扰,为了不让帧数之间出现较大空白,我们需要采用帧移的手段来防止这种现象的产生,也是为了更好的模拟实际语音信号。同时为了避免边缘干燥语音对研究的干扰,我们也需要对语音加窗处理。来*自~优|尔^论:文+网www.youerw.com +QQ752018766*
3。1。1 语音信号的预加重处理
为了减少辐射干扰和使语音频谱曲线变得平缓,我们针对高频部分进行预加重。我们建立函数:
来进行预加重处理,我们设预加重系数为α,其中0。9<α<1。0。在时间n下我们设此时的语音采样值为x(n):此时我们设α=0。98[1] 我们有预加重公式如下:
由于本文主要从时域方式入手分析,因此对频域方向的预加重处理不多介绍。
3。1。2 语音信号的加窗处理
虽然将语音信号进行分帧处理方便我们分段研究语音信号,但是为了防止帧与帧之间产生空白,我们在分段时采用了图3-1中的分段方法。这种方式叫做交叠分段方法,讲连续的2帧进行重叠,重叠的部分我们称之为帧移,长度一般为0~1/2个帧长,本文一般选用帧长的一半作为帧移[1,2]。