4 汉语共振峰检测
在语音学中,元音是指在发音过程中,对声腔气流无明显阻塞而发出的音段,如[a]、[i]或[u]。从声学原理上讲,发元音时,声带周期振动,口腔内舌头高低前后位置变化,开闭鼻腔通道,再加上用力的大小、持续时间的长短,形成不同的元音。按照元音发音期间舌位和声腔形状是否变化,可以把元音分为单元音和复元音。单元音发音时,舌位和声腔形状基本不变;复元音发音 时,舌位和声腔形状发生连续变化。元音的声源具有一个基频和一系列谐波。 这些谐波基本上都
是基频的整数倍,它们的能量随着频率的递增而递减。通常而言,谐波分量的谱包络(由声门波的单周期波形决定)的滚降速率平均为-12dB/octave(倍频程)。
当然这一数值会随着发音气流的固有特点而改变,也会因人而异,比如用力的说话方式就可能使声门关闭得更为猛烈,导致谱包络的滚降速率为平均-9dB/octave [1]。这一系列基频和谐波通过声腔时,由于声腔变化所造成的不同共振特性(称为声腔的自然频率)。这些谐波被调制,其中某些频率被加强,另一些频率被抑制,从而构成形式不同的频谱。其中被加强的一组谐波群就称为共振峰。通常,共振峰定义为声道脉冲响应的衰减正弦分量,在经典的语音信号模型中,共振峰等效为声道传输函数的复数极点对。 根据语音信号合成的研究表明,表示浊音信
号最主要的是前三个共振峰。一个语音信号的共振峰模型,只用前三个时变共振峰频率就可以得到可懂度很好的合成浊音。
4.1 基于经验模态分解(EMD)的汉语共振峰检测
算法利用时频分析工具HHT将各个共振峰分解到不同模式中,进而利用传统LPC谱提取各共振峰的中心频率。
(1)预处理
由于受口鼻辐射等的影响,语音信号在处理前需作预加重处理,以提升语音
信号的高频部分,达到对共振峰频率分量的加重效果。接下来对语音信号s(t)进行声韵分割,目的是去除s(t)中那些被确定为无声的或清音的部分,这里我们结合系综经验模式分解和传统分割方法如短时能量法、过零率来实现声韵分割。
(2)利用LPC法构造参考共振峰轨迹
利用传LPC法来处理经过预处理后的语音信号,其中帧长200点,帧移100点,重复点数100点,LPC模型的阶数为16。进而得到采用LPC法对 语音信号前三个共振峰的估计结果。根据汉语发音时第一共振峰中心频率一般小于1000Hz,第二共振峰的中心频率处于[1000,2000Hz]范围之内,第三共振峰的中心频率一般在2000Hz之上,对这些估计结果进行进一步的提炼,保留在符合上述规律的点。
从而构造出三条参考共振峰轨迹, (n=1,2,3)。
图4.1 基于经验模式分解的共振峰检测算法流程图
(3)利用EMD或LIM法处理语音信号并且提取共振峰 在LPC法构造参考共振峰的同时,利用EMD或LIM处理预处理过的语音信号s(t),产生一系列内禀模式函数, (n =1,2,•••)。通过分析我们知道,现有EMD算法不能分解一个倍频内的振动模式,当两个共振峰的中心频率处于一个倍频内则无法分离。这种情况下,需要采用频率分辨率更高的LIM算法进行分解。因此,我们通过前三个参考共振峰之间的频率关系,选择不同的算法进行处理。如此可将前三个共振峰信息分解到不同内禀模式函数中去。通常 中包含频率最高的第三共振峰; 中包含频率次之的第二共振峰;而 则包含频率最低的第一共振峰。接着对前
(3)三个内禀模式函数分别加窗进行LPC谱计算,然后通过峰值计算出各自共振峰的中心频率。其中帧长200点,帧移100点,重复点数100点,LPC模型的阶数为16。从而找出三条共振峰轨迹, n =1,2,3)。
- 上一篇:930-960MHz GSM基站功率放大器设计+PCB图
- 下一篇:MATLAB维特比译码算法在不同信道中的性能仿真
-
-
-
-
-
-
-
中国传统元素在游戏角色...
浅析中国古代宗法制度
江苏省某高中学生体质现状的调查研究
g-C3N4光催化剂的制备和光催化性能研究
高警觉工作人群的元情绪...
上市公司股权结构对经营绩效的影响研究
C++最短路径算法研究和程序设计
现代简约美式风格在室内家装中的运用
巴金《激流三部曲》高觉新的悲剧命运
NFC协议物理层的软件实现+文献综述