2) 共振峰是指在声音的频谱中能量相对集中的一些区域,声音在经过共振腔时,受到腔体的滤波作用,使得频域中不同频率的能量重新分配,一部分因为共振腔的共振作用得到强化,另一部分则受到衰减,得到强化的那些频率在时频分析的语图上表现为浓重的黑色条纹。由于能量分布不均匀,强的部分犹如山峰一般,故而称之为共振峰[9]。声道共振峰有时会严重影响激励信号的谐波结构,使得想要从语音信号中去除声道影响,直接取出仅和声带振动有关的声源信息并不容易。
3) 在浊音语音段很难对每个基因周期的开始和结束位置进行精确的判断,一方面因为语音信号本身是准周期的[8]。另一方面因为语音信号的波形受共振峰、噪音等因素的影响。
4) 在实际应用中,语音信号常常混有噪声,而噪声的存在对于基音检测算法的性能产生强烈影响。
5) 基音频率变化范围大,从低音男声的70Hz到儿童女性的450Hz,接近3个倍频程,给基因检测带来了一定的困难。
1.4 基音周期检测提取的国内外研究现状
1.5 论文的主要工作和结构安排
1.5.1论文的主要工作
通过对语音基音周期的探讨,结合WAV语音文件格式,研究基音周期的提取方法,运用非基于事件(声门闭合)的基音检测方法(短时自相关函数法和短时平均幅度差函数法)提取基音周期。用VC++实现以上方法并分别检测提取一定量的男声女声基音周期,统计男声女声的基音周期分布特点。
1.5.2 论文结构安排
论文主要安排为以下几个章节:
第1章:绪论 ,首先简述语音信号处理以及基因周期检测的相关概念,其次对基音检测的背景研究意义、意义以及现状进行了说明,最后叙述了论文的工作重点和结构安排。
第2章:介绍几种常见的语音文件格式,并着重介绍WAV语音文件的格式及读取。
第3章:对现有的基音检测算法进行了介绍和分析,针对本论文使用的两种检测算法,详细介绍其检测原理以及实现,并进行了优缺点分析。
第4章:基于VC的软件实现及实验结果分析
第5章:对论文工作的总结和对基音周期检测提取方法以及语音信号处理的展望。
第2章 语音文件格式及WAV格式与读取
2.1 常见语音文件格式
音频文件通常分为两类:声音文件和MIDI文件,声音文件指的是通过声音录入设备录制的原始声音,直接记录了真实声音的二进制采样数据,通常文件较大;而MIDI文件则是一种音乐演奏指令序列,相当于乐谱,可以利用声音输出设备或与计算机相连的电子乐器进行演奏,由于不包含声音数据,其文件尺寸较小。
(1)声音文件
数字音频是将真实的数字信号保存起来,播放时通过声卡将信号恢复成声音。然而,这样存储声音信息所产生的声音文件是相当庞大的,因此,绝大多数声音文件采用了不同的音频压缩算法,在基本保持声音质量不变的情况下尽可能获得更小的文件。
1)Wave文件(WAV):Wave格式是Microsoft公司开发的一种声音文件格式,它符合RlFF(Resource Interchange File Format)文件规范,用于保存Windows平台的音频信息资源,被Windows平台及其应用程序所广泛支持。Wave格式支持MSADPCM、CClTT A Law、CClTT i Law和其他压缩算法,支持多种音频位数、采样频率和声道,是PC机上最为流行的声音文件格式,但其文件尺寸较大,多用于存储简短的声音片断。
2)AlFF文件(AlF、AlFF):AlFF是音频交换文件格式(Audio Interchange File Format)的英文缩写,是苹果计算机公司开发的一种声音文件格式,被Macintosh平台及其应用程序所支持,Netscape Navigator浏览器中的Live Audio也支持AlFF格式,SGI及其他专业音频软件包也同样支特这种格式。AlFF支持ACE2、ACE8、MAC3和MAC6压缩,支持16位44.lkHz立体声。