1。2。2 听觉场景分析
1990年,著名心理学家Albert Bregman首次提出了听觉场景分析(Auditory Scene Analysis, ASA)的概念,并在其所著的《计算场景分析》一书中对该研究作出了详细的总结,对听觉(Auditory)功能的相关说明很具信服力并广为世人接受,被称为是ASA的开山鼻祖。Bregman 认为人类听觉在处理声信号时是先将声信号按其物理属性(Physical Property)划分为不同的成分或流,这是ASA的基本内容,也属于声源归类的问题[2]。
听觉场景分析ASA中,人类听觉所接收到的是多个声源的混合声信号,不仅包括直达声(直接到达听者的声信号),还存在衍射(Diffraction)以及反射(Reflection)声。虽然声源的原始信号受到衍射与反射声的干扰影响,混合声里的重要信息并没有丢失,听觉机制依旧可以凭借此类信息来获取源的位置等信息,这些重要信息被称作听觉线索,ASA的核心就是获取听觉线索。听觉线索可用于声源定位,可分为两类:第一类线索与声源特性有关;另一类线索则揭示声源的物理位置。
计算听觉场景分析(Computational Auditory Scene Analysis, CASA),即用电脑(Computer)来模拟听觉系统的心理及其生理的过程,最终使电脑能够像人耳一样处理声音(定位、分离及释义)、智能地对语音进行分析,1998年,Rosenthal与Okuno对CASA作了一个全面的总结,声源的时间连续性和个体独立性是CASA的两个基本依据,贯穿整个CASA的计算过程,研究表明人类的视听感知过程不是单向的、而是信息在双向流动及交互的过程,因此对CASA的研究也在从数据驱动型(被动)向图式驱动型(信息双向流动)转变[2]。
1。3 本文主要研究内容
本文基于前人研究基础上,提出了一种基于神经网络(Neural Networks,NN)的声源定位算法,联合提取出以互相关函数(Cross-correlation Function,CCF)、ITD与IID为主的双耳特征,接着用BP神经网络对该特征训练,测试过程中对混合语音进行分类,进行方位筛选,根据不同方位的最大概率,输出最终的声源个数及声源方位。文献综述
1。3。1 基于双耳线索的特征提取
本文对基于双耳线索的多声源定位进行了研究,首先需要研究的是双耳信号的获取问题,实验室采用的是HRTF模拟与人工头采集相结合的方法。其次,是方位特征等参数的整合提取,以往研究中,采用了ITD和IID两种线索进行声源定位。
ITD是用双声道标准化的互相关函数CCF来估计的,CCF出现最大值时刻所对应的延迟即为ITD。IID是在频域(Frequency Domain)上计算得到,做法是先对单帧语音进行短时傅利叶变换(Short-time Fourier Transform, STFT),随后对两声道频谱幅度的比值取对数,得到多维的IID线索。定位时将CCF和IID线索输入训练好的方位模型得到输出。
1。3。2 基于神经网络的声源定位
基于神经网络的声源定位作为本文研究的重中之重,神经网络NN强大的非线性处理以及自学习能力使其可以成为识别声源方位的有效工具。首先提取出方位特征参数,用这些参数对网络加以学习、训练。输入归一化可使网络的映射性能得到提升。同时还考虑网络的鲁棒性与可靠性,提升其对任意方向声源的估计效率,使网络更具范化能力,改善估计置信度。
1。4 本文组织结构
第一章绪论引入了声源定位该课题的研究背景及其意义、研究现状及所用方法,并介绍了本论文所研究的两大主要内容。
第二章详细地描述了人类听觉系统的生理构造与特性,也对人耳定位线索做出了描述,介绍了耳间时间差与强度差,并且给出了双耳信号的获取方式,介绍了人工头录制方法与计算机模拟方法,本章是声源定位模型的理论基础。