早期对说话人识别的研究工作主要集中在入耳听辨实验和探讨听音识别的可能性方面。随着研究手段和工具的改进,研究工作逐渐脱离了单纯的人耳听辨。Bcll实验室的LG Kesta在1962年研究了通过可见的语谱图进行人工说话人识别,并将语谱图称为声纹,意思是同指纹类似。1966年美国法院第一次采用此方法进行了取证。20世纪60至70年代早期的说话人研究中,几乎所有的工作都使用语音时频能量特征。之后,随着电子技术和计算机技术的发展,使通过机器自动识别人的声音成为可能,Bell实验室的S.Pruzansky提出了基于模式匹配和概率统计方差分析的说话人识别方法,其间的工作主要集中在各种识别参数的提取、选择和实验上,并将倒谱和线性预测分析等方法应用于说话人识别。由于计算机技术的发展,从七十年代起开始了自动说话人识别的研究。70年代中期B.S.Atal研究了LPC系数、声道的冲激响应、自相关系数、声道面积函数及倒谱系数等不同的特征参数在自动说话人识别系统中的有效性。并指出倒谱系数是较为有效的语音特征。说话人识别的方法和技术在近几十年来得到了更加迅速的发展。识别的模型从单模板模型发展到多模板模型,从模板模型发展到VQ模型、高斯混合模型、隐马尔可夫模型,再到人工神经网络;识别环境从无噪声环境下对少数说话人的识别发展到复杂噪声环境下对大量说话人的识别,所采用的识别技术从仅涉及动态规划发展到涉及统计信号处理、矢量量化与编码、模糊系统理论与方法、最优估计理论、人工神经网络、灰色系统分析等多学科领域。63605
从20世纪60年代到现在的40多年间,随着数字滤波、快速傅立叶变换、线性预测编码、同态信号处理、矢量量化等算法的不断出现和完善,加之微电子技术的发展和计算机的普及,使说话人识别的研究取得了很大的进展。在商业领域,AT&T应用说话人识另Ⅱ技术研制出了智慧卡(smat card),己应用于自动提款机。欧洲电信联盟在电信与金融结合领域应用说话人识别技术,于1998年完成了CAVE计划,并于同年又启动了PICASSO计划,在电信网上完成了说话人识别论文网。同时,Motorola和Visa等公司成立了V-commerce联盟,希望实现电子交易的自助
化,其中通过声音确定人的身份是此项目的重要组成部分f51。其他一些商用系统还包括:ITT公司的Speaker key,Keyware公司的VoiceGuardian、T-netix (公司的SpcakEz等。
国内的说话人识别研究主要由一些大学和研究所在进行。例如:北京大学迟惠生教授领导的科研组、清华大学吴文虎教授领导的科研组、东南大学陈永斌教授领导的科研组、中科院自动化所、中科院声学所、哈尔滨工业大学高文教授领导的科研组等。