第一个具有音乐识别检测功能的系统是由Moorer研究出的系统【3】,这个系统有两个声部的输入,而且只允许在同一时刻发出2个音符的声音;上个世纪80年代早期,美国斯坦福大学的团队接手继续了Moorer的研究;学者Maher在Moorer的成果以上进行了更为深入的研究工作【4】【5】Maher所研究的系统能支持的最多发音数依然是2个;该系统还具有一些限制,它要求声部的基频(Pitch)的范围无交叠(意思就是两个声部的音域不能出现重合,要保证错开)。80393

上个世纪80年代,大阪大学的重点研究课题是关于音乐信号的感觉信息提取,在了解人耳对音乐的感知机理的基础上,制造出一个与之相似的机械系统【6】。该课题的研究成果实现了对单音旋律的民歌的识别而且可以弥补演唱错误;而且实现了三个声部的音乐的识别,此时系统能够支持的最大发音数目为5,与此同时系统也必须容忍很多的错误。

上个世纪90年代,霍利向世人展示了其在计算机听觉图景分析方面的探索结果,并且针对钢琴多重声部乐曲的识别的问题给出了具有针对性的解决方法。依据Martin的研究,这个系统有着不错的良好性能。

Durhamuniversity的道格拉斯•纳恩教授所研究的检测系统主要应用了启发式信号处理方法(heuristicsignalprocessingapproach)【7】该系统能够支持的最大发音数目为8。然而,DouglasNunn着重的是检测结果与被检测音乐之间的听觉感知一致性,所以包容检测结果错误的产生;也就是说,这个系统的准确度不高。

Kashino带领所属东京大学的研究小组所提出的检测识别系统是领域内里程碑式的成就:此研究中加入了大量的新技术。有史以来初次使用了人类听觉分辨机制。此外,这个系统还是用了音调模型,此模型是基于过程的(过程中充分利用了乐器的声音讯息),Kashino提出了自动音调建模的算法还有自动从信号中提取音调模型。之后,此系统进行了进一步的改进:该系统的结构抛弃了原先的全局控制模块而采用了黑板结构,将先前的知识技术有机的整合在一起,使音乐识别检测系统更加优化。此结构常用于贝叶斯概率网络的实现,这样能更有效地使用新的先验知识。此系统能够支持识别的最多的发音数是3。论文网

麻省理工的基思·马丁提出的系统【8】相较下也是比较成功的。此系统与Mashino的相似之处是一样采用了黑板结构,黑板结构的研究花费了他大量的时间与精力。马丁的系统并没有用到大量上层的音乐知识,也没有设立概率信息甚至传播网络及自动音调建模,即便这样,但此系统仍然在音乐识别检测领域具有重要意义,之后不久马丁对系统进行了优化改善,增添了一个感知加权前端【9】该前端运用了相关图,得以对信号加以分析。Martin的这次改善后的系统能够支持的最多发音数目为4个。

继马丁之后,关于音乐检测的探究从未停止。戴维斯发表了一个简单易懂的检测系统,得出了基本的实验结果【10】戴维斯所提出的系统没有以上层的音乐知识为基础。该系统所支持的最多发音数目为3,需检测的对象为有着三个声部的音乐片断,每个声部都是单音旋率(MaxSimultaneousNoteNumberPerTrack=1,TrackNumber=3),一共包含64个音符。该试验结果表明,经系统检测识别的音符一共69个,检测结果正确的是59个。

严格来讲,识别过程中已造成的错误一般分为三种:已存在但未经识别成功的、并不存在但错误的识别出的、已存在但识别错误的。由此,为了能够客观公平地衡量评价系统的性能,提出了两个重要的参数R1和R2。R1的定义是:

上一篇:频率扫描天线国内外研究现状综述
下一篇:GPS抗干扰技术国内外研究现状

多媒体技术对教学影响的国内外研究现状

3D打印技术国内外研究现状和参考文献

验证码识别算法国内外研究现状和参考文献

生态浮床技术国内外研究现状

HTML5三维全景展示技术国内外研究现状

语音识别系统国内外研究现状及发展趋势

转向架安全监测技术的研究现状

老年2型糖尿病患者运动疗...

安康汉江网讯

我国风险投资的发展现状问题及对策分析

ASP.net+sqlserver企业设备管理系统设计与开发

互联网教育”变革路径研究进展【7972字】

新課改下小學语文洧效阅...

LiMn1-xFexPO4正极材料合成及充放电性能研究

麦秸秆还田和沼液灌溉对...

网络语言“XX体”研究

张洁小说《无字》中的女性意识