其中,表示能够正确识别了的音符的数目,表示的是输出的原乐音总的音符数目;R2的定义则见下式,注意与上式区分,
表示的是输出的总音符的数目。Davies研究的系统中,上述两个参数的值分别是R1=92。2%;R2=85。5%。
Kashino之后的深入研究则运用了算法以及时音乐类似上下文的约束关系;而且,在处理多声部分离时应用了音色一致性分析以及音乐角色连续性分析。该系统的性能参数为:
每个音轨能同时容纳的最多音符数=1,声部数=3,复音数=3;R2=88。5%
Marolt应用人工神经网络进行了音乐识别的研究【11】,Marolt所研究的系统在最大复音数目为3时R1=99。8%,在最大复音数目为15时R1为94。6%。然而这种研究结果所得到的输出会有很多的多余音符,此种结果将会导致R2值的大幅下降。此外,不可避免的是伴随最大复音数目值上升,该网络的性能更会急剧恶化。
乐音识别技术在四十多年内的探索中已经取得了较为可观的发展成果。现有的识别算法一般只能在高的准确率或者低的计算复杂度上占有一方的优势,很少算法能够即有高的精确度又有低的计算复杂度。随着现代音乐检索识别领域内各种应用的产品化趋势,对多音检测准确率和计算效率也变得有了更高的要求,所以多音检测算法的精确率和计算过程的复杂程度之间的平衡是该行业学者及研究人员不懈努力的目标。