。4 多标签学习的评价指标
目前,算法中主流的的评价指标有两大类:基于实例[12][13][14]和基于标签[15]。实际应用时,应该采用多个指标综合考虑一个算法的优劣,最好指标间可以互补。
1 基于实例
Subset Accuracy。
反映测试集中,预测的结果完全相同于真实标签集的实例的占比,也称作分类准确度。衡量的作用和意义与0/1 loss相似。实际上,这个指标过于严格和粗放,忽视了分类结果的比较细节。相对而言,公式反馈的值愈大,分类器泛化效果愈佳。
Hamming Loss
反映未真实拥有的标签在预测结果中出现或真实拥有的标签未在预测结果中出现的单个标签的误分类情况。按位比较预测标签向量与真实标签向量,得出对称差并进行归一化。虽然考虑了预测错误和遗漏错误,但不适合对稀疏性标签集的数据的分类结果进行评价,因为此时该标准无法体现算法的真实性能。相对而言,公式反馈的值愈小,分类器泛化效果愈佳。
One-error
反映预测的标签序列排位最高的标签不属于真实标签集的情况。仅仅考虑最靠前的标签值,可能导致评价失真。相对而言,公式反馈的值愈小,分类器泛化效果愈佳。
反映在预测的标签有序的序列中,覆盖全部真实拥有的标签所需的遍历深度情况。相对而言,公式反馈的值愈小,分类器泛化效果愈佳。
反映预测结果中错序的标签对的平均数量情况。相对而言,公式反馈的值愈小,分类器泛化效果愈佳。
2 基于标签
基于标签的评价指标的基本思想是基于预测结果中真实正实例(True positives,简称TP),真实负实例(True negatives,简称TN),虚假正实例(False positives,简称FP)和虚假负实例(False negatives,简称FN)的分布情况为每个标签单独计算相关指标,通常通过取平均值避免偶然性。真实正实例,真实负实例,虚假正实例和虚假负实例的定义如下:
主要的指标有两类:Macro-averaging和Micro-averaging。C是传统二分类指标,指的是查准度(Precision)、查全度(Recall)、准确度(Accuracy)或F值(F-score)中的某一个。对于特定分类算法h