。4  多标签学习的评价指标

目前,算法中主流的的评价指标有两大类:基于实例[12][13][14]和基于标签[15]。实际应用时,应该采用多个指标综合考虑一个算法的优劣,最好指标间可以互补。

1  基于实例

Subset Accuracy。

反映测试集中,预测的结果完全相同于真实标签集的实例的占比,也称作分类准确度。衡量的作用和意义与0/1 loss相似。实际上,这个指标过于严格和粗放,忽视了分类结果的比较细节。相对而言,公式反馈的值愈大,分类器泛化效果愈佳。

Hamming Loss

反映未真实拥有的标签在预测结果中出现或真实拥有的标签未在预测结果中出现的单个标签的误分类情况。按位比较预测标签向量与真实标签向量,得出对称差并进行归一化。虽然考虑了预测错误和遗漏错误,但不适合对稀疏性标签集的数据的分类结果进行评价,因为此时该标准无法体现算法的真实性能。相对而言,公式反馈的值愈小,分类器泛化效果愈佳。

One-error

反映预测的标签序列排位最高的标签不属于真实标签集的情况。仅仅考虑最靠前的标签值,可能导致评价失真。相对而言,公式反馈的值愈小,分类器泛化效果愈佳。

反映在预测的标签有序的序列中,覆盖全部真实拥有的标签所需的遍历深度情况。相对而言,公式反馈的值愈小,分类器泛化效果愈佳。

反映预测结果中错序的标签对的平均数量情况。相对而言,公式反馈的值愈小,分类器泛化效果愈佳。

2  基于标签

基于标签的评价指标的基本思想是基于预测结果中真实正实例(True positives,简称TP),真实负实例(True negatives,简称TN),虚假正实例(False positives,简称FP)和虚假负实例(False negatives,简称FN)的分布情况为每个标签单独计算相关指标,通常通过取平均值避免偶然性。真实正实例,真实负实例,虚假正实例和虚假负实例的定义如下:

主要的指标有两类:Macro-averaging和Micro-averaging。C是传统二分类指标,指的是查准度(Precision)、查全度(Recall)、准确度(Accuracy)或F值(F-score)中的某一个。对于特定分类算法h

上一篇:自平衡车系统国内外研究现状综述
下一篇:视觉的目标检测与跟踪研究现状

父母陪伴小学生学习效率国内外研究现状

建构主义学习理论国内外研究现状

多媒体教学环境小学中段学生视疲劳研究现状

探究学习国内外研究现状综述

多媒体技术对教学影响的国内外研究现状

学生学习兴趣的研究与进展及参考文献

石斛多样性研究现状进展和参考文献

互联网教育”变革路径研究进展【7972字】

我国风险投资的发展现状问题及对策分析

ASP.net+sqlserver企业设备管理系统设计与开发

张洁小说《无字》中的女性意识

LiMn1-xFexPO4正极材料合成及充放电性能研究

安康汉江网讯

老年2型糖尿病患者运动疗...

新課改下小學语文洧效阅...

网络语言“XX体”研究

麦秸秆还田和沼液灌溉对...