引言目前人工智能的研究核心之一——监督学习是机器学习中探究最多、使用最普及的一种学习框架,而分类又是机器学习在监督学习领域中主要的任务之一。
给定训练集中的每个实例含有明确定义的特征集合(向量)和对应的标签集合(向量),分类的目标是通过训练集得到一个能够为未知实例预测合适标签的预测模型。
传统的单标签分类学习(Single-label Learning)指的是一个实例只可能属于一种类别,显然这个条件限制了分类算法在现实中的应用。多标签分类学习(Multi-label Learning,简称MLL)指的是一个实例可以同时属于多个类别。82525
对象的多义性在现实中无处不在,只具有独一无二的语义的对象几乎是不存在的。事实上,随着分类问题的不断复杂化,在医学、文本分类、基因工程、电影推荐等方面,一个实例往往可以关联一个标签集合(含不止一个标签),而不再是只与单个标签有关。比如,有的电影既可以属于“灾难”主题,也可以属于“爱情”主题。这时,类似场景的问题就可以借助多标签分类的技术解决。可以看到,多标签分类的范畴更符合现实场景,而单标签分类可以视为是多标签分类的特殊情况。
至于对象,多标签学习是从输出空间上来考察其多义性[9]的。组合标签形成的输出空间呈指数型增长以及建立多标签分类器的计算和存储资源的限制成为当前多标签学习发展的主要挑战之一,这就需要学习系统灵活巧妙地把握标签间的相关性[10]来应对。
2 多标签学习的定义与框架
为每个对象赋予一系列标签,用这些标签来明确表达对象包含的语义,用这个方法可以解决现实对象的多义性问题。
具体而言,对于多标签分类问题,假设标签空间,实例空间,其中是k维属性向量。可以定义多标签背景下的训练集,并且是拥有的标签集。从D中训练一个模型,使得对于标签未知的实例x,多标签分类器可以预测x拥有的合适标签集。论文网
预测模型返回实值函数,其中可以看作实例具有标签的置信度[9]。对于实例,一般原则是在拥有的标签上映射的值较大,在未拥有的标签上映射的值较小。也可以设定阈值,多标签分类器可以由通过的形式来形成。
总体而言,多标签学习有以下特点[11]:
(1) 标签的语义是事先定义的、明确的、可理解的。
(2) 标签集的规模是可数的,并且不能大于属性集的规模。
(3) 每个实例可同时与不止一个标签关联。
(4) 当属性集的规模较大时,可以使用降维等策略来缩减属性集的规模。
(5) 实例的数量可以是巨大的。
(6) 标签之间可以存在关联性。
3 多标签学习面临的挑战
组合标签形成的输出空间呈指数型增长以及建立多标签分类器的计算和存储资源的限制成为当前多标签学习发展的主要挑战之一。比如,对于由30个标签组成的标签空间,特定实例可能的标签集合数目就十分惊人,是10亿个左右。
考虑到实际应用中,标签间确实可以存在一定关联。一篇文章具有标签“爱因斯坦”和“相对论”,如果有可选的标签“物理学”,那么这篇文章很可能被贴上“物理学”的标签。如果可以有效地利用标签之间的关联性,在学习过程中将标签之间的关联性作为考虑因素,那么,多标签学习输出空间过大的问题就可以得到解决[10]。
此外,噪声标签、缺失标签、未标记数据的存在、特征维度过高、标签数量过多、实例数据量过大、数据分布的不均衡以及训练与测试数据不属于同一分布等实际问题也成为多标签学习新的研究热点。