对于每个数据样本 i,它关联一个多噪声标签集 li {lij }j 1 ,该集合中的每个元素 lij 来源于
众包标注者 j。该数据集中所有样本的所有重复标签构成一个矩阵 L {li }ii , lij {c1 , 0, c2 },其中
0 表示对应的标注者没有为相对应的样本提供任何标签。对于每个众包标注者 j,它关联一个
,其中 1 i I 且1 k K 。该矩阵中的每个元素表示“众包标注者 j 标注样本 i
矩阵 ( j ){ ( j )}为类 k 的次数为 n( j )
”。在实践中出于成本和一致性考虑,通常不会让同一标注者多次标注同文献综述
一样本,因此有 ( j ) {0,1} 。另外,定义底层数据(真值)的负例和正例的先验概率分别为 p–
nik 和 p+。真值推理的目标是对于每个样本 i 赋予一个集成标签 y 来作为其真实标签的估计,并最
小化如下经验风险:
其中 () 是指示器函数。该函数当括号中的条件满足时,输出为 1;条件不满足时,输 出为 0。
2。2 真值推理算法
众包中最重要的技术挑战就是集成答案[6]。每个问题都有一个确定的答案,但是没有人 知道答案到底是什么。答案集成的目的就是从工人给出的答案中找到真正的答案。然而,这 其中存在两个问题。第一,由于工人有着不同程度的专业知识水平,导致了答案的不确定性 和高争议性;第二,问题的难度,导致了对真实工人和恶意工人之间专业知识水平的误导评 估[7]。为了克服这些问题,有一些通用的技术支持手段用以由工人标注所产生的多噪声标签 集推理出真值。
本科毕业设计说明书 第 5 页
通用真值推理算法大致分为两类:(1)非迭代:采用启发式方法来分别计算每一个问题 的答案集成。最典型的是多数投票(Majority Voting,MV)算法。(2)迭代:形成一系列迭 代,每次迭代有两个更新步骤:(i)根据回答问题的工人的专业知识更新每个问题的集成值来`自+优-尔^论:文,网www.youerw.com +QQ752018766-
(ii)根据每个工人给出的答案调整每个工人的专业知识。典型算法有 DS[8],GLAD[9]等。本 研究中主要涉及测试四中算法:MV,DS[8],RY[10]和 ZenCrowd[11]。其中 DS,RY 和 ZenCrowd 都是基于期望最大化(Expectation Maximization Algorithm,EM)[12]的迭代算法。
对于每个众包标注者 j,都关联一个混淆矩阵。 ki
注为 i 的概率。
表示该工人将真实标签为 k 的对象标
2。2。1MV 算法
MV 算法是一种最简单的非迭代算法。该算法在工人生成的混淆矩阵中选择 n 最高的答 案推断其为真值。Sheng[13]和 Ipeirotis[14]等人研究了基于 MV 的真值推理模型,提出了一种简 单的概率模型。该模型用来描述单个样本集成标签的质量 q。假设每个工人具有相同的标注 质量 p,如果一个样本具有 2N+1 个工人对其进行标注