众包模式能够给企业带来不少的效益,尤其是那些在网络发展中随之兴起的企业。众包 可以大大降低解决问题的成本。相比雇佣专家,把问题放到网络平台上,交给网络大众去解 决,其所花费的雇用资金将大大减少,解决问题的时间也将大大缩短。这将给企业节省巨大 的开销,同时又能够提高效率。众包重新整合了大众智慧,实现对网络资源合理高效的利用。
参与众包工作的网络大众,各自的国籍,研究领域,专业水平等都可以不尽相同。众包 实现了工作人员业余化与问题领域专业化的大规模结合,工人各自的特异性与大众智慧碰撞 度的结合,能够加快问题的解决速度,甚至能够产生新的想法,给问题带来新的进展。并且, 众包的出现还促成了更加平等开放的商业文化。让每个人,都能参与到创造者的身份中来, 凭借一己之长,即使在非自己所专业的领域也能帮助解决问题,在不同的领域追求成就。
现今,众包在计算机领域也有不少应用。其中,在人工智能中,机器学习,数据挖掘, 模式识别领域,已经开始使用众包技术标注大量数据。如图 1。1 所示,即为众包标注进行机 器学习的框架。虽然,众包标注的成本和所需时间有所降低,但标注的质量仍然有待考评。 毕竟,参与众包标注的工人的水平参差不齐,其标注结果必然会受到影响。所以,众包标注 领域标注质量仍然是当前一类严峻的问题。
图 1。1 众包标注数据进行机器学习的框架
本文所描述的众包标注模拟器,即是在图 1。1 的构架基础之上,开发出的一个用于评价 算法的软件,意在模拟知识水平不同的工人标注的行为。众包标注中工人根据不同的水平分
本科毕业设计说明书 第 3 页
为不同的类别,对于不同的工人,其标注的质量也有所差别。进而,根据模拟器的生成结果 可以对不同的算法进行测试评价和比较。
1。4 论文结构
本文主要介绍了众包标注模拟器的设计与实现过程。第二章主要介绍了与众包标注研究 相关的技术和预备知识以及相关的算法简介。第三章主要进行需求分析,并介绍了众包标注 模拟器的设计思路与方法。第四章具体阐述众包标注模拟器的代码实现细节。第五章,主要 说明环境配置方法,并展示测试用例及分析结果。
1。5 本章小结
本章首先介绍了众包技术的起源和众包技术在计算机领域的应用场景。并介绍了众包标 注技术的研究现状和几个代表性实例。接着,提出本文对众包标注模拟器进行研究的目的和 意义所在。从整体的角度对众包标注技术做了相关阐述。
第 4 页 本科毕业设计说明书
2 众包标注真值推断与评估研究综述
2。1 问题定义
对于一个众包系统,样本集定义为 E {e }I ,其中样本 e x , y , x 是该样本的“特征”
部分,yi 是该样本的真实标签。众包标注者集定义为U {uj }j 1 。每个标签属于类集 C {ck }k 1 的
一个元素。为简单起见,我们也使用标注,样本和类别的索引(index)来表示它们,例如可 以表述为“标注者 j 给样本 i 赋予了一个类别为 k 的标签”。本文主要研究二分类问题,因此
我们将 c1 (k=1)和 c2 (k=2) 分别映射到负例(–)和正例(+)。