6。2 展望 27
致 谢 28
参考文献 29
本科毕业设计说明书 第 1 页
1 绪论
1。1 众包的概念
随着互联网的发展和人类知识信息化水平的不断提高,人们与智能系统之间的联系愈加 紧密。人们不仅使用智能系统,还积极参与知识创造和问题求解。在这种大背景下近几年逐 渐新兴起一种基于网络大众的问题求解模式——众包[1]。
众包是一种新兴的网络模式,需求方将大型任务分解成众多微小任务发布到互联网平台, 普通互联网用户完成这一任务并获得一定的报酬。“众包”一词,最早由美国《连线》杂志记 者 Jeff Howe 于 2006 年 6 月刊中提出,它是指“一个公司或一个机构将原来由雇佣员工所完 成的工作外包给网络大众来完成的工作方式”[1]。众包的概念源于开源软件。由于人们逐渐 发现,除了像顶尖的具备规模的公司一样生产出高质量的产品,人们也可以通过集合网络大 众发烧友的集体智慧创造出同等甚至更优的产品。于是,众包的工作方式逐渐兴起,并应用 于各大领域。
如今的企业都在创新的浪潮中追求卓越,在互联网中,在大数据时代,数据挖掘,人工 智能等领域已经在广泛普及应用众包标注数据技术。众包的模式能够带来更多的创新,所以 也更加受追捧。
1。2 众包标注的现状论文网
虽然众包技术的发展只有十年左右的时间,但是目前,众包技术在计算机领域已有了一 些突出的成绩[2]。例如,亚马逊的土耳其机器人就是一个典型的利用众包平台的人工智能应 用。亚马逊土耳其机器人是一个 web 服务应用程序接口。概括而言,就是利用大众网络来解 决计算机智能的问题。应用程序会将接收到的任务发送给执行工人,工人们就会对此做出应 答,然后服务器再将答案传回给需求者。
利用普通非专家用户进行数据标注的思想起源于 Luis von Ahn 在 2004 年设计的一款对图 片进行标注的游戏 ESP[3]。在该游戏中,如果两个玩家对同一图片标注结果相同,则判定标 注正确,玩家得分。之后,他们又开发了 reCaptcha 系统[4]。reCaptcha 系统采用两套光学字符 识别(OCR)系统识别同一文本、那些不一致的内容被标注为“可疑的”。这些“可疑的”内 容最终需要人类来确认。reCaptcha 应用于通用系统登录过程中,用来识别那些不能被 OCR 系统识别的文本。reCaptcha 系统的成功显示了普通网络用户在解决目前机器智能无法很好解 决的问题时具有的优势。随着“众包”平台的出现,人们不必为收集数据设计系统,众包的 应用才得以推广开来。Snow 等人于 2008 年真正开启了众包标注标签质量的研究工作,他们
第 2 页 本科毕业设计说明书
发现采用机器学习相关技术可以使得众包标注的质量达到接近专家标注的水平[5]。此后,在 机器学习领域,众包标注技术炙手可热。但由于众包技术发展年限较短,运用过程中也不乏 一些突出的问题。例如众包标注的质量如何保证,如何设立激励机制才能够调动大众的积极 性等。目前,该技术领域尚未完全成熟,致力于研究以上的问题是目前众包学习领域的研究 重点。
1。3 设计目的与意义