在民用用途方面,图像目标识别技术也起着不可或缺的作用,比如节假日热门景点游客流量通过监控图像识别统计,帮助园方及时了解游客人数的多少以此来控制人流量。又或是发展迅速的无人驾驶技术,人们只需输入目的地便可安心靠汽车自动驾驶,同时车子通过图像识别技术来判断周围环境是否安全来控制车速,这项技术将给如今人们的生活以及堵塞的交通带来便利。因此我们可以看出,图像目标识别技术是一项非常值得我们研究的技术。
国内外研究现状
图像识别的发展经历了三个阶段:文字识别、数字图像处理与识别、物体识别[2]。最初开始着手研究的图像内文字的识别是从1950年开始的,发展至今这半个多世纪以来,文字识别技术的识别精确度已经几乎达到完全不会出现误差的程度了,如今办公室里常用的扫描仪几乎可以把文字一字不错的完全扫描进电脑里,公路上的测速拍照也可以分毫不差地识别出哪辆汽车违章并识别出其牌照。虽然图像识别技术需要用到大量不同专业的学科,但是其因为发展前景好发展得仍然十分迅速。目前例如谷歌百度这些大公司正在不断竞争研究,开发创新新的算法,不断地刷新识别结果的准确率。
图像识别技术能够取得如快速地进展也要归功于深度学习技术的发展。深度学习最早在二零零六年由加拿大多伦多大学的杰弗里欣顿教授团队在《Science》杂志上发表的论文中引出[1],可见深度学习本身也是一门较为新颖的学科。杰弗里·欣顿教授在2012年的一次深度学习比赛中利用由严恩·乐库所提出的的卷积神经网络模型成功地将系统的准确率由75%提高至83%。就目前来说卷积神经网络在图像识别技术系统里可以称得上处理速度数一数二的一种模型了。
如今国内一些学者、公司企业也开始关注研究图像识别技术和深度学习理论。就在今年上海开放了无人驾驶汽车的道路测试,目前运用了图像识别技术的汽车在检测到行人,汽车以及路口时能自动地刹车,即使在驾驶员的视觉盲区也能十分灵敏地感应。又如人们经常淘宝,它会根据人们近期搜索过的商品利用深度学习算法自动为消费者推送类似商品来达到刺激消费的目的。随着技术不断地发展,相信越来越多的深度学习产品会被推出并引领新的潮流。
主要设计内容及具体工作
本文将把图像目标识别和深度学习理论结合起来,通过构建卷积神经网络来完成识别图像中的目标信息。具体工作主要是构建虚拟机并安装ubuntu14.04操作系统,使用caffe开源工具进行目标算法测试,完成一个简单的目标识别系统,最后对各项指标性进行分析。
本文结构
本论文目标主要为使用caffe开源工具进行目标算法测试,完成一个简单的目标识别系统。以下为本文结构安排:
第一章为本文绪论,其中主要阐述了图像识别技术的研究背景,研究现状以及本文将要完成的具体工作。
第二章为对现今图像识别技术的相关研究,其中包括了主要的图像分割技术(选择性搜素算法和边缘盒检测算法),深度学习技术以及深度卷积神经网络。
第三章为对于如今发展得十分快速的基于深度学习的目标识别算法,如R-CNN、SPPNet、Fast R-CNN、Faster R-CNN、R-FCN、YOLO等算法进行研究和分析。
第四章为设计实验的具体内容,在实验过程中遇到的困难以及解决的方法。实验主要内容为在ubuntu系统中使用caffe完成一个Fast R-CNN模型让其能识别图像中的例如宠物、家具、交通工具等目标,最后对实验结果进行分析。