菜单
b.基于深度学习的端到端的方法
为了对图像进行问答,Agrawal[4]等人提出了多种视觉问答算法和一个图像问答算法数据集(VQA).文章中的算法主要是基于CNN和LSTM,并且设计并实现了多种改进的方案。这些算法都是先对图像利用VGG-NET抽取出图像特征,之后对问题用了词袋模型、一层的LSTM和两层的LSTM抽取出问题的特征,最后将图像特征和问题特征作为通过词袋模型或者LSTM的输入来得到答案。结果发现两层的LSTM可以达到最好的准确率62.7%
由于直接采用CNN对整幅图像进行特征提取的方式容易忽略了图像的局部细节。所以Kan Chen[6]等提出了一种基于注意力机制地深度学习架构来解决视觉问答问题,该算法先利用LSTM得到问题的关键词,例如“颜色,物体”等,之后在提取图像中包含这些关键词部分,最后将图像局部特征,全局特征和问题特征作为一个分类器的输入来得到答案。此算法相比较其他的未采用注意力模型的算法在物体识别,计数等问题的准确率都有所提高。
有些文本问答系统都会采用大量的自由文本库作为答案的来源,所以图像问题中是不是也可以借助一些自由文本来提高准确率亦是一个问题。Qi Wu[7]等人就设计一种可以利用外部数据的算法提高图像问答系统准确率的方法。该方法首先抽取出图像的特征,生成一段关于这幅图像的文本,然后再依据这个文本去DBPedia这个文本库中查找与这些文本相符合的文本段落,最后将这个相关文本段落,问题,图像生成的文本作为LSTM的输入得答案。结果表明这种方法比其余几种算法的准确率都有提高,达到了69%。
共2页:
上一页
1
2
下一页
上一篇:
标签技术国内外研究现状
下一篇:
行政伦理和行政责任国内外研究现状综述
新型语文课设计国内外研究现状
私人健身教练国内外研究现状
钛基复合材料制备工艺国内外研究现状
电动护理床国内外研究现状
半导体激光器国内外研究现状
网络控制系统国内外研究现状
国内外保温板跟踪切断机...
洪泽湖常见水生经济动物资源现状的调查
松节油香精微胶囊文献综述和参考文献
慕课时代下中学信息技术课程教学改革
油画创作《舞台》色彩浅析
浙江省嘉兴市典型蔬菜基...
高校计算机辅助教学英文文献和中文翻译
msp430g2553单片机高精度差分GPS技术研究
浅议电视节目主持人的策划意识
数据采集技术文献综述和参考文献
糖基化处理对大豆分离蛋白功能的影响
主页
计算机
机械
自动化
关闭菜单
栏目
毕业论文
计算机论文
经济论文
生物论文
数学论文
物理论文
机械论文
新闻传播论文
音乐舞蹈论文
法学论文
文学论文
材料科学
日语论文
英语论文
化学论文
自动化
管理论文
艺术论文
会计论文
土木工程
电子通信
食品科学
教学论文
医学论文
体育论文
论文下载
研究现状
任务书
开题报告
外文文献翻译
文献综述
范文
菜单
毕业论文
刷新
分享
收藏
关于
关闭
关闭
分享本页
返回
关闭
暂无收藏
全部清除
关闭菜单
About
优尔论文网手机版...
主页:
http://www.youerw.com
关闭
返回