菜单
  

    b.基于深度学习的端到端的方法
    为了对图像进行问答,Agrawal[4]等人提出了多种视觉问答算法和一个图像问答算法数据集(VQA).文章中的算法主要是基于CNN和LSTM,并且设计并实现了多种改进的方案。这些算法都是先对图像利用VGG-NET抽取出图像特征,之后对问题用了词袋模型、一层的LSTM和两层的LSTM抽取出问题的特征,最后将图像特征和问题特征作为通过词袋模型或者LSTM的输入来得到答案。结果发现两层的LSTM可以达到最好的准确率62.7%
    由于直接采用CNN对整幅图像进行特征提取的方式容易忽略了图像的局部细节。所以Kan Chen[6]等提出了一种基于注意力机制地深度学习架构来解决视觉问答问题,该算法先利用LSTM得到问题的关键词,例如“颜色,物体”等,之后在提取图像中包含这些关键词部分,最后将图像局部特征,全局特征和问题特征作为一个分类器的输入来得到答案。此算法相比较其他的未采用注意力模型的算法在物体识别,计数等问题的准确率都有所提高。
    有些文本问答系统都会采用大量的自由文本库作为答案的来源,所以图像问题中是不是也可以借助一些自由文本来提高准确率亦是一个问题。Qi Wu[7]等人就设计一种可以利用外部数据的算法提高图像问答系统准确率的方法。该方法首先抽取出图像的特征,生成一段关于这幅图像的文本,然后再依据这个文本去DBPedia这个文本库中查找与这些文本相符合的文本段落,最后将这个相关文本段落,问题,图像生成的文本作为LSTM的输入得答案。结果表明这种方法比其余几种算法的准确率都有提高,达到了69%。
  1. 上一篇:标签技术国内外研究现状
  2. 下一篇:行政伦理和行政责任国内外研究现状综述
  1. 新型语文课设计国内外研究现状

  2. 私人健身教练国内外研究现状

  3. 钛基复合材料制备工艺国内外研究现状

  4. 电动护理床国内外研究现状

  5. 半导体激光器国内外研究现状

  6. 网络控制系统国内外研究现状

  7. 国内外保温板跟踪切断机...

  8. 洪泽湖常见水生经济动物资源现状的调查

  9. 松节油香精微胶囊文献综述和参考文献

  10. 慕课时代下中学信息技术课程教学改革

  11. 油画创作《舞台》色彩浅析

  12. 浙江省嘉兴市典型蔬菜基...

  13. 高校计算机辅助教学英文文献和中文翻译

  14. msp430g2553单片机高精度差分GPS技术研究

  15. 浅议电视节目主持人的策划意识

  16. 数据采集技术文献综述和参考文献

  17. 糖基化处理对大豆分离蛋白功能的影响

  

About

优尔论文网手机版...

主页:http://www.youerw.com

关闭返回