对于视频摘要技术,国外研究开发相关系统比较早,首先是美国的卡梅隆大学(CMU)第一个研发出世界上第一个视频摘要系统,称之为Informedia系统[1][2],最开始这个系统用来对新闻视频进行处理,产生缩略的新闻视频。它是通过视频的语音、图像实现对视频和电影媒体的自动理解,包括对新闻视频的搜索、检索以及在同期视频档案内容的可视化和总结,截取部分具有代表性和镜头感的数据帧按照某一顺序组装成一个视频摘要。目前该系统已经进一步升级优化,可以实时分析视频。Informedia二期工程通过对视频的自动处理,使得视频数据可以通过标题、关键字实现对过去视频、培训视频内容、电话会议等的回顾。另外,不仅促进了国家档案馆存储检索技术的进步,而且有利于公共服务视频收藏的进步和推广。国内外的大学、科研院所以及一些企业也开始投入资金和人力研究视频摘要技术,并且取得了很多的研究成果。43217
CMU最早从新闻领域开始研究视频摘要,旨在将视频信息缩略化,从语音文档中抽取重要音频段以生成音频摘要,从许多的视频图像中选择能表现视频主旨的关键帧以形成关键帧摘要。英国的IBM公司首先推出的商用视频检索系统,被称为QBIC系统[3]。它可以基于图像、视频、文本等多种多媒体信息检索视频内容。当用户用图像、简图、或者是影像片段进行视频检索时,QBIC系统会对输入查询的图像进行颜色、纹理、形状等方面特征的分析和提取,例如颜色的色彩百分比、色彩分布位置等,然后根据查询方式给出不同的响应。开启了使用视频的背景颜色、对象运动、纹理等描述视频内容差异的先河^优尔!文`论^文'网www.youerw.com。另外,德国曼海姆大学针对电影摘要研发了MOCA系统[4],它可以自动生成电影的预告片,且预告片包含了一些关键镜头,给人以好的视觉体验和憧憬,极大地方便了电影后期制作和宣传。
相对而言,国内对视频摘要技术的开发时间晚、相关技术底子弱,不过随着863计划的开展,通过众多的学者的不懈努力,也很快取得了系列成果。国内最早研究视频摘要的应该是中国数字图书馆示范工程的研究,涉及了海量存储、视频检索、视频数据压缩 、摘要自动生成以及场景分割等技术。另外,在国防科技大学的研究中心的不懈努力之下,研究开发出了视频浏览和检索系统,也就是称为Vediowser系统。该系统改进了许多镜头分割算法以及关键帧提取算法,在视频检索方面取得了丰厚的研究成果,为后续工作提供了基石[5]。另外,以张宏江为代表的微软亚洲研究院投入了大量人力物力资源研究相关摘要技术论文网,为国内视频摘要技术的发展做出了重大贡献,他们主要研究基于内容的视频处理和分析技术,使得一些算法得到了完善,取得了令人瞩目的成果。
综观现有的视频摘要技术,大多遵循先切分视频为较小单元,例如镜头、场景等,然后通过模式识别和结构分析的方式获取视频的某些内容,最后在先验知识的原则下建立某一规则选取视频的重要部分生成视频摘要以反映视频基本内容。各种视频摘要系统都各有千秋,但变化了应用场景,都较难得到预期的效果。目前仍然没有开发出一个统一、标准化的视频摘要模型出来。
本文所要研究的视频摘要技术是着眼于目前基于深度图的3D视频关键帧提取技术,目前对3D视频关键帧摘要的研究不在少数,但通过提取3D视频的深度视频关键帧来帮助生成某些场景下的彩色视频摘要的研究却很少,本文就是运用关键帧提取的一般步骤,用适当的方法完成深度视频的摘要以帮助对应彩色视频的关键帧摘要。