话题检测与跟踪(Topic Detection and Tracking,简称TDT)是一项旨在依据事件对语言文本信息流进行组织、利用的研究,也是为应对信息过载问题而提出的一项应用研究。
1996年,TDT技术的想法被首次提出,当时美国国防高级研究计划署想要研究一项技术能在没有人工干预的情况下自动识别出新闻数据流的话题。1997年,研究者开始对这项技术进行初步研究,并做了一些基础工作(包括建立了一个针对TDT研究的预研语料库)。当时的研究内容包括寻找内在主题一致的片断,即给出一段连续的数据流(文本或语音),让系统判断两个事件之间的分界,判断新事件的出现以及旧事件的再现[1]。从1998年开始,在DARPA支持下,美国国家标准技术研究所(NIST)每年都要举办话题检测与跟踪国际会议,并进行相应 66772
的系统评测。国内这方面的研究开展得要晚一些,最近北京大学和中科院计算所的研究人员也开始进行这方面的跟踪和研究。
目前,TDT系列测试语料有很多,包括TDT2、TDT3,由于这些语料库中收录了大量的报道,免去了数据稀疏导致的结果不准确。从语料库未来的发展来看,主要向两方面拓展,即信息多源性和多语言的特性[2]。
由此可见,话题检测与追踪的研究是通过大规模的评测来进行的,自从1996年以来,该领域进行了多次大规模的评测,由于该项技术与自然语言处理技术具有多种共性,所以在研究过程中相应领域的信息识别抽取技术也就相应的随之发展。由于新闻语料具有突发性和延续性的特性,通过该技术可以实现新闻事件的实时监控,于是话题检测与追踪逐渐成为新闻文本信息处理领域的研究热点