1。1 研究背景
随着互联网数据的日益增多,知识发现和知识抽取变得日趋重要。在用机器学习方法开 展这些工作之前,有一项更为基本的工作,那就是数据表示。有效的数据表示不仅能提高机 器学习的性能,也有利于我们将实际问题转化为数学问题,便于计算机处理。据 IDC 数据显 示,2011 年全网数据量达 1。8ZB,到 2020 年预计增长 50 倍。文本作为互联网数据的主要形 式之一,是自然语言处理(NLP)领域的主要研究对象。因此,对文本进行有效建模显得尤为 重要。
传统机器学习往往伴随着特征工程,通过人为地特征构建、特征提取和特征选择将目标 领域的知识转化为有效特征,利用人类智慧去弥补机器不能从原始数据中自动挖掘有用信息 的缺陷,以提高机器学习的性能。然而,随着互联网数据的激增以及知识领域的交叉性,这 种方法需要大量的人力和专家知识,反而阻滞了问题的解决和应用的快速拓展。因此,人们 希望找出一种能让机器自动地从原始数据中学习有效特征的方法。
深度学习[1]的出现为解决这一问题提供了新的思路[6]。早在上世纪 50 年代左右,人们就 开始探索模仿生物神经元的特性来解决人工智能问题。1943 年,心理学家 Warren McCulloch 和数理逻辑学家 Walter Pitts 提出人工神经网络概念和数学模型[2]。1949 年,心理学家唐 Donald Hebb 给出了神经元学习准则[3]。1957 年,美国神经学家 Frank Rosenblatt 提出了可以模拟人 类感知能力的感知机[4]并在 IBM704 上完成仿真。1986 年,Geoffrey Hinton 和 Ronald Williams 在《Learning representations by back-propagating errors》中阐述了用 BP 算法训练多层神经网 络[5]。随着互联网数据量的激增和计算机性能的提升,2006 年,人工神经网络以深度学习的 面貌重新展现在人们面前。在此之后,深度学习在开始在各个领域崭露头角,在图像和语音 领域更是远远超过了传统的机器学习算法。
词作为文本的基本组成单位,往往起着承载语义的作用,也是文本表示技术的基础。传 统机器学习中最常用的词表示方法是 One-hot Representation[8],这种方法将词编码成一个只含 有 0 和 1 的定长向量,其中只有一维是 1,其余都是 0,向量的维度和词表的大小相同。显 然,One-hot Representation 只是单纯地将词符号化,并没有表达语义的作用,无法有效度量词 与词之间的距离。1954 年,Harris 在《Distributional structure》一文中提出分布式假说[7],同 时提到了传统文本表示中常采用的词袋模型[7](Bag of words model)。词袋模型忽略了文本中的 词序信息,将所有词打包放到一个袋子中,等同于将所有词的 One-hot Representation 相加作
为文本向量,也是一种广义的向量模型。然而,这种文本表示方法得到的是一个高维稀疏向 量,在表示复杂文本时很容易遭遇维度灾难,其忽略词序的做法可能会遗失语义或情感信息。 例如,“法西斯击溃了反法西斯联盟”和“反法西斯联盟击溃了法西斯”拥有相同的词袋表示
[9],但两者表达的情感极性却相反。
分布表示的精髓在于“上下文相似的词,其语义也相似”。深度学习可以利用上下文信息 从大量无标注文本中学习到词向量,和 One-hot Representation 不同,这是一种低维实数向量, 可以通过计算向量间的距离度量词与词之间的关联度,一般而言语义相近或语法作用相近的 词在距离也会比较近。例如在 C&W 模型[10]中和“markets”最近的词是“firms”和“industries”,很明显这些词在语义上有关联。能够度量信号的相似度度这很有用,神经网络词向量解决了 词汇鸿沟问题,基于此我们可以做如相似度分析以及语义合成等工作,为更高层次的文本分 析任务做铺垫。