虽然词有着承载文本语义的作用,但仅仅用词向量还不足以完成一系列复杂的自然语言 处理任务,我们需要得到更高级别(如句子、文档)的文本表示。1892 年,德国数学家 Gottlob Frege 提出了语义合成性准则[11],指出“一段话的语义决定于其各组分语义以及各组分的组合 方法”。基于此思路,现有的句子和文档表示一般都是用神经网络的方法将词向量通过一步步 组合、转化、映射得到的。和词向量的获得方式不同,句子级别和文档级别的文本向量往往 是在有监督任务训练得到的,因此一个文本表示模型的好坏通常需要在具体任务中进行度量。 本文的模型均在情感分类任务中进行测试。
1。2 论文结构
本文致力于探究基于深度学习的文本表示技术,共分为五章,后面的章节安排如下:
第二章将从最简单的神经元感知器讲起,深入介绍几种典型的神经网络模型及其理论 基础,尤其是在文本表示技术常用到的卷积神经网络和循环神经网络。
第三章将基于语义合成性准则,分别从词、句子、文档三个角度自底向上地介绍深度 学习中的文本表示技术。
第四章首先介绍了情感分类、门限循环神经网络(Gated Recurrent Neural Network)和 Conv-GRNN 文档表示模型,然后尝试用最大池化和 ReLU 神经元改进 Conv-GRNN 模型,最后用门限循环神经网络对句子内部的语义和语法关系进行编码,并提出了文 档表示模型 GRNN-GRNN 和 GRNN-Average。本文中 GRNN 均指门限循环神经网络 (Gated Recurrent Neural Network),而不是 Generalized Regression Neural Network。论文网
第五章是实验评估,也是本文的核心工作,主要分为五个部分:(1)实验将从验证 Duyu
Tang 等人提出的文本表示模型 Conv-GRNN 开始,用 word2vec 预训练的词向量在 Yelp2013 小规模数据集、Yelp2013 大规模数据集上进行情感分类测试。(2)在 Conv- GRNN 的基础上 用最大池化和 ReLU 改 进 模 型 , 暂 时 记 为 Conv- GRNN(Maxpooling&ReLU),并在 Yelp2013 小规模数据集和大规模数据集上进行了测 试。(3)用 GloVe 预处理的词向量作为 Conv-GRNN 模型的输入在 Yelp2013 小规模 数据集上进行训练,在情感分类任务中比较 word2vec 和 GloVe 训练出的词向量的优 劣。(4)构建 GRNN-GRNN 模型,并在 Yelp2013 小规模数据集、Yelp2013 大规模数 据集上进行了情感分类测试。(5)构建 GRNN-Average 模型,用 GRNN 建立从词向 量到句子向量的模型,然后将句子向量平均化作为文档向量,在 Yelp2013 小规模数 据集和大规模数据集上测试。实验结果表明:Conv-GRNN(Maxpooling&ReLU)、 GRNN-GRNN 和 GRNN-Average 模型相对于 Conv-GRNN 模型都有一定的性能增益。
2 深度学习的理论基础
2006 年,神经网络以深度学习的新面貌展现在人们面前,至今已拍打计算机语言海岸多 年。本章从最简单的神经元感知机讲起,进而介绍前馈神经网络、卷积神经网络以及能够处 理序列信息的循环神经网络。
2。1 感知机
1957 年,就职于 Cornell 航空实验室的美国心里学家 Frank Rosenblatt 构造出一种数学模 型——感知机,企图通过模拟生物神经元的特性解决人工智能问题。模型如图 2。1 所示:
图 2。1 感知机模型
它以一组二进制值作为输入,�0作为偏置项始终为 1,然后将每个输入值乘以一个系数后求 和,如果最终的结果大于设定的阈值,就输出 1,否则输出 0。模型假设如(2。1)式所示: