蛋白质的氨基酸残基分类的研究具有重要的意义:氨基酸残基序列决定了蛋白质 的结构,而结构决定了蛋白质的生物学功能。给出一个蛋白质序列,通过机器学习和 模式识别建立起来的模型,预测该蛋白质序列里的每个残基是否属于 ATP 绑定残基, 这是个二分类问题。研究这个问题,对于人类认识蛋白质结构和功能,对于药物设计 与制造和全人类的健康,都具有非常重要的意义。
1。4 本文组织结构
对于蛋白质-配体绑定残基的预测问题,本文基于回归的思想,设计了支持向量 回归与集成技术相结合的分类器,从而完成蛋白质-ATP 绑定残基的预测问题。
本文组织结构安排如下: 第一章,首先介绍了课题的研究背景,引出了蛋白质组学中的相关概念,如绑定、
残基、ATP 等;接着综述了国内外的研究现状;最后,阐明了研究的意义。 第二章,主要介绍了蛋白质数据的处理方法,也就是如何通过蛋白质序列得到模
型的输入数据(特征向量)。 第三章,详细叙述了支持向量机、支持向量回归的基本算法,为后文建立的模型
提供理论依据。
第四章,针对蛋白质-ATP 绑定残基的预测问题,设计了一个支持向量回归和集成 相结合的模型。
第五章,为了验证方法的有效性,进行了多组实验,并且对实验数据进行简单的
分析。
2 关于蛋白质数据的处理方法
在上文中,我们介绍了蛋白质的氨基酸残基有绑定和不绑定之分,也就是说,蛋 白质-ATP 绑定残基的预测是一个二类的分类问题。
由我们要解决的分类问题可知,我们需要对蛋白质(由氨基酸序列组成,不同的 序列对应不同的蛋白质数据)进行处理,以得到模型的输入数据。
2。1 数据集
蛋白质组学研究进展至今,已经建立了多个国际通用的标准数据库,如 GenBank、 EMBL 和 DDBJ 数据库[5]。
本文的蛋白质数据从上获 得,包括 ATP168、ATP227 和 ATP17,作为模型建立的训练数据集,该数据集中每条 蛋白质的位点绑定信息已知,我们使用该数据集得到预测模型(model)。换句话说, 通过训练得到的模型,输入一组待预测的蛋白质序列数据,就可以得出序列的绑定位 点信息。
对该训练数据集中的每个蛋白质数据,通过计算机的处理,得到每条蛋白质的序 列信息和位点所属的类别信息。如下图所示:
图 1 蛋白质 1BCP_L 的序列信息
图 2 蛋白质 1BCP_L 绑定或不绑定位点
这是从 ATP168 中随机选取的一条蛋白质,名称为 1BCP_L。在图 1 中,下面两 行表示的是组成该蛋白质的氨基酸种类,大约有 20 种,是人体中常见的氨基酸,例 如,G 和 L 分别代表甘氨酸和亮氨酸。每种氨基酸有不同的物理化学性质,如疏水性、 酸碱性等。图 2 中 0、1 组成的序列表示该蛋白质对应位点的绑定信息,0 表示不绑 定,1 表示绑定。(这里的 0 和 1 可以是其它值,只要能够标识出标签信息即可)。从 中可以看出,绑定残基只占序列的一小部分,其它大部分是不绑定残基。因而,蛋白 质-ATP 绑定残基预测是一个典型的不平衡的二类分类问题。
2。2 特征提取
观察图 1 和图 2,我们可以发现:在蛋白质 1BCP_L 中,第 0 个位点 G 和第 57 个位点 g 是同一种氨基酸(甘氨酸),但是它们分别属于不同的类别:0(不绑定)和 1(绑定),因而,不能根据氨基酸的种类信息,预测残基属于绑定或不绑定。实际上, 位点的绑定信息在很大程度上取决于它周围的环境,即蛋白质序列中该氨基酸残基附 近其他氨基酸残基的进化信息,即进化为人体常见的 20 种氨基酸的可能性大小,数 字越大说明进化的可能性越大。因此,一个氨基酸残基的属性是与位置密切相关的, 即具有位置特异性。为了更完整地表示该氨基酸残基的特征,需要考虑其周围其他残 基的特征信息。因而,可以使用滑动窗口来获取每个残基及其周围残基的特征参数, 得到一个位置特异性得分矩阵 PSSM。