截止到2010年6月,根据蛋白质数据库(PDB)中记录,在3860个已知结构的蛋白质中,大约有6%的蛋白质结构被注释为ATP绑定化蛋白质即蛋白质-ATP结合位点。在蛋白质-ATP结合位点中有一部分蛋白质作为一种传输介质在细胞与细胞外进行物质交换,因此此类蛋白质在膜运输、肌肉收缩、细胞活动以及新陈代谢过程中的各种活动管理起重要作用。此外,蛋白质-ATP结合位点都有一个允许ATP分子相互作用的位置,即ATP binding site。在这个结合点ATP与ADP的相互转化从而释放能量来使细胞进行正常的生命活动如酶的催化反应等。此外,蛋白质-ATP结合位点也是宝贵的药物靶标抗菌和抗癌化疗。因此,准确定位ATP绑定位点在蛋白质的功能分析和药物设计都具有重大的影响。
在过去的几十年间已经有很多方法预测ATP绑定位点。这些方法大部分依靠于对于ATP绑定序列的相对简单的分析、已经定义的序列图的结构以及结构模板。然而这些模板和图都局限于小部分的蛋白质-ATP结合位点。此外,传统的实验方法是依赖于实验数据且是费时的,是非常理想的蛋白质-ATP结合位点预测的智能计算方法。据了解,目前只存在两个专门设计蛋白质-ATP结合位点的预测即ATPint和ATPSite。ATPint是首个为了蛋白质-ATP结合位点预测的建立于包括168个非冗余ATP结合蛋白质的数据集以定制设计的预测方法。在ATPint方法中,包括由位置具体的得分矩阵(PSSM)派生的功能和用于预测的其他几个序列描述。后来,Kurgan等提出一种更加精确的预测方法,叫ATPSite。这种方法以一个更大的数据集为基础,其中包括227个非冗余ATP化蛋白质。ATPSite取得了更好的预测结果。最近,我们还进行了一个研究,这个研究主要是双向剖面取样技术的融合多视图功能对蛋白质-ATP结合位点的预测的研究。
从机器的学习角度来看,蛋白质-ATP结合位点预测方法是一个典型的不平衡的学习问题,其中包括有显著不同的不同类的大量的样品。例如,在ATP168数据集,主要类(非绑定点)的数量比少数类(结合点)的数量超了11倍。直接应用传统的机器学习算法,它假设不同类的样品是平衡的,这样常导致表现欠佳。不平衡学习的基本解决方法是样品重调战略[3],这个方法和通过改变不同类的样本的分布的平衡数据绑在一起。过度采样[4]和下采样[5]是最常用的两个样品重调战略的实施。过度采样通过从或者仅仅直接复制随机产生的样品合衬那个新的样品来增加一个少数类的大小。而下采样通过移动从原始数据集得到的样品来改变少数类的大小。没有证据和理论表明过度采样比下采样好,反之亦然[6]。过度采样的缺陷主要表现在一下两个方面:一方面,过度采样使训练的数据集变大,这可能会增加序列训练和预测的时间;另一方面,因为过度采样仅仅复制原始数据的样品,某些例子的多个实例会变“死”,会导致过度拟合问题[7]。相比过度采样,下采样提供一个比较小的训练数据集因为它从原始数据移动样品。然而,在同一时间部分的重要的信息与多数类有关的会丢失。这可能在一定程度上恶化分类器的性能。
以往的研究[8]表明,分类集成是一种减轻因为通过下采样引起的信息损失的影响的很有前途的方法。在本研究中,我们利用了梳理分类集成的下采样的样品的方法,以及试图提高蛋白质-ATP结合位点预测的预测性能。首先,我们把不同的大量的训练数据集分成几个样品,通过把大量的类下采样几次。然后我们训练基分类器,即在本文中的支持向量机,每一个多数训练子集加上少数训练集。最后被训练过的基分类器被用于执行最后结果的集成。
- 上一篇:脑中风病人康复虚拟环境辅助康复任务的设计
- 下一篇:沙盘治疗在人际交往困难方面的应用
-
-
中国传统元素在游戏角色...
浅析中国古代宗法制度
g-C3N4光催化剂的制备和光催化性能研究
江苏省某高中学生体质现状的调查研究
C++最短路径算法研究和程序设计
现代简约美式风格在室内家装中的运用
巴金《激流三部曲》高觉新的悲剧命运
上市公司股权结构对经营绩效的影响研究
高警觉工作人群的元情绪...
NFC协议物理层的软件实现+文献综述