1。1。2图和复杂网络理论
对于整个学科的研究来说,将细胞组成的分子当成是最小的节点,这些节点的互相联系就形成了相应的网络结构[2-4]。利用本来相对虚拟的网络来探讨各个节点的互相联系。在整个的研究过程里面,那些网络构成图形之后就能够反映节点之间的互相联系。在把那个系统按照网络的方式来构造的话,就能够实现蛋白质网络的信息化解读[5]。
1。2课题研究的目的和意义
在蛋白质相互作用网络中,研究蛋白质复合物有助于更好的了解蛋白质的功能,并且可以对每种细胞活动进行更深层的揭秘。每一个生命现象的表现都是由多种因素影响的,因此肯定会涉及到不止一个蛋白质,而且有一些功能特性只有在形成复合物后才能发挥出效果来。因此,系统地分析蛋白质之间是怎样通过相互作用来完成生物生命活动是非常重要的,这成为后基因组时代的一个重要的研究课题,也是当代医学所要研究的[6]。
1。3蛋白质复合物识别研究现状
1。3。1蛋白质复合物及问题描述
1。3。2蛋白质复合物识别的方法
1。4本文的研究内容
因为在辨别蛋白质复合物的时候,目前的方法一般都是仅仅涉及到拓扑,而没有联系到一些别的特性。因此这篇文章就将基于这个拓扑,然后引进蛋白质序列等等生物特点,目标是能够从这些特性里面深入研究蛋白质复合物的辨别问题,还要提出具体的方案来对其进行辨别,另外还要进一步研究引进的特性对于辨别能力的作用。
2 基于氨基酸背景频率的复合物识别方法
2。1引言
现在,在辨别蛋白质复合物这一块的研究上,许多人是利用关系网里面的子图的紧密程度来判断的。MCODE[9]就根据某一区域占比较高的节点来当作初始单位,之后经过一系列操作获得蛋白簇。这种方法的不足就是无法确定能够识别到那个比较紧密的簇。CFinder[10]是一个以派系过滤为基础的算法,在实际应用中,CFinder算法需要进一步分开研究大子图。因为许多方法都没有涉及到蛋白质序列里面的相关作用,因此在本章中会探究根据融合特性的一种CDIP鉴别方法,这个方法实际上就是把蛋白质复合物的拓扑性质以及序列信息转化到聚类之中。论文网
2。2融合特征描述
本章用到特征主要包括:复合物的尺寸、节点图的密集程度、还有相关因子的频率等等。本章用到的统计方式有:节点度的分布,统计分析了极值、平均值等等,而对于那些因子则统计分析了极值和方差等等。
表2。1 蛋白质复合物特征描述
2。3多特征融合的算法描述
根据无向图来体现蛋白质的互相关系网,V指的是节点或者蛋白质的集合,E指的是边的集合,表示的是蛋白质的互相影响。子图是与那些辨别出来的簇一一相对。算法包括四个部分:种子节点上的选用,簇的过滤以及更新,还有对于更新的判别。整个算法(2。1)的伪代码所示。
算法 2。1 基于局部查询图聚类的蛋白质复合物识别算法
2。4实验结果与分析
从表中可以看出,在准确率方面,算法与MCODE是相差无几的。最好的F度量表明提出的方式可以匹配更多的真实复合物,并且检测的更加精准。另外,最高覆盖率也说明了识别到的复合物可以覆盖标准集中的多半蛋白质。
表2。2在DIP相互作用网络中的实验结果
表2。3在Krogan相互作用网络中的测试结果
在蛋白质相互作用网络Kragon[11]上, 算法CDIP的数量方面的比较如表2。3所示,在Gavin[12]上的数量方面如表2。4所示。至于2。2和2。3图则是将CDIP相应的四个性能进行对比。