摘要关键蛋白质往往是构成细胞组成的物质基础或者参与了重要的生物功能,它们的缺失会导致生物体病变甚至死亡。研究表明,关键蛋白质的识别具有重要的意义。但是通过生物医学实验的方法成本高、效率低。随着高通量技术的发展,我们可以获得越来越多的蛋白质相互作用数据,这让我们能够从网络水平进行关键蛋白质的识别。本文通过对当前研究现状的总结,归纳出三类方法,即基于网路中节点拓扑特征的中心性测度的方法、基于网络连通性和模块化特征的方法和基于融合基因表达数据的方法。通过对这三类方法的实验结果进行比较,发现第三类方法的预测精度较高。同时该类方法也为关键蛋白质的识别提供了新的思路。26365
关键字 关键蛋白质; 蛋白质相互作用; 基因表达数据 毕业论文设计说明书外文摘要
Title Predicting Essential Proteins Based on Protein-protein Interaction Network and Gene Expression Data
Abstract
Essential proteins are usually the material basis of cells or involved in important biological functions,and the deletion of these proteins is sufficient to cause disease or even lethality.Studies have shown that identification of essential proteins is of great significance.But biomedical experimental methods for the identification of essential proteins are usually costly and inefficient.With the development of high-throughput technologies, a growing number of protein-protein interactions are available, which enable the identification of essential proteins from the network level.In this paper, we have summarized the three categories of approach after the analysis of the current status of research,including the centrality measures based on the nodes’topological feature of the network,the method based on connectivity and modular feature of the network,and the method based on the integration of protein-protein interactions network and gene expression data.By comparing results of the above three methods, we have found that the predicted precision of the third method clearly exceeds that of the other two.At the same time such methods provides new approaches and ideas for predicting essential proteins.
Keywords essential proteins; protein-protein interactions; gene expression data
目 次
1 绪论 1
1.1 研究背景和内容 1
1.2 研究意义 2
1.3 研究现状 2
2 关键蛋白质识别算法研究 4
2.1 基于网络中节点拓扑特征的中心性测度的方法 4
2.2 基于网络连通性和模块化特征的方法 6
2.3 基于融合基因表达数据的方法 9
3 实验数据 14
3.1 数据集下载 14
3.2 数据集预处理 15
3.3 最终数据 17
4 评估方法 19
5 实验结果分析 21
结 论 26
致 谢 28
参考文献29
1 绪论
1.1 研究背景和内容
众所周知,蛋白质分子在细胞的组成和生命活动中均扮演着极其重要的角色[1]。它们种类繁多,不同类型的蛋白质往往具有不同的生物功能,从而对于生物体有着不同的重要程度,以此为依据,不同类型的蛋白质可以表现出关键性或非关键性[2]。Winzeler[3]等则把表现出关键性的蛋白质称为关键蛋白质,且该类蛋白质缺失后会导致生物体病变甚至无法继续存活。
在生物学领域,识别关键蛋白质主要是通过生物医学实验的方法,例如RNA干扰[4]、条件性基因剔除[5]和单基因敲除[6]等。虽然使用这些生物实验可以得到准确的预测结果,但是实验的成本很高、效率较低。因此,随着计算生物学和生物信息学的不断进步和发展,利用相关知识准确且高效的识别关键蛋白质成为这个研究领域的热点和重点。