摘 要蛋白质分子是由许多个氨基酸残基链接而成的一条肽链。在生物体的生命过程 中,蛋白质分子和其它生物分子或金属离子(配体)的相互作用发挥了重要的作用, 这个相互作用的过程被称为绑定。一般情况下,蛋白质的绑定残基只占残基序列的 一小部分,大部分的残基属于不绑定,因此,蛋白质残基分类是一个不平衡的学习 问题。本文基于支持向量回归的算法,结合下采样和分类器集成的技术,消除训练 样本的不平衡性,设计了一种预测方案,预测得到一个残基属于绑定/不绑定残基 的可能性大小,最终通过合理选择阈值的方式完成预测,即大于阈值的残基被认为 属于绑定的,否则预测为不绑定,从而完成蛋白质残基的分类。我们设计并进行了 一系列实验,实验结果验证了该方法的有效性,并讨论了下采样对分类性能的影响。77322
毕业论文关键词:支持向量回归 蛋白质绑定残基 分类 下采样 分类器集成
Abstract The protein molecule is composed of many amino acid residues, which are linked one by one。 The interaction between protein and other biological molecules or metal ions (ligands) plays an important role in the process of the living lives。 In general, protein binding residues only account for a small fraction of all the residues, and most of the residues are not bound。 Therefore, the protein residue classification is an unbalanced learning problem。 In this paper, a prediction strategy is designed, which is based on support vector regression, with the help of both under-sampling and classifier ensemble technology, to eliminate the imbalance of training samples。 In doing so, this prediction strategy is utilized to predict the degree to which a residue belongs to binding or not。 Specifically, a reasonable threshold values is specified to complete the prediction, and the residue whose degree is greater than the threshold value is considered to be the binding one, otherwise the non-binding one。 A series of experiments are designed and carried out, and the experimental results verified the effectiveness of our method。 In addition, the impact of under-sampling strategy on the classification performance is discussed。
Keywords: support vector regression, protein residues banding, classification, under sampling, classifier ensemble
目 录
1 绪论 1
1。 1 研究背景 1
1。 3 研究意义 3
1。4 本文组织结构 3
2 关于蛋白质数据处理的方法 5
2。 1 数据集 5
2。 2 特征提取 6
3 支持向量回归的基本算法 8
3。 1 支持向量机 8
3。 1 。 1 线性可分问题 9
3。 1 。 2 松弛约束 10
3。 1 。 3 线性不可分问题 11
3。2 支持向量回归 12
3。 3 SMO 算法 14
4 模型和方法 19
4。1 下采样 19
4。2 参数选择 20
4。3 集成