2。3。2 基于物化属性的方法 7
2。4 分类器的选择 7
2。5 评价指标 9
2。6 JACKKNIFE 和 K 重交叉验证 10
第三章 基于统计的 DNA 序列特征提取 12
3。1 核苷酸组成成分 12
3。2 核苷酸位置特异性 13
3。3 二核苷酸的位置特异性 15
第四章 特征组合的选择 16
4。1 参数优化和特征选择 16
4。2 评价预测器性能 17
4。3 不同特征表示 ROC 曲线分析 17
4。4 本章小结 17
第五章 实验结论和分析 20
5。1 与现有预测的比较 20
5。2 结果分析与结论 21
5。3 结果应用与展望 21
结 语 23
致 谢 24
参 考 文 献 25
第一章 绪论
1。1 研究背景及意义
DNA 甲基化在各类生物中是普遍存在的,它是一个主要发生在胞嘧啶中的生化 过程,实质上是甲基基团被添加到胞嘧啶残基的过程。在 DNA 甲基化过程中,细胞 可以修改自己的 DNA 以改变基因产物的表达。甲基化主要发生在 CG 二核苷酸的胞 嘧啶,它是由 DNA 甲基化转移酶(DNMT)催化的一种共价修饰(图 1-1)[1]。DNA 甲基化位点是由不同的蛋白质所占据,包括甲基化 CpG 结合域(MBD)的蛋白质, 该蛋白质可以复原各种组蛋白去乙酰化酶(HDAC)配合物和染色质重塑因子,导致 染色质压缩,进一步导致转录受到阻碍。通过阻止转录蛋白质和基因的结合或转录蛋 白粘结到 MBD,DNA 甲基化可以影响基因转录[2]。
图 1-1 DNA 甲基化的过程
因此,DNA 甲基化对基因起调控作用,在生命发展中扮演着非常重要的角色, 在癌症的形成过程中也起重要作用。在哺乳动物中,甲基化可以调节控制基因表达、 基因组印记、X 染色体失活[3]。在生命的发展和疾病的形成中,DNA 甲基化起着表 观基因调控的重要的作用,被认为是一种主要的表观遗传标记,同时也是负责细胞沉 默命运的监管者[4]。
由此可见,给定任意一条含有许多未知的胞嘧啶残基的 DNA 序列,准确判定其 能否被甲基化是专家们的首要任务。随着人类基因组计划的开展以及各式各样高通量 检测技术的应用,DNA 序列呈现雪崩式的增长,我们迫切需要一种可以高效率准确 识别 DNA 甲基化位点的方法。
1。2 国内外研究现状
1。3 论文主要工作
本文通过统计的方法提取 DNA 序列的特征向量,根据其特征向量构建一个 DNA 序列样本甲基化位点检测的分类器,通过 Jackknife 进行交叉验证,并通过 Sp、Sn、 Acc 和 Mcc 等指标对实验结果进行评价。文章主要完成了如下内容:
(1)实现了对 DNA 甲基化位点数据集上的样本统计特征的提取;
(2)在基准数据集上构建了 SVM 分类器,确定分类器的参数;