(3)对公共数据集采用 SVM 分类器进行预测,并执行 Jackknife 验证测试;
(4)对公共数据集的实验结果进行评价分析。
第二章 甲基化位点识别概述
2。1 甲基化位点识别流程
(1)构建或选择有效的基准数据集来进行训练和预测的测试;
(2)对样本采用统计的方法,提取出能够真实地反映其与目标预测有内在关联,具 有高鉴别能力的特征向量;
(3)引入或开发一个较好的分类算法(或引擎)来操作运行预测程序;
(4)选择合适的测试方法,确定预器性能的评价指标,客观地评价预测器的性能。
2。2 基准数据集
图 2-1 甲基化位点识别流程图
构造或者选择一个有效的基准数据集是成功预测的基础,数据集过小则不具有代 表性,而数据集过大又会导致工作量过大,耗费时间长。本文所使用的 DNA 序列来 自于 MethDB ,MethDB 是整合了多个文献中出现的 DNA 甲基 化数据的数据库,也是涵盖物种和组织最多的数据库。它是一个采集了以 C(Cytosine 胞嘧啶)为中心的 DNA 甲基化片段(即包含潜在甲基化位点的片段)的公共数据库。
从 MethDB 中任选的一个 DNA 序列可以表示如下:
Rξ(C)=N-ξN-(ξ-1) … N-2N-1CN+1N+2 … N+(ξ-1)N+ξ (2-1)
其中,中心“C”代表 Cytosine 胞嘧啶,下标ξ是一个整数,N-ξ代表中心“C”的第ξ个
上游核苷酸,Nξ表示第ξ个下游核苷酸,以此类推(如图 2-2 所示)。(2ξ+1)个核酸长
度的 DNA 样本可进一步公式表示为:
Rξ(C)∈ {
R+(C),如果它的中心“C”是甲基化位点 R- (C), 其它情况
(2-2)
图 2-2 DNA 序列(-ξ, ξ)移动展示
+ -
其中Rξ (C)代表可以甲基化的样本片段,Rξ(C)代表不能够甲基化的样本片段,∈表
示集合运算中“属于”操作符。因此,本文的基准数据集也可以表述为:
+ -
Sξ = Sξ ⋃ Sξ
(2-3)
+ + - -
这里的Sξ 只包含可以甲基化的Rξ (C)样本,Sξ只包含不能够甲基化的Rξ(C)样本,⋃表
示集合运算中“并”操作符。Rξ(C)是一个长度为(2ξ+1) 核酸序列,当ξ取值不同时,
基准数据集将包含 DNA 片段不同数量的核苷酸序列,表示如下:
37 核苷酸,当 ξ=18
39 核苷酸,当 ξ=19
Sξ包含的片段
41 核苷酸,当 ξ=20
43 核苷酸,当 ξ=21
(2-4)
{ ⋮ ⋮
构造Sξ的详细的过程如下:
(1)每一个从 MethDB 中任取的 DNA 序列,沿其滑动一个(2ξ+1)核苷酸窗口(如图
2-1 所示)。
(2)如果 DNA 序列的上游或下游小于ξ,则用与它的最接近的相同的核苷酸进行填 充。
(3)如果 DNA 样本的中心是实验标注的甲基化位点,以这种方式获得的 DNA 片段
+ -
投入到正的Sξ 子集,否则,将它们归于负的Sξ子集。