(3)对公共数据集采用 SVM 分类器进行预测,并执行 Jackknife 验证测试;

(4)对公共数据集的实验结果进行评价分析。

第二章  甲基化位点识别概述

2。1 甲基化位点识别流程

(1)构建或选择有效的基准数据集来进行训练和预测的测试;

(2)对样本采用统计的方法,提取出能够真实地反映其与目标预测有内在关联,具 有高鉴别能力的特征向量;

(3)引入或开发一个较好的分类算法(或引擎)来操作运行预测程序;

(4)选择合适的测试方法,确定预器性能的评价指标,客观地评价预测器的性能。

2。2 基准数据集

图 2-1 甲基化位点识别流程图

构造或者选择一个有效的基准数据集是成功预测的基础,数据集过小则不具有代 表性,而数据集过大又会导致工作量过大,耗费时间长。本文所使用的 DNA 序列来 自于 MethDB ,MethDB 是整合了多个文献中出现的 DNA 甲基 化数据的数据库,也是涵盖物种和组织最多的数据库。它是一个采集了以 C(Cytosine 胞嘧啶)为中心的  DNA   甲基化片段(即包含潜在甲基化位点的片段)的公共数据库。

从 MethDB 中任选的一个 DNA 序列可以表示如下:

Rξ(C)=N-ξN-(ξ-1) … N-2N-1CN+1N+2 … N+(ξ-1)N+ξ (2-1)

其中,中心“C”代表  Cytosine   胞嘧啶,下标ξ是一个整数,N-ξ代表中心“C”的第ξ个

上游核苷酸,Nξ表示第ξ个下游核苷酸,以此类推(如图  2-2  所示)。(2ξ+1)个核酸长

度的 DNA 样本可进一步公式表示为:

Rξ(C)∈ {

R+(C),如果它的中心“C”是甲基化位点 R- (C), 其它情况

(2-2)

图 2-2 DNA 序列(-ξ, ξ)移动展示

+ -

其中Rξ       (C)代表可以甲基化的样本片段,Rξ(C)代表不能够甲基化的样本片段,∈表

示集合运算中“属于”操作符。因此,本文的基准数据集也可以表述为:

+ -

Sξ = Sξ ⋃ Sξ

(2-3)

+ + - -

这里的Sξ     只包含可以甲基化的Rξ    (C)样本,Sξ只包含不能够甲基化的Rξ(C)样本,⋃表

示集合运算中“并”操作符。Rξ(C)是一个长度为(2ξ+1)      核酸序列,当ξ取值不同时,

基准数据集将包含 DNA 片段不同数量的核苷酸序列,表示如下:

 37 核苷酸,当 ξ=18

 39 核苷酸,当 ξ=19

Sξ包含的片段

 41 核苷酸,当 ξ=20

 43 核苷酸,当 ξ=21

(2-4)

{ ⋮

构造Sξ的详细的过程如下:

(1)每一个从 MethDB 中任取的 DNA 序列,沿其滑动一个(2ξ+1)核苷酸窗口(如图

2-1 所示)。

(2)如果 DNA 序列的上游或下游小于ξ,则用与它的最接近的相同的核苷酸进行填 充。

(3)如果 DNA 样本的中心是实验标注的甲基化位点,以这种方式获得的 DNA 片段

+ -

投入到正的Sξ     子集,否则,将它们归于负的Sξ子集。

上一篇:泊松分布及泊松过程在金融保险中的应用
下一篇:概率论中几个不等式的推广及应用

浅谈中学数学函数最值问题的求解方法

基于决策树算法的篮球联赛预测

数形结合在中学数学中的...

浙江省工业企业发展的因子分析

中美小学数学课堂教学的比较

杭州历年中考三角形的题型分析

论数形结合在中学数学教育中的应用

我国风险投资的发展现状问题及对策分析

张洁小说《无字》中的女性意识

ASP.net+sqlserver企业设备管理系统设计与开发

LiMn1-xFexPO4正极材料合成及充放电性能研究

新課改下小學语文洧效阅...

麦秸秆还田和沼液灌溉对...

安康汉江网讯

老年2型糖尿病患者运动疗...

互联网教育”变革路径研究进展【7972字】

网络语言“XX体”研究