(4)使用 CD-HIT 软件,将上述样本再进一步清除冗余和同源偏差,将相似度大于
80%的样本剔除掉。
+ -
(5)在基准数据集中排除自我冲突的样本,即删除同时属于正样本集Sξ 和负样本集Sξ
的核苷酸。
通过以上五个步骤,分别使用ξ=18、19、20、21 为滑动窗口的宽度,我们将获 得四个基准数据集:Sξ=18、Sξ=19、Sξ=20、Sξ=21。然而,我们通过初步试验观察到当
ξ=20(即 DNA 片段进行形成 20 2+1=41 核苷酸(参见公式(2-4))的实验效果最论文网
佳。因此,选择以Sξ=20作为基准数据集。 公式(2-3)也可进一步表示为:
S(2426)=S+(787)∪S-(1639) (2-5)
这里的S = S20= S(2426),其中包含 2426 个 DNA 片段,787 个样本属于正的甲基
化数据集 S+ = S+ = S(787) ,而 1639 个样本 是属于 负的 非 甲 基 化 数 据 集 的
S-= S- = S(1639)。
2。3 特征提取
对于 DNA 序列甲基化位点的预测,关键问题之一是如何提取出能够准确反映与 预测目标内在联系的特征向量。DNA 序列是由腺嘌呤(Adenine)、胞嘧啶(Cytosine)、 鸟嘌呤(Guanine)、胸腺嘧啶(Thymine)四种脱氧核糖核苷酸组成的序列。对于任 意的一条 DNA 序列,我们认为该序列特征一般反应在两方面:
(1)研究测试核苷酸的排列情况以反应该序列的形式。
(2)用 DNA 序列中所含各种核苷酸的含量来反映该序列的内容。 设计一个基于机器学习的预测器,很重要的一步是如何把一个 DNA 样本片段编
码为一个具有高分辨信息的固定长度的特征向量。我们倾向于构建离散数据或向量模 型,因为基于矢量模型可通过现有的所有机器学习算法直接处理。事实上,无论基于 何种属性进行特征提取,其主要目的是找到具有代表性的特征向量,便于对甲基化位 点进行识别预测。
2。3。1 基于统计特征的方法
基于统计特征的提取方法是指从海量的 DNA 序列中,运用数理统计的方法,提 取一些具有代表性的、能体现序列本质的特征。例如核苷酸成分(Nucleotide Composition,
NC)法[7,8]和伪核苷酸组成成分(Pseudo Nucleotide Composition, PseNC)法[9,11]。 核苷酸成分(NC)法包括核苷酸组成成分法(Mononucleotide composition, MNC),
核苷酸二联体组成成分法(Dinucleotide composition, DNC),和核苷酸三联体组成成分 法(Trinucleotide Composition, TNC)。核苷酸组成成分法是统计四种核苷酸(A,C,G, T)在 DNA 序列中出现的频率,此法将 DNA 序列表示成为一个四维的数值向量。同 理可得核苷酸二联体组成成分法(DNC)和核苷酸三联体组成成分法(TNC),分别 统计的是二核苷酸和三核苷酸在 DNA 序列中出现的频率,结果是分别将 DNA 序列 转化为 16 维的数值向量和 64 维的数值向量。
2。3。2 基于物化属性的方法
正如使用氨基酸组成成分(AAC)表示其统计分析的蛋白质序列,我们可以使用 核酸的组成成分(NAC)来表示一个 DNA 样本序列。然而,如果使用 NAC 代表一 个 DNA 样本,所有的序列信息将完全丧失。为了避免这个问题的出现,在这里我们 受伪氨基酸组成的概念或 Chou 的 PseAAC 理论启发[12,13],同理可以通过伪核苷酸组 成(PseNC)来表示 DNA 序列。DNA 序列有 16 种不同的二核苷酸,十六种二 核苷酸每种都有一组物理化学属性,如结构特征、能量、熵等等。对于长度为(2n+1) 的 DNA 序列,序列有 2n 个二核苷酸。假定考虑了 u 种物理化学属性,那么基 于这 u 种物理化学属性相应的数据,DNA 序列样本可以转化为一个 u×2n 的物理化 学属性矩阵。