传统的生物实验方法对于实验环境和实验人员的要求很高,不但费时费力,而且 难于操作。伴随着像 MeRIP-Seq[3]和 m6A-seq 等高通量技术的发展,以及后基因组时代 的爆发式增长,我们迫切需要有一种好的机器学习的算法,来快速而准确的实现 RNA 的甲基化位点检测,以加速基因组的全分析进程。到目前为止,国内外已经发现了多 种 RNA 甲基化识别方法,比如基于伪核苷酸特征的 RNA 甲基化识别方法,BLAST[4] 方法等,但是最后的实验结果并不太好。
1。3 论文主要工作
通过阅读相关文献,以及指导老师的帮助,主要完成了以下内容:
了解相关的生物信息学知识
对 RNA 甲基化位点数据集上的样本进行特征抽取
构建 SVM 分类器,采用 5/10 重交叉验证确定 SVM 的参数
对数据集采用 SVM 分类器进行交叉验证
对实验结果进行评价分析
第二章 方法概述
2。1 简介
RNA 的甲基化识别在算法实现上其实与模式识别非常的相似,首先我们需要基础样 本数据,并对样本进行特征表示和提取,然后构建分类器对特征数据集进行训练和测 试,最后通过评测方法对分类器性能进行评价。因此,在 RNA 甲基化识别中我们首先 需要 RNA 样本数据。文献综述
2。2 基础数据集
科学家们在 S 酵母菌基因中发现了一个共有基序 GAC,其上的 m6A 可以被甲基化, 为了方便描述我们这样表示一个 RNA 样本:
R(GAC) NN(1) N2 N1GACN1 N2 N(1) N
中间的 A 代表“腺嘌呤”,下标ξ是一个整数,N-ξ代表中间核苷酸序列 GAC 上游的第 ξ个核苷酸,N+ξ代表中间核苷酸序列 GAC 的下游的第ξ个核苷酸。这样的一个 RNA 样 本我们可以进一步分类:
R (GAC), if itscenteris a methylatino site
R(GAC) R (GAC), otherwise
R(GAC)表示在其中心核苷酸序列上的正确的甲基化片段, R(GAC)表示在其中心核
苷酸序列上的错误的甲基化片段,∈表示集合中的“成员”。这样的表示可以让我们 更直观的理解 RNA 甲基化的片段。基准数据集的作用是让算法进行更好的学习,因此 我们都会将数据集分为测试数据集和训练数据集,在此我们将基础数据集定义为:
正样本子集 S 只包含了真正被甲基化的样本片段 R(GAC),而负样本子集 S 只包含
错误的甲基化样本片段 R(GAC),∪是数学符号表示数学中的并运算。
在 2-1 的 RNA 样本表示中我们可得知 RNA 的长度为 2ξ+3,当ξ不同时,RNA 所 包含的核苷酸数量也不同,经过初步测试表明,最好的测试结果是ζ=24 的时候,因此, 此后我们以后所研究的都是 51 个核苷酸长度的 RNA 样本。来:自[优E尔L论W文W网www.youerw.com +QQ752018766-
图 2-1 51 核苷酸长度的 RNA 样本表示
我们通过下面的方法来收集 RNA 基础数据集。首先沿着长度为(2ζ+3)=51 的 RNA 序列滑动核苷酸窗口,同时收集那些具有共有基序且中间有 GAC 的 RNA 片段以及 A 或者 G 在 N-1 上的位置,之所以这样做是因为 m6A 的共有基序通过实验得知为 RGAC(R=A/G)[12]。第二步,如果 RNA 的中间 GAC 片段的上游或者下游比ζ=24 少或者 比 L-24 多(L 代表 RNA 的长度),则缺少的核苷酸充满了它的镜像。第三,以这种方 式获得的 RNA 片段中如果在实验中它的中心被标注为甲基化的则被放入正样本子集