甲基化是指将甲基从活性甲基化合物上催化转移到其他化合物中去。继而形成 不同的甲基化合物,或者对一些蛋白质或者核酸进行化学修饰而形成甲基化产物。 在生物系统中,甲基化是经由酶催化的,这种甲基化涉及重金属修饰、基因表达的 调控、蛋白质功能的调节以及核糖核酸(RNA)加工。
事实上,细胞 RNA 中已经有超过 100 种化学修饰得到确认,19 世纪 70 年代, m6A 在广泛的真核生物中被发现,无论是酵母,拟南芥,果蝇,还是哺乳动物,人 们从这些生物中均发现了 m6A[1][2][3]。此外,人们在病毒 RNA 中也发现了 m6A[4]。
然而,由于相关知识的缺乏,m6A 修改早已被认定为是静态的以及不可改变的了, 继而,无法对包含 m6A 的 RNA 序列进行准确的甲基化识别阻碍了人们对这一化学 修饰在生物学方面作用的研究。现如今,一系列研究已经表明,m6A 在不同的生物 进程中都起到了不可或缺的作用,比如 m6A 在细菌的呼吸和应激反应中起重要作用
[5],再如 m6A 可以通过改变 RNA 结构来增强 RNA 和蛋白之间的相互作用关系 [6]。
由此可见,加快对 RNA 序列甲基化位点识别的研究将会对生物信息学起到很大的 推进作用。
1。3 研究现状
1。4 本文主要内容
本文主要通过统计的方法提取 RNA 序列的特征向量,根据特征向量构一个 RNA 序列样本甲基化位点检测的分类器,而后通过 Jackknife 进行交叉验证,再通过 Sp、 Sn、ACC 和 MCC 等指标对实验结果进行评价。首先对 RNA 甲基化位点数据集上 的样本抽取统计特征,而后根据统计特征构建基于特征的分类器,并确定分类器的 参数;接着对公共数据集采用所设计分类器,进行交叉验证测试;最后对公共数据 集的实验结果进行评价分析。来`自+优-尔^论:文,网www.youerw.com +QQ752018766-
第二章 RNA 序列甲基化识别过程
2。1 甲基化识别过程简介
RNA 序列甲基化识别是一个利用机器语言,基于给定的数据集,利用算法进行 分类,测试并加以验证的识别过程。
首先,给定一个 RNA 序列,仅凭肉眼我们是无法观测其中心是否被甲基化的, 我们需要借助机器进行识别。而由于机器无法直接读取 RNA 序列这一局限性,我 们就很有必要先对序列进行特征抽取,将序列转化成机器足以识别的语言,如下图 所示: