当前国内外大多数甲基化研究主要针对于RNA,主要采取了识别N6-甲基腺嘌呤核苷酸[6],使用伪核苷酸识别[7],核小体定位预测[8],PseDNC等方法,然而针对蛋白质也采用了伪核苷酸识别,自相关系数和PseAAC[9]等方法,这些方法对甲基化的识别程度越来越高,在RNA的基础上,DNA甲基化的识别也逐渐成熟,无论是由核酸分子本身出发的理化属性分类,还是根据DNA序列产生的位置特异性或结构特性,这些特殊区分属性均能作为提取DNA序列特征向量的基础。78419
研究存在问题:
第一,当前DNA的特征向量提取方法并不能表示出DNA所有特征;
第二,我们需要研究出更加准确的分类器论文网,对DNA序列是否甲基化进行分类;
第三,如何创造出更多的验证测试方法。
参考文献
[1]Vapnik VN。 The nature of statistical learning theory[M]。2nd edition。 New York: Springer, 1995。
[2]Cristinaini N, Shawe-Taylor J。 An introduction to Support Vector Machines and other Kernel-based learning methods[M]。Beijing: Electronic Industry Press, 2004:82-108。
[3]Zhang Yanping, Zhang Ling。 Machine learning theory and algorithms [M]。Beijing: Science Press,2012:30-41。
[4]Wei Chen, Hong Tran Identification and analysis of the N6-methyladenosine in the Saccharomyces cerevisiae transcriptome。
[5] Du Q, Wei D, Chou K C。 Correlations of amino acids in proteins [J]。 Peptides, 2003, 24(12): 1863-1869。
[6]W。 Chen, P。 Feng, H。 Ding, H。 Lin, and K。C。 Chou(2015), iRNA-Methyl: Identifying N6-methyladenosine sites using pseudo nucleotide composition, Analytical Biochemistry, vol。 490, pp。 26-33。
[7] [10] Du X, Cheng J。 Inferring protein-protein interactions from sequence using sequence order information[C]。Computer Science and Education (ICCSE), 2010 5th International Conference on。 IEEE, 2010: 481-486。
[8]S。 H。 Guo, E。 Z。 Deng, L。 Q。 Xu, H。 Ding, H。 Lin, W。 Chen, and K。 C。 Chou(2014)。 iNuc-PseKNC: a sequence-based predictor for predicting nucleosome positioning in genomes with pseudo k-tuple nucleotide composition。 Bioinformatics, vol。 30, no。 11, pp。 1522-1529。
[9] 张燕平,查永亮,赵 姝,等。基于自相关系数和Pse AAC的蛋白质结构类预测[J]。计算机科学与探索,2014,8(1):103-110
[10] Liu T, Zheng X, Wang J。 Prediction of protein structural class using a complexity-based distance measure [J]。 Amino acids, 2010, 38(3): 721-728。
[11] Ding Y S, Zhang T L, Chou K C。 Prediction of protein structure classes with pseudo amino acid composition and fuzzy support vector machine network [J]。 Protein and peptide letters, 2007, 14(8): 811-815。
[12]Wei C, Peng‐Mian F, Hao L, Kuo‐Chen C (2013)。 iRSpot‐Pse DNC: identify recombination spots with pseudo dinucleotide composition。 Nucleic Acids Research 41: e68。
[13] Wei Chen, Hong Tran, Zhiyong Liang, Hao Lin & Liqing Zhang Identification and analysis of the N6-methyladenosine in the Saccharomyces cerevisiae transcriptome。
[14]Frank E。, Hall, M。, Trigg, L。, Holmes, G。 & Witten, I。 H。 Data mining in bioinformatics using Weka。 Bioinformatics 20,2479–2481, doi: 10。1093/bioinformatics/bth261 (2004)。
[15]。 Golam Bari, A。 T。 M。, Rokeya Reaz, M。 & Jeong, B。 S。 DNA Encoding for Splice Site Prediction in Large DNA Sequence。 MATCH Communications in Mathematical and in Computer Chemistry 71, 241–258 (2014)。
[16]。 Narayan, P。, Ludwiczak, R。 L。, Goodwin, E。 C。 & Rottman, F。 M。 Context effects on N6-adenosine methylation sites in prolactin mRNA。 Nucleic Acids Res。 22, 419–426 (1994)。
[17] Zi L, Xuan X, Qiu WR, Chou KC (2015)。 iDNA‐Methyl: Identifying DNA methylation sites via pseudo trinucleotide composition。 Analytical Biochemistry 474: 69-77。