3.1.2 蛋白质序列的2-D图形表示
按照Wang和Wang在文献[24,25]中的方法,20种氨基酸可被划分为下面的5类:{C, M, F, I, L, V, W, Y},{A, T, H},{G, P},{D, E}和{S, N, Q, R, K}。分别取每类中的一种氨基酸I、A、G、E和K作为各自的代表。这样,一条蛋白质序列可以被约化成一条5-字母序列。例如,猪流行性痢疾病毒(PEDV)的刺突蛋白S(spike)的前30个氨基酸构成的序列MRSLIYFWLLLPVLPTLSLPQDVTRCQSTT的5-字母序列为IKKIIIIIIIIGIIGAIKIGKEIA KIKKAA。5-字母序列可以被看作是蛋白质原始序列的粗粒化描述,通过简化的序列之间的比较,很容易去理解不同类氨基酸残基的生物学功能。
对于给定的5-字母序列,类似于Randic等人的“四水平线图”的作法,画出相互间隔一个单位的5条水平线,并让G对应第一条线,I对应第二条线,K对应第三条线,A对应第四条线,E对应最后一条线。从左向右考察序列的每一个字母,遇到哪种字母,就在这种字母所对应的水平线上描点,同时,若不是最后一个字母还要向右移动一个单位。最后,用直线连接所有相邻的点就得到了一条之字形曲线。5-字母序列IKKIIIIIIIIGIIGAIKIGKEIAKIKKAA的相应图形如图3-1所示。