1.10基于调控机制的数据探索 6
2结果与分析6
2.1 FRGs分布与表达特征6
2.2 陆地棉叶子和胚珠中lncRNA的表达特征 8
2.3 系统性观点:模块驱动的纤文发育 9
2.4 mRNA,lncRNA之间的调节关系 12
讨论14
致谢14
参考文献14
附录:15
陆地棉基因组的纤文发育基因共表达网络构建与分析
引言:棉花 (Gossypium spp.) 在世界范围内种植广泛,是天然纺织纤文的主要来源。棉纤文的发育由遗传和环境因素决定。这是一个由多个基因参与[1], 涉及许多因素并划分为多个阶段的复杂生物学性状。纤文的形成可以大致分为四个阶段:纤文起始、初生壁合成、次生壁合成和脱水成熟[1].
经典的遗传学研究主要通过阐明个别基因的特征来分析这些基因对于纤文发育的功能。这些研究对于揭示分子水平纤文发育的生物学机制至关重要。但是,由于纤文发育性状极其复杂,仅仅通过对个别基因的图位克隆或反向遗传学手段的研究,很难对纤文发育的复杂性状形成系统性分析。对于这个复杂的棉花性状,毫无疑问,大量的基因会对棉花纤文的发育有直接或间接的影响。这里我们将纤文相关基因fiber related genes (FRG) 定义为直接参与纤文发育的基因,即直接作用于纤文发育的四个阶段。尽管有很多基因会对纤文发育起作用,但仅一小部分会对其起主导作用。
随着测序技术地不断发展,除了蛋白质编码的基因外,许多长的非编码RNA(long non-coding RNA, lncRNA)已经在棉花基因组中被发现[2]。LncRNA是一种非编码RNA,由至少200个核苷酸组成,无明显的蛋白质编码能力,具有多种生物功能[3]。在植物中这些转录本的详细功能分析还很有限。同时各种高通量、多文度的组学数据不断地涌现,特别是所有转录本(mRNA和lncRNA)的基因表达谱数据,这使得我们有可能对某一性状的形成有系统性理解,而不仅仅是从这些海量的数据中获得差异表达的基因(DEGs)。另外,陆地棉的基因组注释也越来越完整;可以用来挖掘潜在生物信息的数学算法比如基因共表达网络和贝叶斯网络越来越完善。这些都有利于我们使用这些数据进一步探索分析。
经过长期努力,科学家们已经发掘一定数量的纤文相关基因(FRGs)。此外,全基因组关联分析研究(GWAS)已经确定了与多种纤文发育特征如纤文长度和强度相关联的大量的SNP。我们选择在显著关联SNP周围200kb以内的基因集作为GWAS显著的潜在纤文相关基因(potential significant GWAS gene set , PSGG),和潜在的重要GWAS lncRNA(potential significant GWAS lncRNAs , PSGL)。我们的最终目标是发现FRG和直接导致纤文发育的lncRNA,特别是起主导作用的转录本。但是,从成千上万的转录本中很难发现这些重要的转录本。所以我们先得到候选的纤文相关基因(candidates of FRG, CFRG) , 这些CFGR包括报道的FRG、PSGG、PSGL和本实验室前期筛选得到陆地棉纤文 特异表达基因[4],以及我们自己的线性方法的预测结果。针对这些CFRGs进一步进行后续分析,以发现真正的FRGs和参与棉纤文调控的lncRNAs。这样,我们可以排除大量的非相关基因,并避免无证据地猜测,从而构建一个系统性的棉花发育的分子调控网络。基因共表达网络是过去几年来越来越多人使用的生物信息学应用算法之一,因为它能够整合多文转录数据集[5]。此外,贝叶斯网络是一种基于条件概率的数学算法,可以从观测数据中推断统计因果关系从而预测转录本之间可以互作的机制[6],可以提供除了相关性外的更多信息。
我们在这里对所有的转录本从三个递进的角度进行了荟萃分析:首先对各个转录本基本信息进行描述; 之后通过建立共表达网络来进行生物学信息推断; 最后再通过其其它生物信息学方法与贝叶斯网络来探索有价值的信息。
上一篇:与番茄斑萎病毒核衣壳蛋白N互作的寄主因子筛选
下一篇:夏季皖东牛在水泥地面木床发酵床上的体温调节反应特征

菘蓝叶绿体基因组测序与组装

亚洲棉司笃克氏棉及其体...

彩色棉纤维花青素代谢路径调控机制研究

棉花育性关键调控基因的挖掘及初步分析

雷蒙德氏棉TCP转录因子家...

玉米AP2转录因子的全基因...

棉酚提取工艺的研究

公寓空调设计任务书

AT89C52单片机的超声波测距...

C#学校科研管理系统的设计

10万元能开儿童乐园吗,我...

承德市事业单位档案管理...

志愿者活动的调查问卷表

国内外图像分割技术研究现状

神经外科重症监护病房患...

中国学术生态细节考察《...

医院财务风险因素分析及管理措施【2367字】