104-基因结构基础知识

刘小泽写于19.4.12 主要研究真核生物

DNA => pre-mRNA

基因结构包括编码区(CDS)和非编码区

编码区:不连续的基因结构,又包含外显子和内含子,它们交替出现

  • 外显子:编码区中不连续的具有蛋白编码功能的DNA序列 第一个外显子的头部是蛋白翻译的起始密码子;最后一个外显子的尾部是终止密码子,一般富含AT-
  • 内含子:编码区中外显子之间间隔的非编码序列
  • 外显子与内含子的邻接部位是一段高度保守的序列:外显子尾巴与下一个内含子的头部多数是GT,内含子的尾巴与下一个外显子的头部多数是AG,可以简单记做GT-AG法则,作为RNA剪切的识别信号
  • DNA=》pre-mRNA(mRNA前体)或者hnRNA(核内不均一RNA)=》(成熟)mRNA,其中pre-mRNA中包括了外显子和内含子,成熟的mRNA才只剩外显子
  • 开放阅读框ORF:从DNA的起始密码子(ATG)到终止密码子(TAA、TGA、TAG)的碱基序列,且不包含终止密码子

非编码区:又叫"侧翼序列flank”,是编码区第一个外显子+最后一个外显子以外的区域,也就是指这个区域中包含了启动子、终止子、增强子等调控元件

  • 上游侧翼(第一个外显子以外的序列):包含启动子区域(promoter)

    • 启动子的作用是与RNA聚合酶特异性结合

    • 第一个外显子的5’转录起始位点(TSS)上游大约20-30个碱基的位置,是TATA box ,包含的碱基位置是TATAATAAT,保证RNA聚合酶可以准确识别转录起始位点并开始转录过程。总而言之,它影响转录起始

    • 第一个外显子的5’转录起始位点上游大约70-80个碱基的位置,是CAAT box ,包含的碱基位置是GGCTCAATCT ,它是另一个RNA聚合酶的结合位点,它不影响转录起始,但可以控制转录起始频率 。另外CAAT box两侧是GC box ,包含的碱基是GGCGGG ,起到转录调节、激活转录的功能

    • 增强子:一般位于TSS上游大约100个碱基以外,具有增强转录的作用,但是不用于启动基因转录

    • 沉默子:抑制DNA的转录过程,从而抑制翻译,最常见是位于启动子上游。有时也会出现在启动子下游、基因本身内含子或外显子上;另外在下游侧翼的3’非翻译区也发现了沉默子

      参考:http://www.bogari.net/Bogari/Principle_files/4-genomes.pdf

  • 下游侧翼(最后一个外显子以外的序列):包含终止子序列

    • 首先在最后一个外显子的终止密码子下游有一个AATAAA序列,这个序列主要参与mRNA 的 多聚腺苷酸化过程。多聚腺苷酸化就是得到polyA尾巴之前,mRNA的3’端会水解掉10-15个碱基。这个序列的作用就是作为RNA裂解的信号,指导核酸内切酶在此信号下游10~15碱基处裂解 mRNA。之后就是聚合酶作用使得3’端加上polyA变成成熟mRNA
    • AATAAA序列再往下到转录终止位点(TTS)之前,是一个反向重复序列(7-20个碱基对),转录后形成一个发卡结构,可以阻碍RNA聚合酶移动,终止转录

**注意:**起始密码子和终止密码子都在外显子上,位于编码区;但是,转录起始位点TSS和转录终止位点TTS都在非编码区,TSS在启动子区下游&起始密码子上游,TTS在终止子区下游&终止密码子下游

pre-mRNA=》mature mRNA

pre-mRNA就是从转录起始位点TSS到终止位点TTS,还需要进行内含子剪切,5’加帽子结构,3’加PolyA修饰,才可以形成成熟mRNA

mature mRNA

包括编码区、5’UTR、3’UTR、5’帽子结构、3’polyA尾

  • 编码区:起始密码子AUG开始,到终止密码子(UAG、UAA、UGA)的碱基序列
  • UTR:mRNA两端的非编码序列
  • 5’UTR:上游非编码区,位于5’帽子与起始密码子(AUG)之间
  • 3’UTR:下游非编码区,位于编码区末端的终止密码子到3’尾巴之间

单顺反子mRNA:只编码一个蛋白的mRNA; 多顺反子mRNA:编码多个蛋白

  • 5’帽子:作用就是帮助mRNA跨过核膜,进入胞质,并且此过程中保护5‘不被降解;翻译时保证IFiii和核糖体识别
  • 3’poly-A尾巴:作用也是帮助mRNA跨过核膜,进入胞质,并且增加了mRNA在胞质中存在的稳定性。因为mRNA的降解过程是随着时间延长,A尾逐渐变短;

疑难杂症

  • promoter虽然感觉和起始相关,但是它既不属于外显子也不属于内含子,它是非编码区序列
  • UTR其实是mRNA中的概念,但是在往上溯源,在DNA序列中算是外显子exon的部分
  • CDS序列以ATG开始,起始密码子只有这一个,并且在外显子中
  • 一个基因中有外显子和内含子,但是基因和基因也不是连续的,它们之间的区域就不是intron内含子了,而是叫做” 基因间区",同样属于非编码序列

图1

图1

图2

图2

Yunze Liu
Yunze Liu
Bioinformatics Sharer

Co-founder of Bioinfoplanet(生信星球)

Next
Previous

Related