044-生物数据库ID,让我深入了解你

刘小泽写于18.10.15 内容很多,资料就准备消化了一上午

基因的身份实在太多,因为每个数据库都想有自己的独到之处,因此我们有必要对这么多基因的ID进行分类整理,分清主次才能从容应对

不要被吓到哦

这是一张生物数据库网络图,上百种ID乍一看杂乱无章,但是仔细一看,主要靠的就是灰色背景的这三大数据库:NCBI的Entrez、Ensembl、Uniprot;蓝色背景数据库是目前比较主流的数据库,如RefSeq、GenBank、dbSNP、GO、KEGG等,与三大数据库有数据交换;没有背景的就是主流数据库产生的各种ID,包括了我们日常经常使用的HGNC ID、PubmedID、Pfam ID、UCSC ID、RefSeq ID、Enzyme ID、GO term、KEGG patheway等,另外还有一些物种专属数据库ID,比如WormBase ID、TAIR ID、FlyBase ID等

1


下面就层层递进来介绍这些主要的数据库 先了解数据库,再了解ID,效果更好哦

第一级 三大数据库

1 NCBI家的Entrez

1.1 历史背景

先搞清楚:NCBI是一个组织,Entrez是它的搜索系统

NCBI是美国国立生物技术信息中心(National Center for BiotechnologyInformation),由美国国立卫生研究院(NIH)于1988年创办,目的是为生物学家提供一个信息储存和处理的系统。它建立了自己的核酸序列数据库GenBank,与日本的DDBJ(1986年创办)、欧洲分子生物学实验室的EMBL数据库(1982年创办)等联合存储。东西一样但命名各异。

如果要在NCBI中检索信息(基因序列、基因组、基因型、基因表达、分子结构、蛋白质组学、文献等等),就需要用到Entrez的综合检索系统。 Entrez的第一个版本由NCBI于1991年在CD -ROM上发布,当时核酸序列来自GenBank和Protein Data Bank(PDB)数据库,蛋白序列来自GenBank、Protein Information Resource (PIR)、SWISS-PROT、PDB以及Protein Research Foundation (PRF)数据库,还从MEDLINE数据库(现在是PubMed)整合了文献摘要。

1.2 内容
  • 基因序列数据库

    • Gene:基因序列注释+检索,目前共有61118个人类的记录,68389个小鼠的记录(含有功能基因、假基因、预测基因等),并且每天更新。

      大家都曾年轻过,如今风华正茂的Gene数据库曾经叫做LocusLink,当时只含有人类的数据,并且也只有少于9000条记录,它的好朋友也只有GenBank、Unigene、dbSNP、OMIM,2003年正式更名为Gene。

    • Unigene:属于GenBank一部分,包含转录本序列,包括EST序列以及非冗余序列。Unigene的意思就是潜在的基因

    • HomoloGene:在完全测序的真核生物基因组中检索同源基因,以及上下游序列

    • Reference Sequences(RefSeq):注释过的非冗余转录体、蛋白质和基因组序列数据库(ftp://ftp.ncbi.nih.gov/refseq/release/)

  • 基因组数据库

    • Genome:真核生物完整基因组组装数据及注释数据+动植物、真菌染色体信息(ftp://ftp.ncbi.nih.gov/genomes/)
    • Trace archives:一代测序数据
    • Short Read Archive(SRA):二代测序数据
  • 基因型与表型数据库

    • dbGaP(www.ncbi.nlm.nih.gov/sites/entrez?db=gap):数据来自NIH提供的GWAS全基因组关联分析
    • dbSNP:单核苷酸多态性信息、种群特异性等位基因频率、个体基因型
    • dbMHC:组织相容性复合体(MHC)等位基因的变异信息,与器官移植、感染病敏感性有关
    • dbLRC:白细胞受体复合物(LRC)等位基因(如:KIR基因)
    • dbRBC:红细胞抗原或血型有关基因
    • OMIM:人类遗传病数据库,包括遗传病详细的描述、基因名称、遗传方式、基因定位、基因多态性、文献,由约翰霍普金斯大学维护
  • 基因表达数据库

    • GEO(Gene Expression Omnibus):芯片和二代测序实验数据,包括基因表达、基因组拷贝数变异、基因组-蛋白互作、甲基化。有原始数据和处理过的数据
    • GENSAT:小鼠中枢神经系统基因表达谱
    • Entrez Probe:探针试剂信息、销售厂家信息、探针有效性,涵盖用于检测基因沉默、基因表达、SNP、基因分型、基因测序等的探针
  • 分子结构、蛋白数据库

    • MMDB:蛋白质结构域注释、PDB异质基因、保守结构域、结构邻域信息
  • 小分子数据库

    • PubChem附属的三个数据库:PCSubstance、PCCompound和PCBioAssay,建立了基因组水平的生物大分子与细胞代谢水平的小分子之间联系

2 Ensembl

2.1 背景知识

Ensembl项目始于1999年,也就是人类基因组草案完成前几年,由英国的Sanger研究所以及欧洲生物信息学研究所(EMBI-EBI)联合共同协作开发。发展的起因是手动注释30亿个碱基序列对数据的时效性考验,于是Ensembl想要自动注释基因组,并将注释和其他可用的生物数据相结合。2000年7月上线网站,侧重于脊椎动物的基因组数据,但后来逐步丰富了其他生物如线虫,酵母,拟南芥和水稻等。

大多数物种需要三到六个月才能使用Ensembl自动注释系统进行注释,这个过程是这样的:整合Uniprot KB的蛋白信息与NCBI RefSeq里面的mRNA信息,再加上人工注释【人工注释在VEGA和Havana数据中可以找到】

关于自动注释和人工注释:自动注释很快,但是它是基于概率的过程,不一定完全准确;人工成本就比较高,但准确度也高 2

2.2 内容

FTP下载内容:https://asia.ensembl.org/info/data/ftp/index.html

  • FASTA:Ensembl基因的FASTA序列数据库,转录本和蛋白质模型预测

  • GTF/GFF3: 编码和非编码基因的注释

    需要注意的是:基因组和GTF文件中染色体名字都没有添加chr

  • VCF:变异数据

  • BED:Browser Extensible Data,为genome browser而生

3 Uniprot

3.1 背景知识

它是Universal Protein的简写,整合了Swiss-Prot、TrEMBL和PIR-PSD三大数据库,含有最丰富的蛋白质数据。通过Uniprot 数据库,我们可以了解编码蛋白的基因,对应的蛋白名称, 序列,以及GO注释(GO ID、GO的描述信息、分类这些信息是经常需要用的)

  • SWISS-PROT

    注释过的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。只接受直接测序获得的蛋白质序列。每个蛋白质条目包括了序列、文献、分类、注释,注释又包括:功能、转录后修饰、特殊位点、二级和四级结构、相似性大小、序列变异、序列残缺与疾病联系

    SWISS-PROT的网址:http://www.ebi.ac.uk/swissprot/

  • PIR-PSD

    国际蛋白质序列数据库(PSD)是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护的国际上最大的公共蛋白质序列数据库。特点是:全面、注释、非冗余,基本都按基因家族进行了分类,一般以上进行了蛋白质超家族分类。

    PIR和PSD的网址:http://pir.georgetown.edu/ 数据库下载地址:ftp://nbrfa.georgetown.edu/pir/

另外还有:

  • PROSITE

    包含有显著生物学意义的蛋白质位点和序列模式,可以鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。序列模式包括:酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域

    PROSITE的网址:http://www.expasy.ch/prosite/

  • PDB

    由美国Brookhaven国家实验室建立的唯一的生物大分子结构数据档案库,由结构生物信息学研究合作组织(RCSB)负责维护。它主要搜集X光晶体衍射和核磁共振(NMR)的数据,使用Rasmol等软件可以按PDB文件显示生物大分子的三维结构

    RCSB的PDB数据库网址:http://www.rcsb.org/pdb/

  • COG

    蛋白质直系同源簇数据库,依据系统进化关系分类建立。用于预测单个蛋白质以及整个基因组中蛋白质的功能

    COG库的网址:http://www.ncbi.nlm.nih.gov/COG 数据库:ftp://ncbi.nlm.nih.gov/pub/COG

  • SCOP

    蛋白质结构分类数据库,主要描述已知的蛋白质结构之间的关系,包含近缘的家族、远缘的超家族、空间几何结构折叠子(fold)等

    SCOP的网址:http://scop.mrc-lmb.cam.ac.uk/scop/

3.2 内容

这些数据来源是:基因组测序项目完成后获得的蛋白质序列

  • UniProtKB/Swiss-Prot:手工注释的、非冗余高质量的数据集
  • UniProtKB/TrEMBL:自动注释的未经校验的计算结果,为了弥补校验基因组数据人力不足的缺陷。可以注释所有可用的蛋白序列,包括三大核酸数据中注释的编码序列以及PDB的序列,另外还有Refeq、CCDS、Ensembl的基因预测序列 前两个合称UniProtKB(即UniProt Knowledge Base)
  • UniParc(UniProt Archive):包含所有公开的蛋白质序列【没有注释】,并且无论同一个蛋白质序列出现在多少个数据库,UniParc中只有一个记录。并且不管是否为同一物种的序列,只要序列相同就被合并为一条,还有唯一的UPI编号

第二级 主流数据库

基础数据库

HGNC

官网 https://www.genenames.org/ 整个数据地址在:ftp://ftp.ebi.ac.uk/pub/databases/genenames/new/tsv/hgnc_complete_set.txt

我们常说的“TP53”、“BRCA1”等就是官方认证的基因名

早在20世纪60年代研究者就已经认识到人类遗传学命名的问题,1979年在爱丁堡人类基因组会议(HGM)上提出了人类基因命名的完整指南。HGNC由美国国家人类基因组研究所(NHGRI)和 Wellcome Trust(英国)共同资助,其中的每个基因只有一个批准的基因symbol。2007年9月,HGNC迁至欧洲生物信息学研究所(EBI),加入PANDA(蛋白质和核苷酸数据库)小组

目前已经批准了近33000个symbol,绝大部分是蛋白编码基因,当然也包括假基因,非编码RNA,表型和基因组特征的symbol

这里列出了HGNC的统计数据http://www.genenames.org/cgi-bin/statistics

目前总共有41506个认证的基因symbol 编码蛋白的有19198个(大多有GO注释) 非编码RNA共7375个,包括lnc、micro、smallRNA等 假基因13188个;免疫相关、病毒相关基因有1174个

HGNC会根据不同类型的基因,提供不同的参考数据库:

  • 蛋白编码基因:提供uniprot的ID,例如“BRCA1”编码的蛋白质在uniprot数据库中ID是P38398;
  • microRNA基因:提供miRBase数据库的信息;
  • LncRNA基因:提供LncRNAdb的信息
  • 当然还有其他许多类型的基因也有各自的数据库链接
GeneCards

官网 https://www.genecards.org/

它真的很好的表达了“不生产数据,只运输数据”的理念,绝对的低调奢华有内涵。

2-1

它是由Crown HumanGenome Center创办并更新维护的人类基因数据库,整合了125个左右的数据库资料,涵盖了基因组、转录组、蛋白组、临床、功能信息等

从上往下,往细了说就是: 1 全称、属性(编码蛋白、基因簇、假基因等); 2 通用名、其他数据库ID号; 3 来自多个数据库对主要功能描述; 4 基因组相关信息:位置、DNA序列、转录因子、调控元件、表观遗传、甲基化; 5 蛋白相关:亚型、大小、二三级结构、翻译后修饰、蛋白抗体; 6 蛋白结构域及家族信息; 7 基因功能:GO、表型、互作miRNA、动物模型、siRNA、基因克隆、原位杂交 8 通路及互作蛋白; 9 相关药物与化合物; 10 转录本信息; 11 表达量:芯片、RNA、SAGE、共表达: 12 不同物种保守性 13 旁系同源基因、假基因 14 SNP与疾病相关 15 相关疾病 16 相关文献 17 外部其他100多个数据库链接

GenBank

官网 https://www.ncbi.nlm.nih.gov/genbank/ 文件下载:ftp://ftp.ncbi.nlm.nih.gov/genbank

它是NIH(National Institute of Health)附属的注释核酸数据库,两个月一次更新。刚开始1982年release3包含606条序列,共680338个碱基。现在已经到了227版。来源也扩充到了260000+物种,其中最多的是人类(约13%)

主要包括:

  • WGS(Whole Genome Shotgun):未注释的全基因组测序序列数据库

  • TSA(Transcriptome Shotgun Assembly):转录组测序组装序列数据库

  • TLS(Targeted Locus Study):特定位点研究

    【后来这三个为了避免重复统计,都开始各自单独统计】

一般我们下载核酸数据,都会发现有两个选项:FASTA和GenBank。FASTA只记录基因的精简信息,用ATCG表示出核苷酸序列就好了;而GenBank可以表示比较完整的基因序列信息 2-2

RefSeq

官网 https://www.ncbi.nlm.nih.gov/refseq/

参考序列数据库,包含具有生物意义的非冗余基因、转录本和蛋白质序列,经过NCBI及其他组织的校正,使用HGNC指定的标准名。这里的序列,就是可以用来对照的,其中包含染色体、基因组、RNA、蛋白等。

RefSeq与GenBank的不同就是:

  • GenBank开放,每个基因都有许多序列,研究者、公司都可以自己提交序列,而且它每天还和EMBL、DDBJ交换数据,因此数据冗余度高,准确度可能要低一些;有时会产生别名
  • RefSeq是按照人类每个位点挑一个代表序列构建起来的,并且是NCBI精挑细选后得到的,一般可信度较高;全部使用官方基因符号

每个条目的后面都会有状态信息:PROVISIONAL REVIEWED表示已被人工审核;PREDICTED表示没有经过审核;MODEL表示是由NCBI自动提交的,未经审核;INFERRED表示由序列预测得到的,没有实验验证,VALIDATED初步审查过,但还没最终审查

NR与NT

下载地址 ftp://ftp.ncbi.nih.gov/blast/db,解压缩后构建索引文件即可

NR:非冗余蛋白库 Non-Redundant Protein Sequence Database,包括所有的GenBank+EMBL+DDBJ+PDB中的非冗余蛋白序列。它以核酸序列为基础进行交叉索引,将核酸与蛋白质联系起来。对于已知的或可能的编码序列,NR记录中都给出了相应的氨基酸序列(由读码框推断)。

NT:核酸序列数据库(Nucleotide Sequence Database),是NR库的子集

dbSNP

官网 http://www.ncbi.nlm.nih.gov/SNP/ 数据库 https://ftp.ncbi.nih.gov/snp/

SNP是单核苷酸多态性,就是DNA序列中一个特定位点出现两个或者多个A、T、C、G的改变,这种多态性占所有已知多态性的90%以上。人类基因组中平均500-1000个碱基对就有1个SNP,目前发现了大概400万个SNPs。

单核苷酸多态性数据库是由NCBI与人类基因组研究所(National Human Genome Research Institute)合作建立的,起初的目的是对GenBank提供补充,后来并入了Entrez系统,可以直接查询。主要记录了单碱基替换、插入、缺失的情况。

数据库中最有用的目录是:

  • organisms:包含SNP数据的生物体,命名方式是:通用名_分类ID,例如:monkey_78449
  • database:包含模式、数据、创建表格与索引的SQL语句(这里要知道SNP数据库结构是“中心辐射状”,中心是dbSNPmain表格,辐射的是具体生物体的数据库)
  • specs: 目录包含重要的文件的格式,内容及其基本介绍
Taxonomy

下载地址 https://ftp.ncbi.nih.gov/pub/taxonomy/

分类数据库

重要的三个文件:

  • gi_taxid.nucl.dmp.gz(NT记录ID号与taxid对应关系)
  • gi_taxid.prot.dmp.gz(NR记录ID号与taxid对应关系)
  • taxdump.tar.gz(其中包含names.dmp和nodes.dmp) ​ names.dmp有四列,|分隔,包括记录号tax_id、物种名称name_txt、unique name、name class ​ nodes.dmp有13列,|分隔;物种分类注释时需要tax_id(Taxonomy记录号),parent tax_id(上一层分类级别的tax_id)和rank(该tax_id所处的分类层级)

3

专用数据库

GO

官网 www.geneontology.org/

这是一个强调基因产物功能的数据库,并非基因序列或基因产物数据库。

它建立的初衷是为了减少生物学定义的混乱,为了对各种数据库中基因产物功能的描述打造成一致的结果。项目最初是由1988年对三个模式生物数据库的整合开始:: FlyBase (果蝇数据库Drosophila),t Saccharomyces Genome Database (酵母基因组数据库SGD) and the Mouse Genome Database (小鼠基因组数据库MGD),现在已包含数十个动物、植物、微生物的数据库。它由国家人类基因组研究所 (NHGRI)以及欧盟RTD项目赞助,免费使用但必须引用基因本体联合会。

它的组织形式就是三级结构的标准语言,也叫做本体论(Ontology):

  • 分子功能本体论 基因产物个体的功能,如与碳水化合物结合或ATP水解酶活性等
  • 生物学途径本体论 分子功能的有序组合,达成更广的生物功能,如有丝分裂或嘌呤代谢等
  • 细胞组件本体论 亚细胞结构、位置和大分子复合物,如核仁、端粒和识别起始的复合物等

GO中的术语是如何与相对应的基因产物联系的呢?这就要靠参与合作的数据库来完成,它们使用GO的定义方法,对基因产物(基因编码的RNA或蛋白质)标注并提供理论支撑,并给出基因产物和GO术语联系的数据库(当然术语不能太长,能粗略估计就好)。这样可以帮助判断蛋白结构域功能,预测某种疾病相关基因,分析发育过程中共表达基因,找到某些异常表达基因的功能相关性等。

GO推荐的注释是针对基因产物的而不是基因的,因为一个基因可能编码多个具有很不相同性质的产物,这样有助于更好地阐明基因产物和GO术语之间的联系。

需要注意的是,GO注释都是反映的正常情况下的基因产物的功能,不包括突变或者病变的情况

GO数据有三种格式:flat(每日更新)、XML(每月更新)和MySQL(每月更新)

KEGG

官网 http://www.kegg.jp/

全称是:Kyoto Encyclopedia of Genes and Genomes,大概可以分为系统信息、基因组信息、化学信息和健康信息四大类,共包含了17个主要的数据库,是生物体代谢网络分析重要的工具。其中最核心的是KEGG Pathway数据库,又分为3个层级:

  • 第一层级:生物代谢通路分为7个大类,新陈代谢、遗传信息加工、环境信息加工、细胞过程、生物体系统、人类疾病、药物开发;
  • 第二层级:将第一层级中的7个类别进一步细化;
  • 第三层级:直接对应KEGG 的pathway,每一个pathway都标示参与该过程的基因

基于KEGG注释结果,可以快速寻找某类功能的基因,同时构建代谢通路图;并且将各步反应催化的酶的信息进行标注,还加上了氨基酸序列信息,支持链接到PDB

GEO数据库

官网 https://www.ncbi.nlm.nih.gov/geo/ 快速查找GEO:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE17708 (只要将17708换成其他数字即可抵达)

随着测序技术越来越先进,数据产量也越来越大,NCBI为了整合零散的基因表达数据,开始了基因表达汇编计划,建立了最大最全面的基因表达数据仓库(Gene Expression Omnibus)。

数据来源可以是芯片数据、SAGE、高通量测序mRNA、lncRNA等

数据存放:四种类型GSE、GSM、GPL、GDS

  • GSE将整个项目的一系列样本和平台联系起来,比如GSE17708(都是GSE+数字)GSE=GPL+GSM
  • GSM对应一个样本的数据,只能对应一个平台,表示每个样本操作环境
  • GPL就是平台信息,包含微阵列或者测序平台简要描述(GPL+数字)
  • GDS就是同一个平台的数据集:如微阵列进行的表达谱分析或则非编码RNA分析;微阵列进行的ChIP分析、甲基化分析;高通量测序;SNP阵列;蛋白质阵列

数据下载:利用R包GEOquerygetGEO函数

OMIM数据库

官网 https://www.omim.org/

20世纪60年代,Dr. VictorA. McKusick发起建立人类孟德尔遗传的知识库,希望通过书籍出版的方式传播孟德尔遗传的表型性状和基因的知识。1995年,OMIM由国家生物技术信息中心NCBI为web开发

它的全称是:Online Mendelian Inheritance in Man(在线人类孟德尔遗传),截止2018年10月13日共收录了24705个词条,主要包括15981个基因词条和5337个已知分子机制的表型词条,包含了有关所有已知孟德尔病症

主要根据OMIM号左上角的符号区分: *表示基因,如*113705 +表示基因与表型组合,如+133430 #表示已知分子机制的表型,如#114480 %表示未知分子机制表型,如%607086

输入一个基因(不区分大小写),就会检索相应的词条:

  • 中心部位是全称、HUGO symbol(也就是官方命名,不是别名)、在染色体上位置、物理位置
  • 左侧是描述信息、克隆表达、基因结构、基因功能等;
  • 右侧是有关基因的外部链接;
  • 中心区域还包括表型检索号,点击就会得到相应表型信息。左侧是临床特征、遗传模式、分子机制等;右侧是有关表型的链接

4

ClinVar

官网 https://www.ncbi.nlm.nih.gov/clinvar/ 数据库 ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/

NCBI维护的与疾病相关的人类基因组变异数据库,整合了dbSNP、dbVar、Pubmed、OMIM等多个数据库,整理出变异、临床表型、实验数据、功能注释的信息,并且经过专家评审。因此ClinVar中有的,dsSNP中也有

系统采用星标打分,评估某个特定突变在疾病中的注释。四星等级最高,表示这个突变经过了大多数专家的认可;而没有星的,一般就是没有实验验证,不能提供理论支持。

clinvar的注释,可以寻找出对应的基因变异信息,发生频率,表型,临床意义,评审状态以及染色体位置等。


第三级 ID

之前在“一个萝卜一个坑https://www.jianshu.com/p/8ad714617fca”中提到了一些,比如Entrez ID、Ensembl ID等,这次再进行一个补充

BRCA1基因ID示例ID数据库来源
BRCA1HGNC gene symbol
1100HGNC ID
672Entrez ID, NCBI
ENSG00000012048Ensembl
NC_000017.11RefSeq, NCBI
P38398UniProt, accession number
BRCA1_HUMANUniProtKB/Swiss-Prot, entry name
U14680.1GenBank
555931GenBank GI
Gene Symbol 命名

【最容易辨认】全部由大写字母(或加数字)构成;当然也有HGNC自家的纯数字ID

Entrez ID 命名

【最广泛使用】纯数字表示,并且【再次提醒:不同物种的基因ID是不同的!】 多种工具支持Entrez ID与其他ID相互转变,除了clusterProfiler,还有ensembl下属的biomart

Emsembl ID命名

根据不同物种设置的前缀 + 数据类型(基因/蛋白质)+ 一系列的数字(例如版本号就以小数点体现)

2-3个月更新一次,目前是version 94。可以保证大多数情况下每次更新后名称保持稳定; 但是如果是数据自身发生变动(比如转录本更改),虽然主要ID信息不变,但是会增加小数,代表版本号。只有当变动特别大,比如重新组装基因组,才会更改整体名称。可以通过Ensembl的history ID来查看历史版本

Ensembl物种前缀名称
ENSHomo sapiens (Human)
ENSMUSMus musculus (Mouse)
ENSRNORattus nornegicus (Rat)
ENSCAFCanis lupus familiaris (Dog)
ENSDARDanio rerio (Zebrafish)
FBDrosophila melanogaster (Fruitfly)
ENSXETXenopus tropicalis (Xenopus)
Ensembl类型前缀名称
Eexon
Ggene
Pprotein
Ttranscript
FMEnsembl protein
Rregulatory feature
GTgene tree
RefSeq ID 命名

模式是:两个大写字母+一个下划线+大于6个数字

RefSeq前缀类型说明
AC_GenomicComplete, alternate assembly
NC_GenomicComplete, reference assembly
NG_GenomicIncomplete genomic region
NT_GenomicContig or scaffold, clone-based or WGS
NW_GenomicContig or scaffold, primarily WGS
NS_GenomicEnvironmental sequence
NZ_GenomicUnfinished WGS
NR_RNA
NM_mRNA
XM_mRNAPredicted model
XR_RNAPredicted model
AP_ProteinAnnotated on alternate assembly
NP_ProteinAssociated with an NM_ or NC_ accession
YP_Protein
XP_ProteinAssociated with XM_
ZP_ProteinAssociated with NZ_
GenBank ID

【逐渐被refseq替代】AC号或者GI号 AC号:一般是一个大写字母加5个以上的数字,或者两个大写字母加上6个数字的组合 gi(GeneInfo identifier)号:只是一串数字,与AC号没关系

当数据发生变动,AC号主体不动,像ensembl一样更改小数点后的数字;而gi号会全部变动

UniprotKB ID

每个收录的数据都有一个唯一的Entry name或者Accession number。 Entry name最多支持11个字符的字母+数字的格式。命名方式是:“X_Y” 的形式,X是最多五个便于记忆的蛋白质编号,Y是最多五个便于记忆的物种编号,例如: 蛋白质/基因缩写+下划线+物种编码(属名前3个字母+种名前2个字母)

Accession number是最稳定的ID形式,并且唯一

蛋白编号蛋白名称基因名称
CAD17cadherin-17CDH17
HBAHemoglobin subunit alphaHBA1
BRCA1Breast cancer type 1 susceptibility proteinBRCA1
物种编号物种
HUMANHomo sapiens
RATRat
PEAGarden pea
SNP ID 命名

命名并不统一,NCBI中对所有提交的snp进行分类考证之后,都会给出一个rs号,也就是参考snp,并且会给出相关的snp信息,包括前后序列、位置信息、分布频率等。一般的命名是:feature ID后面加7-8位数字,如rs12345678或者dbSNP|rs12345678

UCSC ID

其实之前还有ucsc的数据,uc+3位数字+3位字母但是现在已经差不多被放弃

参考:

  1. https://www.ncbi.nlm.nih.gov/books/NBK143764/
  2. https://asia.ensembl.org/info/about/index.html
  3. https://guangchuangyu.github.io/cn/2017/03/bed%E6%96%87%E4%BB%B6/
  4. 关于HGNC的ID转换https://www.jianshu.com/p/07663121c0d0
  5. 关于GO:http://fhqdddddd.blog.163.com/blog/static/1869915420128289474633/
  6. 关于refseq http://liucheng.name/379/
  7. 关于dbSNP http://blog.sina.com.cn/s/blog_751bd9440102w6rm.html
  8. 直播基因组67: clinvar数据库
  9. 重新了解一下clinvar数据库 https://mp.weixin.qq.com/s?src=11×tamp=1539611864&ver=1184&signature=iPRDX8lNVuGrNwemlfTeXXrSxOOly802EBhgYP0DgHtW2WqnxJVQ*GXTsW0mYAxn57EZAnXog29Tg08hit7exmHprwqJuBLt-NoBC8ahcSuFzhl2uNl1Ek2tIfZpCZYP&new=1
Yunze Liu
Yunze Liu
Bioinformatics Sharer

Co-founder of Bioinfoplanet(生信星球)

Next
Previous

Related