国家基因库生命大数据平台CNGBdb

1 CNGBdb 是什么?

国家基因库生命大数据平台(China National GeneBank DataBase, CNGBdb)是一个为科研社区提供生物大数据共享和应用服务的统一平台(Science as a Service),基于大数据 和云计算技术,提供数据归档、计算分析、知识搜索、管理授权和可视化等数据服务。目前 CNGBdb 整合了来源于国家基因库、NCBI、EBI、DDBJ 等平台 的数据,包括文献、变异、基因、蛋白质、序列、项目、样本、实验、测序、组装 10 个结构的大量分子数据和其他信息,通过 CNGBdb 搜 索建立索引,并将这些数据与样本甚至样本活体相关联,从而实现数据从活体到样本再到信息数据全过程的可追溯性,达成综合数据的全贯穿。

2 CNGBdb 数据资源

CNGBdb 基于国家基因库“三库两平台”的数据源,及外部的 NCBI、EBI、DDBJ 等数据源,遵循 INSDC、DataCite、GA4GH、GGBN、ACMG 等国际标准联盟标准,构建了覆盖文献、基因、变异、蛋白等数据结构,提供数据归档、查询检索、计算等数据共享和应用服务。

CNGBdb数据

文献库

文献数据库提供了生物医学方面的论文检索,支持中英文双语检索。文献数据源包含了来自于 GigaScience、Pubmed、Europe PMC 等数据库文献数据。主要信息包括文献标题,摘要,医学关键词,引用和参考文献,文献相关数据等。

基因库

基因数据库提供了多物种的基因信息检索。基因库的数据来源主要为 NCBI Gene 等外源数据库的基因信息。主要信息包含基因名称、染色体位置、基因产物和它的属性、基因所在的基因组、基因序列、基因变异等。

变异库

变异数据库提供了比较全面的人类基因组变异检索,数据源包含了 dbSNP,dbVar,ClinVar 等变异库。主要信息包括变异名称(HGVS 名称),基因组位置,相关物种,人群频率以及变异数据与疾病、表型、文献等数据关联。

蛋白库

蛋白数据库提供了多物种蛋白质序列和相关信息的检索,数据源主要为 Uniprot 等。主要信息包括蛋白名称、蛋白长度、物种、编码蛋白的基因等。

序列库

序列数据库提供了多物种的核酸序列及蛋白序列的检索,数据源主要为 NCBI Refseq,Genbank,WGS,TSA 等。主要信息包括序列名称,序列长度,物种,fastq 序列文件等。

项目库

项目数据库提供了多种类型的公开项目信息检索,数据源主要为国家基因库核酸序列归档系统归档的项目数据和 NCBI BioProject 的公开项目数据。主要信息包括项目的名称、描述、数据类型等,帮助用户快速找到不同类型的数据集。

样本库

样本数据库提供了实验用到的生物来源的材料信息检索,数据源主要为国家基因库核酸序列归档系统的样本数据,EBB 归档的样本实体数据和 NCBI BioSample 公开的样本数据。主要信息包含样本的名称、物种、样本类型、描述等。

实验库

实验数据库提供了建库方法、测序仪器、测序方法等实验信息的检索。数据来源为国家基因库核酸序列归档系统的实验数据库和 NCBI SRA 公开的实验元信息。主要信息包含了实验的题目、测序平台、文库构建策略、文库来源、文库选项等。

组装库

组装数据库提供了基因组组装相关信息检索,数据来源为国家基因库核酸序列归档系统归档的组装数据和 NCBI Assembly 的公开数据。主要信息包括组装的名称、分子类型、测序技术、组装方法等。

3 热门数据库

科学数据库将基于 CNGBdb 的底层数据结构和数据,构建不同领域方向的数据应用,旨在针对不同的研究领域提供科学数据服务,如生物多样性、微生物、癌症、免疫、生殖健康、病原等,满足不同领域的研究人员需求,提升数据价值,促进数据开发应用。

生物多样性

OneKP: 千种植物数据库

千种植物项目(1KP)是一个国际多学科联盟项目,对超过 1000 种植物进行了大规模测序研究。数据库基于千种植物数据构建了在线 BLAST 平台,提供在线 BLAST 服务。

资源链接 https://db.cngb.org/onekp/

MilletDB:谷子数据库

谷子数据库是基于深圳华大基因研究院和张家口市农业科学院等单位谷子基因组研究项目数据设计,该数据库创新的将谷子的表型和基因型贯穿起来,通过谷子的表型信息可以查询和检索谷子的基因型信息,通过基因型可以查到对应的表型信息。数据库的另一个特色是基于生物大数据的技术,利用数据库 2000 多份谷子材料,记录的 40 种左右的谷子表型信息,利用机器学习方法(包括 K 近邻,随机森林和支持向量机算法等)针对上述基因型和表型的数据建立模型。模型最终实现从品种的基因型来预测品种表型,助力于智能分子育种。

资源链接 https://db.cngb.org/millet/

B10K: 万种鸟基因组数据库

万种鸟类基因组项目(B10K)计划在未来五年(2015-2020 年)对所有现存鸟类中具有代表性的鸟类基因组进行测序分析。B10K 项目将完成整个鸟类生物的基因组水平生命树,解读遗传变异与表型变异之间的联系,揭示广泛种类的遗传进化与生物地理学和生物多样性模式的相关性,评估各种生态因素和人类影响对物种进化的影响,揭示种群进化历史。

资源链接 https://b10k.genomics.cn/

FishT1K:千种鱼转录组计划

2013 年 11 月,BGI 正式启动“千种鱼转录组计划”(Fish T1K)。该项目旨在解密鱼类起源、进化、生殖、发育、性别调控和免疫等活动机制,以更好应对鱼类育种、疾病防控、海洋食品安全和生物多样性保护等带来的诸多挑战。项目计划在未来 3 到 5 年内完成约 1000 种鱼类转录组的测序、组装工作,并构建高质量的鱼类转录组数据信息平台。FishT1K 数据库将建立首个专门针对鱼类组学研究的数据存储,应用,共享平台,并将大大深化我们对鱼类的比较生理学、生物地理学认识,促进鱼类资源医用价值的挖掘、经济和生态价值的开发,以及生物多样性保护等问题的解决。

资源链接 https://db.cngb.org/fisht1k/

微生物

MDB:微生物组数据库

微生物组数据库(MDB)是一个关注人体共生微生物研究的数据库,提供该领域相关的样本和微生物数据。人体微生物数据库目前涵盖了来自 8 个人肠道微生物研究项目的 1443 例粪便样品的测序数据和表型信息,以及一个迄今为止最完整的人肠道微生物基因集,数据量合计达到 83G。二期的 MDB 样品也将覆盖唾液、牙菌斑、皮肤、生殖道菌群等更多类型。

资源链接 https://db.cngb.org/microbiome/

癌症

DISSECT:癌症数据集成与整合分析平台

癌症数据集成与整合分析平台(DISSECT)将立足于建立国内最全面的癌症大数据集成系统,在大数据研究的带动下,进行规模化、规范化的数据平台建设。DISSECT 数据平台已在中国内地首次建立 ICGC Data Portal(目前最大规模的癌症基因组数据库)镜像站点,为国内研究者提供重要的资源渠道;该系统最大的价值将在于对集成多组学数据进行单一癌种大样本或跨癌种大样本的深度挖掘分析,支撑中国肿瘤精准医学方向的发展。

资源链接 https://db.cngb.org/dissect/

免疫

PIRD:免疫数据库

免疫数据库(PIRD)主要关注人体相关的免疫数据,收集了多种疾病的 BCR 和 TCR 测序数据,与及对应个体的实验信息,表型信息等。该库一期已储存了 1923 份样本数据,554696060 条序列。PIRD 为疾病健康领域研究者和临床医生提供数据比对和可视化分析服务,解决对数据和分析工具等迫切需求。

资源链接 https://db.cngb.org/pird/

生殖健康

百万中国人基因数据库

百万中国人基因数据库(CMDB)是由 BGI 构建的迄今为止最大规模的中国基因组数据库,数据存放于国家基因库。CMDB 通过分析数百万中国人的测序数据,提供定期、有用的变异信息和科学见解。研究结果旨在促进中国人群的遗传学研究以及精准医学事业的发展。

资源链接 https://db.cngb.org/cmdb/

罕见病数据库

罕见病数据库(GDRD)是一个综合的遗传病和罕见病研究与应用平台,关注人类遗传变异和表型信息的收集、存储、分析、挖掘,致力于促进领域内数据的共享、交流与合作。当前 GDRD(一期)整理了 BGI 发表的以及来自 clinVar 和 OMIM 数据库中的数据,共计约 7000 余篇文献,1 万多个致病变异,近 300 个遗传病家系的信息。

资源链接 https://db.cngb.org/gdrd/

病原

PVD: 病原数据库

病原数据库,整合了各种病原微生物的基因数据及相关的注释信息,关注人源样本未知感染病原的鉴定及检测,提供全面的基因测序数据的病原鉴定功能,通过数据分析和可视化手段,一目了然地展示鉴定结果。同时还提供特殊关注的几种病原(HBV/HIV/HCV/HP)的毒力鉴定和相关的耐药信息,为医患及研究者提供快速全面的病原检测服务。

资源链接 https://db.cngb.org/pvd/

4 国家基因库“三库两平台”

2011 年 01 月,国家发展改革委员会批复,依托深圳华大基因研究院组建深圳国家基因库。国家基因库“三库两平台”,的“三库”由生物样本资源库、生物信息数据库和生物活体库组成,“两平台”为数字化平台、合成与编辑平台。国家基因库以对海量生物资源的存、读、写能力为基础,搭建起基因资源挖掘的公益性、开放性、支撑性、引领性服务平台。CNGBdb 基于国家基因库的活体、样本和数据资源,提供多种生物大数据共享和应用服务。

国家基因库的一个主要优势在于,构建了覆盖生命周期的活体库、样本库、信息库,CNGBdb 将三库的信息贯穿相互关联,提供对外数据共享服务,使生物数据在整个生命周期中可追溯。

三库两平台

CNGBdb 数据归档,数据搜索,数据计算,科学数据库等服务外部数据源主要来自于 NCBI,EBI,DDBJ,HPO,CHPO,ICGC,TCGA,cBioPortal,Uniprot,MSK-IMPACT,5ExAC,1000Genomes,NIFTY database,WoRMS,NHLBI ESP,NIEHS EGP,HGDP,Phytozome,dbNSFP,EVS,GWAS 等数据库的公开数据。CNGBdb 提供的所有公开数据及数据服务,对于全世界的用户都是免费的。

来了,老弟
-------------    本文结束  感谢您的阅读    -------------
0%