评论

生信文章:中国人群数据库介绍

目前国外公开的数据库里中国人群样本数量不多,中国人群和其他人群在基因上还是存在一些差异,经过国内科学家的不懈努力,近几年国内也发表了不少数据库。小编收集了四个中国人群数据库做介绍,用于学习交流,并制作成annovar可用的格式(文件仅用于学习交流,如需商业工作请联系数据库原单位)。

1.Chinamap(//www.mbiobank.com/)

由国家代谢性疾病临床医学研究中心(上海)基于上海交通大学医学院附属瑞金医院牵头开展了多项覆盖全国的队列研究,依托转化医学国家重大科技基础设施(上海)和医学基因组学国家重点实验室,实施了中国代谢解析计划ChinaMAP (China Metabolic Analytics Project)。

2020年4月30日,ChinaMAP联盟携全国29家研究机构和医院,在中科院上海生命科学研究院主办的Cell Research杂志发表了长文章“The ChinaMAP analytics of deep whole genome sequences in 10,588 individuals”,首次报道了ChinaMAP一期研究对覆盖全国27个省份和直辖市,8个民族,超过1万人的高深度(40X)全基因组测序数据和表型的系统性分析。完成了高质量的中国人群遗传变异数据构建、中国人群体结构分析、基因组特征比较以及变异频谱和致病性变异解析。在ChinaMAP一期数据库中,包含1.36亿个基因多态性位点(SNP)和1千万个插入或缺失位点(INDEL),其中一半是在国际通用的dbSNP、千人基因组、gnomAD和TOPMed数据库中均没有的新位点。

ChinaMAP数据库文章针对其他人群数据库、东亚人群、中国汉人群和中国各省人群做比较,基于SNPS使用PCA的方法,展示各人群间的差异。

1. ChinaMAP(中国人群)与1KGP 和 HapMap人群数据库比较

2. 东亚人群的比较

3.汉人群的比较

4. 各省和地区人群的比较

2.WBBC(https://wbbc.westlake.edu.cn/)

中国的研究团队在杂志Nature communications上发表了一篇题为“Genomic analyses of 10,376 individuals in the Westlake BioBank for Chinese (WBBC) pilot project”的文章。研究团队启动了中国西湖生物银行(WBBC)项目,以在大规模队列中描述基因组变异和群体结构,收集约10000个具有深层表型的样本。描述了中国34个行政区中的29个行政区10376个样本的WBBC试点项目的基因组发现。该项目使用NovaSeq 6000平台上对4535人进行了WGS测序分析。此外,6025名个体通过高密度Infinium Asian Screening Array(ASA)进行了基因分型,其中184名个体也进行了全基因组测序。研究团队提供了一个基于中国人群的参考panel,可以显著改善中国人口的基因型填充性能,尤其是对于低频和罕见变异。通过分析WGS数据,研究团队发现SNX29、DNAH1和WDR1基因中存在选择特征,酒精代谢基因的衍生等位基因(ADH1A和ADH1B)大约出现在7000年前,在4000年前的东亚更为常见。遗传证据支持秦岭-淮河线和南岭山脉的相应地理边界,这将汉族划分为不同亚群,同时,研究团队发现北汉族比南汉族更同质。

采样人群在中国各省的分布和变异的统计

该数据提供了下载链接

3.Huabiao (https://www.biosino.org/wepd)

2021年8月18日,Journal of Genetics and Genomics在线发表了复旦大学金力院士团队题为“The HuaBiao Project: Whole-Exome Sequencing of 5,000 Han Chinese Individuals”的研究论文。该研究对来自中国郑州(华北)、泰州(华东)、南宁(华南)三个代表性汉族群体的5000个体进行外显子测序,构建了“华表”中国外显子组数据库。

目前,“华表”数据库共包含207万个遗传变异,其中46.4%的遗传变异为该研究首次发现。全球研究人员都可以通过布设在中国生物医学大数据中心(上海)网站下的数据库子站(https://www.biosino.org/wepd)快速检索相关遗传变异的频率信息。

华表数据库中的样本,均与由复旦大学人类表型组研究院教授石乐明团队原创研发的“中华家系一号”生物标准物质(http://chinese-quartet.org/)进行了比较验证,结果显示,“华表”标准品遗传数据SNP精度(precision)达到99%。科研人员还将“华表”样本与同样本另一种技术路线——全基因组芯片数据进行比较,结果显示一致率达到99.8%。

4.NARD(https://nard.macrogen.com/)

该数据库不算纯中国人数据,国内相关介绍比较少。主要研究人群是韩国、蒙古、日本和中国东北亚人群。使用全基因组测序共1779个人,中韩国人850个,蒙古人384个。发表论文“whole-genome reference panel of 1779 Northeast Asians improves imputation accuracy of rare and low-frequency variants”。

总结:以上四个数据可以相对肿瘤来说都是正常人群,前3个是纯中国人群,第四个是东北亚人群。

小编制作的annnovar使用文件链接:https://pan.baidu.com/s/1k-zTeRt6ATiCJ9UhkXj1Wg

提取码:xt64

参考

1.https://www.seqchina.cn/11976.html
2.https://new.qq.com/rain/a/20210830A0DOTB00
3.https://brgg.fudan.edu.cn/articleinfo_3949.html
4.https://new.qq.com/rain/a/20210831A06VM300
5.https://zhuanlan.zhihu.com/p/526832391
6.https://zhuanlan.zhihu.com/p/526832391

返回搜狐,查看更多

责任编辑:

平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
阅读 ()