GCTA 金鑫:百万基因组时代的基因组大数据(上)

 

说到百万基因组计划,不得不提第一个基因组项目这样一个从零到一的质变过程。第一个人类基因组其实就是“人类基因...



昨天科技君分享了华大股份尹总的ppt后,反响热烈,也收获了很多的很多的人气。其实在这次的“第一届基因组云计算技术开发者大会”上不但有高屋建瓴的行业分析指导,还有很多基于实际应用技术的解读分享。既然大家爱看,科技君就赶紧忙着搜集整理啦。

今天带来的是华大股份研发大数据总监 金鑫,会议现场的ppt精华版,和大家聊聊如何看待《百万基因组时代的基因大数据》。

由于页数比较多,我们就分为上、下两期发布。幻灯片制作的也非常精美,有不少动态效果,但是在图文分享里这样的效果就展现不出来了,是件比较遗憾的事情,所以建议大家以后有机会亲自来参会吧,一定收获满满!( “喂,会议组委会,关于这几次会议软广的费用我们是不是可以聊一下?”)(“想得美!”)

以下奉上会议PPT原文:







说到“百万基因组”,不得不提全世界第一个人类基因组项目--这样一个"从零到一"的质变过程。



第一个人类基因组其实就是“人类基因组计划”,它耗时13年,总共花费30亿美金,但同时也创造了8000亿的产业机会。华大也是因为承担1%人类基因组计划才应运而生的。



从第一个人类基因组计划到第一个亚洲人基因组图谱,再到2010年的千人基因组项目,基因组学在这短短的十几年时间里收获了很多成就。



百万基因组是精准医学的基础,是BT与IT产生强烈化学反应的“奇点”。



无论是英国的“10万人基因组计划”,美国的“100万人基因组与精准医疗计划”还是中国“十三五”中提及的精准医疗计划都是在为个性化的“精准医学”这一大目标做数据铺垫。



事实上,华大基因在2011年就发起了名为“3M”的计划,这里的“M”表示英文中的“Million”即“百万”。3M即代表3个一百万,包括:一百万动植物,一百万微生物和一百万人。



2016年3月20日,华大基因完成了第一个“百万”的项目。它就是目前基因组学在临床上应用最普及,技术最成熟的无创产前诊断项目“NIFTY”,这一百万的样本来自全球62个国家。



与国外几家知名的基因检测公司比较,华大的检测数据量遥遥领先。



接下来仔细看看“突破百万样本量”的NIFTY数据究竟长啥样子?



首先了解下NIFTY数据的产生原理是什么? 孕妈妈的 5 ml 血液样本中藏着很少量宝宝的游离DNA,通过高通量低深度的全基因组测序可以检测出宝宝的很多遗传信息。


国内的百万NIFTY样本分布,几乎覆盖了每个省和自治区,颜色的深浅代表了样本数量的多少。从图中可以看出样本最多的三个省份是:广东,四川和湖北。



我国有56个民族,目前图中标灰色的民族在我们的样本库中还是欠缺的。如果大家身边有这些民族的孕妈妈想做无创产前检测,可以推荐给华大,我们可以为她们提供免费检测



从图中可以看出,孕妈妈的年龄分布有两个峰值,一个是在28岁,另一个是在35岁。前一个峰值说明目前我国适龄孕妇主要集中在28岁,后一个则体现了NIFTY检测的针对人群,因为孕妈妈年龄超过35岁以后,孩子患“三体”的风险会明显增加。



丰富的表型信息也为后续的信息挖掘提供了充足的数据支持。



在孕妈妈的5ml血样中,宝宝的游离DNA只占5%,而宝宝的DNA又是50%来自父亲,50%来自母亲。这样一来,每一份样本数据几乎涵盖了爸爸,妈妈和宝宝一家三口的遗传信息。因此说100万份的样本约等于300万份的数据信息。


数据的随机性也是很多人关注的问题。蓝色柱状是NIFTY样本数据的分布,红色虚线是比对基因组随机打断样品的分布趋势,两者非常一致,说明NIFTY数据在全基因组中分布的随机性很好。

后续很精彩,敬请期待吧!

【说明】PPT中部分数据来自华大基因100万NIFTY®数据分析所得(所有受检者均已签署知情同意书),不能代表整体情况,仅供参考。

可能感兴趣:

  • 基因组云计算技术开发者大会在深召开 “中国生物信息云计算产业联盟”成立
  • GCTA | 华大股份CEO尹烨带大家:登山观海,风云并驱!

关注华大科技,尽享精彩科研!


    关注 BGI华大科技


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册