30x全基因组分析需要多久?他们只用了两个小时

 

一个30倍测序深度的人类全基因组数据FASTQ文件大约是200GB,单台高端服务器上对该数据进行计算分析需要20小时以上。在第四届NGS创新开发者大会上,格致大数据在现场进行了展示,只需两个小时,便完成了从FASTQ到VCF的整个处理流程。...



生物探索

编者按

一个30倍测序深度的人类全基因组数据FASTQ文件大约是200GB,单台高端服务器上对该数据进行计算分析需要20小时以上。而在3月31日的第四届NGS创新开发者大会上,格致大数据在现场进行了展示,只需两个小时,便完成了从FASTQ到VCF的整个处理流程。

图1:NGS创新开发者大会活动现场


过去几年二代测序(NGS)技术快速发展,精准医疗也作为战略新兴产业被正式列入国家“十三五发展规划”。随着最新一代NovaSeq测序仪的投入使用,个人全基因组的测序价格即将进入到百美元时代,随之而来的海量基因组数据的计算速度慢、分析效率低下、存储困难、成本高等问题成为了行业的重大挑战。基因数据的计算与解读一直都是基因检测的重要环节,在数据激增的情况下,如何更快速,更准确的进行数据分析和解读,以及低成本的存储,将是基因检测领域下一个命题。

据了解,一个30倍测序深度的人类全基因组数据FASTQ文件大约是200GB,单台高端服务器上对该数据进行计算分析需要20小时以上。随着精准医学及基因检测技术的普及,一个三甲医院一天可能产生的样本数量可能达到上百个;这些测序数据的分析计算不仅耗时长达数日,并且数据传输的本身,不管是线上还是线下,都存在着安全隐患并在传输过程中浪费了数天时间。

针对这个问题,格致大数据的团队带来了他们的解决方案。2017年3月31日,第四届NGS创新开发者大会在杭州梦想小镇盛大开幕,南京格致基因生物科技有限公司旗下专注于基因大数据处理技术研发和解决方案提供的格致大数据携自主研发的Xiphias高性能生物信息计算平台重磅亮相。

据格致大数据总监黄柯博士介绍,Xiphias高性能生物信息计算一体机搭载了自主研发的基因数据处理芯片,大大提升基因数据处理速度,提供了从原始数据到报告生成的全流程一键解决方案。处理30倍深度人类全基因组数据,一台Xiphias一体机只需要两个小时完成从FASTQ到VCF的整个处理流程;5节点的Xiphias集群更能进一步提高效率,在数分钟内完成序列比对、半小时内完成整个处理流程。并且所有分析工作全部在本地完成,无需进行数据的线上传输或线下邮寄,最大限度保证用户数据的安全及隐私。

黄柯博士还表示他们将在今年下半年推出Xiphias2.0,Xiphias2.0会在Xiphias1.0的基础上实现更高的加速比,预计可达到 30~50 倍的数据处理加速比。在不久的将来,越来越多的基因数据分析应用,将有望成为“立等可取”的实时服务。
图2:Xiphias生信计算平台示意图


Xiphias 高性能生物信息计算一体机搭载了格致大数据自主研发的基因数据处理芯片,利用软硬件协同的方式极大地提高了基因数据处理效率。传统的生物信息学分析应用,流程步骤多,操作复杂。针对这一问题,Xiphias提供了从原始数据到报告生成的全流程一键解决方案,满足基因检测公司及医院临床的使用需求。同时,Xiphias也为科研机构、测序中心、医疗机构提供方便快捷的本地化计算解决方案,保证数据的安全。
图3:Xiphias数据分析流程
图4:Xiphias压缩性能示意图
图5:Xiphias一体机性能示意图
图6:Xiphias集群性能示意图
*Server: Intel Xeon E5 20core CPU @ 2.3GHz + 256GB DDR4 + 1TB SSD
黄柯博士介绍到,Xiphias生信计算一体机有着较传统软件近十倍的加速比,Xiphias集群更可达到数十倍的加速,可以快速对基因数据进行比对、排序、压缩及变异识别等分析,为基因数据计算的痛点、难点提供了高效易用的完整平台。目前Xiphias已建立了完整的一体化数据分析流程,相较传统软件具有更强的扩展性,更快的速度,更高的可靠性,更低的使用成本,更好的适应未来海量基因数据对快速分析及数据安全的需求。
End
本文系生物探索原创,欢迎个人转发分享。其他任何媒体、网站如需转载,须在正文前注明来源生物探索。


    关注 生物探索


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册