随着测序技术和基因组学的发展,基于基因测序的临床诊断和个体化医疗等实际应用离我们越来越近。然而,基因组数据呈现指数级增长,相应的数据处理与分析正面临着大规模数据和密集计算所带来的时间和成本上的巨大挑战,并影响着基因组学研究进程。面对日益增长的基因分析需求,如何解决大数据存取能力以及计算能力不足等瓶颈问题,成为当下基因组学研究和应用面临的一大难题。
解决方案
云计算被认为是解决海量数据处理的最佳方案之一,然而通用的云计算平台必须能够支持各类软件,只能选择兼容性最好的x86硬件平台,大规模的计算平台其成本和能耗较高。而基因组学分析涉及的计算类型较少,依靠NVIDIA(英伟达)Tesla的全新硬件,可望用更少的硬件和成本达到同样计算处理能力,实现绿色计算。目前,我们在NVIDIA(英伟达)Tesla平台上,设计开发了针对基因信息数据的高效压缩工具,同时针对造成分析瓶颈的计算任务,如序列比对、变异检测等基本工具,利用GPU技术进行加速,从而提高分析效率,并降低数据存储和计算分析的成本。
结果
基因组学数据的数据量需要在压缩技术方面进行更多的研究。按照这类数据的特点,采用以列为主的分块压缩方式,我们针对Tesla GPU设计了一组压缩算法,在保证压缩率的前提下极大地提升了压缩速度。以常用的FASTQ和SAM格式为例,相比使用gzip或bzip2压缩,压缩速度可达到10倍的性能提升。高效的压缩工具可以直接减少处理时间,间接提高数据传输效率,降低存储成本。
在基因研究和临床医疗应用中,序列比对和寻找基因变异是两个重要分析步骤。两者也是主要的计算瓶颈,特别在临床应用上具有更高的时效性要求。为此,我们借助NVIDIA(英伟达)Tesla平台,开发了应用于序列比对的SOAP3/SOAP3-DP,以及分别用于个体和群体基因变异分析的GSNP和GAMA。
SOAP3/SOAP3-DP设计了新的索引数据结构,针对Tesla GPU架构做了充分优化,性能是其它主流软件的数十倍,并且具有更高的准确率和比对率。解决了基因研究中最基本的分析瓶颈,同时提高了后续基因变异分析的准确度。
GSNP与其前身相比,采用稀疏表达格式优化数据结构,同时运用Tesla GPU实现高通量数据并行,原来处理一个人的数据需要三天以上的时间,GSNP仅需2小时左右,从而使得个体变异检测初步达到快速临床应用的要求。
GAMA引入GPU的并行计算技术对多个位点进行处理,加速计算过程。五百人规模计算分析,用普通计算机需要超过4年时间才可能完成,如果将计算在多块GPU上并行进行,可以使计算时间缩短到数小时。这一效率的提升使得生物学家可以加快解析基因变异与疾病关系的步伐。
借助NVIDIA(英伟达)Tesla平台,综合利用以上技术和软件,使我们当前的数据分析效率得到极大提升,同时,降低了计算和存储成本,特别是临床诊断治疗的时间成本。在NVIDIA Tesla 平台支持下,我们正努力推动基因组学研究实际应用转化,为大众健康幸福保驾护航。