如何检测变异流程的性能?

2019-10-30 求臻医学企宣

变异检测多种多样,如果你对变异检测感兴趣,我这里强力推荐一篇文献[1]。你可以根据实际需求选择满足你的call变异软件,不过简单来讲,没有一种软件是敏感性与特异性兼顾的。例如,每年的call变异挑战赛precisionFDATruth Challenge吸引了众多机构的参与,这其中取得优异成绩且商业化较好的如Sentieon,其无论在时间效率、准确性、特异性、敏感性上都远远优于目前的行业较为认可的GATK。


那么,问题来了,当你建立了一套自己的变异流程以后,如何检验其效能呢?在此之前我们首先来熟识几个关键词:


Platinum    genome    project  


为了提高变异检测效率,研究者对一个家系的17名成员进行了全基因测序( four grandparents, two parents, and 11 children of CEPH pedigree 1463),平均测序深度50X。个体编号为NA12877, NA12878, NA12879, NA12880, NA12881, NA12882, NA12883, NA12884, NA12885, NA12886, NA12887, NA12888, NA12889, NA12890, NA12891, NA12892, and NA12893。


其中NA12877

(https://www.ebi.ac.uk/ena/data/view/ERS179576)

and NA12878

(https://www.ebi.ac.uk/ena/data/view/ERS179577)

的测序深度更是达到了200X。NA12882是作为生物学重复,测序深度也达到200X[2-3]。


Genome In a Bottle (GIAB)


由National Institute of Standards and Technology (NIST)发起的 the  pilot genome, NA12878, has been released as NIST RM 8398.简要的说就是使用目前的所有的测序技术构建高质量的基因组数据。这其中的测序技术包括:BioNano Genomics, Complete Genomics paired-end and LFR, Ion Proton exome, Oxford Nanopore, Pacific Biosciences, SOLiD, 10X Genomics GemCode WGS, and Illumina exome and WGS paired-end, mate-pair, and synthetic long reads[4]。


相关数据下载链接:

ftp://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/


bamsurgeon 


如果你想生产模拟bam文件,从而检测变异检测软件的性能,你就必须用到这个软件,是的,是必须在对以上关键词有所了解后,我们就可以着手评估我们的变异检测流程了[5-6]。


方法一:


首先可以下载Platinum genome project中的NA12878原始测序数据进行变异检测,并与已经公布的变异检测结果相比较。


方法二:


下载ICGC-TCGA DREAM Mutation Calling challenge公布的标准的一系列数据,这其中包含细胞器的模拟数据以及肿瘤样本的模拟数据,通过与结果的比较来检测效能。


方法三:


可以选择你正常样本的测序数据,借助bamsurgeon分析软件,在比对后的bam文件里添加变异reads后,再使用你的变异检测流程进行检测来进行评估。


参考文献:

1.  Xu C. A review of somatic single nucleotide variant calling algorithms for next-generation sequencing data[J]. Computational and structural biotechnology journal, 2018, 16: 15-24.


2.https://www.illumina.com/platinumgenomes.html


3. Eberle M A, Fritzilas E, Krusche P, et al. A reference data set of 5.4 million phased human variants validated by genetic inheritance from sequencing a three-generation 17-member pedigree[J]. Genome research, 2017, 27(1): 157-164.


4 .Zook J M, Catoe D, McDaniel J, et al. Extensive sequencing of seven human genomes to characterize benchmark reference materials[J]. Scientific data, 2016, 3: 160025.


5. Ewing A D, Houlahan K E, Hu Y, et al. Combining tumor genome simulation with crowdsourcing to benchmark somatic single-nucleotide-variant detection[J]. Nature methods, 2015, 12(7): 623.


6.https://github.com/adamewing/bamsurgeon/