臻解密 - 关于UMI一波新知识速递

2019-09-25 求臻医学企宣

1. 在测序文库添加UMI是否可以有效减少deduplication?


文献中选取了市场上的5种商业试剂盒进行比较,结果显示,在添加UMI后on-target rate 增加了1.7–41.9%,平均测序深度是原来的1.19–5.13倍,这说明针对不同的商业试剂盒差异还是蛮大的。


求臻医学

2.UMI标签测错的概率有多大?


借助UMI-tools生信工具,通过针对5种商业试剂盒的比较,标签UMI的错误率为0.1–0.4%,证明只有很少的UMI序列具有错误的标签序列。






3.UMI标签的长度影响




显而易见UMI的长度会影响到文库的多样性,针对同一文库作者比较了2-12bp之间的文库复杂度评估发现UMI的长度当达到6bp时,文库多样性趋于稳定,因此最小的UMI的长度设定在6-8bp之间。


求臻医学



传统的UMI矫正策略大多都是针对测序过程中产生的redundant reads, 在最新发表在Nucleic acids research杂志的一篇文章中提到了’Singleton Correction’矫正策略:


求臻医学

(a)由于UMI策略的不同,第一步就是每条序列对应的UMI序列添加到fastq序列的序列名中;




(b)其次是进行序列比对;




(c)对于带有不同UMI标签的测序序列来讲,如果UMI标签序列对应的存在PCR duplicate reads 则先纠正为a single strand consensus sequence (SSCS BAM)。这一步是传统的对具有相同UMI的group序列进行内部矫正;




(d)接下来就是针对于singletons序列进行矫正,即对于带有不同UMI且比对到同一位置上的测序序列来讲,进行联合矫正;




(e)最后是将两者的结果合并生产最终结果。此外这一步中还包含针对正反互补链的联合矫正结果duplex consensus sequences(DCSs)。




文中提到与传统的UMI矫正方法,即其(SSCS)与(DCSs)与错误率分别为0.01%和0.0005%,而加入singletons的纠正方法错误率可降至(0.0007%)。作者对该方法分别在(KRAS, NRAS, BRAF, EGFR and PIK3CA) 5基因涉及到13kb的Small Deep以及1.2Mb的LargeMid panel上进行测试,结果显示在测序深度≤16 000×在数据分析敏感性上都有相应的提高。




基于该方法的开源脚本链接:


https://github.com/pughlab/ConsensusCruncher




参考文献:


1.Chung J, Lee K W, Lee C, et al. Performance evaluation of commercial library construction kits for PCR-based targeted sequencing using a unique molecular identifier[J]. BMC genomics, 2019, 20(1): 216.




2.Wang T T, Abelson S, Zou J, et al. High efficiency error suppression for accurate detection of low frequency variants[J]. Nucleic acids research, 2019.