DNA混合图谱分析技术谈(二)—DNA混合图谱拆分的方法有哪些,都有什么区别?
以前,还没有这么多的接触DNA和低拷贝DNA样本时,大多数用于DNA检验的检材是体液斑迹,基本都是单一来源,不用考虑drop-out等类似的复杂因素。即使存在drop-out的可能性,一般在计算时也会忽略掉这个位点。当时的DNA数据分析方法主要基于哈迪-温伯格定律(Hardy-Weinberg equilibrium),还有亚群修正法(Subpopulation correction)。
现在,现场提取的混合生物检材占比越来越高,且随着仪器检测灵敏度和我们实验室水平的提升,很微量的DNA也可以被检测到,导致越来越多的检材检出混合的分型,表现为多个位点下出现三个及以上的等位基因峰。这就要求我们改变和提升DNA分析解释方法,来应对越来越多、越来越复杂的DNA图谱。
目前的DNA分析方法有以下几种,我们一起来了解一下:
1. 二进制法(Binary method)
该方法曾发表于国际法医学期刊,主要思想是通过设定阈值来处理峰的随机性并去除一些不合适的数据。这种方法没有分析所有的数据,舍弃了一些有用的信息,在处理低拷贝检材、降解检材、检材混合比例差异较大及三人以上混合检材时结果不理想,无法评估drop-in/out的可能性,已逐渐被其它方法取代。
我们如果把参考样本比喻成彩色照片的话,那么通过二进制的方法获得的证据就是黑白照片。
从上图来看,二进制法似乎并不影响我们下结论,可以确认彩色和黑白的都是“猫王”本人;但是当样本图谱变得更复杂的时候,二进制法就很难做出解释了,如下图,通过二进制法分析的结果,很难确认“猫王”还在图谱中。
2. 半连续法(Semi-continous)
半连续法是由Gill,Whitaker和Buckleton在1999年共同开发的第一种用概率拆分DNA混合图谱的方法,代表产品有Lab Retriever。这种方法可以评价drop-in/out的可能性,但没有把峰高作为一个参数进行分析,在拆分的合理性和准确性上较差。此外,它只能计算LR值,不能对混合数据进行解释。
半连续法和全连续法最主要的区别在于,半连续法不把峰高作为分析参数。假设有如下的混合图谱数据:
用半连续法分析的话,由于不考虑峰高参数,不能分析数据、仅计算LR值,所以上图的图谱数据得到的是下图的结果。
3. 全连续法(Continous)
全连续法通过生物建模,综合考虑了峰高、stutter产物、扩增效率、降解因素、drop-in/out等DNA图谱包含的全部信息,然后应用马尔科夫链-蒙特卡罗算法(MCMC)计算方法,对数据进行模拟和拆分,最终以概率的形式给出可能性的组合,并可提供统计学权重、LR值的计算,支持无参考样本的混合数据分析,是SWGDAM和FBI认可并推荐的混合图谱解释方法,代表性的产品有STRmix和云算GPM。
下面我们以实际检材为例,比较不同方法对混合数据的拆分效果。以下数据来自文章:Bille TW, Weitz SM, Coble MD, Buckleton JS, Bright J-A. Comparison of the performance of different models for the interpretation of low level mixed DNA profiles. ELECTROPHORESIS. 2014;35:3125-33.
上表中横坐标表示模板量,纵坐标表示匹配度的统计计算——可以理解为这些方法对已知样本的解释的合理程度。可以看出,随着模板量的降低,全连续法对样本的解释就更明显地占据优势:当混合比例为1:1时,半连续法似乎和全连续法似乎没有区别;但随着贡献者模板量的降低,半连续法的劣势就体现出来了,当混合比例为1:3时,半连续法和全连续法的差异就很明显了。
各种方法的大概介绍已经讲完了,你会选择哪种方法进行混合图谱的拆分呢?
欢迎添加微信,进行进一步的沟通:wende-online.