进化树相比,虽不能说一样,但也已经非常相近了(Rzhetsky and Nei, 1992; Li, 1997)。但是,NJ只产生一个进化树。根据数据结构,有大量不同的进化树可能和NJ进化树一样好,甚至比NJ进化树好得多(Swofford et al.1996a)。我们中的一个(MAH)和D.Hillis(个人通讯)已经各自独立地得到了一些(虽然很少)数据集,对于这些数据集,NJ给出的进化树很糟糕;但是使用PAUP方法中的“最接近(closest)”选项后,进行逐步加总,得到了一个较好的距离进化树(Swofford, 1997)。
特征符建树方法
除了在所有的分析步骤中都会用到特征符数据以外,基于特征符的建树方法毫无共同之处。这就使得我们能够评估一个比对中每一个碱基位点对其它所有的碱基位点的依赖性。最常用的基于特征符的建树方法是最大节约方法和最大似然方法。
最大节约方法(MP,Maximum Parsimony)
最大节约方法是一种优化标准,这个标准遵循“奥卡姆剃刀原则(Occam’s razor)”:对数据最好的解释也是最简单的,而最简单的所需要的特别假定也最少。在实际应用中,MP进化树是最短的�也是变化最少的进化树,根据定义,这个进化树的平行变化最少,或者说是同形性最低。MP中有一些变量与特征符状态改变的可行方向不尽相符(Swofford et al., 1996a)。
为了能够包容取代偏好,MP必须加权;比如,颠换的变换相对于转换(见上文)被加权。进行加权的最简单的方法就是建立一个加权步骤方阵,在这个方阵里,权重用速率的倒数,这个速率是由上面描述的ML方法评估得到的。步骤方阵加权可能会极大地减慢MP的计算速度。
如果比对内部的位点确实存在这速率差异,那么MP方法就会执行得很不好(Huelsenbeck, 1995)。对于这个问题,还没有什么很好的解决方法。有一个方法,就是对数据集进行修改,使得最终分析的数据集中只包括那些内部差异性很小的位点,这些位点是由前面提到的似然分析方法判断得到的。更常见的情况是,MP分析只简单地屏蔽掉那些高度同形的可疑位点(比如说,某些序列比对中的第三个编码位点)。另外一个方法是根据引导树中所能观察到的位点变化倾向,对位点进行循环加权。这个“连续逼近”方法在PAUP中会自动简化,但是这个方法的出错的倾向程度取决于引导树的出错程度。
MP分析期望能够产生大量的(有时候是成千上万个)具有相同分值的进化树。因为这些进化树之间的优化程度相同,所以只有所有进化树都严格一致的分组才算是得到数据的支持。距离建树方法和
上一篇:多序列比对的实际应用 下一篇:利用蛋白质序列的预测方法
共45页: 上一页 [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] 14 [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] 下一页