中包含了这个程序。
随机的特征符数据(排列实验)
随机数据方法决定了一个从真实数据得到的MP进化树或者其中的一部分是否可以偶然得到。实际上,数据并非真正地随机化了,只是在每一个比对列中以不同次序排列,使得初始数据的共变性被消除了;结果产生了一个非随机序列的序列比对;正确地说,这些序列中的每一个位点都是从那些在整个比对中占据这个位点的碱基群体中随机得到的。排列结尾几率实验(PTP, the permutation tail probability test)对MP进化树的分值和那些通过对每一个位点都进行大量的排列组合多得到的数据所推算出的进化树的分值进行比较,从而决定在原始数据中是否存在着系统发育信号。一个依赖于拓扑结构的实验(T�PTP, topology-dependent test)对特殊的进化树的分值进行比较,从而决定这些差异是否可以产生偶然性;这个方法并不评估这个进化树或者其中的一部分是否正确(Faith and Trueman, 1996; Swofford et al., 1996b)。值得注意的是,T�PTP实验看来似乎是进一步地确认了进化树中那些同MP进化树很接近但是并不在其中的一些分组;这是因为这个方法探测集体的信号,这些信号可以把一个分类群放置在正确(如果不能说是准确,至少也是近似)的位置;结果可以通过附加的程序使用相关的数据子集进行调整(Faith and Trueman, 1996)。PAUP中包含了这个程序。
自引导方法
自引导方法是对进化树重新取样的评估方法,可以对距离建树方法、节约建树方法、似然进化方法以及衍生出的其它任何方法进行评估。这个方法是在1979年(Efron, 1979)提出的,并且由Joe Felsenstein将其引入(Felsenstein, 1985),作为系统发育分析中的进化树评估方法。典型的自引导分析结果是一个数字,这个数字同一个系统发育进化树的一个特定树枝相关,而这个系统发育进化树则给出了支持单源进化分支的自引导的重复比例。
那么在实际操作中应该怎么做呢?自引导方法的操作过程可以分为两个步骤,第一步先从原始数据集中产生(许多)新的数据集,然后经过计算得到一个数值,表征一个特定的数值(比方说,一个分类群)在进化树中出现的次数的比例;这个数值通常被称为自引导数值。从原始数据集中产生新的数据集的具体做法是重新取样,即从原始数据集中随机地“可以替换”地抽取各个列中的特征符作为新的样本。“可以替换”的意思是说每一个位点都可以重新取样,其抽取几率同其它任何位点的抽取几率都一样;结果是每一个新建的数据集同原始数据集的位点总数相同,但是某些位点重复了两次或者三次,而某些位点则丢失了;当然新建的数据集也有可能同原始数据集完全相同��或者走向另外一个极端,只有一个位点被反复抽取,总数达到500次,而原始数据集中其它499个位点都被丢失了。
虽然自引导评估方法已经成为整个系统发育分析中的一个普遍手段,但是对于这个方法究竟计算了什么仍然有一些争论。刚开始的时候,有人提议说自引导数值计算了重合性(Felsenstein, 1985)。在最近的阐述中,自引导程序被认为是计算了精确性��这个生物学相关的参数给出了得到真实的系统发生史的可能性(Felsenstein and Kishino, 1993)。模拟研究表明,在合适的条件下(各种替换速率基本相等,树枝基本对称),如果自引导数值大于
上一篇:多序列比对的实际应用 下一篇:利用蛋白质序列的预测方法
共45页: 上一页 [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] 19 [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] 下一页