要把一个空位特征符计算为一个碱基变化。碱基频率的命令还要对数据执行一个“chi平方(chi�square)”测试,但是这个测试并不切实际,因为它假定数据是从一个随机样本中提取的,而结果就会假定所观察到的不相等是相互独立的而不是系统发育结构的结果。一个毫无意义的chi�square分值并不能除去非静态因素,而一个有意义的分值很可能会进一步证实非静态因素。PAUP中的碱基组成命令已经被用来证明:在被子植物和绿藻的5.8S rDNA序列中,两者之间变化比较大的位点集中存在中碱基偏好,但是并不一定在某个序列上产生变化(Hershkovitz and Lewis, 1996)。
建树方法
现有的软件中所采用的建树方法已经在某些著作(Saitou, 1996; Swofford et al., 1996a; Li, 1997)中有很详尽的讨论;这部分只是简单地描述一些最常用的方法。建树方法可以分为两类,每类有两种不同的方法:
- 基于算法的和基于标准的。基于算法的建树方法根据一系列的步骤得到一个进化树;而基于标准的建树方法则是根据一些优化的功能对可选的进化树进行评估。相邻连接方法(NJ)是一个纯粹的基于算法的建树方法,这个方法只得到一个进化树,这个进化树拥有令人满意的性质,它的距离附加值接近或者是非常优化的(见下);而一个基于标准的距离建树方法将会根据进化树的附加值优化的标准,对所有可能的进化树(不管这些进化树是否产生)进行评估。
- 基于距离的和基于特征符的。历史上的和现有的许多关于系统发育的讨论描述了各种各样的基于距离的和基于特征符的建树方法的效用(比如,Saitou, 1996: Li, 1997)。距离建树方法根据一些尺度计算出双重序列的距离,然后抛开真实数据,只是根据固定的距离建立进化树;而基于特征符的建树方法在建立进化树时,优化了每一个特征符的真实数据模式的分布,于是双重序列的距离不再固定,而是取决于进化树的拓扑结构。最常用的基于特征符的建树方法包括MP和ML。
距离建树方法
距离建树方法根据双重序列比对的差异程度(距离)建立进化树。如果所有的起源分歧事件都很精确地记录在序列中(Swofford et al., 1996a),那么距离建树方法将会重构真实的进化树。然而,当序列突变达到饱和时,分歧程度就会达到上限。一对分歧序列的其中之一在某个特定位点发生突变后,后续的突变不管发生在哪一条序列,都不会再造成更多的差异。实际上,后续的变异很可能会使得前一个位点恢复成相等的状态,从而屏蔽掉前一个突变,因此,绝大多数基于距离的建树方法都会针对这样“不可见”的替换进行修正。在实际操作中,使用的速率方阵都会很有效地假定:在所观察的相等的碱基对中,实际上存在一定比例的位点,这些位点经受了多次突变,而且,随着整个序列差异程度的增加,这些位点的比例也在增加。有些程序(至少是随意地)会计算出不正确的距离进行,比方说,MEGA程序(Kumar et al., 1994)只针对密码子和氨基酸数据会计算出错误的距离;除非序列的整体差异程度很小,这个程序实质上将会保证给出错误的结果。
双重序列差异使用最大似然方法的取代速率计算得到。最常用的距离建树程序使用的模型局限于时间可逆模型,只包含很有限的几个取代模型;但是
上一篇:多序列比对的实际应用 下一篇:利用蛋白质序列的预测方法
共45页: 上一页 [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] 11 [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] 下一页