因为ML要耗费大量的计算机机时,所以对于一个给定的数据集,想要在优化取代模型和进化树的同时进行完全的搜索几乎是不可实现的。值得推荐的是一个很经济的探索式的程序(Adachi and Hasegawa, 1996; Swofford et al., 1996a)。在这一点上,可能最好的节约时间的方法是前面所说的对取代模型的ML评估(图9.7)。这个程序可以反复进行,搜索到较好的ML进化树,然后重新对参数进行评估,然后搜索更好的进化树。
随着算法、计算机和对系统发育的认识的进步,ML标准在分子系统发育分析中也变得越来越流行。在模拟研究中,如果对由相同的模型产生的数据进行数据分析的话,ML做得总是比ME和MP要好(Huelsenbeck, 1995)。在所有的方法中,ML的计算强度最大,所以在某些情况下,它总是无法实现;而且,同样的模拟研究表明在许多情况下,ME和MP方法同ML方法的执行效果一样好(或者一样差)。
距离方法、节约方法和最大似然方法的差异
距离方阵方法简单的计算两个序列的差异数量。这个数量被看作进化距离,而其准确大小依赖于进化模型的选择。然后运行一个聚类算法,从最相似(也就是说,两者之间的距离最短)的序列开始,通过距离值方阵计算出实际的进化树,或者通过将总的树枝长度最小化而优化出进化树。
用最大节约方法搜索进化树的原理是要求用最小的改变来解释所要研究的分类群之间的观察到的差异。
用于系统发育推论的最大似然方法评估所选定的进化模型能够产生实际观察到的数据的可能性。进化模型可能只是简单地假定所有核苷酸(或者氨基酸)之间相互转变的概率一样。程序会把所有可能的核苷酸轮流置于进化树的内部节点上,并且计算每一个这样的序列产生实际数据的可能性(如果两个姐妹分类群都有核苷酸“A”,那么,如果假定原先的核苷酸是“C”,得到现在的“A”的可能性比起假定原先就是“A”的可能性要小得多)。所有可能的再现(不仅仅是比较可能的再现)的几率被加总,产生一个特定位点的似然值,然后这个数据集的所有比对位点的似然值的加和就是整个进化树的似然值。
进化树搜索
即使是对于一个只有50个序列的系统来说,单一的系统发育进化树的数量也会随着分类群数量的增长而按照指数规律增长,从而变为一个天文数字(Swofford et al., 1996a; Li, 1997)。由于计算能力的限制,现在一般只允许对很小一部分的可能的进化树进行搜索。具体的数目主要依赖于分类群的数量、优化标准(比如说,MP要比ML快得多)、参数设定(比如说,不加权的MP要比加权的快得多;预置了少量参数的
上一篇:多序列比对的实际应用 下一篇:利用蛋白质序列的预测方法
共45页: 上一页 [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] 16 [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] 下一页