ML要比预置大量参数或者对参数进行同步优化要快得多)、计算机硬件以及计算机软件(对软件的依赖性较小;但是某些算法要比其它算法快;某些软件允许多线程;某些软件限制内存里的进化树的数量和种类)。搜索程序还会受到数据结构的影响:如果数据解析得很糟糕,那么将会得到较多的“近乎优化”的进化树,这些进化树必须重新评估以确定其中最优化的进化树。
树枝交换算法不断修整由初始步骤所建立的进化树(Swofford et al., 1996a)。这个算法的范围很广,既可以产生所有可能的单一进化树(穷举算法),也可以只评估次要的修改。
有两种搜索方法保证可以找到最优化的进化树:穷举法和树枝�跳跃法(BB)(Swofford et al., 1996a)。对于一个很大的数据集,这两种方法都很不实用。对分类群数量的限制主要取决于数据结构和计算机速度,但是对于超过20个分类群的数据集,BB方法很少会得到应用。穷举法要根据优化标准,对每一个可能的进化树进行评估。BB方法提供一个逻辑方法,以确定那些进化树是值得评估的,而另一些进化树是可以简单地屏蔽掉的。因此BB方法通常要比穷举法快得多。
绝大多数分析方法都使用“启发式”的搜索(Swofford et al., 1996a)。启发式现搜索出相近的次优化的进化树家族(“岛屿”),然后从中得到优化解(“山顶”)。不同的算法用不同程度的精确性搜索这些岛屿和山顶。最彻底也是最慢的程序(TBR,tree bisection-reconnection,进化树对分重接)先把进化树在每一个内部树枝处劈开,然后以任意方式将劈开的碎片重新组合起来(Swofford et al., 1996a)。最快的算法只是检查一下相邻终端的不太重要的重新组合,因此倾向于找到最近的岛屿的山顶。
有许多不同的软件会执行进化树的搜索算法。PAUP允许对搜索选项进行全范围的设置,从最肤浅的到最详尽的;而且,对于一个简单的定制搜索,它允许使用不同算法的任意组合,其中每一个算法都有多个可供用户定义的参数,同时还提供评估搜索过程和中途修改搜索进程的方法。PAUP还可以对进化树岛屿了如指掌,掌握岛屿被命中的次数。
要想改善搜索效率和进化树的优化,可以尝试大量不同的策略。比如说,有些分析方法要耗费大量的机时和精力才能找到岛屿;要到达同样的效果,我们可以先制造各种各样的“起始”进化树,这些起始进化树满足一个初始标准,然后用PAUP将这些起始进化树排列成岛屿,最后用更加彻底的算法进行评估。
降低搜索代价的一个最好方法就是对数据集进行剪除。比方说,从数据集本身或者从预置的搜索中,我们可能会很明显地知道一个由五个终端组成的聚集是不可分解的,并且这些终端的排列并不影响剩下的拓扑结构,而且对这些终端进行分解并不符合数据分析的目的;这时,如果在分析中除去这个聚集中的四个终端,将会把搜索任务简化几个量级。
每一种分析都是独一无二的。影响对优化搜索策略(数据量,数据结构,时间量,硬件,分析目的)进行选择的因素太复杂,使得我们无法推荐一个简单可行的处方。因此进行搜索的用户必须对他的数据非常熟悉;他们的脑海里必须要有明确的目标,了解各种各样的搜索程序,了解他们的硬件设备和软件的能力;他们必须能够发展他们自己的协议。
建立并搜索进化树的其它方法
上述方法在当前的应用中是最广泛的。当然我们还可能会在别处注意到,还有大量的建立和搜索进化树的其它方法(Swofford et al., 1996a; Li, 1997
上一篇:多序列比对的实际应用 下一篇:利用蛋白质序列的预测方法
共45页: 上一页 [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] 17 [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] 下一页