Andreas D.Baxevanis Genome Technology Branch National Human Genome Research Institude National Institutes of Health Bethesda.Maryland 在寻找基因和致力于发现新蛋白的努力中,人们习惯于把新的序列同已知功能的蛋白序列作比对。由于这些比对通常都希望能够推
网站地图本站论坛
高级搜索收藏本站
当前位置:试验方案>生物芯片>信息学> 正文
  • 多序列比对的实际应用

  • 点击:    作者:   来源: 日期:2007-07-04    本站论坛

 

BLOCKS

BLOCKS数据库利用了块的概念,对蛋白质家族进行鉴定,而不是只依赖于单个的序列本身。块的思想来源于更加普遍的概念�模体(motif),模体通常是指一段氨基酸序列的保守的伸展,拥有一定的蛋白质功能或者结构。当这些来源于同一家族中的蛋白质中的模体比对时(不引入空位),其结果就是块;块就是指比对,而不是序列本身。很明显,任何一个独立的蛋白都可以包含一个或者更多个的块,对应于它的每一个功能和结构模体。

BLOCKS数据库本身来源于PROSITE的条目。当使用一个感兴趣的序列进行BLOCKS搜索时,查询序列就会同数据库中所有的块在任何可能的位点进行比对,对于每一个比对都会使用位点特异分值矩阵或者PSSM进行打分。PSSM和这本书前面叙述的分值矩阵(例如BLOSUM62)的重大区别在于,其分值考虑到了在给定的位点是否拥有一个匹配以及一个给定氨基酸占据块中的位点的可能性。所有基于这种形式的方法的核心思想都是观测残基占据比对蛋白质块中的一个特异位点的几率,这在本部分的结尾就会变的十分明白。

BLOCKS搜索可以通过访问西雅图的Fred Hutchinson肿瘤研究中心的BLOCKS主页完成,这个网点很直接,允许执行基于序列或者关键词的检索。如果用户在输入时使用了DNA序列,他就可以指明使用哪个遗传密码,搜索哪条链。不管执行搜索的是一个序列还是一个关键词,成功的搜索将会返回相应的块,图8.3显示了一个例子。在这个条目中(一个核内激素受体,称为类固醇指针),头几行按顺序分别标记为ID,AC和DE,给出了这个块代表的家族的缩写,BLOCKS数据库注册码和家族的详细描述;BL行给出了关于组建这个特别的块的原始序列模体的信息:参数width和seqs表示block的宽度(用残基计算),以及这个块中有多少序列数目,接下来是统计学有效性和构成长度的信息;最后是序列列表,只显示出对应于这个特殊模体的序列部分,每一行的开头都是这个序列的SWISS-PROT注册码,第一个残基在整个序列中的位置,然后是序列本身以及基于位点的序列权重,这个权重用100刻度,100表示序列距离这个群体最远;注意到有些序列行中有空行:部分比对被聚集在一起,在每个聚集中,80%的序列残基是相同的。

 

MoST MoS

模体搜索工具(或者写作MoST),是一个UNIX程序,用来进行数据库搜索以寻找保守的模体。这个方法使用比对序列块(比对块,alignment block),可以容纳任意数目N的序列,每一个长L,所有序列长度必须一致,但是在目前还不能引进空位。这个比对块用来产生一个蛋白质权重矩阵,然后对所有序列进行矩阵扫描,从目标蛋白质数据库开始搜索,对每一个长L的片段通过加和适合的权重矩阵元素得到其分值。如果找到在统计学上显著地匹配于序列块的序列,这些序列也会被加入到序列块中。搜索完一个循环后,权重矩阵必须重新计算,然后重新进行搜索,这个过程反复进行,直到再也找不到统计学意义显著的匹配序列为止,这个过程因而在数据库搜索过程中不断积累新的信息。

在执行MoST时有一个可以设置的参数就是比例R,R表示预期的虚假匹配数目被预测的真实匹配数目。因为MoST搜索预期将会收敛(就是说因为不会再找到新的序列,反复过程将会终止),所以R值的选择十分重要。如果R值太高,搜索就会延伸而不是收敛,最后会引进目标数据库中的所有序列,避免虚假匹配的一个方法就是逐渐增大R值,观察匹配的数量和质量,如果可能出现延伸就放弃增大R值。

MoST命令行形式为:

 

most database block [method] [seg] [cutoff] [i#%] > outfile

 

在这里database指明要搜索哪一个数据库;block指明含有输入比对块的文件名(用FASTA格式存储);可选的method参数指明了怎样计算依赖位置的权重矩阵:如果不加指明,缺省值将选择出现一个特殊残基的可能性的Dirichlet分布,选项1引用加权平均(Gribskov方法),选项2引用Bayesian伪记数方法,选项3引用依赖数据的伪记数模型,至于执行中如何选择,在MoST的原始参考书中有详细描述,新用户应该先使用缺省值,检查结果的质量,然后考虑是否改变参数;seg参数指明搜索中是否应用seg过滤算法,seg(缺省)表示开关开,-seg表示开关关;阈值cutoff指明上面描述的比例R,推荐初始值选择在r0.1-r0.5;最后,使用i#%参数将对输入块进行限制,比如,如果指定为i80%,在组中只有相同比列大于80%才被引用,这个选项可以在出现从多个物种来源的相同序列时,有效地放置数据系统的扭曲。

图8.4显示了一个MoST输出的例子。输出文件很便利地回应了开始的命令,允许多重MoST,一个接一个地辨别。接下来是真正的块,头和尾都有一个额外的序列,标记MAX的序列被认为是一个de facto一致序列,它是基于计算矩阵得分最高的序列,在这里,它得分为609,分值显示于序列最末端;同样道理,标记为min的序列是最不一致的序列,得分最低,实际比对块的序列介于两行之间,按高分到低分排列,序列左边是序列标号,右边是分值。

图8.5是输出的延续,作为这个输入块的第一轮重复的结果,找到了5个新序列(比对的上方)。在新序列的左边是这个条目的Def行的前几个特征,然后是显示的第一个残基的位置,序列本身以及序列的统计值。更进一步,原始序列(比对块中的序列)再出现,这些序列可以反过头来使用更在Def行后的标志数字同序列块相比。数字被缩短了,但是输出文件仍然继续,显示每一轮的计算结果,直到收敛。这个输出的一个好特点就是不匹配于块的残基很容易显示出来,比对过程中程序已经替用户把它们用小写字母表示出来了。.

 

PROBE

有一个最新的比对模型程序叫做PROBE,在某些方面,PROBE与MoST很相似,它们都运用反复计算的策略检测较远关系的序列,但是,从本质上讲,算法的机制是不一样的,所以有必要作进一步的讨论。

在决定哪些序列相关时,PROBE执行一个及物的搜索,如果一个双重搜索发现序列AB是相关的,另外一个搜索发现序列BC是相关的,那么AC就一定相关,即使AC之间的双重比对没有直接发现它们相关。通过一系列的BLAST搜索,所有这样的联系都被反复演绎出来,直到再不会发现新的序列。在这样一系列相关序列组成的集合上,将会进行一系列的比对,反复比对,直到比对不再改善。这时,将会进行下一轮的数据库搜索,应用上一轮的最佳比对,寻找在上一轮中被忽略的相关序列。PROBE程序反复操作这一过程,直到搜索收敛为止。

PROBEMoST之间的一个很重要的区别就在于PROBE在搜索开始时只需要一个序列作为“种子”,即使可以使用一个家族的序列,而在MoST程序中,必须输入一个预先准备好的不包含空位的比对。因为无法保证用机器寻找到的比对比手工的比对质量要好(很多时候恰恰相反),在进行MoST搜索时必然会携带手工计算比对时的位点偏向因素。MoSTPROBE处理输入的方法是不一样的,MoST一次必须处理一个比对块,而PROBE按照反复搜索中的发现把输入序列分成多个块,在这里,用户要决定是否维持块的完整以及块是否可以进一步分成更小的组成单位,作出决定时最好依据它们的生物学功能。最后,MoST是一个贪婪的算法,下一轮搜索中发现的新序列一旦加入就不会被剔除,于是一个虚假的匹配很可能在接下来的搜索中不断蔓延,很可能引入更多的虚假匹配;而PROBE使用一个“jack knife”的程序会自动消除这样不相关的序列,就是说,推定的虚假匹配会被从数据中取消,然后重新搜索数据库,如果这个序列确实相关的话,它会在以后重新被加入到数据中去。

PROBE程序的UNIX发行版本的命令行采用这个形式:

probe fastafile database –s<int> [options] > outfile

 

在这里,fastafile是进行搜索的种子序列文件,采用FASTA格式存储;database是要搜索的目标数据库;跟在-s标志后面的数字是进行搜索的随机种子,然后是打分阈值选项,可以是任意一个数字,再后面是返回序列的最大数目,等等。程序执行一次需要相当长的时间,但是得到的输出结果是相当值得的。图8.6显示了一个PROBE得到的输出文件,种子序列是amphoterin,一种和高度流动组蛋白(HMG-1)相关的DNA-捆绑蛋白;最后找到了两个块,共包含50多个残基,每个块都是PROBE用统计学计算出来的最佳比对。对于每个序列,属于块部分的序列残基数目都被显示出来,后面跟着一个gi标记符以及这个条目的统计值。PROBE产生的输出文件包含残基频率信息,以及内容信息,统计信息和”jack knife”程序剔除的序列列表。


上一篇:序列比对和数据库搜索   下一篇:系统发育分析

共4页: 上一页 [1] [2] 3 [4] 下一页

推荐文章
 
相关文章
推荐专题
 

↑返回顶部   打印本页   关闭窗口↓  
 本站申明 联系我们 网站地图
Copyright© 试验方案

Powered by DedeCms email:htmyth#yahoo.com.cn QQ:386836509

Optimized to 1024x768 to Firefox,Opera and MS-IE6