|
BLAST
BLAST程序对数据库搜索进行了大量的改良,提高了搜索速度,同时把数据库搜索建立在了严格的统计学基础之上。但是,为了达到这一目的,仍然需要权衡选择,也就是说,局部比对的限制条件可能不包括空位。这个限制条件对应用Karlin-Altschul统计学极为有利,另一方面,既然空位没有明确地放在模型中,结果就不会象人们期望的那样接近于预期的比对。这并不是说插入和确实会妨碍匹配,在大多数情况下,比对仅仅会被分解为若干个明显的HSPs。无论如何,老版本的BLAST程序(1.4以前)的局限性在新版本中已经被消除了,新版本在对待空位问题上有着明确的作法(在下面讨论)。
对于一个即将被BLAST程序报告的比对,其中必然包含一个HSP,其分值不小于终止值S。这个终止值因人而异,但是使用时是很难知道其合适值的。因为程序基于Karlin-Altschul统计学,人们可以指明一个预期的终止E值,然后软件会在考虑搜索背景的性质的基础上(比如数据库的大小,取代矩阵的性质)计算出正确的S值。BLAST的一项创新就是邻近字串的思想。这个协定不需要字串确切地匹配,在引入取代矩阵的情况下,当主题序列中的字串有一个最低分值T时,BLAST就宣布找到了一个命中的字串。这个策略允许较长字串长度(W)(为了提高速度),而忽略了敏感度。于是,T值称为制衡速度和敏感度的临界参数,而W是很少会变化的。如果T值增大,可能的命中字串的数目就会下降,程序执行就会加快,减小T值会发现较远的关系。
发生一个字串命中后,程序会进行没有空位的局部寻优,比对的最低分值是S。将比对同时向左方和右方延伸并将分值加和就会得到结果。当遭遇一系列的最低分值时,加和的分值就会下降,这时,分值就不再可能反弹回S值。这个发现为附加的启发式知识提供了依据,因此,当分值的降低(与遭遇的最大值相比)超过分值下降阈值X时,命中的延伸就会终止。于是,系统回减少毫无指望的命中延伸,继续进行其它操作。
使用BLAST
可以通过e-Mail、WWW或控制台命令操作BLAST程序,无论如何,一次数据库搜索包括四种基本元素:BLAST程序的名称,数据库名称,查询序列和大量的合适的参数,很显然,当以上元素发生变化时,搜索的细节就会随之改变。为了避免混淆,我们把BLAST功能性描述为普通名词,避免提及专有工具。读者可能会要参考使用到的专有工具的有关内容。要得到关于用e-Mail执行BLAST搜索的介绍,给blast@ncbi.nlm.nih.gov发一封含有“HELP”的邮件;在WWW工具中,帮助是在线的;如果使用Unix系统,使用man blast可以获得详细的帮助信息。
表7.1、BLAST程序:
|
程序
|
数据库
|
查询
|
内容
|
|
Blastp
|
蛋白质
|
蛋白质
|
使用取代矩阵寻找较远的关系:可以进行SEG过滤。
|
|
Blastn
|
核苷酸
|
核苷酸
|
寻找较高分值的匹配,对较远关系不太适用。
|
|
Blastx
|
核苷酸(翻译)
|
蛋白质
|
对于新的DNA序列和ESTs的分析极为有用。
|
|
Tblastn
|
蛋白质
|
核苷酸(翻译)
|
对于寻找数据库中没有标注的编码区极为有用。
|
|
tblastx
|
核苷酸(翻译)
|
核苷酸(翻译)
|
对于分析EST极为有用。
|
几种不同的BLAST可以通过查询序列和数据库序列的类型来加以区分:blastp比较的是查询蛋白同蛋白质数据库;相应于核酸序列的程序是blastn;如果序列类型不同,DNA序列可以被翻译成蛋白序列(所有六种阅读框架)后同蛋白序列进行比较,blastx比较一个DNA的查询序列同一个蛋白质序列库,其结果对分析新序列和ESTs很有用;对于一个基于核酸序列库的蛋白质查询,tblastn程序对于寻找数据库中序列的新的编码区很有用;最后一个只在特殊情况下使用(在这里介绍只是出于完整的考虑),tblastx将DNA查询序列和核酸序列库中的序列全部翻译成蛋白质序列,然后进行蛋白质序列比较,这个程序主要应用于ESTs比较,尤其是当人们怀疑到其中有可能的编码区,即使并没有确切地发现这一区域。
所有这些程序使用服务器上的序列数据库,从而不需要本地的数据库,表7.2和7.3陈列了一些BLAST使用的蛋白质和核酸的序列数据库。对于常规的搜索,nr数据库拥有大量的氨基酸和核酸序列,同时合并相同的序列以减少冗余度。为了检测在过去30天里提出或更新的序列,提供了一个称为“month”的数据库。不管是nr还是month,都是日日更新。表7.2和7.3中列出的其它一些数据库在一些特别的环境里十分有用,比如在比较模型物种(酵母和大肠杆菌)的全序列时,搜索特别类型的序列(dbest或dbsts),或检测是否存在污染或问题序列(vector,alu或mito)。
表7.2、使用BLAST的蛋白序列数据库:
|
数据库
|
描述
|
|
Nr
|
融合了Swiss-Prot,PIR,PRF以及从GenBank序列编码区中得到的蛋白质和PDB中拥有原子坐标的蛋白质,绝非多余。
|
|
Month
|
Nr的字集,每月(30天)更新,搜集了过去30天中的最新序列。
|
|
Swissprot
|
Swiss-Prot数据库。
|
|
Pdb
|
拥有三维空间结构的原子坐标的氨基酸序列库。
|
|
Yeast
|
由酵母基因组中基因编码的全套蛋白质。
|
|
ecoli
|
有大肠杆菌基因组中基因编码的全套蛋白质。
|
表7.3、使用BLAST的核苷酸序列数据库:
|
数据库
|
描述
|
|
Nr
|
极有价值的GenBank,排除了EST,STS和GSS部分。
|
|
Month
|
Nr的字集,每月(30天)更新,搜集了过去30天中的最新序列。
|
|
Est
|
Genbank中的EST部分(expressed sequence tags, 表达序列标签)。
|
|
Sts
|
Genbank中的STS部分 (sequence tagged sites, 序列标签位点)。
|
|
Htgs
|
Genbank中的HTG部分 (high throughput genomic sequences, 高容量基因组序列)。
|
|
Gss
|
GenbankGSS(genome survey sequences,基因组测定序列)。
|
|
Yeast
|
酵母的全基因组序列。
|
|
Ecoli
|
大肠杆菌的全基因组序列。
|
|
Mito
|
脊椎动物线粒体的全基因组序列。
|
|
Alu
|
搜集了灵长类动物的Alu重复序列。
|
|
vector
|
搜集了流行的带菌体的克隆。
|
一个BLAST搜索的例子会介绍搜索输出的不同元素。如图7.11所示的例子,一种Alzheimer疾病感受性蛋白质的氨基酸序列(由GenBank中L43964翻译)作为查询序列同dbest数据库用tblastn进行搜索。进行这么一次搜索的目的是要鉴定模型生物中可能的同源物的cDNA克隆,从而为在人类中无法进行的实验打开方便之门(相应于EST序列的克隆是已经实现的)。数据库中的每一个EST序列在同alzheimer蛋白质序列比较以前,都已经按照所有的阅读框架得到翻译。图7.11a显示了此次搜索得到部分命中的列表,前两列给出了每一个显著性匹配的序列的标识和描述。尽管浏览时定义被缩短了,我们仍然可以看到老鼠和果蝇的序列都被包含进来了。下一列给出了得到最佳HSP(即使其它阅读框架翻译结果也会达到命中)的阅读框架。后面三列给出了最佳HSP的分值、p值总和及p值计算时使用到的HSP数目。
包含一种果蝇EST(由箭头标出)的比对在图7.11b中得以显示。其中包含了两个HSP,并且显示了每一个的分值,EST的概念性翻译同查询序列并排显示。相同的氨基酸残基在两个序列之间回显,+表示两个不同残基匹配的分值是正数(比如保守取代)。从不同阅读框架得到的两个HSP是显著的并且彼此相邻,这一点从序列坐标就可以看出来。这种形式表示EST序列的一种阅读框架是错误的,并且对于用相对容错性的工具进行序列单向通行数据分析时极为有效。
a
sum
Reading High Probability Y
sequence producing High-scoring Segment Pairs: Frame Score P(N) N
gb|AA056325|AA056325 zf53a03.sl Soarea retina N2b4HR H... +3 724 3.4e-102 2
gb|T03796|T03796 IBIB913 Infant brain,Bento Soares...+3 567 2.6e-78 2
gb|AA260597|AA260597 mx76g09.r1 Soares mouse NML Mus m...+2 239 4.9e-53 4
gb|H86456|H86456 yt01b06.s1 Homo sapiens cDNA clon...+2 323 4.3e-52 4
gb|N24576|N24576 yx72a04.s1 Homo sapiens cDNA clon...+1 365 5.5e-47 2
gb|AA265273|AA265273 mx91c12.r1 Soares mouse NML Mus m...+2 239 6.4e-41 2
gb|AA237206|AA237206 mx18e01.r1 Soares mouse NML Mus m...+3 159 1.5e-40 3
gb|R146001|R146001 yf34b10.r1 Homo sapiens cDNA clon...+1 278 1.5e-40 2
gb|AA200706|AA200706 mu03f12.r1 Soares mouse 3NbMs Mus...+1 343 1.9e-40 1
gb|AA045064|AA045064 zk77f12.s1 Soares pregnant ulerus...-3 269 2.3e-37 2
gb|AA087434|AA087434 mm28a04.r1 Stratagene mouse skin....+3 322 3.6e-37 1
gb|R05907|R05907 ye93h02.r1 Homo sapiens cDNA clon...+3 252 7.7e-37 2
gb|AA268820|AA268820 vb01c10.r1 Soares mouse NML Mus m...+2 234 7.7e-35 2
gb|AA162310|AA162310 mn44a07.r1 Beddington mouse embry...+1 134 8.3e-34 3
gb|N27820|N27820 yx54h10.r1 Homo sapiens cDNA clon...+3 154 7.8e-29 2
gb|AA234907|AA234907 zs38f03.r1 Soares NhHMPu S1 Homo... +2 155 1.8e-28 2
gb|AA231081|AA231081 mw11d11.r1 Soares mouse 3NME12 5... +3 134 8.8e-23 2
gb|H91652|H91652 ys80c04.s1 Homo sapiens cDNA clon... -3 215 3.7e-22 1
gb|H50532|H50532 yo30h08.s1 Homo sapiens cDNA clon... -2 211 1.2e-21 1
gb|AA150236|AA150236 zl03c01.r1 Soares pregnant uterus...+1 159 5.0e-21 2
gb|AA144382|AA144382 mr15d12.r1 Soares mouse 3NbMS Mus...+3 159 7.6e-21 2
à gb|AA390557|AA390557 LD09473.5prime LD Drosophila Embr...+3 130 1.6e-20 2
gb|AA210480|AA210480 mo86b03.r1 Beddington mouse embry...+2 128 2.0e-20 3
gb|H19021|H19021 ym44b02.r1 Homo sapeins cDNA clon...+2 134 5.9e-20 2
gb|AA283084|AA283084 zt14g09.s1 Soares NbHTGBC Homo sa...-3 175 2.3e-19 2
gb|H25759|H25795 y149d01.s1 Homo sapiens cDNA clon...-2 185 5.0e-18 1
gb|H33787|H33787 EST110123 Rattus sp.cDNA 5’ end..... +1 137 6.7e-17 2
gb|AA201988|AA201988 LD05058.5prime LD Drosophila Embr...+3 175 5.5e-15 1
gb|AA263526|AA263526 LD06652.5prime LD Drosophila Embr...+1 167 7.0e-14 1
gb|R46340|R46340 yj52c04.sl Homo sapiens cDNA clon...-1 151 5.6e-13 1
gb|AA246675|AA246675 LD05588.5prime LD Drosophila Embr...+2 117 2.8e-10 2
gb|AA282899|AA282899 zt14g09.r1 Soares NbHTGBC Homo sa...+3 118 6.1e-07 1
gb|AA247705|AA247705 csh0941.seq.F Human fetal heart,....+3 56 0.0039 2
b
gb|AA390557|AA390557 LD09473.5prime LD Drosophila Embryo Drosophila
melanogaster cDNA clone LD09473 5’
Length – 659
Score – 130 (60.4 bits), Expect – 1.6e-20, Sum P(2) – 1.6e-20
Identities – 25/60 (41%), Positives – 40/60 (66%), Frame - +3
Query: 105 TIKSVRFYTEKNGQLIYTTFTEDTPSVGQRLLNSVLNTLIMISVIVVMTIFLVVLYKYRC 164
+I S+ FY + L+YT F E +P + +++ ++LI++SV+VVMT L+VLYK RC
sbjct: 480 SINSISFYNSTDVYLLYTPFHEQSPEPSVKFWSALGSSLILMSVVVVMTFLLIVLYKKRC 659
Score – 117 (54.3 bits), Expect – 1.6e-20, Sum P(2) – 1.6e-20
Identities –23/30 (76%), Positives – 27/30 (90%), Frame - +1
Query: 75 LEEELTLKYGAKHVIMLFVPVTLCMIVVVA 104
+EEE LKYGA+HVI LFVPV+LCM+VVVA
sbjct: 391 MEEEQGLKYGAQHVIKLFVPVSLCMLVVVA 480
图7.11、一次TBLASTN搜索的输出:在这次TBLASTN搜索中,以dbest数据库为基础,以阿尔茨海默氏病(即进行性老年性痴呆)基因(Genbank 检索号码L43964)的蛋白质产物为查询序列,目的是为了从其它那些可能同人类基因有同源性的物种中鉴定出一些cDNA克隆。(a).命中列表的一部分显示了其中最好的25个命中。每个检索出来的序列都由它们的GenBank检索号码以及一部分定义行组成。其中包括了它们的阅读框架和最佳HSP分值,同时显示的还有一个偶然命中的可能性的加和。最后一列中的数据给出了在计算加和的可能性时所涉及到的HSP的数量。在这个命中列表中可以见到至少10条从老鼠中得到的序列和一条从果蝇中得到的序列; (b).同果蝇的EST序列(GenBank AA390557)理论上的翻译序列匹配的结果。找到了两个HSPs,每一个使用不同的阅读框架。相同的残基在两行序列中间的相应位置回显,而“+”符号标记着那些不相同但是其取代分值是正分的残基。
BLAST的最新改进
最近发布的BLAST程序的修订版提高了搜索速度、敏感度和实用性。这个完全重新写过的软件包指定为2.0版本(避免同WU-BLUST混淆,这个软件是由华盛顿大学设计的,有时称为BLAST2)。应该注意到,在发布的2.0版本中,命令行的参数有很大改变,其中一些常用的参数列在表7.4中。
一个改进来自于引发一个字串命中的延伸的标准。现在,在一个需要考虑的残基的窗口里必须找到两个字串命中。使用这种策略提高了搜索速度,因为大量随机的字串命中将会被忽略,并且很有可能得到一个显著性良好的比对。第二个改进是能够明确地而不是含蓄地处理空位。除了帮助使用者更加容易地理解产生的比对,新版本还提高了较远关系的敏感性,其中可能会包含许多插入和缺失。比较从寻找无空位的HSP这一标准策略开始,然后,这一比对中获得最高分区域的中心一列被鉴定出来,接着,从这一点向前和向后延伸,通过赋值的路径进行无空位局部比对的搜索。如同最初的HSP搜索,一个分值下降的阈值X将会促使放弃那些遭遇大量负的取代分值的路径。对剩余的HSP进行反复的这种操作,将会揭示另外的含空位的比对,并保证它们同已经报告的部分不会相交。这个系统不同于FASTA所采取的策略,FASTA只会产生一个最佳的比对。
表7.4、一些对于BLAST很有用的参数值:
|
参数名称
|
BLAST 1.4
|
BLAST 2.0
|
|
数据库 (database)
|
第一参数
|
-d database
|
|
查询序列文件 (query sequence file)
|
第二参数
|
-I filename
|
|
期望阈值E (expectation cutoff)
|
E = number
|
-e number
|
|
HSP分值阈值S (HSP score cutoff)
|
S = number
|
-s number
|
|
字串分值阈值T (word score cutoff)
|
T = number
|
-f number
|
|
多命中窗口A (multihit window)
|
n/a
|
-A number
|
|
打分矩阵 (score matrix)
|
-matrix matrix
|
-M matrix
|
|
低复杂度过滤 (low-complexity filtering)
|
-filter seg
|
-F
|
|
空位开放罚分 (gap opening penalty)
|
n/a
|
-G number
|
|
空位拓展罚分 (gap extension penalty)
|
n/a
|
-E number
|
|
PSI-BLAST反复 (PSI-BLAST iterations)
|
n/a
|
-j number
|
对于那些弱势的但是显著性较强的比对,进行较高敏感性的数据库搜索的一个方法就是使用诸如profile(表头轮廓)的数据结构(Gonzalez et al., 1994)。这个策略可能曾经被认为是个进行数据库搜索的比较先进的课题,但是BLAST的一个新特性简化了基于profile的搜索工作。一个profile可能会被理解为一个列表,其中列出了在一个保守的蛋白质结构域中每一个位点发现每一种氨基酸残基的频率。建立一个profile可能是很乏味的,其信息是从那些拥有我们感兴趣的蛋白质结构域的多序列比对中得到的,这些比对必须预先准备好,而且,在这里有许多技术上的问题还没有解决。
位点特性反复BLAST(PSI-BLAST)是指BLAST2.0的一个特性,其中一个profile被不断组织并且不断精练。这个过程开始于使用一个简单查询序列的一个标准的数据库搜索。在这个初始的搜索结果中,一个profile从高度显著的比对中获得,然后这个profile在第二轮的数据库搜索中使用。如果需要的话,这个过程会反复进行,并且在操作中为了精练profile,会在每一轮中加入新的序列。
为了演示PSI-BLAST方法的高敏感性,旦氨酸三联体蛋白(HIT)序列被用来作为数据库搜索中的查询序列。HIT和1-磷酸乳糖尿苷酸转移酶(GalT)基于位点重叠的三位结构相似性最近得到描述(Holm and Sander, 1997)。经过一次标准的(一轮)BLASTP搜索,没有发现一个对GalT序列有显著的命中。但是经过多次搜索,在每一次反复中都发现新的关系,正如图7.12所示。在第二次搜索中了发现老鼠的GalT蛋白质,并且在这一信息被加入profile之后,另外一些其它物种的同源物也被检测出来。
Sequences producing significant alignments: Hign E
Score Value
Pass1:
sp|P49789|FHIT_HUMAN FRAGILE HISTIDINE TRIAD PROTEIN 290 7e-79
sp|P49776|APH1_SCHPO BIS(5’ – NUCLEOSYL) – TETRAPHOSPHATASE (ASYMME... 117 8e-27
sp|P49775|YD15_YEAST HYPOTHETICAL 24.8 KD HIT – LIKE PROTEIN 88.0 6e-18
sp|Q11066|YHIT_MYCTU HYPOTHETICAL 20.0 KD HIT – LIKE PROTEIN 52.7 3e-07
sp|Q04344|HIT_YEAST HIT1 PROTEIN (ORF U) 45.3 4e-05
Pass2:
sp|P47378|YHIT_MYCGE HYPOTHETICAL 15.6 KD HIT – LIKE PROTEIN 70.5 1e-12
sp|P32083|YHIT_MYCHR HYPOTHETICAL 13.1 KD HIT – LIKE PROTEIN IN P... 59.0 3e-09
sp|P26724|YHIT_AZOBR HYPOTHETICAL 13.2 KD HIT – LIKE PROTEIN IN H... 57.6 9e-09
sp|P32084|YHIT_SYNP7 HYPOTHETICAL 12.4 KD HIT – LIKE PROTEIN IN P... 55.7 3e-08
sp|P53795|YHIT_CAEEL HYPOTHETICAL HIT – LIKE PROTEIN F21C3.3 54.3 9e-08
sp|P42856|ZB14_MAIZE 14 KD ZINC – BINDING PROTEIN (PROTEIN KINASE... 52.8 2e-07
sp|P42855|ZB14_BRAJU 14 KD ZINC – BINDING PROTEIN (PROTEIN KINASE... 50.2 1e-06
sp|P49774|YHIT_MYCLE HYPOTHETICAL 17.0 KD PROTEIN HIT – LIKE PROT... 49.5 2e-06
sp|P49773|IPK1_HUMAN PROTEIN KINASE C INHIBITOR 1 (PKCI – 1) 49.1 3e-06
sp|P16436|IPK1_BOVIN PROTEIN KINASE C INHIBITOR 1 (PKCI – 1) (17 ... 48.7 4e-06
sp|P44956|YCFF_HAEIN HYPOTHETICAL HIT – LIKE PROTEIN HI0961 47.3 1e-05
sp|P43424|GAL7_RAT GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 41.0 8e-04
Pass3:
sp|Q03249|GAL7_MOUSE GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 87.2 1e-17
sp|P07902|GAL7_HUMAN GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 79.8 2e-15
sp|P31764|GAL7_HAEIN GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 64.7 6e-11
sp|P09148|GAL7_ECOLI GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 62.5 3e-10
sp|P22714|GAL7_SALTY GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 58.1 6e-09
sp|P09580|GAL7_KLULA GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 48.5 4e-06
sp|P08431|GAL7_YEAST GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 40.8 0.001
Pass4:
sp|P40908|GAL7_CRYNE GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 71.0 8e-13
sp|P13212|GAL7_STRLI GALACTOSE – 1 – PHOSPHATE URIDYLYLTRANSFERASE 57.0 1e-08
图7.12、使用PSI-BLAST后,敏感性提高很大:在这次BLASTP搜索中,查询序列是人类组氨酸三联体(HIT)蛋白(Swiss-Prot P49789),搜索时开启了PSI-BLAST功能。在每一次重复搜索中,新检索出来的具有统计学显著性的匹配都会显示它们的定义行,打分值以及E 数值。
上一篇:NCBI 数据模型 下一篇:多序列比对的实际应用 共3页: 上一页 [1] 2 [3] 下一页 |