介绍生物资讯,实验基础,核酸试验,蛋白试验,动植物,生物芯片,微生物,细胞生物学,医学健康,资源下载,其他资料,生物学试验方案方法知识的网站
网站地图本站论坛
高级搜索收藏本站
 
 当前位置:试验方案>生物芯片>信息学> 正文

应用GCG进行序列分析

点击:   作者:   来源:  时间: 2007-07-04  本站论坛

Barbara A. Butler

Genetics Computer Group. Inc

Oxford Molecular Group

Madison. Wisconsin

一、引言

快速、经济的核酸序列测序方法的出现使包括分子生物学、遗传学以及生物化学在内的许多科学领域发生了革命。(Gilbert, 1981; Sanger, 1981)。这项技术的发展同时也使人们需要构建公用数据库来存储在全世界范围的实验室内得到的序列信息(Benson et al., 1997; Stoesser et al., 1997)。由于提交到数据库中的序列需要进行分析和解释,同时已经存在的数据库中的条目需要进行辨识和修补以供研究人员进一步研究之用,因此随着公用数据库的建立,生物信息学和计算生物学逐渐走向成熟。

生物信息学可被视为为对生物信息,特别是对核酸以及蛋白质序列信息的获取、分析和存储。而计算生物学则是指为实现上述目的进行的相应算法和计算机应用程序的开发。近十年来全基因组测序计划中积累的大量数据使这两个领域都有了飞速的发展,从商业的、学术的各种来源出现了许多可用于序列分析和数据库搜索的程序。用于个人计算机和Macintoshe机的软件包,特别是可供多用户使用的软件包通常比较昂贵,并且可能缺少用于分析和编辑的综合性的程序组。与商业程序相比,那些公用的能独立运行的程序(即此程序不是作为软件包的一部分而可以独立运行)很便宜,但需要下载有时甚至要在本机上进行编译,而且用户还必须熟悉输入序列的格式和学习如何使程序有效地运行。虽然现在通过网络使用选定的程序已经成为可能,但如果分析需要综合多个程序则难以进行。例如,研究者可以使用某种软件进行数据库搜索但却无法进一步将搜索到的序列进行对比。同样,要创建一个序列对比然后再进行编辑也是很困难的。

这一章中介绍了一种集成环境,它将大量序列分析和数据库搜索程序集成在一起,并且可以访问各种来源的序列数据。这一集成环境即为Genetics Computer Group开发的SeqLab, 它同时也是Wisconsin软件包的一部分。Wisconsin软件包是一组综合性的序列分析程序,它使用公用的核酸和蛋白质数据库。SeqLab是一个图形用户界面(GUI),通过它可以使用所有Wisconsin软件包中的程序及其支持的数据库。此外,它还提供了一个环境用于创建、显示、编辑和注释序列。SeqLab也可以被扩展使其可以包括其它公用或非公用的程序和数据库。

在这一卷的其它章节中详细讨论了许多应用Wisconsin软件包程序所进行的分析,以及Wisconsin软件包与SeqLab支持的数据库。因此,这一章中只强调访问数据库条目和本机序列的环境,可进行分析的类型以及编辑和注释这些条目和序列的方法。

 

二、Wisconsin软件包

Wisconsin软件包是一个综合性的序列分析软件包,它由120多个独立的程序组成,每个程序进行一项单一的分析任务。由于所有程序输入的序列有统一的格式,所以无论是公用的还是私人的数据库中的条目或是独立的序列文件都可以用Wisconsin软件包中的程序进行分析。此外,某些程序的输出文件的格式设定使得这些文件可以用其它程序进行进一步的分析。基于上述原因,以及软件包作为一个整体的模块性,用户可以将这些程序进行组合,从而可以对序列进行各种不同的分析。这一章的附录中列举了使用最广泛的一些程序。包括所有程序的完整目录以及详细的描述可以在Wisconsin软件包的程序使用文档中找到。

Wisconsin软件包支持各种UNIX平台以及OpenVMS。关于GCG,Wisconsin软件包,支持的平台以及硬件需求的一般性信息可以在GCG的主页(/www.gcg.com/)以及Wisconsin软件包的用户手册中找到。

 

三、Wisconsin软件包使用的数据库

GCG支持五种数据库供Wisconsin软件包使用,其中包括两种核酸数据库和三种蛋白质数据库。这些数据库既有GCG格式的(供大多数Wisconsin软件包程序使用),也有BLAST格式的(供BLAST数据库搜索程序使用)。同时还提供了用于LookUp程序以及数据库参考搜索的索引。

GCG支持的两种核酸数据库是GenBank数据库(Benson et al., 1997)以及仅由GenBank中没有的序列组成的简化版的EMBL核酸序列数据库(Stoesser et al., 1997)。为了方便进行搜索,这两个数据库被组合成一个更为广泛的核酸数据库,称为GenEMBLPlus。这个联合数据库包括GenBank和EMBL核酸序列数据库的表达序列标记(EST),序列标记位点(STS)以及基因组序列纵览(GSS)条目部分。可以用特定TAG分别搜索这三部分或用特定GenEMBL搜索没有这三部分的GenEMBLPlus。

GCG支持的三种蛋白质数据库是Protein Information Resource(PIR)国际蛋白质序列数据库(George et al., 1997), SWISS PROT蛋白质序列数据库(Bairoch and Apweiler, 1997)和SP-TrEMBL数据库(Bairoch and Apweiler, 1997)。SP-TrEMBL是欧洲生物信息学研究所以及Switzenland的Geneva大学的Amos Bairoch博士联合开发的。它包含了大多数在EMBL数据库条目中有标记的预测的翻译区域,但不包含已经在SWISS-PROT中出现的任何条目。SP-TrEMBL中的条目用SWISS-PROT的格式进行注释,当这些条目在SWISS-PROT中出现时,就会从SP-TrEMBL中删除掉。为了方便进行搜索,SWISS-PROT和SP-TrEMBL这两个数据库被结合在一起组成一个更为广泛的蛋白质数据库��SWISS-PROTPlus。

GCG支持的数据库两个月更新一次(与GenBank数据库的更新日程同步),这是GCG数据库更新服务的一部分。Wisconsin软件包实体程序和脚本也可用于下载数据库以及格式化站点上的数据库版本,或者用于数据库版本间的更新以及将个人的数据库转换为Wisconsin软件包可用数据库的格式。这些实体程序的列表和说明都可在Wisconsin软件包系统支持文档中找到。FASTA格式的数据库可直接用于Wisconsin软件包中除BLAST和LookUp以外的所有程序而不需进行格式转换。

 

四、SeqLab环境

SeqLab是Wisconsin软件包基于OSF/Motif的图形用户界面。它使用户可以在一个基于窗口的环境中使用大多数Wisconsin软件包中的程序和所有支持的数据库。SeqLab的使用需要在微型计算机上运行X-terminal或X-server。关于X-server软件的介绍可以在GCG主页www.gcg.com中找到。

Wisconsin软件包初始化完成后,在UNIX提示符下键入命令seqlab以启动SeqLab。这时会出现一个标题为SeqLab主窗口的窗口(如图4.1所示)。这个主窗口可以有两种模式:Main List模式和Editor模式(这里即指SeqLab Editor)。在Main List模式中SeqLab主窗口显示一个列表文件,文件中包含单序列文件、列表文件、多序列格式(MSF)文件、富含序列格式(RSF)文件以及数据库条目的名称。在Editor模式下SeqLab主窗口显示这些文件和数据库条目中的序列。用户可用SeqLab主窗口(图4.1)中的Mode:选择按钮在两种模式之间进行切换。两种模式下都可以访问Wisconsin软件包程序以及所支持的数据库,然而除此以外在SeqLab Editor下用户还可以编辑和注释序列。因此这一章重点介绍SeqLab Editor。

横贯SeqLab主窗口顶端的是一个菜单条,菜单选项可概括如下:

File: 从数据库或目录文件中增加序列或创建新的序列。

Edit: 移动、编辑序列并执行简单的操作。

Functions: 根据分析主题进行组织的Wisconsin软件包程序。

Extensions: 可从SeqLab运行的附加程序列表。

Options: 用于序列和输出显示、文件管理器以及打印的参数。

Windows: 用于输出显示,程序监视和特征注释的窗口列表。

Help: Wisconsin软件包程序和SeqLab界面的在线帮助。

除了Mode选择按钮以外,SeqLab主窗口中还包括一个Display选择按钮用于改变显示序列的颜色或给它加上阴影,以及一个比例条用于改变水平方向的比例。此外,还有一组图标提供了另一种选择编辑选项,观看序列信息以及设置保护的方法。当然,窗口中的大部分空间还是用于显示序列的(图4.1)。

 

 

从数据库中增加条目以及从目录中增加序列文件

一个序列首先必须出现在SeqLab主窗口中,然后才能对其进行编辑或用Wisconsin软件包中的程序进行分析。数据库条目可以通过条目名称或访问号加入。GCG格式的单序列文件、列表文件、MSF以及RSF文件可以用文件名加入(关于这些文件格式的细节以及如何创建可参考SeqLab指南)。

要从数据库中往SeqLab主窗口中增加一个条目,首先使用鼠标左键选取菜单条中的File选项, 然后从下拉菜单中选取Add Sequences From选项。接下来,从出现的扩展菜单中选取Databases选项, 这时将出现一个Database Browser窗口(如图4.2)。在窗口底部的Database Specification文本框中键入要加入的数据库条目的名称或访问号,然后点击Add to Main Window按钮和Close按钮。这一过程可简写如下。(本章中全部采用这种简写方式来描述键盘和鼠标命令)

从数据库中往SeqLab主窗口中增加一个条目的方法如下:

1。选取File菜单中的Add Sequences From, 单击Database选项。

2。在Database Browser(图4.2)的Database specification 文本框中键入条目名称或访问号。

3。单击Add to Main Window 与Close按钮。

用户也可以往SeqLab主窗口显示的列表中加入GCG格式的序列文件。

 

 

 

往SeqLab主窗口中加入目录文件的方法如下:

1。选取File菜单中的Add Sequences From菜单,单击Sequence Files选项。

2。选取Filter文本框中合适的过滤器(缺省值为*.seq,它将显示目录中文件名以.seq结尾的所有文件。如果用*代替*.seq将显示目录中所有文件)。

3。从Directory域中选择合适的目录。

4。单击Filter按钮。

5。从Add Sequence窗口的Files域中选择要加入的文件名。

6。单击Add与Close按钮。

双击数据库条目或序列名称可以看到有关此条目或序列的参考信息。这一操作将打开Sequence Information 窗口。在必要的时候,这一窗口中任何文本框里的信息都可以进行编辑。例如要给数据库的条目改名或给作为一个大项目的一部分的序列加一个ID号(访问号)通常是很方便的。

用户可以用箭头键和水平、竖直滚动条浏览显示在SeqLab中的序列。键入残基的编号然后回车即可移动到序列中相应的残基处。关于在SeqLab Editor中浏览用的其它快捷方式,包括移动到当前光标处等等,在SeqLab的指南中有详细的介绍。

 

创建一个新的序列条目

用户可以向SeqLab中输入新的蛋白质或核酸序列。

输入一个新的蛋白质或核酸序列的方法如下:

1。选取File菜单的New Sequence选项。

2。在New Sequence框中选择DNA, RNA或蛋白质中的一种。

当列表出现后,单击条目的开始处,然后键入序列或从其它窗口粘贴序列信息。双击新条目的名称加入参考信息。这一操作会打开Sequence Information窗口。所有文本框都是可编辑的,包括改变条目名称,描述,作者名以及ID/访问号。在窗口底部的大文本框中可以加入一般参考信息。

 

编辑已存在的序列

显示在SeqLab Editor中的已存在序列是受保护的,不可能无意中插入或删除一些残基。然而这种保护状态是可以改变的。当这种保护被去除时,可以增加或删除残基,也可以在条目间剪切和粘贴序列或序列的一部分。

改变一个序列的保护状态的方法如下:

1。选取File菜单中的Sequence Protections选项。

2。选取Sequence Protections窗口中所有按钮并单击OK。

SeqLab用于编辑多序列对比结果特别有效。因为用户可以移动到独立序列或对比结果内的某个绝对位置上,可以把序列组成组,这样一组中一条序列的改变同样会影响发生这组中所有其它的序列,或者把已经组成的组打散,可以在间隙间移动残基岛而不改变整个对比结果。例如,用户可以通过滑动psqalt岛将一个包含gq...psqalt......asw的对比结果改为gq.......psqalt....asw,就好象psqalt这六个残基连成一个字符串。这个岛代替了右边一个间隙符号,就好象残基岛向右方移动,同时一个间隙符号出现在岛的左边,这样整个对比结果保留下来。关于编辑操作的完整列表见Wisconsin软件包的SeqLab指南。

 

五、用操作(operations)和Wisconsin软件包程序分析序列。

一旦序列加入并显示在SeqLab主窗口中,就可以运行任何Wisconsin软件包中程序对其进行分析。程序创建的输出文件列在Output Manager窗口中(详见下文观察输出部分)。这些文件有些可以重新加入到SeqLab Editor或SeqLab List模式中进行扩展或相关分析。此外,还有几种简单的操作可以从SeqLab Editor中直接运行。

 

执行简单操作

SeqLab Editor中的Edit菜单使用户可以对显示的序列进行一些简单的操作而不用运行程序。这些操作包括翻译核酸序列,反转以及互补核酸序列,计算序列对比结果中的共有序列,寻找短的序列特征模式。这些操作的优势在于运行迅速并且结果可以自动显示在SeqLab Editor中,从而可以直接进行编辑和注释,同时也是最重要的是其结果可以作为从Functions菜单中选中的Wisconsin软件包程序的输入。

选择一个操作的方法如下:

1。根据名称选择一个序列或一段序列。

2。选取Edit菜单中相应的操作选项。

 

运行Wisconsin软件包程序

Wisconsin软件包程序用于对SeqLab Editor中显示的序列进行更大规模的或更为鲁棒的分析。所有可用的程序都列在Functions菜单下并根据分析功能进行了分组。以作图功能组中的Map程序为例。

运行Wisconsin软件包中Map程序的方法如下:

1。根据名称选定一个序列或用光标选定一段序列。

2。选取Functions菜单中的Mapping, 然后选定Map选项。

根据名称选定一个程序将为此程序打开一个Program窗口。每个Program窗口都有相同的基本格式,其中包括选定的序列名称,运行此程序所需的参数,一组用于选择和存储可选参数的按钮以及用于运行程序、关闭窗口和获取帮助的按钮。Map程序的Program窗口如图4.3的左图所示。

用户可以选用参数的缺省值来运行程序,也可以通过Program窗口中的按钮和文本框来改变参数值。此外,每个程序都有其独有的一组可选择的参数,可用于修改程序进行的分析或改变输出显示的方式。这些可选参数列于Program Options窗口中,当选定Program窗口的Options按钮时Program Options窗口将被打开。通过为Map程序选定必须的以及可选择的参数,用户可以选择包含在一个限制性酶切图中的酶子集,使其只包含产生图上5'突出端的酶,或选择忽略作为限制性酶切图一部分正常所包含的反转互补链。Map Options窗口如图4.3右图所示。

 

 

 

 

 

选取Program窗口中的Run按钮将使用选定的参数运行这一程序并关闭Program窗口。如果一个程序在同一个SeqLab运行进程内再一次运行,Program窗口出现时会保留上一次选定的参数。通过选定Save Settings按钮可以在不同的SeqLab运行进程间保存选定的参数。在Program窗口中选取GCG Defaults将把Program和Programs Options中的参数重新设为缺省值。所有的Program窗口都有一个Help按钮用于访问此程序特定的在线帮助。

上一篇:结构数据库   下一篇:生物数据库的信息检索


共3页: 上一页 1 [2] [3] 下一页

 
推荐文章
 
相关文章
推荐专题
 


↑返回顶部   打印本页   关闭窗口↓  
 本站申明 联系我们 网站地图
Copyright© 试验方案

Powered by DedeCms email:htmyth#yahoo.com.cn QQ:386836509

Optimized to 1024x768 to Firefox,Opera and MS-IE6