|
十一、引入非Wisconsin软件包组件的程序扩展SeqLab
SeqLab另一个关键特征在于它的灵活性,可以在环境中插入附加程序。这一过程需要获取要引入程序的可执行文件,并创建一个描述必需和任选参数以及输入输出文件格式的配置文件。关于如何创建一个配置文件的详细介绍参见Wisconsin软件包系统支持手册。不必把这些可独立运行的程序链接到Wisconsin软件包的任何进程上。用这种方式,可以从SeqLab内运行任何编译来运行在运行Wisconsin软件包的计算机操作系统下的程序,同时观察其输出也十分容易,就象它是Wisconsin软件包的一部分。ClustalW(Higgins et al., 1996)就是Wisconsin软件包9.0版本引入的扩展程序的一个实例。注意除非可执行文件已经下载下来或已经编译连接并且配置文件已被编辑指向这一文件的位置,否则这不是一个功能程序。
附录
Wisconsin软件包程序根据程序功能组织为几部分。列出的主题都在SeqLab Functions菜单中。下文中列出了大多数(但不是全部)从SeqLab可访问到的程序以及简要的说明。GCG主页提供了更新信息以及Wisconsin软件包程序的完整列表。
1.两两比较
(1)Gap: 使用Needleman和Wunsch(1970)提出的算法来寻找两条序列的全局最优对比结果。
(2)BestFit: 使用Simith和Waterman(1981)提出的算法寻找两条序列的局部最优对比结果。
(3)FrameAlign: 创建一条蛋白质序列与一条核酸序列的三种前向阅读框架的三联体编码之间的局部最优对比结果。对比时通过加入必要的间隙保持阅读框架。
(4)Compare/DotPlot: 比较两条蛋白质序列或核酸序列,创建包含序列相似区域信息的文件,并将结果图形化地显示为一个相似性的点矩阵。
(5)ProfileMake/ProfileGap: 创建一个位置特定性的评分表,称为profile,定量描述一组进行对比的序列的信息。ProfileGap创建一个profile和一条序列间的最优对比结果(Gribskov et al., 1990)。
2.多个比较
(2)PlotSimilarity: 在多序列对比结果中图形化序列相似性分数的平均过程。
3.数据库参考搜索
(1) LookUp: 通过索引域如Name, Accession, Number, Author, Organism, Keyword, Title, Reference, Feature, Definition, Length或描述项的日期(Etzold and Argos, 1983)搜索数据库条目。
4.数据库序列搜索
- BLAST: 在数据库中搜索与查询序列相似的序列(Altschul et al., 1990)。查询序列以及要搜索的数据库是肽和核酸的任意组合。程序可以搜索用户本机上的数据库或保存在Bethesda Maryland的国家生物信息中心(NCBI)的数据库。
- FASTA: 在数据库中搜索与查询序列相似的序列。程序由William Pearson和David Lipman(Pearsonand Lipman, 1988)所写。
- TFASTA: 在核酸数据库中搜索与蛋白质查询序列相似的序列,进行比较之前它将数据库中序列的6种阅读框架都进行翻译(Pearson and Lipman, 1988)。
(4)FrameSearch: 在一个核酸数据库或列表文件中搜索与一个蛋白质查询序列相似的序列。也可以在一个蛋白质数据库或列表文件中搜索与核酸查询序列相似的序列。对于每个序列对比,程序寻找蛋白质序列与核酸序列的每条链的所有可能的三联体之间的最优对比结果,对比时加入间隙来保持阅读框架。
- ProfileMake/ProfileSearch/ProfileSegments: ProfileMake创建一个位置特定性的评分表,称为profile,定量地描述一组对比序列的信息。ProfileSearch使用这个profile在数据库、数据库划分、或在列表文件中搜索与创建此profile的序列相似的序列。ProfileSegments显示数据库条目和profile相似的局部区域(Gribskov et al., 1990)。
- FindPatterns: 辨识包含短的特征序列模式的序列。模式可在每个位置任意定义并且(或者)可以完全不匹配。
5.编辑和发布
- Pretty: 多序列对比结果显示多样化。也可用于计算对比结果的共有序列。
- Publish: 单序列或多序列的显示多样化。提供了一个用于显示选项,翻译以及标记身份的菜单。
- MapSort/PlasmidMap: 采用Plasmid选项的MapSort创建一个包含限制酶识别位点位置的文件。这个文件可以用PlasmidMap程序加以图形化显示但必须是循环限制酶切图。
6.进化
- Distances/GrowTree: 创建一组序列对比结果中两两之间相关距离的距离矩阵,这一距离用每100个残基中替换的核酸或氨基酸的个数表示。同时创建一个种系图。
- PaupSearch: 为PAUP(进化系统简约性分析��Phylogenetic Analysis Using Pasimony)(Swofford, 1996)中的树搜索选项提供一个GCG接口。
- PaupDisplay: 为PAUP(进化系统简约性分析��Phylogenetic Analysis Using Pasimony)(Swofford, 1996)中的树操作、鉴定以及显示选项提供一个GCG接口。
- Diverge: 应用Li发表的各种方法(Li, 1993; Pamilo and Bianchi, 1993)评估两条编码为蛋白质的核酸序列每个位点的同义码和不同义码的置换个数。
7. 片段拼接
- GelStart/GelEnter/GelMerge/GelAssemble: GelStart创建一个片段拼接项目或对已经存在的项目进行初始化。GelEnter将片段复制或输入到项目中。GelMerge寻找片段间的交叠并将它们拼接为contig或连续的区域。GelAssemble是一个用于显示contig的编辑器,可用于去掉片段间的冲突。
- GelView: 在给定的时间显示一个项目中所有的contig以及每个contig中包含的所有片段。
8. 模式识别和基因预测
- TestCode: 根据核酸序列每3个碱基组成的非随机性使用Fickett(1982)开发的算法预测蛋白质编码区。
- CodonPreference: 根据三联体的使用以及第三位GC 出现频率偏差预测蛋白质编码区。现已有几个组织的三联体使用频率表(Gribskov et al., 1983)。
- Frames: 根据起始和终止三联体编码子的位置,图形化显示一条核酸序列的6种转录框架的开放阅读框架。
- FindPatterns: 辨识包含短的特征序列模式的序列。模式可在每个位点任意定义并且(或者)可能完全不匹配。
- Motifs: 通过在蛋白质序列中搜索在蛋白质位点和模式的PROSITE字典中定义的特征序列模式(Bairoch et al., 1997)来寻找已知的蛋白质模式motif。
- Composition: 确定核酸或蛋白质序列的组成。对核苷酸序列,也可用于确定双核苷酸以及三核苷酸的内容。
- CodonFrequency: 创建序列编码区或已存在的三联体编码子使用表的编码子频率表。输出可用于许多Wisconsin软件包程序,其中也包括CodonPreference。
9.输入/输出
- Reformat: 格式化序列文件,符号比较表,或酶数据文件,使其能够用于Wisconsin软件包程序。也可用于修改序列的显示。
- FromStaden: 将Staden格式(Staden, 1980)的序列文件转换为GCG格式。如果文件中存在多个序列,将对每个序列创建一个文件。
- FromGenBank: 将GenBank中flatfile格式(Benson et al., 1997)的序列文件转换为GCG格式。如果文件中存在多个序列,将对每个序列创建一个文件。
- FromPIR: 将PIR格式(George et al., 1997)的序列文件转换为GCG格式。如果文件中存在多个序列,将对每个序列创建一个文件。
- FromFASTA: 将FASTA格式(Pearson and Lipman, 1988)的序列文件转换为GCG格式。如果文件中存在多个序列,将对每个序列创建一个文件。
- ToPIR: 将GCG格式的一个或多个序列文件转化为PIR格式(George et al., 1997)。
- ToFASTA: 将GCG格式的一个或多个序列文件转化为FASTA格式(Pearson and Lipman, 1988)。
- ToStaden: 将GCG格式的一个或多个序列文件转化为Staden格式(Staden, 1980)。
10.作图
- Map: 显示核酸序列,在序列上方显示限制酶剪切位点,并在下方显示蛋白质翻译物。Map也可用于创建核酸序列的肽图。
- MapPlot: 图形化显示限制酶识别位点,每条线代表一个酶。
- MapSort: 预测核酸与一个或多个限制酶作用后得到片段的大小。
- PeptideSort: 预测核酸序列分解后的肽片段。预测到的肽片段根据重量、位置以及高性能液体层析仪(HPLC)决定的相关保留时间进行排序。它也包括每条肽链以及整个蛋白质组成的概要。
11.引物选择
- Prime: 为PCR(聚合酶链反应)选择低聚核苷酸引物,引物测序以及引物扩展实验。PCR受Hoffmann-LaRoche所有的美国4.683.195以及4.683.202号专利的保护。
12.蛋白质分析(1)CoilScan: 在蛋白质序列中定位coiled�coil段。
- HTHScan: 在蛋白质序列中搜索helix-turn-helix motif,这种motif代表了通常与基因调节有关的序列特定的DNA绑定结构。
- Isoelectric: 预测并绘制蛋白质序列的滴定曲线。
- ProfileScan: 使用profile数据库在蛋白质查询序列中搜索motif(gribskov et al, 1990)。
- PeptideSort: 预测核酸序列分解的肽链片段。预测到的肽片段根据重量、位置以及HPLC保留时间进行排序。它也包括每条肽链以及整个蛋白质组成的概要。
- PepPlot: 使用Chou和Fasman(Chou and Fasman, 1978)提出的方法预测二级结构。预测结果在一组并列的图中,同时也包括亲水性和疏水性力矩图。
- PeptideStructure/PlotStructure: 预测并显示蛋白质序列的二级结构抗原性、灵活性、疏水性以及表面概率。
- SPScan: 在蛋白质序列中搜索分泌信号肽链(SPs)。
13.RNA二级结构
- Mfold/PlotFold: 使用Zuker的能量最小化方法预测并显示RNA分子的最优以及次最优二级结构。
- StemLoop: 在序列中搜索发夹的碱基配对片段(stem)或反向重复序列。用户指定最小的发夹碱基配对片段长度,最小和最大的发夹末端单连区(loop)尺寸,以及每个发夹碱基配对片段最小的键数。
14.翻译
- Translate: 将核酸序列翻译为多肽序列。
- BackTranslate: 把氨基酸序列翻译为核酸序列。输出显示帮助用户识别可能有利于创建人造探针的最低任意限度的区域。
上一篇:结构数据库 下一篇:生物数据库的信息检索
共3页: 上一页 [1] [2] 3 下一页 |