搜索引擎快速人门指南
茫茫网海之中,怎样找到自己需要的信息或网站呢?初上网者往往感到漫无边际,上网很长时间的用户,常常也受到很多的困扰。其实很简单,就象电信局有114查号台一样,网上也有许多提供信息查询、搜索的站点,通过这些站点,很容易找到自己需要的东西。这些“查号台”,网上通常称做搜索引擎(SearchEngine),或者导航站点。
要查找信息,首先应该了解搜索引擎的性质、特点和使用方法。这正是以下我们要介绍的内容。
第一节 搜索引擎的基本类型 第二节 搜索引擎的收录范围 第三节 搜索引擎的语言版本
第四节 搜索引擎的分类目录 第五节 搜索查询的技巧 第六节 繁体版搜索引擎的使用
第七节 电子邮件(E-mail)查询 第八节 图形图像检索
第一节 搜索引擎的基本类型 搜索引擎有两种基本类型:
1. 以分类目录为主的搜索引擎 提供一份按类别编排的国际互联网网站目录,各类下边,排列着属于这一类别的网站站名和网址链接,这就像一本电话号码簿一样,不同的是有些搜索引擎还提供了各个网站的内容提要。
这类搜索引擎往往还伴有网站查询功能,也称之为网站检索,即提供一个文字输入框,用户可以在文字框中输入要查找的字、词或短语,再点击框边的按钮,搜索引擎便会查找相关的站名、网址和内容提要,并将查到的内容显示出来。按钮的名称,一般是“开始”,也有的起名为“查找”、“搜索”、“查询”,或使用英文“Start”、“Find”、“Search”、“Go”、“Getit”、“Submit”等。我们所输入的那个字、词,称为关键词(KeyWord),因此我们有时也称搜索查询为关键词检索。
2. 以网页全文检索为主的站点 这类搜索引擎看起来与前一类搜索引擎的网站查询非常相似,也提供一个文字输入框和按钮,使用方法也相同。而且,有些也提供分类目录,但两者却有本质上的区别。
网站查询搜索引擎的资料库中,搜集保存的是互联网上各网站站名、网址和内容提要;全文检索搜索引擎的资料库中,搜集保存的则是互联网上各网站的每一个网页的全部内容,范围要大得多。
全文检索查到的结果,不是站名、网址和内容提要,而是与你输入的关键词相关的一个个网站的地址和一段文字。在这段文字中,可能没有你输入的那个关键词,它只是某一网页的第一段话,甚至是第一段无法看懂的标记。但在这个网站中,一定有你所输入的那个关键词,或者相关的词汇。 简单的说就是:网站查询可以查到网上有哪些报纸,如《文汇报》、《大公报》,而全文检索则可以查到网上这些报纸的每一篇文章中的词汇。两种类型的搜索引擎,各有其不可替代的功用。
有些全文检索搜索引擎也提供分类目录,但这种目录不是网站的分类目录,而是网页的分类目录。也就是说,在各类目下所排列的,不是网站站名、地址,而是大量的属于这一类别的网页地址。 当然,也还有些搜索引擎,同时提供网站分类目录、网站查询和网页全文检索,但鱼与熊掌不可兼得,故这类搜索引擎往往不很完善,或其某一方面不很完善。
第二节 搜索引擎的收录范围
使用一个搜索引擎,还应该了解它收录的范围是什么,由此才能知道,在这里是否能查到自己需要的东西。这就像我们查工具书一样,首先要知道这本书是字典、词典,还是成语词典、方言词典。
搜索引擎的收录范围包括以下意义:
1. 地域范围 大型搜索引擎的资料库,往往面向全球,收录全球互联网的网站或网页,而且在本网站中,还专门建立一些地域范围的检索。如Yahoo就是这样,它一方面收录全球的网站,同时专门开辟有收录亚州地区网站的分站。而一些中小型的搜索引擎,则专门收录某一地区的信息,如美洲、欧洲、亚洲地区,甚至小至纽约、东京、香港等城市。全球性搜索引擎收录的范围虽然广泛,但对某一局部而言,却很可能不如区域性搜索引擎内容来得丰富和完备。
2. 语言范围 举个较为典型的例子:因特网上的中文网站,往往使用不同的汉语内码来编写,常用的有GB简体中文(大陆地区、新加坡常用)、Big5繁体中文(港台地区常用),其他还有HZ码、图形方式等。因此,有些搜索引擎,主要收录简体中文网站的信息(特别是大陆地区的搜索引擎);有些搜索引擎,则主要收录繁体中文网站的信息(特别是港台地区的搜索引擎);有些搜索引擎,则兼收各种中文网站信息。 在互联网上,还有一些英文网站,发布有关中国和华人信息。因此也出现了一些专门查询这一类网站信息的搜索引擎。
3. 网站类型范围 在所有国际互联网的网站中,最常见的是页面浏览、超文本链接形式的网站,即www网站,但也还有其他多种形式的网站,如Ftp、Gopher、BBS、新闻组等。大型搜索引擎往往能够搜索各种形式的网站信息,它们往往开辟专门的选项,来搜索Ftp、Gopher、BBS、新闻组中的内容。但有相当多的搜索引擎,只能搜索www网站,而无法查询其他形式网站的信息。
4. 专业范围 我们这里所说的搜索引擎,指的是综合性的搜索引擎,它们收录各个方面、各个学科、各个行业的信息。但也有一些搜索引擎,专门收录某一方面、某一行业、某一主题的信息。如商务查询、企业查询、人名查询、电子邮件地址查询,甚至医学论文查询等等。它们与综合性搜索引擎有相同之处,但也有本质的区别。
第三节 搜索引擎的语言版本
在上一节中,我们曾经谈到,中文网站编写的语言版本,有GB简体中文和Big5繁体中文的不同。其实,许多著名的全球性搜索引擎,如Yahoo、AltaVista等就针对全球许多国家和地区开发了多种语言版本的分站。
仍以中文网站的建设为例:一般来说,大陆的搜索引擎,多使用简体中文编写,其资料库的内容,也偏重于简体中文网站或大陆地区的网站;港台地区的搜索引擎,多使用繁体中文编写,内容则偏重于繁体中文网站或港台地区的网站。
如果你的电脑安装的是简体中文操作系统,就必须再安装一个支持繁体字的软件或字库,才能正常查阅繁体版的搜索引擎。否则,进入这些搜索引擎时,看到的只是一片乱字符。同样,如果你的电脑安装的是繁体中文操作系统,也必须再安装一个支持简体字的软件或字库,才能查阅简体版搜索引擎。
第四节 搜索引擎的分类目录
如果用户想知道在因特网上有哪些诸如关于新闻、体育、军事、音乐等专业站点,那么搜索引擎的分类目录是不可或缺的工具。一份好的分类目录,就像一个指南针一样,可以让我们方便地找到自己需要的目标;差的分类目录,则常常使我们疲于奔波,而所获甚微。
评价一个分类目录的优劣,主要有以下几个方面的因素:
1. 分类方式 多数分类目录都是依据各网站的内容属性来分类的,如人文科学、自然科学、教育、新闻媒体、娱乐等等;也有的目录按照地区等其他原则分类。还有的网站,提供多种分类方式供用户选择。 依据网站内容分类的目录,还有一个分类方法的问题。不同的分类方法导致所设置的分类目录各不相同。例如,国内许多网站的分类目录,多依据中华人民共和国颁布的《标准化工作细则》中的《信息分类编码的基本原则和方法》分类,这是一个正规的、官方的分类法,比较严肃;而美国的绝大多数网站的分类目录则依据国际通行的黄页分类法,偏重于商业化分类的模式;有的则比较轻松,更贴近于日常生活。精彩纷呈,各有千秋。由此形成了不同分类目录各自的特色和风格。当然,也有的目录比较随意,毫无科学性可言。
2. 多级类目 优秀的分类目录服务网站,在目录的大类下边,还设有二级类目,三级类目,甚至四级、五级等。类目层次越多,则限制越明确,越便于查询到具体明确的主题。较差的网站,则仅有一、二级类目。
3. 交叉显示 在目录中的一些子类目,以及一些站点,有时可以属于不同的类别。比如:“计算机零售”作为一个子类目,既应该出现在“商业公司”的大类下,又应该出现在“计算机”大类下;某一网上娱乐杂志,既应该出现于“文化娱乐”类下,又应该出现于“报刊杂志”类下。这种双重、多重显示,我们称之为交叉显示。不过,大多数分类目录网站,不提供交叉显示的功能。
4. 内容提要 分类目录在列出站名之后,应该有简明扼要的该站内容提要,以便读者一目了然。 一般搜索引擎的网站提要,都是各网站来搜索引擎上注册时自己提供的。好的搜索引擎,要对来注册的提要逐一检查核实,增删修改,这往往需要很大的工作量。有些搜索引擎为减轻工作量而使用自动注册或不进行核实,这样其内容提要就会存在不准确或注册者的自我夸张。理想的内容提要应该是搜索引擎自己的工作人员编写的,并提供较权威的评价。可这样的搜索引擎实在是不多,据笔者所知,大英百科全书出版公司搞的搜索引擎www.eblast.com在这方面做得不错。可惜它是一个英文版的搜索引擎,没有中文版。
第五节 搜索查询的技巧
当你在某个搜索引擎中查询一个关键词,而检索出了几千个网址时,那情形一定是令人沮丧的,因为几乎没有可能看完每一个网址,我们被信息淹没了;同样的,有时输入一个关键词,却没有返回我们需要的内容,因为一个关键词往往无法描述我们的全部需求。
因此,各个搜索引擎,包括网站检索和全文检索的搜索引擎,通常都提供一些方法,来限定查询的内容,使之更精确地符合我们的要求。换句话说,我们可以给出一些查询条件,让搜索引擎送来符合查询条件的网址。这便是复杂条件查询,有时也称为进阶查询,英文为advanced。
不同的搜索引擎,提供的复杂条件查询的功能和实现的方法各有不同,网站中一般都有“帮助”解释各自的功能和方法。
以下列出一些常见的功能:
1. 模糊查询与精确查询 模糊查询又称为智能查询。当我们输入一个关键词时,搜索引擎不但反馈包括了关键词的网址,同时也发来与关键词意义相近的内容。比如,我们查找“查询”一词时,模糊查询会反馈来包涵了“查询”、“查找”、“查一查”、“询找”、“搜索”等内容的网址;反馈网址的排列,一般是完全符合关键词的在最前边,其次是相近的。一般的搜索引擎都有这一功能,只是模糊的程度不同。 模糊查询没有特殊的方法,只要在文字框中输入关键词即可。而在英文的查询中,还可以使用通配符星号(*)和问号(?),使关键词更为模糊。但查询中文时,这一应用较少。 模糊查询往往会反馈来大量不需要的信息,如果想精确地只查某一个关键词,则可以使用精确查询功能。精确查询一般是在文字框中输入关键词时,加一对半角的双引号。例如:“中华人民共和国”。
2. 逻辑条件限制 这一功能允许我们输入多个关键词,而且,各关键词之间的关系可以是“和”、“或”、“非”(and、or、not)的逻辑关系。各搜索引擎实现这种查询的方式不尽相同,可以通过各引擎的帮助页找到各自不同的方法。下边所列的例子,只是为了帮助你更好地理解什么是逻辑条件,同时也是一些搜索引擎较常见的用法。
A 逻辑“和”。在关键词之间使用半角的加号。 例一:+法国足球+英国足球+巴西足球 这个例子表示,要查询的内容必须同时包括“法国足球、英国足球、巴西足球”3个关键词。有的搜索引擎不用+号,而用&号。
B 逻辑“或”。使用半角的逗号把关键词分开。 例二:法国足球,英国足球,巴西足球 这个例子表示,查询的内容不必同时包括3个关键词,而只要包括其中任何一个即可。有的搜索引擎使用空格,而非半角逗号。
C 逻辑“非”。将要排除的关键词前加半角的减号。 例三:+足球-世界杯 这个例子表示,查询的内容应包括“足球”,但必须没有“世界杯”字样。
D 组合使用。将“和”、“或”、“非”组合起来使用,可以产生许多复杂的逻辑条件。 注意:输入代表逻辑关系的字符时,一定要用半角。
第六节 繁体版搜索引擎的使用
许多内容很丰富的搜索引擎只有繁体中文版,特别是港台地区的搜索引擎。那么,对于电脑上安装了简体中文操作系统的用户来说,怎样使用这些繁体版的搜索引擎呢?
1. 安装支持繁体中文的软件 在简体中文环境下使用繁体搜索引擎,需要安装一套支持繁体中文的软件。如果你的浏览器是微软公司的探险者(Internet Explorer,即IE,又译“探索者”)4.0简体中文版,它本身就带有繁体中文支持,只是需要在安装的选项中选择这一项。 支持繁体中文的软件,有的只有显示功能(有Big5繁体字库),而没有输入功能(没有繁体Big5输入法)。如果仅仅想阅读搜索引擎的分类目录,那么只要能显示繁体字就可以了。而要使用关键词搜索,就必须有输入繁体字的功能。
此外,有些软件可以在Windows3.1环境下使用,有些软件只能在Windows95/98下使用。因此必须根据自己的情况选择繁体中文软件。
下表是一些常用软件的说明: 注:使用苹果电脑的用户可试一试www.e.kth.se/elixir.html或者www.apple.com/chinese.html。
2. 繁体字搜索 在繁体版搜索引擎中使用搜索功能时,不同的浏览器会有不同的方法。
A IE4.0简体中文版以外的浏览器 如果你使用IE4.0简体中文版以外的其他任何一种浏览器,如IE3.2中文版、IE4.0英文版、网景公司的导航者(Netsgape Navigator,又译“领航者”)等,那么问题很简单,只要启动支持繁体输入的中文软件,选择繁体字输入法,在搜索引擎的文字框中输入关键词的繁体字,就可以查询搜索了。
B IE4.0简体中文版 如果你使用IE4.0简体中文版,而且使用了它自带的繁体中文支持,问题就有些复杂了。IE4.0简体中文版在查阅繁体网站时,有时会需要手工指定语言版本(使用“查看”菜单的“字体”命令,或使用右键单击页面,选择“语言”项)。它内部有一个简、繁体自动转换的功能,但并不完善,因此在搜索输入时会有两种情况:
a.如果关键词的简体与繁体完全相同,如“故事”,那么可以在文字框中直接输入简体字,点击查询按钮后,IE会自动将简体(GB码)转换为繁体(Big5码)发送出去。
b.如果关键词的简体字与繁体字不一样,如“小说”的“说”,繁体为“说”,则必须使用GBK码的繁体字,输入GBK码繁体字后,IE会自动转换为Big5码繁体字。
GBK码汉字是一个包括了简体和繁体的大汉字系统。输入GBK汉字,需要使用GBK输入法,如GBK全拼、GBK双拼、GBK内码等。Windows95/98中文版提供了这些输入法,但不是安装的默认选项,因此需要从“设置面板”中打开“输入法”对话框来添加。
第七节 电子邮件(E-mail)查询
“电子邮件查询”并不是“查询电子邮件”,两者是完全不同的概念。查询电子邮件是通过一些搜索引擎查找某一个人的电子邮件地址;电子邮件查询,则是指通过向搜索引擎收发电子邮件的方式,查找我们需要的信息。由于它不是一种在线的直接查询,所以又称离线查询。
提供电子邮件查询服务的搜索引擎,允许我们以电子邮件的方式,提交关键词和查询要求、条件限制,当它接到邮件后,按照要求进行搜索,并把检索的结果,用电子邮件送回来,寄到我们的信箱中。这可以使我们更灵活,省去一般搜索的等待时间,尤其在查找大量主题的时候。
搜索引擎并不是使用人工来搜索和收发邮件,而是使用程序自动完成的。不同的搜索引擎,实现的方式也不相同,大体可以分为两种:一种是提供一个表单,我们填好表单中的关键词、查询条件等项,点击“发送”按钮;另一种是提供一个电子邮件地址,我们需要用自己的电子邮件程序(如IE附带的Outlook Express,Netscgape附带的Netscgape Mail等),按照规定的格式,写好邮件,发送给它。
下边举出两个例子具体说明。 例一:网路罗盘www.hodala.net.tw 这是台湾的一个繁体字版网站,只支持繁体字(big5码汉字)查询。
网路罗盘提供上述第一种方式的查询,它给出这样一个表单: 查询字串 输出结果个数 10笔 查询字串 输出结果个数 10笔 查询字串 输出结果个数 10笔 查询字串 输出结果个数 10笔 查询字串 输出结果个数 10笔 电子信箱 可见,它一次可查询5个关键词。当我们填好表单的内容后,击“送出”按钮就行了。
但要注意两点:第一,确认你自己的电子邮件地址是否正确,如果错了,你永远不会接到返回的结果。 第二,网路罗盘只支持繁体字查询,也就是说,你输入的关键词必须是 Big5 码繁体字;如果你使用的是 IE 4.0 简体中文版,而且使用了它自带的繁体汉字支持,则必须遵循我们在《繁体版搜索引擎的使用》一节的“繁体字搜索”部分所谈到的关于 IE 4.0 简体中文版的原则。
例二:天网pccms.pku.edu.cn/gbindex.htm 天网的电子邮件查询的实现,属于上述第二种方式。其提供电子邮件查询的地址为:webg@webgather.pku.edu.cn 简单地说,要查询某个关键词,只需在邮件中注明这个关键词,并在关键词前加上一个“word: ”就行了。
例如,要查询“环境保护”一词,就这样写:Word: 环境保护 这里的Word是一个指令,天网还提供了其他几个指令,来实现更多的说明:codetype、expectsum、reservetime、logic、region、method、display,在这些指令中,Word是必填的;其他则是选项,可填可不填,如果不填的话,天网会按默认处理。注意,所有的指令后都要加冒号,指令和冒号必须使用英文半角。
下边举例解释各个指令的意义和填写要求的方法: word:知识 经济 关键词(<=40个汉字) codetype: GB 代码类型(GB、Big5、HZ) expectsum: 100 反馈结果最大数(<=100条) reservetime: 10 预定时间(以星期为单位) logic: And 逻辑关系(And、Or、Not) region: Web 查找的范围(Web、News、All) method: Fuzzy 查询方式(Exact、Fuzzy) display: Standard 反馈结果的显示内容(Standard、Compact) 这是一封完整的查询函件样本。每个由指令和说明词构成的语句,必须是单独的一行。 此外,如果邮件中只写上“Help”一词,天网会发来一份电子邮件查询的使用说明,但目前所提供的这份说明为英文。 注意:如果你使用的电子邮件程序是IE中文版附带的Outlook Express,则需要在“格式”菜单中选择“纯文本”项,不然会出一些问题。
第八节 图形、图像检索
也许你想从因特网上得到一幅莫扎特的肖像,或者一张某种牌子汽车的照片,可是怎样找到它呢?这是一个相当麻烦的问题,一般的文字搜索引擎对于图形、图像来说,几乎束手无策。不过,我们还是有一些方法,来解决这一难题。 一些功能较为强大的搜索引擎,往往附带了图形搜索功能。当我们使用这一功能查询搜索时,可以得到相应的反馈结果。
各引擎实现图形搜索的方法各不相同,仍举例言之:
例一:网路罗盘www.hodala.net.tw/graph.htm 网路罗盘专门设有一个图形搜索页面(繁体中文界面),其中提供了一段说明文字、一个查询输入框和按钮。只要在输入框中输入关键词(中、英文均可),它就会反馈所要查找的相关图片的网址。实际上,它可以把中文关键词翻译成英文(例如把“故事”翻成“story”,然后查找中文网站里,带有这一词汇的图片(如 story.gif、story.jpg、story02.gif),以及站名中带有“故事”一词的网站中的所有图片(如网站名为“家乡的故事”,就找出该站中的图片)。
例二: Lycos lycospro.lycos.com/lycospro-nojava.html www.lycos.com 也提供了图形检索,这是在其高等搜索部分 Lycos Pro 中完成的。在这一界面的 Advanced Options(高级选项)中,提供了一个限定搜索条件的单选按钮:Pictures 。只要我们在文字输入框中填入关键词,并选中这一单选按钮,搜索的结果便会是与关键词相应的图片说明。
例三: AltaVista www.altavista.com AltaVista 的图片检索是通过限定词“image”实现的。我们需要在其查询文字框中输入“image:”,以及关键词,便限定让搜索引擎搜索相应的图片。例如:“image:dinosaur”,意为限定查找 dinosaur(恐龙)图片。 除以上列出的方法以外,还可以访问一些专业的图形、图像资料库网站,那里往往有数量可观的各种图片资料,并且有站点自己内部的分类目录和搜索引擎。
像知名的美国航空航天总署图片交流中心(nix.nasa.gov)、Smithsonian 图片数据库(www.si.edu/cgi-bin/image_archive.pl)等。