搜索引擎的主要体系包括哪些
搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。
全文索引
搜索引擎分类部分提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),
蜘蛛搜索引擎
搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。随着搜索引擎索引规则发生很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。
当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度、出现的位置、频次、链接质量——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。这种引擎的特点是搜全率比较高。
目录索引
目录索引也称为:分类检索,是因特网上最早提供WWW资源查询的服务,主要通过搜集和整理因特网的资源,根据搜索到网页的内容,将其网址分配到相关分类主题目录的不同层次的类目之下,形成像图书馆目录一样的分类树形结构索引。目录索引无需输入任何文字,只要根据网站提供的主题分类目录,层层点击进入,便可查到所需的网络信息资源。
虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。
与全文搜索引擎相比,目录索引有许多不同之处。
首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功;而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其像Yahoo这样的超级索引,登录更是困难。
此外,在登录搜索引擎时,一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。
最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。
搜索引擎与目录索引有相互融合渗透的趋势。一些纯粹的全文搜索引擎也提供目录搜索,如Google就借用Open Directory目录提供分类查询。而像Yahoo! ;这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围(注)。在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如中国的搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如Yahoo。这种引擎的特点是找的准确率比较高。
元搜索
元搜索引擎(METASearch Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。
什么是电脑USP?
USP是一个智能化的网络数据库统一检索平台。它通过一个统一用户界面帮助用户在多个网络数据库搜索平台中实现信息检索操作,是对分布于网络中的多种检索工具的智能化整合。
USP由三部分组成,即:用户注册及引擎配置模块、统一检索模块、检索结果显示模块。用户注册及引擎配置模块负责实现用户个性化的检索设置要求,包括调用哪些搜索引擎、各个搜索引擎用户名称和用户密码的设置、检索结果显示风格等;统一检索模块负责将用户的检索请求解释成满足不同搜索引擎本地化要求的格式,在不同搜索引擎中进行检索。检索结果显示模块负责所有源搜索引擎检索结果的去重、合并、输出处理等工作。
USP的工作原理
USP采用的是双层B/S结构体系。用户向USP发出检索请求,USP根据配置信息,把检索请求转换成对应于不同搜索引擎的实际检索请求,并向多个搜索引擎发出实际检索请求,搜索引擎执行检索请求后将检索结果传送回USP,USP把检索结果进行智能化整合,最后把检索结果传送给用户。
图3-3 USP系统结构图
USP的主要特点
智能化的网页分析系统
USP采用的是基于COM组件的智能化网页分析结构,可以对多个搜索引擎返回的结果同时进行多线程分析,并以最快的速度将最合理的结果反馈给用户。结果分析正确率达到99%以上。
个性化的检索结果显示
USP为用户提供个性化的检索服务。用户不仅可以随时配置自己感兴趣的检索引擎,而且可以选择适合自己的检索结果显示风格,可以指定每页显示的结果条数,真正地拥有自己的信息检索平台。
既支持对指定字段的普通检索,也支持高级检索
USP考虑到不同的用户对检索功能的不同要求,支持普通检索方式:用户指定一对字段名和关键词;也支持高级检索:用户可以指定三对字段名和关键词、三对字段名和关键词间的逻辑关系(AND OR NOT)、检索结果条目的排序原则(默认、按日期排序和按相关度排序)和每页显示多少条检索结果。
支持二次检索,检索界面方便友好
USP工作宗旨就是让用户可以方便愉快地检索到自己需要的信息资源。用户只需在向导的指引下配置好自己的检索信息,就可以愉快地进入USP检索自己感兴趣的任何信息,支持二次检索。
支持多种网络数据库资源
USP可以源源不断地为用户提供各种信息资源。目前,已经拥有CNKI数据库、科技新刊报导数据库STARS、CALIS高校学位论文数据库、China InfoBank数据库、EI、SCI、OCLC、ABI 等六十多个专业数据库引擎随时为用户服务,不同搜索引擎检索结果在同一窗口内显示。
支持高速缓存功能
USP为了提高用户的检索速度,提供了高速缓存功能,对已经浏览过的结果可以快速浏览。每次用户检索的结果都会缓存在统一检索平台系统中,用户在浏览时会感觉非常快,没有延迟的感觉。
具有先返回先显示的快速响应特性
USP为了最大程度的减少用户的等待时间,特意支持了先返回先显示的快速响应,即哪个被检索数据库先返回结果,就先显示哪一个数据库的结果,用户的等待时间减到了最少。
对数据库检索结果有多种浏览方式
USP为了方便用户浏览检索结果,设定了三种检索结果的浏览方式,用户既可以分别浏览单个数据库的检索结果,也可以把所有数据库返回结果按返回的先后顺序排列后混合检索,还可以把当前已经返回的结果按照相关度排序浏览。
支持完全由用户配置的数据库分类检索功能
对于被检索数据库数量比较大的情况,USP提供了数据库分类检索功能,只要有基础的软件知识,用户就可以把数据库分成若干类别,方便用户在检索时对数据库的选取。