现在所说的搜索引擎都是基于WWW的,也就是基于网页的检索,如我们熟知的yahoo!、google等,不过这些并不是互联网上最早的信息检索服务,如早在1990年出现的Archie就是一种文档查询索引服务之一(1993年6月网络机器手程序“WWW Wanderer”的诞生是基于万维网搜索引擎的雏形)。 Archie是Internet上用来查找其标题满足特定条件的所有文档的自动搜索服务的工具。
使用Archie服务器有三种方法。
首先,你可以远程登录到Archie服务器,用Archie用户标识登录,一旦登录,一个Archie程序将自动启动。你可每一次录入一个命令,告诉Archie你要检索什么,Archie就将检索其数据库然后显示结果。如果你不能确定要检索什么,Archie将提供另外一种称为“ whatis 的服务, whatis对上千个不同的程序、数据文件和档案资料进行了描述。
使用Archie的第二种方法是使用一个称为Archie客户机的程序,你告诉Archie 客户机程序你检索什么,客户机将自动连接一个Archie服务器,要求它完成检索,根据你的指示输出,并显示结果。一旦你懂得如何使用 Archie,使用Archie客户机就很容易并且很快。你不必象第一种方法那样进行远程通讯,也没必要记住该用什么Archie命令。 最后一种方法,你可以给任一个 Archie 服务器发送一个电子邮件, Archie将执行你的请求,并将结果邮回来。 WAIS是Wide Area Information Service的缩写,称为广域信息服务,是一种数据库索引查询服务。 Archie所处理的是文件名,不涉及文件的内容;而WAIS则是通过文件内容(而不是文件名)进行查询。因此,如果打算寻找包含在某个或某些文件中的信息,WAIS便是一个较好的选择。WAIS 是一种分布式文本搜索系统,它基于Z39.50标准。用户通过给定索引关键词查询到所需的文本信息,如文章或图书等。
第一代搜索引擎和第二代搜索引擎 1998年,以Google和DirectHit为代表的第二代搜索引擎出现在互联网上,这些引擎的主要特点是提高了查准率,可以用“求精”来描述。正在发展中的第三代和第四代搜索引擎则分别为“求专”和“求易”。下面简单介绍一下Google搜索引擎的工作原理。 Google搜索引擎采用新的搜索方式,通过一种复杂的数学分析,通过估算反馈网页质量及相关程度来决定排名次序。要知道一个网页的质量,Google可以通过有多少网页与它链接来判断,这是因为人们一般不会与低质量的网页做链接。传统的搜索引擎如Hotbot和Lycos等当前使用的是元素搜索技术,即使用网页中的关键词进行搜索,而Google则使用一种包含对整个网络的链接结构进行分析和大规模资料挖掘的技术。Google不仅扫描搜索关键词,还阅读页面全文,考虑到图像和所有链接,然后把该页面与类似页面区分开来。要想在Google获得好的排名,对网站推广推广提出了更高的要求,仅仅依靠对网页的优化也是不够的,而是依据网站的综合推广水平来决定在搜索结果中的排名次序。所以,被其它网站链接的数量也是考核网络营销效果的一项参考指标。
第一代搜索引擎出现于1994年。这类搜索引擎一般都索引少于1,000,000个网页,极少重新搜集网页并去刷新索引。而且其检索速度非常慢,一般都要等待10秒甚至更长的时间。在实现技术上也基本沿用较为成熟的IR(Information Retrieval)、网络、数据库等技术,相当于利用一些已有技术实现的一个WWW上的应用。在1994年3月到4月,网络爬虫World Web Worm (WWWW)平均每天承受大约1500次查询。 第二代搜索引擎出现在1996年,系统大多采用分布式方案(多个微型计算机协同工作)来提高数据规模、响应速度和用户数量,它们一般都保持一个大约50,000,000网页的索引数据库,每天能够响应10,000,000次用户检索请求。1997年11月,当时最先进的几个搜索引擎号称能建立从2,000,000到100,000,000的网页索引。Altavista搜索引擎声称他们每天大概要承受20,000,000次查询。 第三代搜索——互动式搜索,在用户输入一个查询词时,尝试理解用户可能的查询意图,给与多个主题的搜索提示,引导用户更快速准确定位自己所关注的内容。 (另一个好处:在用户搜索冲浪时,给与用户未曾意识到的主题提示)” 第三代搜索引擎的产品特点:
互动式搜索:互动式搜索是在用户查询和搜索引擎返回结果的人机交互过程中,引擎根据用户的查询内容,智能展开多组相关的主题,帮助用户快速找到相关搜索结果 分类导航:针对部分查询结果项,扩展到类似或相关网站 查询精确相关:先进的分词引擎,并利用搜狐4000万用户名优化分词引擎的人名识别。在查询结果中,剔出了页面中仅在链接文字上包含 。 第三代搜索引擎的发展有如下几个特点: 1.索引数据库的规模继续增大,一般的商业搜索引擎都保持在几千万甚至上亿个网页。 2.除了一般意义上的搜索以外,开始出现主题搜索和地域搜索。很多小型的垂直门户站点开始使用该技术。 3.由于搜索返回数据量过大,检索结果相关度评价成为研究的焦点。相关的研究又可以分为两类:一类是对超文本链的分析,在这方面Stanford大学的Google系统和IBM的Clever系统作出了很大的贡献;另一类是用户信息的反馈,DirectHit系统采用的就是这种方法。 4.开始使用自动分类技术。Northern Light和Inktomi的Directory Engine都在一定程度上使用了该技术。
第四代搜索引擎 目前对于第三代和第四代搜索引擎都还没有明确的标准,尤其对于第四代搜索引擎,尽管有许多讨论,并且有报道称第四代网络搜索引擎架构已经问世,但由于还没有发展到用户可以应用的地步,因此到底什么样的搜索引擎才算是第四代,或者说第四代搜索引擎到底什么样子,我们都还无法得到一致的观点。
收集部分网上的观点,罗列了部分对第四代搜索引擎可能有一定参考价值的信息: 从第一代搜索引擎到第二代搜索引该是一个质变,由人工转向计算机;第二代到第三代搜索引擎是一个量变,它是检索技术的提升;第三代到第四代的发展方向应该是人机结合,围绕着互联网搜索技术中心将诞生以检索技术为职业的从业者(Searcher),这些从业者将具备两方面的专业素质,其一是精通某一行业领域,其二精通搜索引擎等网络信息检索技术,他能在最短时间内寻找行业内的专业知识与信息。 第四代搜索引擎的特征是主题搜索引擎。随着信息多元化的增长,千篇一律的给所有用户同一个入口显然已经不能满足特定用户更深入的查询需求。同时,这样的通用搜索引擎在目前的硬件条件下,要及时更新以得到互联网上较全面的信息是不太可能的。针对这种情况,我们需要一个分类细致精确、数据全面深入、更新及时的面向主题的搜索引擎。由于主题搜索运用了人工分类以及特征提取等智能化策略,因此它比上面提到的前三代的搜索引擎将更加有效和准确,我们将这类完善的主题搜索引擎称为第四代搜索引擎。 第四代搜索引擎速度更快,由于错码校正功能。基于第四代架构的首批产品每秒可以执行10亿次搜索,较现有解决方案的搜索性能提高了四倍,采用了以前从未应用在网络搜索引擎上的错码校正(ECC)功能,以便有效防止潜在的软误差,确保数据的完整性,并遵守严格的服务等级协议. |