搜索引擎分类和基础架构概述
搜索引擎的标准定义 :搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。从上述定义中我们可以获得几个有关 搜索引擎的关键步骤 ,分别为: 搜集信息;组织和处理信息;展示信息。 1. 搜索引擎分类 1)全文搜索引擎 全文搜索引擎是从网站提取信息从而构建网页数据库的。 全文搜索引擎的是如何搜集网站的呢?其实这里一般有两种方法: 1> 搜索引擎定期派出网络爬虫(也成为是蜘蛛或者机器人),对互联网中的网站进行检索,一旦发现有新的网站就会自动抽取其信息,然后加入到自己的数据库中; 2> 网站拥有者主动向搜索引擎提交自己的网站信息,但是主动提交网站并不能一定确保自己的网站会被搜索引擎收录,网站拥有者可以通过外链来提升自己网站的受关注度(这属于SEO的知识了)。 全文搜索引擎如何展示查询结果? 当用户输入查询词(query)查询时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度、出现的位置、频次、链接质量——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。 2)目录搜索引擎 目录搜索引擎主要是按类目对网站进行收录,而且在查询时也不需要输入关键词