搜索引擎的资料库
1)我们在查询任何一个关键词的时候,搜索引擎不是现查现找的,而是提前准备好了一个数据库,就等着我们支查询,简单来讲就是把搜索引擎提前将把它认为重要的页面信息尽可能地下载好,放在了它的数据库当中,这个供用户查询相关结果的已经下载好的数据库就是搜索引擎的资料库。
2)不同的搜索引擎他们的数据库也是不一样的,一般是在几十到100亿个网页左右。
索引库
我们在搜索一个关键词的时候,搜索引擎要在浩瀚的网页世界里给我们找到我们需要的网页—— 这就是搜索引擎的本职工作。那么搜索引擎为什么那么快?我们在几万字的文档上找一个词用ctrl+f都要花一点时间,但是在上百亿的网页当中去寻找却只需要几分之一秒,原因就是搜索引擎已经对这些网页进行了分类处理,就像在图书馆,我们寻找我们要的图书一样,按照分类就可以节省很多时间。这个经过分类的页面信息资料库就是我们讲的索引库。
索引库的分类和建立
不论是中文还是英文,网页的总数是不断激增的,因为相关的新产品新话题也是不断增加的,但是词语的总数是不变的如所有的中文词语加起来也就不到10万,英文也就上百万个的单词。
英文100万个单词,按照词来分类,一个单词一类:100亿/100万=1万;中文如按照10万个词来算,也按照词来分类,一个词一类:100亿/10万=10万。这种级别的数据对于搜索引擎的计算机来讲还是很容易处理的。除了计算的方便,还有另外一个好处就是可以直接命中用户的搜索习惯,因为用户的习惯也是根据词来搜索的,通俗来理解,搜索引擎的索引库就是这样的。
如上图,当用户输入关键词“汽车轮胎”搜索时,搜索引擎就从“汽车”那行和“轮胎”那么里拿出同时都有的、交集的url来即可。当然实际上搜索引擎的工作远比这些复杂,但是原理是类似的。
评论