百度是如何的工作呢?可以参考(百度搜索引擎基础知识)http://zhanzhang.baidu.com/college/articleinfo?id=46的文章。世界各大搜索引擎发展到现在,其实技术水平都是差不多的,所以了解百度原理之后,对其他搜索引擎也是一样的。
频率值:搜索引擎的硬件是有限的,不可能有太多资源对每一个网页频繁光顾,简单来理解就是不同的网站,搜索引擎光顾的频率是不一样的。有些网站一天来抓取几百上千次,但是有的一天只有一次,也可能几天才来一次。
影响频率值:虽然蜘蛛针对不用的网站的有不同频率值,但是可以通过做一些事情影响它的频率值。
提升频率度的方法:经常更新的网站,往往频率值会比较高,所以可以持续更新;搜索引擎会形成习惯,为了更加高效的工作,它会特别关注那些经常更新的网站。
历史记录:我们网站所有的历史会被搜索引擎记录下来,搜索引擎的计算过程会参考你的网站在历史中的表现。网站前期不要犯错误,必须在进行网站建设的时候不要做错误的事情,一定要谨慎,比如原创、网站结构等等。在后期评估页面质量的时候会参考你前期的工作。三岁看到老,道理都一样:搜索引擎执行的是人的意志。你在“小时候”的行为搜索引擎都会记录在案的。
过度优化:
在网页中加入隐藏的文字、隐藏的链接;与网页内容不相关的关键词;具有欺骗性跳转或者有欺骗性的重定向;专门针对搜索引擎的桥页,即所谓的过度页;针对程序生成的内容:制造大量的内容,命中搜索引擎结果;大量重复无价值的内容;充斥着大量恶意广告、恶意代码的页面;群发链接等等。
过滤:1、不要欺骗用户;2、对内容的把握上很多人是没什么概念的;比如采集,很多人乐此不疲,其实对收录有很坏的影响。3、误区:所谓搜索引擎抓取就是搜索引擎收录了;事实上搜索引擎抓取一个页面,跟搜索引擎收录一个页面是不同的,他们之间还有一个环节叫做过滤,搜索引擎做算法调整更多是对过滤环节的调整。4、 收录的问题往往集中在否能够通过“过滤”:蜘蛛来抓我们的页面向来不是问题。没有收录的页面不是因为蜘蛛没过来,往往是因为在搜索引擎看来页面对用户没有价值。被过滤掉就进不了搜索引擎的一个数据库,也就是没收录。
索引:这个提醒我们keywords已经不重要了。
输出结果:1、按照道理到这里搜索引擎的工作应该就结束了,事实上搜索引擎的工作才刚刚开始,它要对搜索结果进行持续关注;2、比如同一个词的搜索结果,排名第一的网站,用户的跳出率极高,而排名第三页面用户体验非常好的话,那么排名的顺序就要再次进行调整了。
以上是搜索引擎工作最基本的原理。
评论