影响网站收录的因素有哪些

maolai

507
文章

0
评论

2015年6月23日 19:06:33网络营销已关闭评论581阅读模式

爬虫抓取网页过程中是可以看到网页URL、HTML代码和HEAD信息。

1)URL规范化

1、静态化唯一化

http://www.xxx.com/?p=1

http://www.xxx.com/1.html

网站中同一网页，只对应一个URL.如果网站上多种URL都能访问同样的内容，会有如下危险：

a.搜索引擎会选一种URL为标准，可能会和正版不同

b.用户可能为同一网页的不同URL做推荐，多种URL形式分散了该网页的权重，如果你的网站上已经存在多种URL形式，建议采取以下方式处理：

在系统中只使用正常形式URL，不让用户接触到非常形式的URL。不把session id、统计代码等不必要的内容放在URL中。不同形式的URL，301永久跳转到正常形式。防止用户输错而启用的备用域名，301永久跳转到主域名。使用robots.txt禁止Baiduspider抓取你不想向用户展现的形式。

2、URL中带关键词：英文/拼音

在排名上有一定的优势

http://ww.bokequ.com/

HTML代码要符合W3C标准。结构层、表现层、行为层标签完整性。用开源程序就可以了。

HEAD信息正确性( 服务器)可以通过抓包工具httpwatch 来获取。

内容对收录的影响

内容原创性：原创性是影响网站权重的很重要一个因素，其他因素没他重要。原创影响权重，权重影响收录，收录影响排名，排名影响流量。

内容重复性：转载或采集的页面内容和之前页面都一样、URL不统一也是重复，网页相似度很高就算重复页面。页面重复是SEO负面因素。重复页面与总页面比例要低于30%，网站大量重复会被惩罚。

避免重复的方法：在网站的正文部分多调用些随机调用增加文章内容。URL唯一化等，解决重复性最高境界是原创。

热门搜索