爬虫抓取网页过程中是可以看到网页URL、HTML代码和HEAD信息。
1)URL规范化
1、静态化 唯一化
http://www.xxx.com/?p=1
http://www.xxx.com/1.html
网站中同一网页,只对应一个URL.如果网站上多种URL都能访问同样的内容,会有如下危险:
a.搜索引擎会选一种URL为标准,可能会和正版不同
b.用户可能为同一网页的不同URL做推荐,多种URL形式分散了该网页的权重,如果你的网站上已经存在多种URL形式,建议采取以下方式处理:
在系统中只使用正常形式URL,不让用户接触到非常形式的URL。不把session id、统计代码等不必要的内容放在URL中。不同形式的URL,301永久跳转到正常形式。防止用户输错而启用的备用域名,301永久跳转到主域名。使用robots.txt禁止Baiduspider抓取你不想向用户展现的形式。
2、URL中带关键词:英文/拼音
在排名上有一定的优势
http://ww.bokequ.com/
HTML代码要符合W3C标准。结构层、表现层、行为层标签完整性。用开源程序就可以了。
HEAD信息正确性( 服务器)可以通过抓包工具httpwatch 来获取。
内容对收录的影响
内容原创性:原创性是影响网站权重的很重要一个因素,其他因素没他重要。原创影响权重,权重影响收录,收录影响排名,排名影响流量。
内容重复性:转载或采集的页面内容和之前页面都一样、URL不统一也是重复,网页相似度很高就算重复页面。页面重复是SEO负面因素。重复页面与总页面比例要低于30%,网站大量重复会被惩罚。
避免重复的方法:在网站的正文部分多调用些随机调用增加文章内容。URL唯一化等,解决重复性最高境界是原创。
评论