折纸SEO SEO优化 如何制止大量重复URL被百度收录

如何制止大量重复URL被百度收录

很多同学会有这样的疑惑,索引量工具显示索引量数值很高但流量总也上不去,也没有发现我们站内有低质内容,百度这是要闹哪样?6月中旬,艺龙SEO负责人刘明给我推荐了他写的文章《如何避免大量URL重复收录》,找到了索引量高流量低的一个原因并给出的解决方案。另外,如果各位同学还有工作经验等内容想分享、或者对已有内容持相反意见者,欢迎给站长学院投稿。 首先声明,我们只谈论有检索意义的URL,也就是用户会从搜索…

如何制止大量重复URL被百度收录

许多同砚会有这样的疑惑,索引量工具显示索引量数值很高但流量总也上不去,也没有发现我们站内有低质内容,百度这是要闹哪样?6月中旬,艺龙卖力人刘明给我推荐了他写的文章《如何制止大量URL重复收录》,找到了索引量高流量低的一个缘故原由并给出的解决方案。另外,若是列位同砚还有事情履历等内容想分享、或者对已有内容持相反意见者,迎接给站长学院投稿。

首先声明,我们只谈论有检索意义的URL,也就是用户会从搜索引擎查找的页面。其他页面根据常用的方式做屏障就好了。鉴于许多站长都爱讨论整体的收录量,我必须泼一下冷水,也许你的有用收录是1/10。

URL参数

也叫URL query,是一个最庞大,最容易被忽视,最容易被妥协的问题。他是网站运营中必不能少的元素,若是简朴的去除,其他部门就无法事情了。 静态化是的话题,URL参数经常被用于以下几方面:
统一个实体的差异状态展示,好比统一个旅店,在差异时间点会有差其余房间库存:http://www.travel.com/hotel/123/?checkindate=2015-06-09&checkoutdate=2015-06-10
  为了统计差异渠道的流量:http://www.a.com/?tracking=website_a
  为了统计差异渠道,详细模块的点击量:http://www.a.com/?tracking=website_a&click_spot=zone_abc
  调试:http://www.a.com/product/item123/?debug=true
  全天下最奇葩的是亚马逊,居然把统计参数放到了路径中http://www.amazon.cn/abc/dp/B005TZHJEQ/ref=lp_2130608051_1_1

泛起这种问题的坏处有几点:
1. 虚耗搜索引擎对你网站的各项配额,从而影响其他正常的页面。
2. 丢失许多本应拿到的链接加分,站外渠道的链接往往是最优质的。统一个URL的分值可能涣散成几十份。
3. 的流量被统计到其余渠道(由于tracking字段写的是其余渠道,而且被收录被点击)
4. 往往形成一种事态,产物用一套URL,用另一套URL, 甚至差异渠道用差其余URL,后期开发和维护的成本极高。

为领会决这个问题,首先要弄清URL的界说。以我的明晰,每一个URL是一个静态的、自力不重复的、有意义的实体,一样平常也有检索意义(就是有人会搜)。好比一小我私人、一辆车、一条蹊径、一个零件。而不能混入种种”状态”,好比这小我私人生病的时刻,岂非就不是他自己了么? 一件商品在促销的状态岂非是另一件商品了么?

理论上canonical标签就可以解决这个问题了, 然则从现实测试效果看,百度对这个标签的支持优先级异常低, 险些可以忽略不计。那么我的解决方案是这样的:
1. 确定好网站的头脑导图和元信息。 (可参考:康健度 )
2. 所有和元信息相关的参数都放到路径中去
3. 所有和元信息不相关的参数都放到#后边,由于#后边不影响web服务器返回的内容。简朴的说就是用”#”替换”?”。
4. 每个页面中都使用js获取#后边的参数对,通过二次请求发回给统计服务器
5. 若是#后边的参数影响页面内容,好比旅店的入住日期。那么这部门内容用ajax加载就行,他是不稳固的,不属于页面内容的一部门。(固然还有变通的设施,暂不赘述。)
6. 原始的#锚点界说一定会冲突,界说一个#后边的变量,并用js控制屏幕转动,来保证原始锚点的作用。

有人可能会想到,凭证ua判断,若是是搜索引擎爬虫,就用跳转的方式去掉URL参数。但效率最高的方式一定是从一最先就不展示错误URL。那么前面的例子优化后就酿成了:
  http://www.travel.com/hotel/123/#checkindate=2015-06-09&checkoutdate=2015-06-10
http://www.a.com/#tracking=website_a
http://www.a.com/#tracking=website_a&click_spot=zone_abc
http://www.a.com/product/item123/#debug=true

着实许多网站早就使用这种方式了,然则还有许多网站由于开发效率无法实时实现。以是对于一样平常的小网站,一定要思考开发成本,不要容易冒进。只要能制止问题的发生,变通的方式是许多的。

路径中使用非需要元素

许多网站模仿亚马逊的做法,把商品名体现在URL中,然后再通过id来决议页面展示的内容:http://www.amazon.cn/博集典藏馆043•基督山伯爵-亚历山大•仲马/dp/B005TZHJEQ/

这样虽然可以提高一些相关性,然则很危险。在耐久甚至短期的时间内,大量商品的名称是异常可能有转变的,那么URL也就随着转变。成本也是异常高的,由于加大了手艺实现难度,不管从站内照样站外,每次增添链接都是一个很贫苦的事情。

在我接手艺龙之前,URL被所有改成了这样,对我早期的事情造成了异常伟大的肩负:http://www.a.com/Shangrila_International_Hotel-12345678-hotel/

通过日志剖析发现基本所有的百度蜘蛛提议的请求都被301跳转了一次(日志剖析方式可参考康健度)。仔细考察后发现,从拼接规则到后台的汉字和翻译数据被一直修改。也就是说,这个URL相关的元素有:
1. 中文 (非需要元素)
2. 由中文翻译的英文 (非需要元素)
3. id (需要元素)

而那时卖力的同事把英文和id拼接在了URL中,那么这样一个URL先后酿成过:
http://www.a.com/Shangrila_International_Hotel-12345678-hotel/
http://www.a.com/Xianggelila_International_Hotel-12345678-hotel/
http://www.a.com/XiangGeLiLa_International_Hotel-12345678-hotel/
http://www.a.com/Shangrila_guoji_Hotel-12345678-hotel/

跟”相关性”比,URL的唯一性和稳固性更主要。以是针对这个问题,URL的最佳计谋应该是:http://www.a.com/hotel/12345678/

若是这个id是隶属于一个分类下的,好比都会,那么就可以是:http://www.a.com/hotel/beijing/123/

从手艺角度说, id一样平常是数据库的primary key,可以是数字也可以是字符串,那么这个时刻URL是一维的; id也可以是团结的唯一索引,那么URL就是二维的,就像上面的(bejing,123)缺一不能。电商类网站列表页经常用到三维以上。

巨细写

若是网站的手艺架构用的是开源系统,一样平常是不会有这个问题的。若是使用了微软的手艺架构,这个问题非经常见:
http://www.a.com/newyork/
  http://www.a.com/Newyork/
http://www.a.com/NewYork/

我的建议是统一使用小写,大写自动跳转为小写(小心301死循环!)。

目录的规范

许多网站同时存在这样的URL,无形中把收录量扩大了一倍:
http://www.a.com/product/123
  http://www.a.com/product/123/
上边第一个路径的意思是在product目录下有一个123文件。第二个路径的意思是在product目录下有一个123目录,这个目录下可能有许多文件,然则他代表众多文件中的index.html或index.php或default.aspx等优先级最高的谁人文件。为了制止歧义,我界说文件都是用”.html”末端的。

为了削减重复收录,那么按我的习惯是:
http://www.a.com/product/123  => http://www.a.com/product/123/
http://www.a.com/product/123  => http://www.a.com/product/123.html

总结

1. 所有部门统一使用界说的URL,屏障非 URL的入口。
2. 用”#”替换”?”
3. 统一使用小写
4. 保证目录的规范
5. 把不规范的URL跳转到规范的URL

本文来自网络,不代表折纸SEO立场,转载请注明出处:https://www.30th-feb.com/3516

作者: DAR_KING

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

联系我们

联系我们

在线咨询: QQ交谈

邮箱: luckiestmjt@163.com

工作时间:周一至周五,9:00-17:30,节假日休息

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

返回顶部