百度、淘宝与robots
以下关于robots的说法,针对除百度以外的所有搜索引擎。百度除外。
我订阅的blog中有许多人质疑,百度是否不遵守robots协议,我很奇怪,这么简单的问题居然也要质疑,如果百度不遵守robots协议,哪混得到今天,roobots虽然只是协议,但已是搜索引擎必须要遵守的规范了。请问发表评论的这几位,有哪位仔细研究过robots协议,有哪位哪怕是潦草的看过各持搜索引擎的全部帮助?今天专家俩字变成笑谈主要还是因为装的太多了。
看看他们的理由:
绿色收录通道:我不评价,不属于技术问题,我也不知道在百度电子商务事业部的人说话能不能影响网页搜索,印象中是不可能的。如果他说话算数,那百度确实有很大的问题。
robots.txt是可以分级的:这个是扯淡,我研究搜索引擎六七年,自己编的还要理直气壮说出来的理论真没见过,建议提交给google研究,搜索引擎有支持的必要。可惜现在robots只对单个网站使用,甚至同一站点不同端口都要分别设置才行,robots协议就是这么规定的,所有的搜索引擎也都是这么做的,可以到这里看看。但淘宝每个二级域名都放置了robos禁止抓取,这是另一码事,与什么分级论无关。如果robots真可以分级,请告诉我出处,哪家搜索引擎支持,我去学习一下。
百度在现实中几乎不遵守该协议,在淘宝已经宣称封杀百度后,百度依旧对淘宝进行更新:请看这里:您对robots所做的修改,会在48小时内生效。需要注意的是,robots.txt禁止收录以前百度已收录的内容,从搜索结果中去除可能需要数月的时间。google需要的时间,比百度不会少多少,google的紧急删除都需要3-5天。百度其实提供了一个快速去除方案:如果您的拒绝被收录需求非常急迫,也可以发邮件给webmaster@baidu.com请求处理,淘宝要是真那么急的话,一封信就解决了,总而言之,不是遵守不遵守,只是时间问题而已。如果这位老兄看的是快照时间,那可以参观一下这个帖子,就知道那个时间不那么准了。
其实,即使一、两年以后,在百度site:www.taobao.com也不会令他们满意,因为在他们的想法中,就应该是一页都不收,但看看百度的帮助中有一条:我在robots.txt中设置了禁止百度收录我网站的内容,为何还出现在百度搜索结果中?,雅虎的帮助中也有:来源网页中设置了robots文件禁止蜘蛛抓取的命令,而蜘蛛又通过其他的友情链接发现了该页面,因此在收录到搜索引擎中。我记得google也有相关的说明,懒得找了。大概的意思就是说,你即使robots禁止抓取了,我也得收录,因为搜索引擎展示的仅是“其他网站对您相关网页的描述”。有点强盗逻辑吧,但你没办法,搜索引擎都是这么做的,这其中是否有法律风险也不是我等可以想明白的,人家这些“作恶”、“不作恶”的搜索引擎公司都养着一打一打的律师研究这个。
根据最近一段时间对我爱水煮鱼在百度搜索结果的观察,百度已经不再收录很多博客新的文章:我觉得这才是问题,可能是百度的收录筛选系统出了问题,这才是百度需要马上解决的。
说句题外话,不针对以上blog,百度收录不收录,有很多原因,并不是所有的不收录的网站都是被干掉了。我的blog原来百度也没收录,各种原因查来查去,原来不过是idc屏蔽了百度的spider ip,抓不着收个屁啊,解开以后一切ok,如果你的网站收录不好,花点时间研究一下总比在blog里骂娘解决的快。
7条评论 关于 “百度、淘宝与robots”
由 stonewang 发表于2008-09-17
像你这样真正的专家太少了……
由 neekey 发表于2008-09-17
说明一下,淘宝封杀百度,至少快一周的时间了,但到9月15号,照理说淘宝新的robots.txt也已经生效了,为什么百度照样抓取淘宝新的网页?
由 admin 发表于2008-09-17
这个问题,说起来可就长了,我上面给了个网页,http://www.miba.cn/bbs/viewthread.php?tid=49859,就是想让大家知道,那个时间,并不是想象中的百度抓取这个网页的时间。
这个时间可能是以下四种:最后抓取这个网页的时间、这个网页建入索引的时间、这个网页上标注的最后更新时间,网页属性里带的最后更新时间,具体的情况,得花点时间来解释。看来能明白这事的人并不多,最近有点忙,有时间我写一篇文章来说明一下这个问题吧,也算我为互联网贡献一些unique内容了,到时我再trackback你。
另外,搜索引擎对robots的处理,并不是象大家想象中的那样,第一天写robots,第二天整个网站消失,在搜索引擎,这种处理是随着整个系统的逐步更新实现的,象taobao这么庞大的网站,我想时间是相当漫长的。google的紧急删除之所以删除后90天不能重新收录,就是因为紧急删除走的是其他途径。
由 admin 发表于2008-09-17
还有那个48小时生效,只是说一般情况下。淘宝据说有近200万店铺,也就是说会有200万个二级域名,每个二级域名下都有一个robots.txt,搜索引擎不可能每个都保证48小时都能更新一遍,就算他们想,淘宝也不愿意,每天平添一百万次访问,谁也受不了。事实上大部分店铺的robots.txt,可能半年也不会被更新一次,这也是这个过程漫长的一个原因。
由 zhang hong 发表于2009-05-21
过去我是不知道,现在估计任何SEO高手都不能直接对Baidu搜索和搜索快照有很好的优化,很多拥有很多内容(网页)的老网站都被K了(连www.sina.com.cn 的Baidu快照都近7年多不更新了 百度搜索 site:www.sina.com.cn)哪个SEO能解释?我们可以认为百度是一个垃圾的骗钱网站,目的就是钱和用钱排名。站长不要为百度没有收录或收录减少而又被所谓的“SEO高手”欺骗,扔掉Baidu一样会光明,因为百度已经沦落为最大的互联网癞皮。详细请看(图文):http://www.macsetup.cn/file_208.html
由 nihao 发表于2009-05-22
百度吃多了。你想想:如果一个人吃东西,用力吃,吃到肚子受不了还继续吃,然后有什么后果?当然要吐出来。因为超出胃的容量和消化速度,屁眼一下子出不来那嘴巴就要吐东西。百度最近吃网页可能太多了,服务器的硬盘受不了了,撑着了。然后百度就把一些网页吐出来了,当然吃在最后的也就吐了最快,因为我的网站是新做所以就先吐出来了。为什么请看http://www.macsetup.cn/file_210.html
由 创意市集 发表于2009-05-22
我查了一下,首页收录是19号(今天21日),其他页面收录的网页少了12个,原来页面的网页快照都是一个月前没有动。也就是说,百度除了把收录的网页吐出来之外,好像再也没有吃东西,一个月前估计硬盘已经有问题了。至于收录少了几个,就是百度这次是随机的吐,因为如果当时就觉得不好吃也不会收录了。