什么是 Robots.txt?
根据维基百科对 Robots.txt 的定义:
robots.txt(统一小写)是一种存放于网站根目录下的 ASCII 编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不能被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。因为一些系统中的 URL 是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt 应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的 robots.txt,或者使用robots元数据。
Robots.txt协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。
淘宝网的 Robots.txt:
User-agent: Baiduspider Disallow: / User-agent: baiduspider Disallow: /
很显然淘宝不允许百度的机器人访问其网站下其所有的目录。
百度严格遵循搜索引擎 Robots 协议?
百度的网页搜索帮助-站长FAQ文档的第二点:
# 如何让我的网页不被百度收录?
* 百度严格遵循搜索引擎 Robots 协议(详细内容,参见http://www.robotstxt.org/)。
新浪的新闻:百度C2C回应屏蔽风波:将为淘宝卖家开绿色通道
新浪科技讯 9月9日下午消息,针对淘宝全面禁止百度爬虫抓取页面一事,百度电子商务事业部总经理李明远今日在接受新浪科技专访时表示,对淘宝不顾其交易平台卖家切身利益而屏蔽百度蜘蛛爬虫的举动感到遗憾,并将为淘宝卖家开绿色通道。
不用总结,就是简单把这些事情都罗列出来,结果都非常明显。如果你还不明白,请看 Jason 的文章:从百度针对淘宝用户开“绿色收录通道”质疑百度的行为操守
另外根据最近一段时间对我爱水煮鱼在百度搜索结果的观察,百度已经不再收录很多博客新的文章,即使收录了一两篇也是权重很低,我原本以为是自己个人的问题,后来发现好几个博客也有同样的问题,比如潘大财经专题站。你的站点是否有同样的问题,欢迎你的留言。
Bianews注:本文转载自作者博客,原文地址是http://fairyfish.net/2008/09/10/baidu-never-follow-robots-txt/




最新评论
百度已经不再收录很多博客新的文章??什么原因?什么意思?
查看全部评论……(共8条)