北方网1月21日消息,以“Change has come(变革到来)”为口号的美国总统奥巴马于日前正式走马上任。作为公认的“互联网总统”,奥巴马到职后所做的第一件事就是给白宫网站彻底改版。新任白宫媒体主管麦肯·菲利普斯表示“变革已经来到了白宫网站”。更有网友发现,为了配合网络总统奥巴马的到任,白宫网站不仅在内容和形式上进行了大刀阔斧的变革,而且还更换了新的网站robots.txt文档。经过对比我们不难看出,白宫网站原有超过2000行的复杂禁止访问规则被一条简单的规则所替代。
查看现白宫网站robots.txt
查看08年3月份白宫网站的robots.txt
robots.txt(小写字母)是一种存放在一些网站的服务器根目录下的ASCII编码的文本文件。它的作用是告诉搜索引擎的爬虫机器人(又称网络蜘蛛、漫游器)该网站中的哪些内容是不允许被搜索引擎爬虫抓取的,哪些是允许被抓取的。由于在一些系统中URL大小写敏感,因此robots.txt的文件名均统一为小写。robots.txt放置在网站的根目录下。(文/洪涛)
原robots.txt
|
现robots.txt
|
User-agent: *
Disallow: /cgi-bin
Disallow: /search
Disallow: /query.html
Disallow: /omb/search
Disallow: /omb/query.html
Disallow: /expectmore/search
Disallow: /expectmore/query.html
Disallow: /results/search
Disallow: /results/query.html
Disallow: /earmarks/search
Disallow: /earmarks/query.html
Disallow: /help
Disallow: /360pics/text
Disallow: /911/911day/text
Disallow: /911/heroes/text
Disallow: /911/messages/text
Disallow: /911/patriotism/text
Disallow: /911/patriotism2/text
Disallow: /911/progress/text
Disallow: /911/remembrance/text
Disallow: /911/response/text
Disallow: /911/sept112002/text
Disallow: /911/text
Disallow: /ConferenceAmericas/text
Disallow: /GOVERNMENT/text
Disallow: /QA-test/text
Disallow: /aci/text
Disallow: /afac/text
Disallow: /africanamerican/text
Disallow: /africanamericanhistory/text
Disallow: /agencycontact/text
Disallow: /americancompetitiveness/text
Disallow: /apec/2003/text
Disallow: /apec/2004-summit/text
Disallow: /apec/2004/text
Disallow: /apec/2005/text
Disallow: /apec/2006/photoessay/text
Disallow: /apec/2006/text
Disallow: /apec/2007/photoessays/2/text
Disallow: /apec/2007/photoessays/text
Disallow: /apec/2007/text
Disallow: /apec/2008/photos/text
Disallow: /apec/2008/text
Disallow: /apec/text
Disallow: /appointments/text
……
凡此种种超过2000行
|
User-agent: *
Disallow: /includes/ |