當(dāng)前位置:首頁 >  站長(zhǎng) >  建站經(jīng)驗(yàn) >  正文

從淘寶屏蔽百度說起 如何讓網(wǎng)站不被抓取

 2008-09-15 10:20  來源:   我來投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過

上周五,北方網(wǎng)在第一時(shí)間報(bào)道了關(guān)于淘寶屏蔽百度蜘蛛爬蟲抓取的消息,立刻引起了業(yè)界的廣泛關(guān)注。這一事件被普遍認(rèn)為與百度發(fā)力C2C同淘寶構(gòu)成直接競(jìng)爭(zhēng)有關(guān),另有分析也認(rèn)為這與阿里巴巴近日將淘寶與阿里媽媽業(yè)務(wù)整合的舉措亦存在關(guān)系,阿里巴巴希望就此截?cái)嗵詫毦W(wǎng)店的免費(fèi)流量來源從而吸引網(wǎng)店商家選擇自家的阿里媽媽廣告推廣。

在眾多媒體對(duì)這一新聞的報(bào)道中,多次提到“robots.txt”這個(gè)技術(shù)名詞。比如在證實(shí)淘寶屏蔽百度時(shí)提到的“淘寶網(wǎng)已經(jīng)開始屏蔽百度蜘蛛爬蟲。淘寶在網(wǎng)站根目錄下的robots.txt文件中設(shè)置相關(guān)命令,禁止百度蜘蛛獲取網(wǎng)頁信息。”并給出了URL為的鏈接截圖予以證明。

那么,這個(gè)“robots.txt”是什么呢?

robots.txt(小寫字母)是一種存放在一些網(wǎng)站的服務(wù)器根目錄下的ASCII編碼的文本文件。它的作用是告訴搜索引擎的爬蟲機(jī)器人(又稱網(wǎng)絡(luò)蜘蛛、漫游器)該網(wǎng)站中的哪些內(nèi)容是不允許被搜索引擎爬蟲抓取的,哪些是允許被抓取的。由于在一些系統(tǒng)中URL大小寫敏感,因此robots.txt的文件名均統(tǒng)一為小寫。robots.txt放置在網(wǎng)站的根目錄下。

比如之前我們截圖中所看到的淘寶網(wǎng)的robots.txt:

User-agent: Baiduspider

Disallow: /

User-agent: baiduspider

Disallow: /

可以看出淘寶的robots.txt顯然是專門為了屏蔽百度的爬蟲而準(zhǔn)備的。

值得注意的是robots.txt協(xié)議并不是一個(gè)法律意義上的約束性規(guī)范,它只是長(zhǎng)期以來在網(wǎng)站之間約定俗成的道德性公約而已,因此并不能完全確保網(wǎng)站的隱私不被不遵守這一協(xié)議的搜索引擎抓取。

如果您也是一個(gè)站長(zhǎng),如果也不希望被百度爬蟲所抓取,那么該怎么做呢?您可以在百度提供的FAQ“如何讓我的網(wǎng)頁不被百度收錄”中找到來自官方的建議:

* 百度嚴(yán)格遵循搜索引擎Robots協(xié)議(詳細(xì)內(nèi)容,參見)。

* 您可以寫一個(gè)Robots文件以限制您的網(wǎng)站全部網(wǎng)頁或者部分目錄下網(wǎng)頁不被百度收錄。具體寫法,參見:如何撰寫Robots文件。

* 如果您的網(wǎng)站是在被百度收錄之后再設(shè)置Robots文件,則Robots文件通常在兩周內(nèi)生效,被文件限制的內(nèi)容,將從百度搜索結(jié)果中移除。

* 如果您的拒絕被收錄需求非常急迫,也可以發(fā)郵件給webmaster@baidu.com請(qǐng)求處理。

但我們同時(shí)也注意到近日一則題為《淘寶屏蔽百度 百度回應(yīng)將開綠色通道》的報(bào)道:“百度電子商務(wù)事業(yè)部總經(jīng)理李明遠(yuǎn)表示:針對(duì)淘寶全面禁止百度爬蟲抓取頁面,百度準(zhǔn)備開辟綠色通道”。盡管這位百度發(fā)言人解釋“綠色通道”的實(shí)現(xiàn)方式只是“讓賣家直接向百度索引庫提交網(wǎng)店頁面鏈接地址”,但結(jié)合robots.txt這個(gè)“協(xié)議”在法律或技術(shù)層面都不具備任何硬性的約束力,我們有理由懷疑百度的“綠色通道”是否還有另外一層含義。

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)文章

熱門排行

信息推薦