當我們的網(wǎng)站上線之后,一定會有一些不想讓百度抓取的頁面、文件,針對這種問題,我們就要使用協(xié)議去屏蔽。那么這個協(xié)議是什么?究竟怎么寫這個協(xié)議呢?
一、什么是搜索引擎協(xié)議: 搜索引擎協(xié)議也就是我們常說的robots.txt。這是我們網(wǎng)站和搜索引擎之間的協(xié)議。當搜索引擎來到我們網(wǎng)站的時候,會先看一看有沒有這個文件,在進行下一步的抓取。但是需要注意的是,這個協(xié)議只是我們單方面的,搜索引擎遵守與否,我們管不了。但是正常情況下搜索引擎會遵守這個協(xié)議。
robots.txt語法: 1.基本語法: User-agent 定義協(xié)議的搜索引擎。 Disallow 不允許抓取 Allow 允許抓取 * 通配符,代表所有 $ 結束符 2.詳情講解: User-agent: * 所有的搜索引擎都要遵守 PS:1.英文的首字母一定要大寫。下同。2.問號一定是英文狀態(tài)下的。下同。3.問號之后一定要有一個空格。下同。 User-agent: Baiduspider 針對百度的協(xié)議 Disallow: / 屏蔽全站 Disallow: /can/ 屏蔽can文件下的所有文件 Allow: /can/123 屏蔽can文件下的所有文件,但是允許收錄123 Disallow: /*.jpg$ 屏蔽所有的圖片文件。 PS:使用通配符,一定要有結束符。不然可能導致正常的路徑被屏蔽。
二、那些情況需要使用robots
1.統(tǒng)一路徑 在我們的網(wǎng)站中,指向頁面的路徑一定是有且只有一個。一旦多途徑指向一個頁面,會導致百度不知道收錄那個頁面。所以我們只要屏蔽了一個,讓百度收錄我們想讓收錄的。 2.搜索路徑 如果我們網(wǎng)站中有搜索框,那么我們就要把搜索結果頁面給屏蔽掉。目的就是為了防止有人使用這個搜索框搗亂。 3.標簽路徑 如果我們網(wǎng)站有標簽頁面,這個標簽頁面就是中文的鏈接,中文鏈接百度不認識,所以要屏蔽。 4.js文件 對于js文件或者其他無意義的文件,我們都可以屏蔽掉。
注意事項: 1.基礎語法中PS的點。 2.生效時間 robots是我們和搜索引擎之間的一個單方面的協(xié)議,不是我們今天寫上,明天百度就會遵守。想讓百度遵守是需要一個過程的,一般情況下是兩個月。但是也不排除當天寫,當天生效。所以在更改robots的時候,一定要小心小心再小心。一旦你的robots錯了,對整個網(wǎng)站的影響是巨大的。 3.不要隨便的屏蔽整站 一些新手在做網(wǎng)站的時候,沒有規(guī)劃,隨搭隨建,網(wǎng)站不能一下子做好,經(jīng)常做個半截,所以很多新手就會將我們的網(wǎng)站全部屏蔽掉。如果你真的這么做了,那么我要恭喜你,蜘蛛可能在未來的兩個月中不來訪問你的網(wǎng)站。即便是你去請蜘蛛也不會來。所以這里給新手的建議就是一定要對網(wǎng)站規(guī)劃好,一次性搭建完成。等待收錄。
文章來源:懶貓seo博客
來源地址:http://www.lanmaoseo.com/seowzyh/6995.html
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!