(1)查找是否有黑鏈出現(xiàn)——從日志分析,百度蜘蛛抓取了網(wǎng)站的哪些預期外的頁面,是否存在黑鏈。(這個可能要先賣個關(guān)子,因為這又是個大工程啦,本期專題會提到一些)
(2)百度站長工具外鏈分析——查看是否有垃圾外鏈、黑鏈等,以及鏈向的站內(nèi)什么地方,如何處理。(本期里面也有所涉及)
(3)百度站長工具鏈接分析——三大死鏈(內(nèi)鏈死鏈、鏈出死鏈、鏈入死鏈),批量下載數(shù)據(jù),合并數(shù)據(jù),excel操作,按邏輯分類,定位問題,處理問題。(定位和處理,材料不夠,因為好多已經(jīng)處理過了,沒有材料了= =|||||)
(4)從分析這些數(shù)據(jù),得到的與SEO效果相關(guān)的其他信息(垃圾搜索引擎、垃圾外鏈帶來的無用抓取,浪費資源配額,如何拒絕。)
(5)如何自動化地使用shell腳本,定位到被百度蜘蛛抓取到的死鏈,并進行復查,然后將確定為死鏈的URL進行自動化提交。(本期專題內(nèi)容太多,留作下期專題用)
(6)分析工具介紹(firefox設置,插件,excel,windows命令提示符批處理)
結(jié)合本文,你也許能學會一些新姿勢,比如:
(1)批量下載百度站長工具中的表格數(shù)據(jù)(活學活用地去下載其他網(wǎng)站的一些東西,只要你喜歡。比如5118什么的。5118的站長會不會打我呀?)
(2)合并一些常見的文檔,比如txt、csv之類的文本,方便數(shù)據(jù)分析和處理。
(3)分析死鏈數(shù)據(jù)、定位問題的一點基本思路
本專題中主要使用到的工具:
(只是結(jié)合例子中,如果有其他相似功能的工具,請結(jié)合自身習慣使用即可)
【瀏覽器】火狐(Firefox)瀏覽器,版本無所謂
【插件】:Launch Clipboard
功能:一鍵打開剪切板中存在的URL。(注意URL中只能有英文數(shù)字標點,如果有中文可能無法被識別)。快捷鍵:alt + shift +K(先復制好單個或者多個URL)
設置:打開選項設置,選擇好下載文件自動保存的位置(我這里選擇了桌面,你也可以單獨創(chuàng)建一個文件夾,好對批量下載的文件進行歸類)
【表格處理】:Microsoft Office 2013 Excel
【文本處理】:Notepad++
【批量處理】:Windows自帶命令提示符
本期專題配合視頻的講解流程:
來到百度站長工具鏈接分析。我們看到有兩大板塊,死鏈分析與外鏈分析。
一、我們可以先看一下外鏈分析。
分析外鏈數(shù)據(jù)的主要目的是,找出垃圾外鏈,主動去封堵垃圾外鏈可能對網(wǎng)站造成的惡劣影響。最終目標:1、找到垃圾外鏈的域名,進行防盜鏈處理(針對來源為垃圾域名的,直接返回404狀態(tài)碼);2、處理站內(nèi)可能存在問題的頁面。
這里,我會重點講解第一點;第二點比較簡單,我會講解得比較粗略。
1、定位出垃圾域名。
圖注:可以看到這是一個明顯不正常的趨勢圖
我們可以下載外鏈數(shù)據(jù),來進行初步分析。
圖注:下載得到的表格文件(csv逗號分隔符)
但是這樣一份原始數(shù)據(jù),是很難進行分析的。因此我們需要按照一定邏輯對其進行分析——就是按照【被鏈接的網(wǎng)頁url】進行分類。
首先,我們可以快速瀏覽一下,進行直觀判斷,這些頁面大部分是什么頁面呢?
針對我們網(wǎng)站的情況來說,外鏈數(shù)據(jù)分為兩類,正常外鏈與垃圾外鏈。
而垃圾外鏈又分為兩種:站內(nèi)搜索結(jié)果頁面(垃圾搜索詞)以及被黑客入侵植入的黑鏈(已經(jīng)處理為死鏈)。
我們進行數(shù)據(jù)處理的目的有兩個:識別出哪些是正常外鏈,哪些是垃圾外鏈,并根據(jù)垃圾外鏈的相關(guān)數(shù)據(jù),進行一些處理,保護好網(wǎng)站;并且需要使被垃圾鏈接指向的頁面,不被搜索引擎抓取(浪費抓取資源配額)以及被收錄/索引(保證網(wǎng)站詞庫不受污染,不為網(wǎng)站帶來形象與關(guān)鍵詞方面的負面影響)。
第一步,篩選出網(wǎng)站的搜索結(jié)果頁面
圖注:篩選數(shù)據(jù)、復制到新的sheet中,刪除原始sheet中的篩選數(shù)據(jù),來分類數(shù)據(jù)
還有幾類搜索鏈接格式,都以相同方式進行處理。
然后把原始sheet中剩下的數(shù)據(jù)進行去重(空白行),得到剩余的鏈接信息。
圖注:對剩余數(shù)據(jù)進行簡單的去重處理。
然后,我們需要對黑鏈進行篩選。黑鏈的數(shù)據(jù),一般需要先從網(wǎng)站日志中分析得到(這樣是最全面的,為了保證效率,會需要使用到shell腳本來自動運行,但是涉及篇幅過多,我將在以后的專題中進行講解)。
當然也可以對表格中【被鏈接的網(wǎng)頁url】這一列按照順序排序后,挨著分析得到(自己去打開,同時黑客會使用一些特殊手段,妨礙我們?nèi)プR別真正的會被搜索引擎識別到的垃圾內(nèi)容,最常見的情況就是,使用js跳轉(zhuǎn)。這樣我們通過瀏覽器訪問時,會看到完全不一樣的內(nèi)容,而搜索引擎抓取時,則下載到了垃圾內(nèi)容。)
這時,我們需要使用一款firefox插件【No Script】,旨在屏蔽網(wǎng)站上的js,看到與搜索引擎類似的內(nèi)容。
圖注:屏蔽瀏覽器中java script的插件
另外還有一種不是很靠譜的甄選方法,在搜索引擎里面去搜:【site:域名 *】之類的關(guān)鍵詞,把不符合網(wǎng)站預期的關(guān)鍵詞拿去搜,就可以得到很多鏈接了。(這里需要使用一些方法,把鏈接全都批量導出,在今后的專題中,我會繼續(xù)講解的)
篩選過程我就只能省略啦,可以結(jié)合視頻看一看。
圖注:篩選出來的網(wǎng)站黑鏈
我們之所以要這么辛苦地找出垃圾外鏈,目的就是要把這些垃圾外鏈的域名記錄下來,避免這些垃圾域名被黑客重復利用,拿去制作新的垃圾鏈接,從而在第一時間拒絕掉這些垃圾外鏈,使百度蜘蛛從垃圾外鏈訪問我們網(wǎng)站上內(nèi)容時,無法獲取到任何信息(也就是返回404狀態(tài)碼,被識別成死鏈),久而久之,這些垃圾域名的權(quán)重就會越來越低(因為導出了死鏈,影響搜索引擎的正常抓取工作),這樣我們不僅保護了自己,也懲罰了敵人。
具體方法是,把垃圾頁面找出來——從搜索結(jié)果頁面和黑鏈的兩個sheet中,把外鏈頁面整合到一起。如sheet3所示。
圖注:合并垃圾外鏈頁面
接下來的處理會使用到一款小工具,來快速獲取這些鏈接的主域名。
圖注:將鏈接復制到左邊紅框里,點擊本地提取,就會出現(xiàn)在右側(cè)紅框
如此一來,我們就得到了這些垃圾外鏈頁面的主域名,我們只需要在我們服務器上配置一下防盜鏈,禁止refer(來源)為這些域名的訪問(返回404http狀態(tài)碼)即可。
2、從站內(nèi)對搜索結(jié)果頁面進行處理(黑鏈處理我保留在下一次專題,因為要大量結(jié)合linux的shell腳本):
權(quán)重比較高的網(wǎng)站的站內(nèi)搜索,一定要注意antispam(反垃圾)。如果不加以防范的話,一旦被黑客利用,那么可能會造成大量搜索頁面被百度抓取,黑客利用高權(quán)重網(wǎng)站的資源,快速做好黃賭毒行業(yè)的關(guān)鍵詞排名。但是這對于我們網(wǎng)站來說,則是噩夢般的打擊。不作處理的話,可能會導致如下幾方面的問題:浪費大量的蜘蛛抓取配額,去抓取垃圾頁面;垃圾頁面被搜索引擎收錄,網(wǎng)站詞庫被黑客污染,使得網(wǎng)站的行業(yè)詞和品牌詞排名不理想;對網(wǎng)站形象造成損失……等。
在進行這類反垃圾策略的時候,我們需要關(guān)注四個方面:站內(nèi)用戶可以正常使用;不允許搜索引擎抓取這類頁面;拒絕垃圾外鏈的訪問;頁面上不得出現(xiàn)垃圾關(guān)鍵詞。
既然有了明確的目標,那么相應的應對方案也就出來了,那就是:
A 限制來源,拒絕掉所有非站內(nèi)來源的搜索
B 頁面上的TKD等關(guān)鍵位置,不對搜索詞進行調(diào)用
C 指定敏感詞庫過濾規(guī)則,將敏感詞全部替換為星號*(有一定技術(shù)開發(fā)要求)
D 在robots.txt聲明,不允許抓取
E 在頁面源代碼head區(qū)間添加meta robots信息,聲明該頁面不允許建立索引(noindex)
進行以上處理,可以解決掉大部分站內(nèi)搜索頁面(不局限于該類頁面,甚至其他的頁面只要不希望搜索引擎抓取以及建立索引的話,都可以這樣處理)容易出現(xiàn)的問題。
二、我們再來看一下死鏈分析。
死鏈,在站長工具的死鏈提交工具的幫助文檔中已經(jīng)有詳盡的闡釋,我僅僅進行一些補充即可。
死鏈一般有如下幾種:內(nèi)部死鏈、外部死鏈。
內(nèi)部死鏈,就是我們網(wǎng)站上出現(xiàn)的,由于種種原因使得百度蜘蛛抓取鏈接時,無法獲取到內(nèi)容而被識別的死鏈。大部分情況下,對于我們來說,這種死鏈是可以通過一些方式進行避免的,因此是可控的。同時,由于鏈向死鏈的頁面,都是我們網(wǎng)站上的頁面,并且鏈出了死鏈的頁面,對搜索引擎非常不友好,所以不及時處理的話,極有可能使搜索引擎無法順利地對網(wǎng)站上有價值頁面進行抓取,從而間接導致“局部降權(quán)”(抓取一些頁面的周期變得越來越長,快照更新緩慢,排名上不去之類)。
內(nèi)部死鏈問題比較嚴重,所以應當優(yōu)先處理內(nèi)部的死鏈。
而我們可以放慢地百度站長工具中獲取死鏈數(shù)據(jù),并按照一定邏輯方式進行整理和劃分,定位問題,接下來我將圍繞進行死鏈數(shù)據(jù)分析進行講解。
通過在頁面上對死鏈信息進行預覽,誰都會,我就不需要過多說明了。而死鏈問題,不需要每天都去下載表格進行分析,而只需要每天大致看一下數(shù)據(jù),是否有突然出現(xiàn)的死鏈,找到原因并處理(一般大范圍出現(xiàn),比較容易被察覺到,也是需要緊急處理的);其次我們需要定期進行一次較為徹底的死鏈數(shù)據(jù)分析,看看是否有平時沒有關(guān)注到的死鏈問題(一般出現(xiàn)范圍小,會比較難以察覺,但是任由其長期發(fā)展下去的話,可能會造成大問題)。
圖注:一般突然出現(xiàn)的大量死鏈,很容易被察覺,也比較好確定原因
圖注:這是早期定位到的問題,雖然提交了處理建議,但被程序員忽視掉,然后在最近突然爆發(fā)出來,因此即使小問題,也應當引起足夠重視(由于發(fā)生后處理及時,沒有出現(xiàn)過于嚴重的問題)
接下來,我來簡單說一下,批量下載百度站長工具中的死鏈數(shù)據(jù),以及合并數(shù)據(jù)進行統(tǒng)一處理。
內(nèi)鏈死鏈(子域名A指向子域名A)和鏈出死鏈(子域名A指向子域名BCD……),一般來說比較容易分析,我們來針對鏈入死鏈(子域名BCD……指向子域名A)來進行一些批量處理吧。
圖注:可以對數(shù)據(jù)進行下載,格式為csv(逗號分隔符),可以方便地使用excel進行處理
;并且下方有官方的幫助文檔。
到這里,你可以試著點擊【下載數(shù)據(jù)】,這樣火狐瀏覽器就會自動把文件下載到你設置好的位置。
這里告訴大家一個小技巧,可以點擊下載列表中的對應文件,復制下載鏈接,然后粘貼出來。
相信長得帥的朋友已經(jīng)看出來了,site=就是指定你的網(wǎng)站域名,而day=2016-02-30就是指定你需要的日期了。type=3就是指定下載【鏈入死鏈】的數(shù)據(jù),而type=2是鏈出死鏈,type=1是內(nèi)鏈死鏈。而其他參數(shù)不需要做過多了解。
腦洞大開的朋友一定會想,如果我把日期參數(shù)做一下處理,是不是能夠批量地直接下載這些文件了呢?沒錯,可以的。這里你需要借助一下excel強大的功能。
先手動做好兩行URL,然后選中,左鍵按住從右下角,往下拉你就發(fā)現(xiàn)excel已經(jīng)自動幫你對URL進行了補完。非常方便。
松開左鍵,就得到了想要的結(jié)果
然后,你就可以復制下這些URL,然后到火狐瀏覽器中,用我們之前安裝好的Launch Clipboard插件,使用其快捷鍵alt + shift +K批量打開上圖中的鏈接,然后我們的火狐瀏覽器就會自動把這些文件下載存儲到我們指定好的位置。
來,我們看一看收獲的成果吧:
好像還可以的樣子哦?但是,這么多表格難道要我一個一個地打開嗎?
當然不。我們來看一看某一個表格長什么樣子吧??吹搅藛?這里有記錄時間的。
也就是說,如果我們能想辦法把這些文件都合并起來的話,也是有辦法區(qū)分日期的。
好吧,說干就干。
(1)打開你的命令提示符:Windows + R,輸入cmd,回車
(2)在命令提示符中,輸入cd再敲入空格,再到保存csv文件的位置,去把文件夾整個拖拽到命令提示符中,即可自動補完路徑。
如果不輸入cd空格的話,會報錯,如下圖。(cd的意思是跳轉(zhuǎn)目錄到指定目錄)
當成功后,你就可以把csv文件都合并起來啦,輸入命令:
copy *.csv..\ok.csv
意思是,拷貝出所有以后綴名為csv的文件,輸出到上一級目錄下的ok.csv文件中。
這樣就完成了合并。
我們打開ok.csv看看?接下來就可以進行簡單的去重處理。
圖注:簡單去重后,我們依然可以大致瀏覽一下。
我們發(fā)現(xiàn),死鏈前鏈中,有許多來自于不同域名的相似目錄下的頁面。我們不妨把這些頁面單獨存起來。
圖注:篩選出所有zx123.cn子域名下包含xiaoqu目錄的頁面
然后我們發(fā)現(xiàn),還有一些包含baidu.com/的頁面,這些頁面一般是經(jīng)過推送數(shù)據(jù)來進行抓取的,所以也暫時分類到一邊。
圖注:百度的抓取數(shù)據(jù)
剩下的數(shù)據(jù)中,還剩下外部死鏈,而外部死鏈中還包含一些垃圾鏈接,我們需要把這些垃圾鏈接找出來。
圖注:按照死鏈鏈接排序
把垃圾死鏈也單獨歸為一類,剩下的就是真正的外鏈死鏈了。
圖注:檢驗成果的時候到啦。
我們把數(shù)據(jù)按照一定邏輯關(guān)系分成了四類,分別是【外部死鏈】【垃圾鏈接】【百度】【子域名(也屬于內(nèi)部死鏈)】
我們需要重點關(guān)注的是,【子域名】出現(xiàn)的死鏈。因為子域名也是我們的網(wǎng)站的一部分啊,這些頁面上出現(xiàn)了死鏈,勢必對這些頁面的SEO效果不利,需要盡快明確原因。
經(jīng)過與技術(shù)部門溝通,我確認到該類問題出現(xiàn)的原因,主要是我們網(wǎng)站的服務器之間同步數(shù)據(jù)時不成功,或者服務器之間連接偶然斷開所致。這類問題暫時難以避免,因此只能讓技術(shù)人員將因為這種情況出現(xiàn)的404(永久不可訪問)狀態(tài)碼改為返回503(臨時不可訪問)狀態(tài)碼了。
而【百度】出現(xiàn)的死鏈,理由和上面的一致。只不過蜘蛛的抓取渠道,是來自于主動推送方式。返回503狀態(tài)碼后,情況有所改善。
【垃圾鏈接】,我已經(jīng)在外鏈分析中做出過一定程度的說明了,可以參考一下。
【外部死鏈】,這個其實可以不必過于關(guān)注,會受到死鏈影響的不是我們網(wǎng)站,而是導出了死鏈的網(wǎng)站。但是有時候分析看看,總能發(fā)現(xiàn)一些有趣的現(xiàn)象。
比方說,我現(xiàn)在看到的數(shù)據(jù)的共性是,死鏈鏈接都不完整,要么中間用點號來省略了,要么尾部被強行截斷了。我們打開死鏈前鏈,發(fā)現(xiàn)死鏈鏈接是作為明鏈接(無錨文本)出現(xiàn)在頁面上。而死鏈前鏈的頁面,大多數(shù)都類似于搜索引擎結(jié)果頁面,并且這些結(jié)果頁面上對錨鏈接都以nofollow進行了控制。
圖注:這些都是垃圾搜索引擎,目的是抓取其他網(wǎng)站的信息為己所用,制造垃圾站群
可以看出,【垃圾鏈接】和【外鏈死鏈】中的大部分,依然也是抱著惡意目的而來的。這時候我們可能就需要考慮,使用反爬蟲策略,來禁止一些垃圾搜索引擎對我們網(wǎng)站進行恣意妄為的抓取行為了。(關(guān)于反爬蟲策略專題,我將來也打算嘗試一下)
好啦,這期的內(nèi)容差不多就是這樣,我們來總結(jié)一下吧。
(1)分析鏈接數(shù)據(jù)的目的:保證搜索引擎對網(wǎng)站正常抓取和索引;防止被惡意人士利用而受到損失。
(2)分析鏈接數(shù)據(jù)的手段:一些工具,再加上簡單的邏輯。
(3)養(yǎng)成良好工作習慣與意識:每天大致關(guān)注一下這些數(shù)據(jù),定期仔細分析一下數(shù)據(jù),對這些環(huán)節(jié)有控制地進行操作。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!