當(dāng)前位置:首頁 >  站長 >  網(wǎng)站運(yùn)營 >  正文

百度的致命抓取異常?你重視過嗎?

 2020-02-20 10:34  來源: A5專欄   我來投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競價(jià),好“米”不錯(cuò)過

在這些年的SEO診斷中,我這里發(fā)現(xiàn)不低于20%的網(wǎng)站都存在著一個(gè)嚴(yán)重的抓取問題,但是奇怪的是,卻始終得不到大多數(shù)人的重視。而研究透徹并分享這個(gè)問題的人,更是沒有發(fā)現(xiàn)。今天這篇文章,我們就來看一下這個(gè)問題。

什么問題呢?

連接超時(shí),或者抓取超時(shí),如果你的網(wǎng)站出現(xiàn)過這個(gè)問題,至今沒有處理到位的,就把這篇文章轉(zhuǎn)載一下吧。

很多人說,不就是幾十次的超時(shí)嗎?有什么大不了的,如果這樣認(rèn)為,那么真的是活該網(wǎng)站做不好了,正常的網(wǎng)站是什么樣的呢?我們來舉個(gè)例子:

這是一個(gè)權(quán)重4的站點(diǎn),哪怕十多萬次的抓取,卻仍舊沒有出現(xiàn)過一次的抓取錯(cuò)誤!如果你的每日抓取錯(cuò)誤量超過10次(十天半個(gè)月就出現(xiàn)一次錯(cuò)誤,或者連續(xù)多天出現(xiàn)的),就真的應(yīng)該嚴(yán)肅處理一下這個(gè)問題了,因?yàn)楫?dāng)前問題的存在,已經(jīng)長期的制約了網(wǎng)站的發(fā)展上限,甚至因?yàn)檫@個(gè)問題,誘發(fā)網(wǎng)站的降權(quán),都一點(diǎn)不奇怪。

為什么會(huì)出錯(cuò)?

有人說,不用理會(huì),這就是一個(gè)BUG,因?yàn)槲以诰W(wǎng)站的LOG日志中,并沒有發(fā)現(xiàn)這個(gè)問題。之前在百度站長的VIP群里,有人這樣解釋過。但是我想說的是:百度無法抓取到網(wǎng)站,你的網(wǎng)站LOG日志,能統(tǒng)計(jì)到這樣的錯(cuò)誤嗎?所以,上述解釋是完全說不過去的。

那么,為什么會(huì)出現(xiàn)這樣的錯(cuò)誤呢?

A,DNS問題,無論是蜘蛛還是用戶訪問網(wǎng)站,首先就需要域名的DNS做了正確的解析,然而解析是解析了,你能確定DNS真的穩(wěn)定嗎?不少站點(diǎn)的錯(cuò)誤,正是因?yàn)镈NS不穩(wěn)定而造成的。尤其是那些又做域名注冊,又搞‘域名搶注’的平臺(tái),這樣的平臺(tái),更容易出現(xiàn)DNS解析不穩(wěn)定的情況,尤其是在搶注高峰期。具體哪些品牌,這個(gè)就不點(diǎn)名了,如果你的域名在這些平臺(tái)中,賀貴江強(qiáng)烈建議你將其轉(zhuǎn)出。

B,頁面太大,有一些網(wǎng)站的部分頁面達(dá)到了四五六七八兆的情況,甚至還見過極少的網(wǎng)站出現(xiàn)過一個(gè)頁面有10MB大小。這樣的頁面,更容易出現(xiàn)鏈接超時(shí)。正常情況,并不建議網(wǎng)站的頁面大小超過3MB,同時(shí)建議網(wǎng)站服務(wù)器啟用GZIP壓縮。

C,帶寬不足,這是一個(gè)很常見的情況,不少站點(diǎn)出現(xiàn)鏈接超時(shí)都是因?yàn)閹挷蛔愣l(fā)的。我們知道1M的帶寬峰值下載是128KB,如果網(wǎng)站是1M接入,頁面大小是256KB,如果同時(shí)2個(gè)人在打開頁面,那么就需要4秒才可以下載完畢。如果帶寬是2MB,頁面大小是1024KB,一個(gè)人打開網(wǎng)站需要8秒,可如果是10個(gè)人同時(shí)打開呢?所以帶寬這里,一定要做足。站長或者企業(yè)都應(yīng)當(dāng)觀察一下站點(diǎn)的平均帶寬,以及峰值帶寬情況,如果經(jīng)常出現(xiàn)‘帶寬峰值’類型的訪問,那么就一定要升級(jí)帶寬了。

D,首字節(jié)時(shí)間,可能很多同學(xué)沒有聽說過這個(gè)問題,它指的是從發(fā)送請求到WEB服務(wù)器的時(shí)間+WEB服務(wù)器處理請求并生成響應(yīng)花費(fèi)的時(shí)間。有一些站點(diǎn),首字節(jié)時(shí)間居然都可以達(dá)到5MS,這樣的情況,網(wǎng)站還能正常嗎?

1、對于首字節(jié)時(shí)間這里,我們應(yīng)當(dāng)注意:避免網(wǎng)站與其他網(wǎng)站共享同一個(gè)服務(wù)器其他網(wǎng)站會(huì)占用自身網(wǎng)站服務(wù)器處理時(shí)間。

2、CDN減少內(nèi)容和訪問者之間的“距離”將靜態(tài)內(nèi)容分發(fā)到CDN,CDN的內(nèi)容自動(dòng)復(fù)制到各個(gè)位置,在地理上更接近用戶,從而減少TTFB的時(shí)間。注意的是,已定要設(shè)置‘緩存時(shí)間’針對于網(wǎng)站訪問較慢的頁面或欄目。

3、避免網(wǎng)站使用虛擬主機(jī)系統(tǒng)如網(wǎng)站在一段時(shí)間未有流量產(chǎn)生,系統(tǒng)會(huì)推遲或暫停虛擬服務(wù)器,當(dāng)新訪客進(jìn)入時(shí),將重新進(jìn)行服務(wù)器備份處理(10s或更長時(shí)間);

4、后端優(yōu)化軟件性能減少服務(wù)器生成的響應(yīng)到瀏覽器的時(shí)間,比如:操作碼緩存、服務(wù)器端緩存、本地緩存、W3總緩存等。

最后,我們總結(jié)一下:

首先是為網(wǎng)站找一家靠譜的DNS服務(wù)商,我們建議是阿里云,其次是穩(wěn)定的CDN服務(wù)商,阿里、百度智能云、騰訊云,都可以。最后就是網(wǎng)站服務(wù)器,盡量不要選擇使用虛擬主機(jī),且盡量避免多個(gè)站點(diǎn)使用相同服務(wù)器。

作者:賀貴江

來源:盧松松博客,歡迎分享

申請創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
百度

相關(guān)文章

熱門排行

信息推薦