當(dāng)前位置:首頁(yè) >  站長(zhǎng) >  搜索優(yōu)化 >  正文

探秘搜索引擎蜘蛛的抓取 規(guī)律外鏈?zhǔn)欠裼袝r(shí)效性

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過

做SEO優(yōu)化的我們都曉得搜索引擎錄入頁(yè)面是靠蜘蛛抓取來(lái)錄入的,所以了解搜索引擎的改動(dòng)是必需的。搜索引擎蜘蛛是大家編寫出來(lái)的機(jī)器,一定存在著某種規(guī)則。

一、搜索引擎蜘蛛的抓取規(guī)律

1、優(yōu)質(zhì)網(wǎng)站專門分配蜘蛛抓取,及時(shí)抓取,及時(shí)收錄,及時(shí)放出供網(wǎng)民搜索;

2、普通網(wǎng)站,分配一定的蜘蛛抓取資源,爬到一定量就不抓取了;

根據(jù)以上兩種抓取原則,在配合兩種抓取方法:橫向抓取,縱向抓取;

網(wǎng)頁(yè)抓取規(guī)則:遵循F型抓取規(guī)則,從左到右,從商到下的原則抓取。

一般情況下,一個(gè)新上線的網(wǎng)站需要一段時(shí)間才會(huì)被錄入。當(dāng)搜索引擎錄入網(wǎng)站時(shí),一般是從主頁(yè)收錄,接著順著主頁(yè)再進(jìn)入內(nèi)頁(yè)。搜索引擎很“花心”,它不是一次性將網(wǎng)站悉數(shù)抓取完,而是分不一樣的時(shí)間段進(jìn)行抓取,然后核算出蜘蛛在網(wǎng)站的活動(dòng)時(shí)間及時(shí)間的長(zhǎng)短。

新站的頁(yè)面即便被抓取也不會(huì)馬上被放出來(lái),需要經(jīng)過搜索引擎重復(fù)核算,供認(rèn)網(wǎng)站的確有必要錄入,這時(shí)才會(huì)把頁(yè)面放出來(lái),一般新站的網(wǎng)站快照和錄入頁(yè)面都是晚一個(gè)星期才會(huì)被放出來(lái)。

一定要緊記下面這段話:在搜索引擎蜘蛛抓取網(wǎng)站的時(shí)分,千萬(wàn)不能出現(xiàn)網(wǎng)站打不開或許有死鏈的情況,假設(shè)出現(xiàn)這種情況,搜索引擎會(huì)連續(xù)對(duì)網(wǎng)站的抓取,往后什么時(shí)分再來(lái)就不一定了。有很多人有一個(gè)不好的習(xí)慣,也有一個(gè)不錯(cuò)的猜想,認(rèn)為域名的年紀(jì)越長(zhǎng),越遭到搜索引擎的親賴。

有好多人,網(wǎng)站剛剛做完主頁(yè),馬上上線,主頁(yè)上的銜接大多數(shù)都是死鏈,搜索引擎蜘蛛進(jìn)入后,抓取網(wǎng)站內(nèi)頁(yè)時(shí)進(jìn)不去,對(duì)網(wǎng)站形象大幅度降低,然后減少來(lái)抓取網(wǎng)站的次數(shù)。假設(shè)下次來(lái)光臨的時(shí)候, 網(wǎng)站仍是原樣,這樣往復(fù)幾回,搜索引擎蜘蛛就會(huì)不友好,覺得是低質(zhì)網(wǎng)站,畢竟拋棄抓取該網(wǎng)站。

網(wǎng)站成功上線一段時(shí)間后,才會(huì)進(jìn)入安穩(wěn)時(shí)期。baidu和Google會(huì)給新站一段時(shí)間的查核期,查核期過后,才認(rèn)為網(wǎng)站是一個(gè)長(zhǎng)時(shí)間的網(wǎng)站,這個(gè)時(shí)間為3-6個(gè)月。處在安穩(wěn)期的網(wǎng)站,搜索引擎蜘蛛會(huì)常常來(lái)光臨,它們?nèi)允呛颓捌跁r(shí)期一樣,從主頁(yè)進(jìn)入網(wǎng)站抓取。

baidu和Google略有不一樣,假設(shè)baidu發(fā)現(xiàn)網(wǎng)站主頁(yè)的內(nèi)容沒有改動(dòng),會(huì)馬上中止抓??;而Google不是這樣,即使發(fā)現(xiàn)網(wǎng)站主頁(yè)沒有改動(dòng),仍是照常順著主頁(yè)的銜接繼續(xù)抓取,這便是有些網(wǎng)站Google比baidu錄入頁(yè)面多的原因之一。

當(dāng)更新網(wǎng)站的內(nèi)容時(shí),一定要在網(wǎng)站主頁(yè)中顯示出來(lái),否則百度蜘蛛不會(huì)錄入更新的頁(yè)面,因?yàn)橹黜?yè)沒有改動(dòng),百度蜘蛛不往內(nèi)頁(yè)抓取,所以不曉得有新的頁(yè)面發(fā)作。這也是有的公司網(wǎng)站常常犯的錯(cuò)誤之一,主頁(yè)的內(nèi)容是死的,不能改動(dòng),致使網(wǎng)站的錄入量一貫沒有改動(dòng)。安穩(wěn)時(shí)期的網(wǎng)站快照和錄入頁(yè)面一般是近兩天內(nèi)被放出來(lái)。。搜索引擎也是一樣,它對(duì)網(wǎng)站形象好,會(huì)常常來(lái),常常更新網(wǎng)站的快照,常常錄入頁(yè)面;假設(shè)對(duì)網(wǎng)站形象欠好,所以要先養(yǎng)站,只需網(wǎng)站略微有“打擦邊球”的嫌疑,被封掉的可能性就會(huì)很大。

二、外鏈?zhǔn)欠裼袝r(shí)效性

早幾年在博客中國(guó)的博客(可能是因?yàn)榱髁砍瑯?biāo)在2016年被刪除了)早就已經(jīng)被刪了,但是百度依然有快照。今天看了下首頁(yè)的快照已經(jīng)沒有了,但是文章頁(yè)面還存在。看快照日期可以看到是2016年,甚至更久的。

也就是雖然頁(yè)面被刪除了有5年之久,但是百度的快照沒有刪除,那么你說(shuō)這里面的鏈接蜘蛛會(huì)不會(huì)爬呢?我感覺應(yīng)該是會(huì)爬的,而且我在博客網(wǎng)的這個(gè)博客是有一個(gè)域名A的鏈接的,當(dāng)時(shí)只是做了個(gè)跳轉(zhuǎn)到博客首頁(yè)。后來(lái)在我啟用域名A做博客的時(shí)候,立馬就獲得了一個(gè)很好的權(quán)重,而且文章很容易被秒收。相信這個(gè)5年前的鏈接起到了不少的作用。

如果外鏈所在頁(yè)面搜索引擎沒有了快照,外鏈?zhǔn)欠裼行?答案可能會(huì)出乎很多人的意料,外鏈所在頁(yè)面沒有了快照依然還可以有效。原因可以查看我在蜘蛛如何抓取鏈接這篇文章里寫的,蜘蛛抓取頁(yè)面之后,會(huì)把內(nèi)容和鏈接分開,鏈接也就是URL會(huì)加入一個(gè)網(wǎng)址索引庫(kù),而蜘蛛抓取是從這個(gè)網(wǎng)址索引庫(kù)出發(fā)的。

先看證據(jù),這個(gè)證據(jù)來(lái)自于谷歌站長(zhǎng)工具:這個(gè)截屏來(lái)自于Google站長(zhǎng)工具故障診斷的404報(bào)告,以前我在原網(wǎng)站下面架設(shè)了個(gè)bbs,當(dāng)然早在N年前已經(jīng)刪除了??墒沁@個(gè)不存在的頁(yè)面,被Google蜘蛛抓取的來(lái)源地址竟然也是不存在的頁(yè)面。而用Google搜索,是沒有這些頁(yè)面的快照的。那是不是意味著已經(jīng)404了很久的頁(yè)面上的導(dǎo)出鏈接依然有效?

三、那么外鏈對(duì)于搜索引擎是否有時(shí)效性呢?

很明顯應(yīng)該是有時(shí)效性的。那么我就猜測(cè)一下外鏈?zhǔn)У脑虬?,?yīng)該會(huì)有兩個(gè)原因:那就是外鏈所在頁(yè)面被刪或者鏈接被刪。

1.針對(duì)頁(yè)面被刪的情況,搜索引擎應(yīng)該會(huì)繼續(xù)抓取這個(gè)頁(yè)面上的外鏈,直到這個(gè)頁(yè)面404一定時(shí)間后,會(huì)給搜索引擎網(wǎng)址索引庫(kù)一個(gè)命令刪除這個(gè)外鏈。

2.而對(duì)于頁(yè)面更改的情況,搜索引擎應(yīng)該也會(huì)抓取這個(gè)外鏈,直到這個(gè)含有這個(gè)外鏈快照在搜索引擎內(nèi)部徹底刪除,會(huì)給網(wǎng)址索引庫(kù)一個(gè)命令刪除這個(gè)外鏈。因?yàn)楹型怄湹捻?yè)面根據(jù)情況會(huì)保存N個(gè)時(shí)期的快照,這就是為什么有時(shí)候搜不同的詞,網(wǎng)頁(yè)快照不同。

文章轉(zhuǎn)自公眾號(hào):SEO實(shí)戰(zhàn)營(yíng)(ID:ilottecn),原文地址:https://mp.weixin.qq.com/s/R-6f0iZF6IJb9l9g7Vtkiw

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
搜索引擎蜘蛛
蜘蛛抓取

相關(guān)文章

  • 什么是搜索引擎蜘蛛?SEO搜索引擎蜘蛛工作原理

    作為一名編輯乃至站長(zhǎng),在關(guān)注網(wǎng)站在搜索引擎排名的時(shí)候,最重要的就是蜘蛛(spider)。搜索引擎蜘蛛是一個(gè)自動(dòng)抓取互聯(lián)網(wǎng)上網(wǎng)頁(yè)內(nèi)容的程序,每個(gè)搜索引擎都有自己的蜘蛛,那么,蜘蛛是怎樣在網(wǎng)站上抓取內(nèi)容的呢?一起來(lái)看看它的工作原理吧

    標(biāo)簽:
    搜索引擎蜘蛛
  • 什么是搜索引擎蜘蛛?SEO搜索引擎蜘蛛工作原理

    作為一名編輯乃至站長(zhǎng),在關(guān)注網(wǎng)站在搜索引擎排名的時(shí)候,最重要的就是蜘蛛(spider)。搜索引擎蜘蛛是一個(gè)自動(dòng)抓取互聯(lián)網(wǎng)上網(wǎng)頁(yè)內(nèi)容的程序,每個(gè)搜索引擎都有自己的蜘蛛,那么,蜘蛛是怎樣在網(wǎng)站上抓取內(nèi)容的呢?一起來(lái)看看它的工作原理吧

    標(biāo)簽:
    搜索引擎蜘蛛
  • 七類蜘蛛陷坑 網(wǎng)站優(yōu)化中必須要躲避

    不少的網(wǎng)站就是沒有優(yōu)化好這一方面造成了站內(nèi)存在很多蛛蛛陷坑,到最終壓根兒一個(gè)好好的網(wǎng)站被搜索引擎網(wǎng)站屢屢錯(cuò)判,要不是不給名次,甚至于是造成了數(shù)量多頁(yè)面都搜索引擎網(wǎng)站拋棄。下面小編就為大家介紹網(wǎng)站優(yōu)化中必須要躲避的七類蛛蛛陷坑

    標(biāo)簽:
    搜索引擎
    搜索引擎蜘蛛
  • 網(wǎng)站怎么做seo才能吸引蜘蛛收錄更多的頁(yè)面?

    網(wǎng)站怎么做seo才能吸引蜘蛛收錄更多的頁(yè)面?蜘蛛爬行的次數(shù)越多,網(wǎng)頁(yè)收錄的名次越高,該怎么做才能吸引蜘蛛收錄更多的頁(yè)面呢?下面我們就來(lái)看看詳細(xì)的教程,需要的朋友可以參考下

    標(biāo)簽:
    搜索引擎蜘蛛
  • SEO優(yōu)化:淺談如何避免蜘蛛陷阱

    在SEO優(yōu)化的過程中如何避免蜘蛛陷阱是非常重要的一件事情,本文主要為大家淺談幾招可以避免蜘蛛陷阱的方法,有興趣的朋友們就來(lái)了解下吧

熱門排行

信息推薦