當(dāng)前位置:首頁(yè) >  站長(zhǎng) >  搜索優(yōu)化 >  正文

影響百度爬蟲對(duì)網(wǎng)站抓取量的因素

 2017-11-22 14:15  來(lái)源: 焦大seo   我來(lái)投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過(guò)

影響百度爬蟲對(duì)網(wǎng)站抓取量的因素有哪些?

虛子雨SEO首先介紹一下百度爬蟲抓取量,其實(shí)就是百度爬蟲對(duì)站點(diǎn)一天抓取網(wǎng)頁(yè)的數(shù)量,從百度內(nèi)部透露來(lái)說(shuō),一般會(huì)抓兩種網(wǎng)頁(yè),其中一個(gè)是這個(gè)站點(diǎn)產(chǎn)生新的網(wǎng)頁(yè),一般 中小型站當(dāng)天就可以完成,大型網(wǎng)站可能完成不了,另一種是百度以前抓過(guò)的網(wǎng)頁(yè),它是需要更新的,比如一個(gè)站點(diǎn)已經(jīng)被百度收錄了5w,那么百度會(huì)給出一個(gè)時(shí) 間段,比如30天,然后平均一下,每天到這個(gè)站點(diǎn)上面抓5W/30的這樣一個(gè)數(shù)字,但是具體的量,百度有自己的一套算法公式來(lái)計(jì)算。

影響百度抓取量的因素。

1.站點(diǎn)安全

對(duì)于中小型站點(diǎn),在安全技術(shù)上比較薄弱,被黑被篡改的現(xiàn)象非常常見(jiàn),一般被黑有常見(jiàn)幾種情況,一種是主域被黑,一種是標(biāo)題被篡改,還有一種是在頁(yè)面里面加 了很多的外鏈。一般主域被黑就是被劫持,就是主域被進(jìn)行301的跳轉(zhuǎn)到指定的網(wǎng)站,而如果在百度那邊發(fā)現(xiàn)跳轉(zhuǎn)后的是一些垃圾站,那么你這個(gè)站點(diǎn)抓取量會(huì)里 面降低。

2.內(nèi)容質(zhì)量

如果抓取了10萬(wàn)條,而只有100條建庫(kù)了,那么抓取量還會(huì)降下來(lái),因?yàn)榘俣葧?huì)認(rèn)為抓取的網(wǎng)頁(yè)比例很低,那么就沒(méi)必要去抓取更多,所以要"寧缺毋濫",特別要注意在建站的時(shí)候一定要注意質(zhì)量,不要采集一些內(nèi)容,這是一種潛在的隱患。

3.站點(diǎn)響應(yīng)速度

①網(wǎng)頁(yè)的大小會(huì)影響抓取,百度建議網(wǎng)頁(yè)的大小在1M以內(nèi),當(dāng)然類似大的門戶網(wǎng)站,如新浪另說(shuō)。

②代碼質(zhì)量、機(jī)器的性能及帶寬,這個(gè)不多說(shuō),后續(xù)筆者會(huì)單獨(dú)拿出一篇文章講解,請(qǐng)實(shí)時(shí)關(guān)注“營(yíng)銷小能手”。

4.同ip上面主域的數(shù)量

百度抓取都是按照ip進(jìn)行去抓取的,比如在一個(gè)ip上一天抓取了1000w個(gè)頁(yè)面,而在這個(gè)站點(diǎn)上有40W的站點(diǎn),那么平均下來(lái)抓取每個(gè)站點(diǎn)的數(shù)量會(huì)分的 很少,所以在選擇服務(wù)商的時(shí)候,要看一看同ip上面有沒(méi)有大站,如果有大站的話,可能會(huì)被分得的抓取量會(huì)很少因?yàn)榱髁慷寂艽笳旧厦嫒チ恕?/p>

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
爬蟲
百度爬蟲

相關(guān)文章

  • 淺談百度爬蟲的HTTP狀態(tài)碼返回機(jī)制

    HTTP狀態(tài)碼我們都很熟悉,SEO工作中我們也需要迎合百度蜘蛛對(duì)常見(jiàn)的HTTP返回碼來(lái)做相關(guān)調(diào)整,下面我們就來(lái)淺談百度爬蟲的HTTP狀態(tài)碼返回機(jī)制

    標(biāo)簽:
    https網(wǎng)站
    百度爬蟲
  • 爬蟲有哪些分類?白話說(shuō)說(shuō)SEO好朋友爬蟲

    本文大綱:1、爬蟲是什么?反爬蟲又是什么?2、爬蟲有哪些分類?3、爬中流程與搜索引擎工作流程4、http/https協(xié)議與狀態(tài)碼5、robots協(xié)議爬蟲是什么?反爬蟲又是什么?這里的爬蟲不是我們生活中的爬蟲,如蜘蛛。這里的爬蟲更多指的是網(wǎng)絡(luò)爬蟲,即我們叫它網(wǎng)頁(yè)蜘蛛或網(wǎng)絡(luò)機(jī)器人。當(dāng)然,在SEO里,叫網(wǎng)

    標(biāo)簽:
    百度爬蟲
  • 百度爬蟲是什么

    百度爬蟲是一種網(wǎng)絡(luò)機(jī)器人,它可以根據(jù)一定的規(guī)則,在各個(gè)網(wǎng)站爬行,對(duì)訪問(wèn)過(guò)的網(wǎng)頁(yè)、圖片、視頻等內(nèi)容進(jìn)行收集整理,分類建立數(shù)據(jù)庫(kù),呈現(xiàn)在搜索引擎上,讓用戶通過(guò)搜索某些關(guān)鍵字,就可以看到企業(yè)網(wǎng)站的網(wǎng)頁(yè)、圖片、視頻等。

    標(biāo)簽:
    百度爬蟲
  • 搜索引擎蜘蛛(爬蟲)工作過(guò)程及原理

    搜索引擎蜘蛛首先會(huì)抓取網(wǎng)頁(yè)信息,把抓取到的信息存放到搜索引擎臨時(shí)數(shù)據(jù)庫(kù)中,接著搜索引擎會(huì)根據(jù)自身的甄別原則分析信息價(jià)值,有價(jià)值的信息保留下來(lái),沒(méi)有價(jià)值的信息進(jìn)行刪除處理。

  • 淘寶客程序發(fā)展 淘寶聯(lián)盟爬蟲的注意點(diǎn)

    淘寶網(wǎng)現(xiàn)在已經(jīng)發(fā)展的十分成熟,也衍生了淘寶客這個(gè)行業(yè),在此之前也是經(jīng)歷了很多很多的階段才有今天的成績(jī),通過(guò)不斷改進(jìn)和迎合客戶的需求和互聯(lián)網(wǎng)的發(fā)展,一次又一次的更新才讓人們看到今天的淘寶網(wǎng)。那么淘寶客程序經(jīng)歷了哪些過(guò)程呢?

熱門排行

信息推薦