當前位置:首頁 >  站長 >  搜索優(yōu)化 >  正文

利用robots.txt找敏感文件教程

 2015-03-16 16:08  來源: 互聯(lián)網(wǎng)   我來投稿 撤稿糾錯

  域名預(yù)訂/競價,好“米”不錯過

robots.txt是一個協(xié)議,而不是一個命令。robots.txt是搜索引擎中訪問網(wǎng)站的時候要查看的第一個文件。robots.txt文件告訴蜘蛛程序在服務(wù)器上什么文件是可以被查看的。當一個搜索蜘蛛訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該文件中的內(nèi)容來確定訪問的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護的頁面。百度官方建議,僅當您的網(wǎng)站包含不希望被搜索引擎收錄的內(nèi)容時,才需要使用robots.txt文件。如果您希望搜索引擎收錄網(wǎng)站上所有內(nèi)容,請勿建立robots.txt文件。

舉例:

如果將網(wǎng)站視為酒店里的一個房間,robots.txt就是主人在房間門口懸掛的“請勿打擾”或“歡迎打掃”的提示牌。這個文件告訴來訪的搜索引擎哪些房間可以進入和參觀,哪些房間因為存放貴重物品,或可能涉及住戶及訪客的隱私而不對搜索引擎開放。但robots.txt不是命令,也不是防火墻,如同守門人無法阻止竊賊等惡意闖入者。

這里不給時間大家看了,看完教程再仔細閱讀一下,很容易理解的,其實就是SEO中的環(huán)節(jié),做SEO的人都知道,這個文件很常用,為了不讓百度蜘蛛抓取你的一些不重要的頁面,或是你想百度蜘蛛抓取你的什么頁面,就靠這個文件來控制即可,所以就給了我們?nèi)肭终叽蟠蟮姆奖?,根?jù)我的經(jīng)驗

有的時候各種掃目錄,也找不到后臺的時候,小心翼翼的訪問一下這個文件,蛋疼的你就發(fā)現(xiàn)這個文件里面很多目錄,其中可愛的后臺地址就赫赫的展現(xiàn)在上面,你訪問一下就獲得后臺地址了!

下面來實戰(zhàn)一下,讓大家看看效果

看目錄,就知道是織夢程序 這個ICO也能看出。

User-agent: *

Disallow: /plus/ad_js.php

Disallow: /plus/advancedsearch.php

Disallow: /plus/car.php

Disallow: /plus/carbuyaction.php

Disallow: /plus/shops_buyaction.php

Disallow: /plus/erraddsave.php

Disallow: /plus/posttocar.php

Disallow: /plus/disdls.php

Disallow: /plus/feedback_js.php

Disallow: /plus/mytag_js.php

Disallow: /plus/rss.php

Disallow: /plus/search.php

Disallow: /plus/recommend.php

Disallow: /plus/stow.php

Disallow: /plus/count.php

Disallow: /include

Disallow: /templets

這個沒有后臺地址,至少我沒看出可疑的文件,原來是默認后臺地址 dede/

Disallow: /wp-admin/

Disallow: /wp-login.php

Disallow:不允許蜘蛛抓取的意思 一看就知道這是后臺地址,試試,對吧

#

# robots.txt for Discuz! X3

#

User-agent: *

Disallow: /api/

Disallow: /data/

Disallow: /source/

Disallow: /install/

Disallow: /template/

Disallow: /config/

Disallow: /uc_client/

Disallow: /uc_server/

Disallow: /static/

Disallow: /admin.php

Disallow: /search.php

Disallow: /member.php

Disallow: /api.php

Disallow: /misc.php

Disallow: /connect.php

Disallow: /forum.php?mod=redirect*

Disallow: /forum.php?mod=post*

Disallow: /home.php?mod=spacecp*

Disallow: /userapp.php?mod=app&*

Disallow: /*?mod=misc*

Disallow: /*?mod=attachment*

通過這里,可以看出這個是Discuz! X3程序 x3版本的,是一個論壇

1.可以獲取后臺地址 效率不錯

2.可以獲得網(wǎng)站程序名稱

入侵的時候,別忘了這個文件即可! 教程結(jié)束

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關(guān)標簽
robots.txt標簽

相關(guān)文章

  • 看完秒懂robots.txt寫法和注意事項

    robots.txt直接放在網(wǎng)站根目錄下,是蜘蛛訪問網(wǎng)站時,第一個抓取的文件。robots.txt是告訴蜘蛛網(wǎng)站的哪些文件允許抓取,哪些文件不允許抓取,甚至可以指定特定的蜘蛛能不能抓取特定的文件。沒有抓取就沒有收錄,沒有收錄就沒有排名。所以作為第一蜘蛛訪問的文件,寫好robots.txt是很重要的。

  • 了解robots文件,主動告訴搜索引擎該抓取什么內(nèi)容

    導(dǎo)讀:首先我們要了解什么是robots文件,比如,在安徽人才庫的首頁網(wǎng)址后面加入“/robots.txt”,即可打開該網(wǎng)站的robots文件,如圖所示,文件里顯示的內(nèi)容是要告訴搜索引擎哪些網(wǎng)頁希望被抓取,哪些不希望被抓取。因為網(wǎng)站中有一些無關(guān)緊要的網(wǎng)頁,如“給我留言”或“聯(lián)系方式”等網(wǎng)頁,他們并不參

  • robots.txt禁止搜索引擎收錄的方法

    什么是robots.txt文件?搜索引擎使用spider程序自動訪問互聯(lián)網(wǎng)上的網(wǎng)頁并獲取網(wǎng)頁信息。spider在訪問一個網(wǎng)站時,會首先會檢查該網(wǎng)站的根域下是否有一個叫做robots.txt的純文本文件,這個文件用于指定spider在您網(wǎng)站上的抓取范圍。您可以在您的網(wǎng)站中創(chuàng)建一個robots.txt,

  • 如何利用robots.txt對wordpress博客進行優(yōu)化

    筆者在百度站長平臺檢測自己的博客時,出于優(yōu)化的慣性,對博客的Rbots進行了檢測,進而在百度搜索了wordpress博客robots的寫法設(shè)置問題,看了很多wordpress高手對robots優(yōu)化設(shè)置后,終于有所領(lǐng)悟,在此也分享給一些wordpress新手看看如何去善用robots.txt對word

    標簽:
    robots.txt標簽
  • robots.txt寫法大全和robots.txt語法的作用

    1如果允許所有搜索引擎訪問網(wǎng)站的所有部分的話我們可以建立一個空白的文本文檔,命名為robots.txt放在網(wǎng)站的根目錄下即可。robots.txt寫法如下:User-agent:*Disallow:或者User-agent:*Allow:/2如果我們禁止所有搜索引擎訪問網(wǎng)站的所有部分的話robots

    標簽:
    robots.txt標簽

熱門排行

信息推薦