robots在英(ying)語之中(zhong)的(de)意思是機器人(ren),Robots協議(yi)(也稱為爬蟲協議(yi)、機(ji)器人協議(yi)等)全稱是“網絡爬(pa)蟲排除標準”(Robots Exclusion Protocol),網站通過Robots協議告(gao)訴(su)搜(sou)索引擎(qing)哪些頁(ye)面(mian)可(ke)以(yi)抓(zhua)取(qu),哪些頁(ye)面(mian)不能抓(zhua)取(qu)。Robots協(xie)議的(de)本質是網站(zhan)和搜(sou)索引擎爬蟲的(de)溝通方(fang)式,用來指(zhi)導搜(sou)索引擎更(geng)好地抓(zhua)取(qu)網站(zhan)內(nei)容,而(er)不是作(zuo)為搜(sou)索引擎之間互相(xiang)限(xian)制和不正當競爭的(de)工具(ju)。
當搜索引擎在訪問一個站點時,首先檢索的將是該站點根目錄下面的robots.txt文件(jian)(如果沒有我們(men)可以(yi)建立一個空白的文本文檔,命名為robots.txt放(fang)在網(wang)站的根目錄下(xia)即可!),如果此文(wen)(wen)件存在,那(nei)么搜(sou)索引(yin)擎將率先訪問(wen)并識(shi)別此文(wen)(wen)件的規則,它會按照此文(wen)(wen)件里面的規則進行爬取!下(xia)面詳細(xi)敘述一下(xia)相關語法:
1、允許所(suo)有搜(sou)索引擎訪問網(wang)站(zhan)的所(suo)有部分:
User-agent:*
Disallow:
2、禁止所有搜索引擎訪問網站的所有部分:
User-agent:*
Disallow:/
3、如果不需要某(mou)一個搜索引(yin)擎抓取的話(hua),比如百度(du),禁(jin)止百度(du)索引(yin)我們的網站
User-agent:Baiduspider
Disallow:/
注:如果我們需要禁止Google索引我們(men)的網站,就把User-agent:蜘(zhi)蛛名字改(gai)成(cheng) 谷歌的Googlebot即可(ke)!
4、如果我們禁止除Google外的一切搜索引(yin)擎索引(yin)我們的網站(zhan)
User-agent:Googlebot
Disallow:
User-agent:*
Disallow:/
5、如果我們需要禁止蜘蛛訪問某一個目錄,比如禁止login、newtravel等目錄被(bei)索引
User-agent:*
Disallow:/login/
Disallow:/newtravel/
6、如果(guo)我們允許(xu)蜘蛛訪問網站某(mou)個目錄中(zhong)的某(mou)些(xie)特定網址
User-agent:*
Allow:/login/my
Allow:/newtravel/html
Disallow:/login/
Disallow:/newtravel/
7、很多網站的robots.txt里(li)的Disallow或者Allow里面會有很多的符號,比如(ru)星號、問 號什么的,如果使用“*”號,主要是限制訪問某個后綴的域名,比如禁止訪問/html/ 目錄下的所有以“.htm”為(wei)后綴的URL(包含子目錄)
User-agent:*
Disallow:/html/*.htm
8、使用“$”符號是(shi)僅允許(xu)訪(fang)問某目錄下某個(ge)后(hou)綴(zhui)的文件
User-agent:*
Allow:.asp$
Disallow:/
9、如果是禁止搜索引擎索引網站中所用動態的頁面(這里演示的是以“?”號為域名(ming), 例如:index.asp?id=1)
User-agent:*
Disallow:/*?*
10、為了(le)節省服(fu)務器(qi)資源(yuan),需要(yao)禁止(zhi)各類蜘蛛來索引網站(zhan)的圖片,除(chu)了(le)使用常見的 “Disallow:/images/”這樣直接屏(ping)蔽圖(tu)片(pian)文件夾的方式以外(wai),還可以采(cai)取直接屏(ping)蔽圖(tu)片(pian) 后綴名的(de)方式。如果我(wo)們(men)禁止百(bai)度搜索(suo)引擎索(suo)引我(wo)們(men)網站的(de)圖(tu)片:
User-agent:Baiduspider
Disallow:.jpg$
Disallow:.jpeg$
Disallow:.gif$
Disallow:.png$
11、僅允許百度抓取網站上的“JPG”格(ge)式的文(wen)件
User-agent:baiduspider
Allow:.jpg$
Disallow:jpeg$
Disallow:gif$
Disallow:png$
12、僅僅禁止百度抓取網站上的“JPG”格式的文件
User-agent:Baiduspider
Disallow:.jpg$
更多(duo)詳細(xi)幫助,參考閱讀
贊
1
有一點幫助
0
沒有幫助