限制搜尋引擎抓取網站資料的範圍(robots.txt)--SEO的技巧

今天啟用Google的網站管理工具時,發現可以測試robots的功能,
但是我不知道什麼是robots,所以就搜尋並學習一下。

原來robots是關於SEO的小技巧,就是要給搜尋引擎讀取的文字檔。
對於SEO是重要的環節之一,雖然各家搜尋引擎對於robots.txt可能沒有以前那麼重視,
但是大部分的搜尋引擎蜘蛛(spider)還是支持的。
它是放在網站根目錄(例:http://lyhpcha.blogspot.tw/robots.txt),
其目的在於指定spider在網站上能抓取網頁的範圍的一個文字檔,
可以聲明網站中不想被搜尋引擎收錄的部分或者指定搜尋引擎只能收錄特定的部分。

robots.txt基本格式:
User-agent: *(spider名稱,*號代表全部)
Disallow: /001(Disallow:不允許搜索的範圍是/001為目錄以下)
Allow: /002 (Allow:允許搜索的範圍只有/001為目錄以下)

範例一:
User-agent: *  (*號代表全部搜尋引擎)
Disallow:      (空白的意思代表全部允許)
或者
User-agent: *
Allow: /       (/代表允許訪問網站根目錄以下所有的資料)

範例二:僅允許Googlebot訪問
User-agent: Baiduspider
Disallow:
或者
User-agent: Baiduspider
Allow: /

範例三:禁止搜尋引擎訪問站內某些檔案:
User-agent: *
Allow: /myfile/(禁止/myfiles/目錄底下的所有檔案)

範例四:禁止搜尋引擎抓取所有圖片:
User-agent: *
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$