Robots是一個文本文件,是與網路搜尋引擎漫遊機器人(俗稱:網路蜘蛛)互通的文件,通常以ASCII編碼所撰寫並置放於網站的跟目錄下。
它最棒的地方是可以告訴網路蜘蛛,在網站中哪些網頁的資訊是可以允許讀取或禁止讀取的。
舉個例子:
如何設定 robot 不可收集所有網頁的資料 - (封鎖網路蜘蛛)Web spider
User-agent: *
Disallow: /
關閉目錄不讓網路蜘蛛訪問
User-agent: *
Disallow: /網站目錄名稱/
Disallow: /網站目錄名稱/
Disallow: /tmp/
Disallow: /private/
另外以META標籤告訴搜尋引擎如何讀取該網頁的內容
<meta name="robots" content="noindex,nofollow" />
Robot 與 搜尋引擎之間的對應=
|
搜尋引擎 |
Robot 名稱 |
|
AltaVista
|
Scooter
|
|
Infoseek |
Infoseek |
|
Hotbot |
Slurp |
|
AOL Search |
Slurp |
|
Excite |
ArchitextSpider |
|
Google |
Googlebot |
|
Goto |
Slurp |
|
Lycos |
Lycos |
|
MSN |
Slurp |
|
Netscape |
Googlebot |
|
NorthernLight |
Gulliver |
|
WebCrawler |
ArchitextSpider |
|
Iwon |
Slurp |
|
Fast |
Fast |
|
DirectHit |
Grabber |
|
Yahoo Web Pages |
Googlebot |
|
Looksmart Web Pages |
Slurp |
|