ホーム >> 左脳Script >> 健忘メモ >> robots.txt の書き方

robots.txt の書き方


なんだか、robots.txt というキーワードでココにいらっしゃる方が結構?居るようなので、書式なんかを纏めてみました。

robots.txt とは、検索エンジンに対して「このページを見て!」とか「ここは見ちゃイャン」とかを指定するものだそうです。


ロボットについて

このサイトに良く来るロボットで素性の正しい?ものを列挙してみました。これら以外にも沢山のロボットがアクセス解析にて検出されています。

robots.txt について

必ず「robots.txt」という名前で作成して下さい。半角英数小文字限定です。
設置場所は、ドメイントップの一箇所のみ。


書式

  • User-agent:
    検索エンジン(クローラー)の指定します。この後に続ける、記述に影響します。
    *(ワイルドカード)指定可能です。* だけだと、全ての検索エンジンが対象になります。

    以下代表的な検索エンジン。他にも沢山ある模様。
    googlebot:グーグル
    Googlebot-Image:グーぐるイメージ検索
    Googlebot-Mobile:グーグルモバイル
    Yahoo-MMCrawler:ヤフーイメージ検索

  • Disallow:
    先に指定された検索エンジンに対して、指定したパス以下をインデックスしないように指定します。
    ワイルドカードの指定も可能とされていますが、古いロボットでは指定を認識出来ない可能性もあるります。
    あくまで検索エンジンが無視するだけの指定で、人間が故意にそのアドレスにアクセスするのを防ぐものではないので注意。

    ロボットに対して /cgi-bin/ ディレクトリの巡回を禁止する。
    
    Disallow: /cgi-bin/
    

    ロボットに対して 全てのディレクトリの巡回を禁止する。
    
    Disallow: /
    

    ロボットに対して jpeg 画像全ての禁止。
    
    Disallow: /*.jpg
    Disallow: /*.jpeg
    

    「/hoge」で、各ディレクトリ内の「hoge」を禁止する。
    「/huge/」で、huge ディレクトリとそのディレクトリ内の全ての検索を禁止する。

    異なるロボットにそれぞれ別の指定をしたい場合は、1行空白行が必要です。
    また、同じ指定をロボット毎に指定したい場合も、それぞれ記述しなければなりません。
    
    User-agent: *
    Disallow: /cgi-bin/
    
    User-agent: Googlebot-Image
    Disallow: /ero_image/
    
    User-agent: Yahoo-MMCrawler
    Disallow: /ero_image/
    

  • allow:
    上記、disallow とは逆に、検索許可の指定。余り使わないのでは?と考えるかもしれませんが、変則的な指定をする際に役に立つようです。
    古いロボットでは認識できない可能性があるので注意。

    グーグルモバイルのみ許可。
    
    User-agent: *
    Disallow: /
    
    User-agent: Googlebot-Mobile
    allow: /
    

  • Sitemap:
    サイトマップを指定します。Sitemaps.org形式のXMLサイトマップを認識させることが出来ます。URLはhttp://から省略せずに記述して下さい。

    
    Sitemap: http://n-yagi.0r2.net/script/sitemap.xml
    

  • Crawl-delay:
    検索エンジンが判っていて、そのロボットのアクセスが頻繁な場合、アクセス間隔を指定することが出来ます。
    そもそも、そのような行儀の悪い?ロボットがこの指定を認識できるのか疑問ですが・・・

  • #
    コメント。# 以降の文字は行末尾までコメント扱いになります。





トラックバック(0)

トラックバックURL: http://n-yagi.0r2.net/sanoupulurun/mt-tb.cgi/62

コメントする

ホーム >> 左脳Script >> 健忘メモ >> robots.txt の書き方

アーカイブ

このブログ記事について

このページは、n-yagiが2009年5月14日 10:23に書いたブログ記事です。

ひとつ前のブログ記事は「意図しない「>」が表示される現象」です。

次のブログ記事は「定番コピペ」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。

Creative Commons License
このブログはクリエイティブ・コモンズでライセンスされています。