robots.txtの書き方

スポンサーリンク




ホームページを作成しても、
Googleがそのページを拾い(クロール)検索結果に表示してくれなければ意味がありません。

robots.txtはこのクローリングを最適化し、
重要なページをしっかりと検索結果に表示してもらうために使います。

また、検索結果に表示したくないページを指定することも出来ます。


1 基本的な書き方

User-agent:*  全てのクローラーを受け入れることを示しています。
全て受け入れておいて問題ありません。
Disallow:  ブロックしたいページを指定します。
Allow:     クロールさせたいページを指定します。
Sitemap:   クローラー用のサイトマップの場所を指定します。

1.1 Disallow:の書き方

01_robots.txt


1.2 Allow:の書き方

Allowは指定しなければ、クローラーは勝手に拾っていくのであまり使いません。
ディレクトリ全体をDisallowでクロール拒否しつつ、
その中の一部のファイルだけはクロールさせたい、
という組み合わせの場合に使います。

Disallowで/mypage/を拒否しているものの、
その後のAllowで/mypage/main/のクロールを指定しています。
AllowDisallowよりも強い指示のため、この場合はAllowが優先されます。


1.3 User-agent:の書き方

User-agent
基本的にすべて受け入れる「*」を指定しておけば問題ありませんが、
ここではどんな指定ができるのかを見ておきましょう。

02_robots.txt



1.4 Sitemapの位置

sitemap.xmlの場所を
robots.txtに記載することをGoogleは推奨しています。

2 robots.txtはどこに設置すれば良いか

robots.txtは、robots.txtという名前で保存を行い、
テキストファイルとして自分のドメインのルートにアップロードします
robots.txt ファイルのURLは/robots.txtとなります)。


3 ケーススタディ

/mypage/以外をクロールさせる

 

/mypage/以外をクロールさせたいが、/mypage/の一部だけはクロールさせたい

 

User-agent別に矛盾した記述をした場合

前者では
「全クローラーに全ページをクロールさせない」という指示を出していますが、
後者では
「googlebotに/mypage以外をクロールさせる」という指示を出しています。

このような場合は、後者に指定したものを優先します。

よって、「googlebotは/mypage以外をクロールする」ことになります。


4 robots.txtテスター

robots.txtの管理・更新を簡単に行えるように、
Google Search Console内で使えるのが「robots.txtテスター」です。

4.1 robots.txtテスターの使い方

robots.txtテスターの画面はこのようになっています。

03_robots.txt

赤枠robots.txtを確認・送信することが出来ます。

青枠robots.txtでブロック(Disallow)したURLが
正しくブロックされているか確認することが出来ます。

赤枠に何も記載がない場合は、robots.txtが設置されていません。


4.2 URLのテスト

指定したURLのクローリング可否状況を確認することが出来ます。

04_robots.txt

試しに、Disallow指定をしている「/mypage/」を入れてみます。

指定したとおりにブロックされていると、このように表示されます。

05_robots.txt

User-agent毎に切り替えて確認することも可能です。

また、Disallowだけでなく、Allow指定したものも確認できます。

間違ってブロックしてしまうと、
一切インデックスされないということが起こってしまいます。



スポンサーリンク

以上

スポンサーリンク

コメントを残す

サブコンテンツ

このページの先頭へ

Top