robots txtとは、検索エンジンのクローラーがWEBページを登録しないようにするために、WEBサーバー上に配置するテキストファイルのことです。Robots Exclusion Standardとも言います。
robots txtを活用することで、クロールの最適化によって効率的なインデックスがされます。
インデックスされにくくなりますが、外部リンクで見つけられた場合などにインデックスされることがあります。
そのため、特にページ数の多いWEBサイトにおいて役立ちます。
反対に、クロール制御が不要なページ数の少ないWEBサイトでは設置する必要性があまりないと言えます。
そんなrobots txtを書く際に必要な項目が4つあります。以下の通りです。
・User—agent: ユーザーがどんな環境からアクセスしたのかを表します。
・Allow: クロールさせたいページを指定します。
・Disallow: ブロックしたいページを指定します。
・Sitemap: クローラーのためにサイトマップの場所を指定します。
robots txt はnoindexのように、インデックス登録をブロックしたりパスワード保護したりすることで、WebページをGoogleに表示されないようにするメカニズムではありません。
完全にインデックスされたくない場合はnoindexを設定するようにしましょう。
設置する際の注意点は以下の通りです。
・アクセスを制御できるのはクローラーだけであり、ユーザーはアクセスできる。
・ファイル名を「robots txt」にする。
クローリングを最適化させてWEBサイトの検索順位を上げたいとお考えのサイト運営者は、robots txtを活用するようにしましょう。