クローラーとは?SEO対策には重要?
この記事をご覧の皆さんは、クローラーをご存知でしょうか。
クローラーとは、Webサイトを巡回する自動プログラムを指します。近年、そんなクローラーの注目度が高まりつつあります。
なぜなら、クローラビリティ(クローラーによる巡回のしやすさ)を向上させれば、サイトのクリック率だけでなくコンバージョン率の増加も見込めるからです。
インターネット上には、多くのWebサイトが存在していますが、自社サイトの集客を図ることは簡単ではありません。しかし、クローラーを上手く活用することで、Googleを始めとする検索エンジンがサイトを認識しやすくなり高く評価されることになります。
そんな、クローラーという専門用語を一度は聞いたことがあるものの、詳しい内容が分からずお困りの方も多くいらっしゃるかと思います。
あるいは、自社サイトでコンテンツを提供し続けているのにもかかわらず、クローラーによる巡回がされないために、検索順位がなかなか上がらないといったお悩みを抱えている方もいらっしゃることでしょう。
そこで今回は、「クローラーとは?SEO対策には重要?」と題して、クローラーの定義や仕組み、SEOにおけるクローラーの重要性、クローラーの対象ファイルを明らかにします。
その上で、クローラーの種類やクローラーの巡回を促す対策だけでなく、クローラーを拒否してWebサイトをクローリングさせない方法、クローラーがWebサイトを巡回したか確認する方法など周辺知識も交えてご紹介させていただきます。
クローラーとは?
クローラーとは「インターネット上でWebサイトのあらゆる情報を周期的に収集して、検索用データベースインデックスを作成する自動巡回プログラムのこと」です。
クローラーは収集した情報をもとに、どのWebサイトを検索エンジンの上位に表示させるかを決めています。
別名では、ボット、スパイダー、ロボットなどとも呼ばれており、元々は「這う」を意味する英単語クロール(Crawl)の派生語であることからも、インターネットという情報の海をクローラーが泳ぐイメージが浮かんでくるかと思います。
ちなみに、日本の検索エンジンの9割がGooglebotで運用されており、シェアの大部分を占めていることになります。
このようにクローラーは、巡回から解析という一連の流れを踏んだ上で、検索結果に反映させています。
このとき、インターネット上を回遊し、解析したWebサイトをデータベースとして記録および分類しています。
また、現在のクローラーはロボット型検索エンジンが主流ですが、従来はディレクトリ型サーチエンジンが使われていました。
そもそも、ここで言うディレクトリ型サーチエンジンとは「ジャンルごとにカテゴリー別で登録されているWebサイトがまとめて掲載される検索エンジンのこと」です。
WWWの中にあるWebサイトのリンクを収集し、それをカテゴリー別に分類しているのがディレクトリ型サーチエンジンの特徴です。
そして高い信頼性が担保された上で、良質なコンテンツを探しやすい点において優れています。一方で登録されているWebサイト数が少ないなど、ロボット検索ほどの網羅性には欠けるというデメリットもあります。
そんな、従来のディレクトリ型サーチエンジンとロボット型検索エンジンには、大きな違いが1つあります。それは「データの収集方法」です。
Googleを始めとするロボット型検索エンジンが自動的にWebページを審査するのに対して、ディレクトリ型サーチエンジンは人間の手によって一つ一つ審査されています。
インターネットが普及し始めた頃、検索エンジンと言えばディレクトリ型サーチエンジンでした。
しかし現在では、短時間で数多くのWebページを巡回することができるロボット型検索エンジンが主流となっています。
その理由は、インターネット上でWebサイトが爆発的に増加したり、SNSが急速に普及したりしたことに伴い、人間の手によって1つずつ処理するのが容易ではなくなったからだと言えます。
クローラーの仕組み
クローラーの定義が明らかになったところで、続いてクローラーの仕組みについて簡単に見ていきましょう。
クローラーは、Webサイトを巡回する際に3つの工程を経ています。大まかな流れは以下の通りです。
クローリング(巡回)とパーシング(解析)
インターネット上にあるWebサイトを自動的に巡回すると同時に解析します。
インデックス(登録)
収集した情報を検索エンジンのデータベースに登録していきます。
クエリプロセス
クローラーは、あらかじめインデックス登録した情報を基に、ページのランク付けを検索クエリ(検索するときにユーザーが実際に入力する単語または複数語のこと)によって行います。
SEOにおけるクローラーの重要性
インターネット上に数多く存在しているWebページは、Googleにインデックス登録されて初めてサイトとして認識されます。
そもそもGoogleは、ユーザーにとって有益な情報を提供しているサイトほど高く評価し、上位に表示しようとします。
しかし、たとえどんなに有益なサイトを公開していたとしても、クローラーに巡回されないためにインデックス登録されていなければ、自社サイトが検索結果の上位に表示されることはありません。
もはや公開していないに等しいと言えます。そのためサイト運営していく際には、ただやみくもにコンテンツを提供し続けるのではなく、クローラビリティの向上も視野に入れていく必要があります。
クローラーによる巡回が効率よくされていれば、Googleに自社サイトの存在をいち早く知らせることができます。
クローラーの対象ファイル
クローラーが巡回する対象となるファイルは幾つかあります。以下の通りです。
・HTMLファイル
・CSSファイル
・JavaScriptファイル
・テキストファイル
・PDFファイル
・画像ファイル
・FLASHファイル
このようにクローラーも、人間が普段ブラウザ上で閲覧する情報を収集します。
クローラーの種類
代表的なクローラーは以下の通りです。
・Googlebot
・Bingbot
・Yahoo! Slurp
・Baiduespider
・Yetibot
このようにクローラーは、国内で一番よく使われている検索エンジンGoogleのクローラーの他にもいくつか存在しており、種類が多岐にわたります。
ただし、日本でSEO対策を講じる際にはGooglebotを重視しなければなりません。なぜなら、日本におけるGoogleの国内シェアが7割を越えているためです。
また、上記のクローラーの種類の中にYahoo!のbotがないのは、2011年からYahoo!JAPANもGoogleの検索エンジンを採用しているからです。
ホームページの開設後、Googleに対してやるべき施策とは?
クローラーの巡回を促す対策
クローラビリティ(クローラーによる巡回のしやすさ)を向上させるには、幾つか対策があります。
具体的には以下の7つが挙げられます。以下の通りです。
クロールをリクエストする
Googleサーチコンソールを活用すれば、クローラーに巡回してもらいたいWebサイトの存在をGoogleに知らせることができます。
Googleサーチコンソールで左側のメニューにある「URL検査」をクリックして、ページ上の検索欄に任意のURLを入力しましょう。
URLの見直し
一般にURLの見直しをURL正規化と言います。
URL正規化とは「検索エンジンに評価してもらいたいURLを統一すること」です。
そもそも、検索エンジンはURLの表記としてwww.の(有り無し)やindex.htmlなどの(有り無し)が違うだけでコンテンツが同一の別ページと認識してしまうため、その原因でコンテンツの評価が分散したり、ミラーコンテンツと解釈されてペナルティを受けてしまったりするケースもあります。
このようにURL正規化とは、そうした誤った解釈がされるのを防ぐために、検索エンジンに評価してもらいたいURLを統一することを言います。
実際にURLの一本化を進めていくには、Webページの正規化を行うためのHTMLタグであるcanonicalタグが必要です。
そもそも、canonicalという英単語は「標準的な」を意味していて、複数アクセスできてしまうURLの中から標準的なURLを指定します。
検索エンジンから重複ページと認識されることを避けるためにhead内に記述するタグだと言えます。
また、サイト内の重複コンテンツを放置したままでいると、Webサイト全体の評価が分散し、順位が降下してしまう恐れがあります。
canonicalタグを記述する際には幾つか注意点があります。以下の通りです。
・全て同じURLにしない。
・間違えるとサイトが検索結果に表示されなくなる。
そして設定した後は、正規URLに指定されていることをツールで確認することが求められます。
URLの見直しをすることで、重複コンテンツの解消とリンクの評価の集約をしたいとお考えのサイト運営者は、canonicalタグを設定するようにしましょう。
そんな、URL見直しの具体的な方法が301リダイレクトです。ここで言う301リダイレクトとは「Webページの転送をするためのコード」を指します。
WebサイトのURLが、一時的な変更ではなく恒久的に変更される場合に推奨されています。
301リダイレクトを設定することで、旧URLで移転前のWebサイトに来た人を自動的に新URLのWebサイトへ誘導することができます。
301リダイレクトは主に、ページ移転やサイトの引っ越しをする際に活用されます。
転送先のページに検索エンジンからの評価も受け渡せられる点において優れています。
このときGoogleの場合は、評価の受け渡しがなされるリダイレクト連鎖は10回までと制限されていますが、それ以上はサーチコンソールからエラーと見なされてしまいます。
また、301リダイレクトをトップページに設定したとしても、古いドメインが受けた評価を新しいドメインにそのまま受け渡すことはできません。そのため、ページ単位でリダイレクトを指定する必要があります。
そして、リダイレクト設定を削除したり期限が切れたりすると、別々のURLと見なされるようになり、評価も受け渡されなくなってしまいます。ユーザーの利便性を向上させるためにも、少なくとも1年間は301の状態を保っておいた方が良いです。
サイト移転をする際の下準備としては、XMLサイトマップを活用すると有効です。なぜなら、Googleにページの存在をいち早く認識してもらうことにつながるからです。
XMLサイトマップを作成する
XMLサイトマップとは「Webサイト内のURLを記述するxml形式のファイルのこと」です。
XMLサイトマップを提供すると、検索エンジンのクローラーがWebページをクロールしやすくなります。ユーザーが目にすることはありません。
そもそもサイトマップは、HTMLサイトマップとXMLサイトマップの2種類に分類されます。
両者は、Webページの構造を分かりやすく伝えるという点で共通していますが、アプローチする対象が異なります。
HTMLサイトマップがユーザー向けであるのに対して、XMLサイトマップは検索エンジン向けだと言えます。
HTMLサイトマップとは、Webサイトの各ページへリンクを貼った案内図のようなもののことです。各ページへのリンク集がリスト形式で記述されています。
また、HTMLサイトマップはhtmlで記述されていて、ユーザーにWebサイト内を分かりやすく案内する役割を担います。
HTMLサイトマップを設置することで、ユーザーの離脱率も下げられます。そして、目当てのページを迷うことなく簡単に見つけ出せるようになるため、ユーザーの利便性を向上させられます。
しかし、クローラーによるサイト巡回の効率を高めるのに役立つXMLサイトマップのようなSEO効果はありません。そのため、SEO効果を得たい方はXMLサイトマップを設置することが求められます。
このようにサイトマップの一種であるXMLサイトマップは、クローラーによるサイト巡回の効率を高めるには欠かせません。その際、サイトを3階層の構造にすれば、階層が浅いページはクローラーも巡回しやすくなります。
なお、手動での作成は手間がかかる上にミスをする恐れがあるため、サイトマップを作成する際には、WordPressの自動生成プラグインを活用しましょう。
robots.txtを設置する
robots.txtとは「検索エンジンのクローラーがWebページを登録しないようにするために、Webサーバー上に配置するテキストファイルのこと」です。Robots Exclusion Standardとも言います。
robots.txtを活用することで、クロールの最適化によって効率的なインデックスがされます。インデックスされにくくなりますが、外部リンクで見つけられた場合などにインデックスされることがあります。
そのため、特にページ数の多いWebサイトにおいて役立ちます。反対に、クロール制御が不要なページ数の少ないWebサイトでは設置する必要性があまりないと言えます。
そんなrobots.txtを書く際に必要な項目が4つあります。以下の通りです。
User-agent
ユーザーがどんな環境からアクセスしたのかを表します。
Allow
クロールさせたいページを指定します。
Disallow
ブロックしたいページを指定します。
Sitemap
クローラーのためにサイトマップの場所を指定します。
robots.txtはnoindexのように、インデックス登録をブロックしたりパスワード保護したりすることで、WebページをGoogleに表示されないようにするメカニズムではありません。
完全にインデックスされたくない場合はnoindexを設定するようにしましょう。
設置する際の注意点は以下の通りです。
・アクセスを制御できるのはクローラーだけであり、ユーザーはアクセスできる。
・ファイル名を「robots.txt」にする。
クローリングを最適化させて、Webサイトの検索順位を上げたいとお考えのサイト運営者は、robots.txtを活用するようにしましょう。
リンク切れのWebページを減らす
リンク切れのWebページを減らすことにより、ユーザビリティやSEO効果の低下を回避することができます。
そもそも、ここで言うリンク切れとは「自社サイトのWebページに設置してあるリンクの遷移先がHTTPステータスコードで404 Not Found により、アクセスすることが出来なくなってしまっている状態」を指します。
別名デッドリンク(Dead link)と呼ばれることもあります。実際にリンク切れすると、ページ自体が存在しないため404エラーが表示されます。
そもそも、404ページというものは次の場合に現れます。
・間違ったURLを入力した場合
・削除されたページにアクセスした場合
このとき、WebページにはNot Found(見つかりませんでした)と表示されます。
そんな、リンク切れが生じる原因は大きく2つ考えられます。以下の通りです。
・Webサイト作成者によるリンクの貼り間違い。
・リンク先のWebページが閉鎖・移転などで削除されている。
そして、リンク切れによるデメリットは以下の通りです。
・ユーザビリティの低下
・SEO効果の低下
このようにリンク切れが起こることで、ユーザーの利便性を損なってしまいます。
その上、SEOにも良くないとされています。検索エンジンからの評価が低くなり、検索順位も下がってしまいます。
そこで、有効な対策がカスタム404ページを作成することです。探している情報を最終的には見つけ出せるように、検索ユーザーを導いてあげることが求められます。
またチェックツールを活用することで、リンク切れが生じていないかを確かめることができます。
Webページがリンクの遷移先にアクセスできなくなっている場合には、問題点を明確化して一刻も早く改善するようにしましょう。
内部リンクを最適化する
内部リンクを最適化すると、クローラーによる巡回を促すことができます。
そもそも、ここで言う内部リンクとは「外部ではなく、同じドメインの内部ページへ貼られたリンクのこと」です。
そんな、内部リンクの最適化がもたらすSEO効果は幾つかあります。以下の通りです。
検索エンジンからの評価が上がる
関連性の高いページ同士を連結させることが重要になります。
クローラーが巡回しやすくなる
検索エンジンがデータベース化によってWebページを認識します。
ユーザーのサイト滞在時間が長くなる
幅広く情報を網羅しているページは、ユーザーにとって魅力的に映ります。これに伴い、離脱率が低くなります。
内部リンクを設置する際に、注意すべき点は以下の通りです。
URLの正規化を行いましょう
検索エンジンからの評価が分散してしまうのを防ぐために欠かせません。
アンカーテキストを正確かつ簡潔に記述する
クローラーが巡回をしやすくなります。アンカーテキストを記述する際にキーワードを盛り込むなど、ひと工夫を加えることによって改善が見込めます。
なお、ここで言うアンカーテキストとは「リンクを設定したテキストのこと」です。SEO内部施策を実施するときに必須の技術で、WebサイトのユーザビリティやSEOの効果を高める上で重要な役割を担っていると言えます。
運用する際には、Webサイトに貼られたリンクの文言が、リンク先のWebサイトの内容と一致しているかどうかを確かめましょう。実際に反映させるとSEOの効果が得られやすくなります。
また、リンクを設定したテキストがユーザーにとってわかりやすく簡潔なものになっていることも大切な要素です。
実際に、これらの注意点に留意してリンクを設定したテキストの多くが、サイトを巡回する検索エンジンのクローラーによって高く評価される傾向にあります。
内部リンクを貼る場所として適しているのは、以下の通りです。
・グローバルメニューナビ
・サイドあるいはフッターのリンク
・サイトマップ
・コンテンツページ
反対に外部リンク(被リンク)は、自サイトと他サイトを繋ぐリンクを意味します。
被リンクを増やせば、他のページからの回遊率が上がり、クローラーも巡回しやすくなります。
このように内部リンクを設置することは、外部リンクと同様に効果的なSEO対策になります。Webページを検索順位の上位に表示させたいサイト運営者は、内部リンクを最適化させるようにしましょう。
パンくずリストを作成する
パンくずリストは設置することで、クローラビリティとユーザビリティの両方の向上を見込めます。
クローラーがリンクを辿ってサイト内を巡回しやすくなると同時に、ユーザーは自分が今Webページのどこにいるのかが明確になり、使いやすさを実感できます。
なおここで言う、パンくずリストとは「ユーザーが現在閲覧しているWebページを、そのホームページ内のどの位置にあるかを、各階層ごとにリスト表示させたもの」を指します。
Webページの上部に位置している場合が多く、「>」(大なり記号)が使われて以下のように表示されます
「トップ>製品情報>製品A>オプション」
このようにサイト運営をする際には、ただコンテンツの作成に当たるのではなく、どんなWebサイトがクローラーによる巡回がされやすいのかポイントを把握した上で、SEO対策を講じていく必要があります。
なぜなら、いくらコンテンツの質が高かったとしても、クローラーによる巡回を促す対策が十分にされなければ、自社サイトを検索結果の上位に表示させるのは難しいからです。
クローラーを拒否してWebサイトをクローリングさせない方法
これまで、クローラーによる巡回を促す対策をいくつかご紹介してきましたが、反対に巡回をブロックする対策もあります。
robots.txtと呼ばれるファイルを利用することで、クローラーによる巡回をブロックすることができます。
では、なぜクローラーによるWebサイトのクロージングをブロックするのでしょうか。それは、ブロックするWebサイトが検索結果に表示させる必要がないページだからです。
例えば、サイトのテスト表示やサーバーに負荷をかけるファイル(画像や動画)がブロックされるWebサイトページの代表例だと言えます。こういう場合は画像リンクではなく、テキストリンクを使いましょう。クローラーは画像よりもテキストを優先的に巡回します。
このように、無駄なクロールが発生しないためにクローラーの動きを制御すれば、重要度の高いページを優先的に巡回してもらえるようになります。
クローラーがWebサイトを巡回したか確認する方法
クローラーがWebサイトを巡回したか確認する方法は大きく2つあります。以下の通りです。
「site:」で検索する
検索エンジンの検索窓において、URLやドメイン名の前に「site:」を入れて検索すれば、サイトのインデックス状況を確認することができます。
ただし、サイトが検索結果に表示されるのはインデックス登録されている場合に限ります。
またPC検索であれば、期間を絞り込んで、指定した期間内にインデックス登録されたページの件数を確認することもできます。
Googleサーチコンソールで確認する
Googleサーチコンソールで、クローラーがWebサイトを巡回したか確認する手順は以下の通りです。
まず、Googleサーチコンソールにログインします。次に、画面上部の検索窓に調べたいURLをペーストすれば、そのURLがGoogleに登録されているか否かを確認することができます。
そもそも、ここで言うGoogleサーチコンソールとは「Googleが提供している無料ツールの1つ」であり、登録すれば自社のWebサイトの現状と訪問するユーザーについてのすべてが分かります。
また、2015年5月20日には従来のGoogleウェブマスターツールから名称を変更しました。しかし、それに伴う大きな変化はなく、仕様や機能もほとんど変わりありません。
そんな、Googleサーチコンソールで分かる内容は大きく5つあります。以下の通りです。
・Webサイトにクローラーを呼ぶことができ、インデックス(index)を促進することができる。
・自社のWebサイトに向けられている外部リンク、サイト内の内部リンクがわかる。
・どのページの閲覧が多いか、どんなキーワードでの流入が多いかがわかる。
・どんなキーワードで表示されているか(検索クエリ)がわかる。
・表示されている検索クエリから、どれぐらいのクリックがされたかCTR(クリック率)がわかる。
このようにサイト運営者は、自社が管理するWebサイトの認証をGoogleにしてもらうことで、クローラーがWebサイトを巡回したかの確認など色々と便利な機能を活用することができるようになります。
おわりに
今回は「クローラーとは?SEO対策には重要?」と題して、クローラーの定義や仕組み、SEOにおけるクローラーの重要性、クローラーの対象ファイルを明らかにしました。
その上で、クローラーの種類やクローラーの巡回を促す対策、クローラーを拒否してWebサイトをクローリングさせない方法、クローラーがWebサイトを巡回したか確認する方法など周辺知識も交えてご紹介させていただきましたがいかがでしたでしょうか。
クローラーとは「インターネット上でWebサイトのあらゆる情報を周期的に収集して、検索用データベースインデックスを作成する自動巡回プログラムのこと」です。
インターネット上にあるWebサイトを自動的に巡回(クローリング)および解析(パーシング)した後に、収集した情報を検索エンジンのデータベースにインデックス登録していきます。
そして最後に、ページのランク付けを検索クエリによって行います。
また、たとえどんなにユーザーにとって有益な情報をサイトで公開していたとしても、クローラーにインデックス登録されていなければ意味がありません。
なぜなら、検索結果の上位に表示されることもなく、少しのユーザーにしか閲覧されないという事態にも陥りかねないからです。
そんな、クローラーが巡回する対象となるファイルは豊富にあり、収集しているのも人間が普段ブラウザ上で閲覧している情報です。クローラーの種類もGooglebotをはじめ、多岐にわたります。
クローラビリティ(クローラーによる巡回のしやすさ)を向上させるには、巡回を促す対策をいくつか講じる必要が出てきます。以下の通りです。
・クロールをリクエストする
・URLを見直す
・XMLサイトマップを作成する
・robots.txtを設置する
・リンク切れのWebページを減らす
・内部リンクを最適化する
・パンくずリストを作成する
クローラーによる巡回を促す対策があれば、逆に巡回をブロックする対策もあります。
こうした対策を講じた後、クローラーがWebサイトを巡回したか確認する際には、「site:」で検索するか、Googleサーチコンソールで確認するかのいずれかで確認しましょう。
クローラーによる回遊率を高めることで、SEO効果を実感したいとお考えのサイト運営者は、この機会にご紹介したクローラーの巡回を促す対策を講じてみてはいかがでしょうか。
【株式会社セレクト・ワン】
東京本社:03-5953-7160
株式会社セレクト・ワンの社員によってオススメ情報を執筆している【編集チーム】です。”初心者の方にもわかりやすく”をモットーに、記事を読んだら直ぐに実践できるWEBマーケティング関連の情報を紹介しています。
また、弊社の実績や導入事例から見る・コンテンツマーケティング・SEO対策・WEB制作など、様々な最新情報やノウハウも発信していきます。