Googleの検索インデックスにおける重複コンテンツ対策として、すでにインデックス済みのサイトやページを削除する方法を調べたので備忘録を残しておきます。
ウェブマスターツールから削除のリクエストを送る事ができる
インデックス削除のためには、Googleウェブマスターツールでそのサイトが登録されている事が前提となりますのでまだの方はまず登録しましょう。
では順を追って説明を。
metaタグでnoindexを指定
インデックスより削除したいhtmlファイルのheadタグ内に
<meta name="robots" content="noindex">
これは検索エンジンのクローラが巡回したときに「そのページはインデックスしないでね」というお願いを意味しています。
静的ページを個別に管理しているサイトだと大変ですが、ブログだとテンプレに1行追加するだけなので労力はかからないですね。
robots.txtを作成
サイト丸ごとインデックスの対象からはずすためにはrobots.txtというファイルを作って、ファイルをサイトのルートディレクトリに置きます。内容は以下の通り。
User-Agent: *
Disallow: /
メモ帳などでこのファイルを作成し「robots.txt」と名前をつけ保存します。その後サイトのルートにアップロードします。
詳しい説明は割愛しますが、「User-Agent:」にはクローラの種類を指定します。ここではワイルドカード「*」を使って全てのクローラを対象としています。
2行目の「Disallow:」はインデックスを許可しないコンテンツを指定します。ここではサイトルート「/」を指定していますのでルート以下全てのコンテンツがインデックス拒否の対象となります。
逆にコンテンツを指定してインデックスの許可をするときは「Disallow:」のかわりに「allow:」を指定します。
ウェブマスターツールで削除リクエストを送信
自分のウェブマスターツールにアクセスして任意のサイトページを開きます。
サイドメニューの【最適化】-【URLの削除】をクリックします。
削除リクエストの送信フォームが表示されますので【新しい削除リクエストの作成】をクリックしてインデックスから削除したいサイトのURLを入力、【続行】を押します。
確認ページが開くので間違えなければ【リクエストを送信】をクリックします。以上で作業終了です。
以降、【最適化】-【URLの削除】を開くと送ったリクエストのリストが表示され、「保留」の表示がされます。あとは実際にインデックスが削除されるのを待つだけです。
なんでこんなことしたかっていうと
Googleのパンダアップデートも来たし、念のため重複コンテンツにならないように対策をしておこうかな、と。ブログ移転移転という絶妙のタイミングでパンダがやってきてしまいましたが…
一応この辺にある通り、canonicalで誘導はしているしパンダ前後でアクセスの極端な減少はないので大丈夫かとは思うのですが。
サイト移転じゃなくてもブログのように動的にページ生成され、重複コンテンツが発生しやすい場合にも今回の方法は応用が利くので覚えておくと良いかもしれませんね。
【参考】
コメント