Domain 48 / 225

インデックス管理は noindex / canonical / sitemap で意図する URL だけ残す

インデックス管理 の要点

インデックス管理は「どの URL を Google 検索結果に出すか」を意図的にコントロールすること。noindex で除外、canonical で重複統合、サイトマップで重要 URL を伝える。Google はすべての URL をインデックスするわけではなく、品質や関連性で選別する。インデックス未登録の理由を Search Console「ページ」レポートで切り分ける

なぜこれを学ぶか

インデックス管理は サイト規模が大きくなるほど SEO 評価を左右する。 意図しない URL がインデックスされると評価分散、本来出したい URL がインデックスされないと流入機会を逃す。

EC・大規模メディア・SaaS の運用で必須の管理作業。

学ばないと起きること

よくある事故被害
全 URL を Google にインデックスさせようとする低品質 URL が混じって全体評価が下がる
インデックス未登録の理由を切り分けない「クロール済み未登録」と「robots.txt ブロック」を同じ対処してしまう
サイトマップに 404 / noindex URL を含めるGoogle からの信頼が下がり、サイトマップ全体の信頼性低下
ステージング URL がインデックスされるテスト環境が検索結果に出てクライアントに見られる
古いキャンペーンページが残り続ける古い情報が検索結果に出てユーザー体験悪化

学ぶメリット

  • Search Console「ページ」レポートを正しく読み解ける
  • インデックス戦略を URL タイプごとに設計できる
  • 商談で「クロール済み未登録の主な原因」を即答できる

仕組み

インデックスされる URL とされない URL

Google が URL をインデックスするかは複数要因で判定:

要因影響
クロール可能性robots.txt で Disallow されていない
インデックス指示noindex タグがない
canonical 判定重複扱いされていない
品質判定コンテンツが薄くない / オリジナルか
サイト全体評価サイト全体の評価が低いと URL も上がりにくい

Search Console「ページ」レポートの読み方

「インデックス登録済み」と「未登録」に分かれ、未登録は理由別:

理由意味対処
クロール済み - インデックス未登録コンテンツ品質 / 重複 / 薄いページコンテンツ充実
検出 - インデックス未登録クロール待ち / クロール予算不足サイトマップ / 内部リンク強化
重複、Google が選択した正規 URL がユーザー指定と異なりますcanonical 不一致canonical 戦略見直し
robots.txt によりブロックrobots.txt の Disallow に該当robots.txt 確認
noindex タグによって除外meta robots / X-Robots-Tag意図通りなら問題なし
ページにリダイレクトがありますリダイレクト先がインデックス対象通常
見つかりませんでした(404)404 を返している URL410 に変更検討
ソフト 404200 だがコンテンツが薄い404 / 410 を返すよう修正

インデックス制御の手段

目的手段
インデックスから除外meta robots noindex
非 HTML をインデックス除外X-Robots-Tag
クロール自体を止めるrobots.txt の Disallow
重複を統合canonical / 301 リダイレクト
緊急一時削除Search Console Removals Tool
永久削除410 Gone + noindex

キー概念

URL タイプ別のインデックス戦略

公開記事 / 商品ページ

  • インデックス対象 → noindex なし
  • canonical を自身に
  • サイトマップに含める
  • 内部リンクで導線確保

カテゴリ / タグページ

  • 主要カテゴリ → インデックス対象
  • 大量にある自動生成タグ → noindex 検討(薄ければ)
  • canonical を自身に

検索結果ページ(サイト内検索)

  • 通常は noindex 推奨
  • robots.txt で Disallow
  • 「クロール済み未登録」を増やさない

URL パラメータ違い

  • canonical でパラメータなし版に統合
  • ファセットナビは robots.txt で除外

ステージング / 開発環境

  • noindex + Basic 認証
  • robots.txt の Disallow だけは漏れるリスク

キャンペーン終了ページ

  • 終了直後: 410 Gone
  • 関連ページがあれば: 301 リダイレクト

サイトマップとインデックス管理の連動

サイトマップに含めるべき URL:

OKNG
インデックス対象の正規 URL404 / 410 / noindex の URL
最新の lastmod古い不正確な lastmod
canonical = 自身の URL別 URL を canonical にしている URL

サイトマップの精度が高いほど、Google からのクロール / インデックス効率が上がる。

クロール済み未登録の主な原因

「クロール済み - インデックス未登録」が多発する場合:

  1. コンテンツ品質が低い(薄い / 独自性なし / コピペ)
  2. サイト全体の評価が低い(新規ドメイン / E-E-A-T 不足)
  3. canonical 不一致で別 URL が代表に選ばれた
  4. 重複扱いされた

対処: コンテンツ充実 + 内部リンク強化 + Topical E-E-A-T 構築。

よくある誤解

よくある誤解実際のところ出典
Google はすべての URL をインデックスする品質判定 / 重複判定で選別されるGoogle 検索の仕組み
インデックス未登録 = 違反やペナルティ多くは品質 / 重複 / クロール待ちの問題Search Console ページ レポート
サイトマップに含めれば必ずインデックスされるサイトマップは「クロール対象として知らせる」だけ、インデックスは別判定サイトマップ
robots.txt で Disallow すればインデックスから消えるクロールは止まるが、URL は他経路で発見される、noindex を使うnoindex の使い方
全 URL のインデックスが理想低品質 URL は逆に全体評価を下げる、選別が重要Helpful Content
一度インデックスされた URL は永久に検索結果に出るコンテンツ品質低下や noindex 追加で消えることがあるURL 削除
検索結果ページ(サイト内検索)もインデックス対象にすべき通常は noindex + robots.txt Disallow が推奨一般 SEO 知識
ステージング環境は robots.txt の Disallow で安全被リンクで URL が漏れるリスク、Basic 認証 + noindex 併用同上

実務での適用

月次インデックス監査

  1. Search Console「ページ」で「インデックス登録済み」「未登録」の数を確認
  2. 「未登録」の理由別内訳を確認
  3. 「クロール済み未登録」が急増していないか
  4. 「ソフト 404」が新たに発生していないか
  5. 必要に応じてコンテンツ充実 / 削除 / canonical 修正

サイトマップ品質維持

毎月の見直し:

  • 削除した URL がサイトマップに残っていないか
  • noindex の URL を含んでいないか
  • lastmod が正確か
  • カテゴリ別に分割されているか(大規模サイト)

URL タイプ別ポリシー

公開記事: インデックス対象 / canonical 自身 / sitemap 含む
タグページ: 主要のみインデックス、薄いタグは noindex
検索結果: noindex + robots.txt Disallow
カテゴリ: インデックス対象 / canonical 自身 / 内部リンクハブ
URL パラメータ違い: canonical で正規版に統合 / ファセットは robots.txt 除外
ステージング: noindex + Basic 認証
旧キャンペーン: 410 Gone または 301 リダイレクト

トラブル別の対処

症状確認すべきこと
インデックス未登録が急増「未登録」の理由別内訳、コンテンツ品質 / canonical / サイトマップ確認
公開記事が数週間経ってもインデックスされないURL 検査で再クロール要求、内部リンク強化、サイトマップ確認
古いキャンペーン URL が検索結果に残る410 Gone / 301 リダイレクトで対応
ステージング URL が検索結果に出ているBasic 認証 + noindex を即実装
サイト内検索結果がインデックスされるnoindex + robots.txt Disallow

公式ソース

自己テスト

Q1. Google はすべての URL をインデックスするか?

しない。品質判定 / 重複判定で選別される

Q2. 「クロール済み - インデックス未登録」の主な原因は?

コンテンツ品質が低い / サイト全体の評価が低い / canonical 不一致 / 重複扱い

Q3. サイトマップに含めれば必ずインデックスされるか?

されない。サイトマップは「クロール対象として知らせる」だけ、インデックスは別判定

Q4. インデックスから完全に消したい場合の手段は?

noindex タグ(meta robots / X-Robots-Tag)。robots.txt の Disallow ではクロール停止のみ、URL が他経路で発見されると検索結果に出る

Q5. 検索結果ページ(サイト内検索)はインデックス対象にすべきか?

通常は noindex + robots.txt Disallow が推奨。低品質判定でサイト全体評価を下げるリスク

Q6. ステージング環境を保護する正しい方法は?

Basic 認証 + noindex を併用。robots.txt の Disallow だけは被リンクで漏れるリスク

Q7. サイトマップに含めるべきでない URL は?

404 / 410 / noindex の URL、別 URL を canonical にしている URL、重複ページ

Q8. インデックス管理を月次で監査する目的は?

「クロール済み未登録」「ソフト 404」「重複」の急増を早期発見し、コンテンツ品質 / canonical / サイトマップ戦略を見直すため

これらの内容を採点付きで挑戦したい場合は、本ドメインのプロ試験で 5 問形式で確認できる。