Domain 48 / 225
インデックス管理は noindex / canonical / sitemap で意図する URL だけ残す
インデックス管理 の要点
インデックス管理は「どの URL を Google 検索結果に出すか」を意図的にコントロールすること。noindex で除外、canonical で重複統合、サイトマップで重要 URL を伝える。Google はすべての URL をインデックスするわけではなく、品質や関連性で選別する。インデックス未登録の理由を Search Console「ページ」レポートで切り分ける
なぜこれを学ぶか
インデックス管理は サイト規模が大きくなるほど SEO 評価を左右する。 意図しない URL がインデックスされると評価分散、本来出したい URL がインデックスされないと流入機会を逃す。
EC・大規模メディア・SaaS の運用で必須の管理作業。
学ばないと起きること
| よくある事故 | 被害 |
|---|---|
| 全 URL を Google にインデックスさせようとする | 低品質 URL が混じって全体評価が下がる |
| インデックス未登録の理由を切り分けない | 「クロール済み未登録」と「robots.txt ブロック」を同じ対処してしまう |
| サイトマップに 404 / noindex URL を含める | Google からの信頼が下がり、サイトマップ全体の信頼性低下 |
| ステージング URL がインデックスされる | テスト環境が検索結果に出てクライアントに見られる |
| 古いキャンペーンページが残り続ける | 古い情報が検索結果に出てユーザー体験悪化 |
学ぶメリット
- Search Console「ページ」レポートを正しく読み解ける
- インデックス戦略を URL タイプごとに設計できる
- 商談で「クロール済み未登録の主な原因」を即答できる
仕組み
インデックスされる URL とされない URL
Google が URL をインデックスするかは複数要因で判定:
| 要因 | 影響 |
|---|---|
| クロール可能性 | robots.txt で Disallow されていない |
| インデックス指示 | noindex タグがない |
| canonical 判定 | 重複扱いされていない |
| 品質判定 | コンテンツが薄くない / オリジナルか |
| サイト全体評価 | サイト全体の評価が低いと URL も上がりにくい |
Search Console「ページ」レポートの読み方
「インデックス登録済み」と「未登録」に分かれ、未登録は理由別:
| 理由 | 意味 | 対処 |
|---|---|---|
| クロール済み - インデックス未登録 | コンテンツ品質 / 重複 / 薄いページ | コンテンツ充実 |
| 検出 - インデックス未登録 | クロール待ち / クロール予算不足 | サイトマップ / 内部リンク強化 |
| 重複、Google が選択した正規 URL がユーザー指定と異なります | canonical 不一致 | canonical 戦略見直し |
| robots.txt によりブロック | robots.txt の Disallow に該当 | robots.txt 確認 |
| noindex タグによって除外 | meta robots / X-Robots-Tag | 意図通りなら問題なし |
| ページにリダイレクトがあります | リダイレクト先がインデックス対象 | 通常 |
| 見つかりませんでした(404) | 404 を返している URL | 410 に変更検討 |
| ソフト 404 | 200 だがコンテンツが薄い | 404 / 410 を返すよう修正 |
インデックス制御の手段
| 目的 | 手段 |
|---|---|
| インデックスから除外 | meta robots noindex |
| 非 HTML をインデックス除外 | X-Robots-Tag |
| クロール自体を止める | robots.txt の Disallow |
| 重複を統合 | canonical / 301 リダイレクト |
| 緊急一時削除 | Search Console Removals Tool |
| 永久削除 | 410 Gone + noindex |
キー概念
URL タイプ別のインデックス戦略
公開記事 / 商品ページ
- インデックス対象 → noindex なし
- canonical を自身に
- サイトマップに含める
- 内部リンクで導線確保
カテゴリ / タグページ
- 主要カテゴリ → インデックス対象
- 大量にある自動生成タグ → noindex 検討(薄ければ)
- canonical を自身に
検索結果ページ(サイト内検索)
- 通常は noindex 推奨
- robots.txt で Disallow
- 「クロール済み未登録」を増やさない
URL パラメータ違い
- canonical でパラメータなし版に統合
- ファセットナビは robots.txt で除外
ステージング / 開発環境
- noindex + Basic 認証
- robots.txt の Disallow だけは漏れるリスク
キャンペーン終了ページ
- 終了直後: 410 Gone
- 関連ページがあれば: 301 リダイレクト
サイトマップとインデックス管理の連動
サイトマップに含めるべき URL:
| OK | NG |
|---|---|
| インデックス対象の正規 URL | 404 / 410 / noindex の URL |
| 最新の lastmod | 古い不正確な lastmod |
| canonical = 自身の URL | 別 URL を canonical にしている URL |
サイトマップの精度が高いほど、Google からのクロール / インデックス効率が上がる。
クロール済み未登録の主な原因
「クロール済み - インデックス未登録」が多発する場合:
- コンテンツ品質が低い(薄い / 独自性なし / コピペ)
- サイト全体の評価が低い(新規ドメイン / E-E-A-T 不足)
- canonical 不一致で別 URL が代表に選ばれた
- 重複扱いされた
対処: コンテンツ充実 + 内部リンク強化 + Topical E-E-A-T 構築。
よくある誤解
| よくある誤解 | 実際のところ | 出典 |
|---|---|---|
| Google はすべての URL をインデックスする | 品質判定 / 重複判定で選別される | Google 検索の仕組み |
| インデックス未登録 = 違反やペナルティ | 多くは品質 / 重複 / クロール待ちの問題 | Search Console ページ レポート |
| サイトマップに含めれば必ずインデックスされる | サイトマップは「クロール対象として知らせる」だけ、インデックスは別判定 | サイトマップ |
| robots.txt で Disallow すればインデックスから消える | クロールは止まるが、URL は他経路で発見される、noindex を使う | noindex の使い方 |
| 全 URL のインデックスが理想 | 低品質 URL は逆に全体評価を下げる、選別が重要 | Helpful Content |
| 一度インデックスされた URL は永久に検索結果に出る | コンテンツ品質低下や noindex 追加で消えることがある | URL 削除 |
| 検索結果ページ(サイト内検索)もインデックス対象にすべき | 通常は noindex + robots.txt Disallow が推奨 | 一般 SEO 知識 |
| ステージング環境は robots.txt の Disallow で安全 | 被リンクで URL が漏れるリスク、Basic 認証 + noindex 併用 | 同上 |
実務での適用
月次インデックス監査
- Search Console「ページ」で「インデックス登録済み」「未登録」の数を確認
- 「未登録」の理由別内訳を確認
- 「クロール済み未登録」が急増していないか
- 「ソフト 404」が新たに発生していないか
- 必要に応じてコンテンツ充実 / 削除 / canonical 修正
サイトマップ品質維持
毎月の見直し:
- 削除した URL がサイトマップに残っていないか
- noindex の URL を含んでいないか
- lastmod が正確か
- カテゴリ別に分割されているか(大規模サイト)
URL タイプ別ポリシー
公開記事: インデックス対象 / canonical 自身 / sitemap 含む
タグページ: 主要のみインデックス、薄いタグは noindex
検索結果: noindex + robots.txt Disallow
カテゴリ: インデックス対象 / canonical 自身 / 内部リンクハブ
URL パラメータ違い: canonical で正規版に統合 / ファセットは robots.txt 除外
ステージング: noindex + Basic 認証
旧キャンペーン: 410 Gone または 301 リダイレクト
トラブル別の対処
| 症状 | 確認すべきこと |
|---|---|
| インデックス未登録が急増 | 「未登録」の理由別内訳、コンテンツ品質 / canonical / サイトマップ確認 |
| 公開記事が数週間経ってもインデックスされない | URL 検査で再クロール要求、内部リンク強化、サイトマップ確認 |
| 古いキャンペーン URL が検索結果に残る | 410 Gone / 301 リダイレクトで対応 |
| ステージング URL が検索結果に出ている | Basic 認証 + noindex を即実装 |
| サイト内検索結果がインデックスされる | noindex + robots.txt Disallow |
公式ソース
自己テスト
Q1. Google はすべての URL をインデックスするか?
しない。品質判定 / 重複判定で選別される
Q2. 「クロール済み - インデックス未登録」の主な原因は?
コンテンツ品質が低い / サイト全体の評価が低い / canonical 不一致 / 重複扱い
Q3. サイトマップに含めれば必ずインデックスされるか?
されない。サイトマップは「クロール対象として知らせる」だけ、インデックスは別判定
Q4. インデックスから完全に消したい場合の手段は?
noindex タグ(meta robots / X-Robots-Tag)。robots.txt の Disallow ではクロール停止のみ、URL が他経路で発見されると検索結果に出る
Q5. 検索結果ページ(サイト内検索)はインデックス対象にすべきか?
通常は noindex + robots.txt Disallow が推奨。低品質判定でサイト全体評価を下げるリスク
Q6. ステージング環境を保護する正しい方法は?
Basic 認証 + noindex を併用。robots.txt の Disallow だけは被リンクで漏れるリスク
Q7. サイトマップに含めるべきでない URL は?
404 / 410 / noindex の URL、別 URL を canonical にしている URL、重複ページ
Q8. インデックス管理を月次で監査する目的は?
「クロール済み未登録」「ソフト 404」「重複」の急増を早期発見し、コンテンツ品質 / canonical / サイトマップ戦略を見直すため
これらの内容を採点付きで挑戦したい場合は、本ドメインのプロ試験で 5 問形式で確認できる。