Domain 47 / 225
重複コンテンツは canonical / 301 / noindex で意図的に統合する
重複コンテンツ の要点
重複コンテンツは Google が自動でクラスタリング + canonical 選定するが、サイト側から意図する URL を canonical に伝えないと別 URL が選ばれることがある。canonical(ヒント)/ 301(強制統合)/ noindex(インデックス除外)を使い分ける。重複コンテンツ自体はペナルティではないが、評価分散の原因
なぜこれを学ぶか
重複コンテンツは EC・大規模メディアで「気づかないうちに評価分散」の最大要因。 意図的な統合戦略を組まないと、本来 1 ページに集約できる評価が複数 URL に分散し、上位を取れない。
EC のリプレイス、大規模メディア運用、CMS 移行時に必須。
学ばないと起きること
| よくある事故 | 被害 |
|---|---|
| 商品カラー違いを別 URL にして canonical 未設定 | 各カラーページが互いの順位を食い合い |
| URL パラメータ(utm / セッション ID)が無数の URL を生成 | クロール予算消費 + 評価分散 |
| HTTP / HTTPS / www あり・なしを正規化しない | 4 通りの URL に評価が分散 |
| AMP ページと通常ページの canonical を間違える | AMP が優先されて意図と違う表示 |
| Google が選んだ canonical と異なる URL を期待 | Search Console「ユーザー指定と異なる」エラー |
学ぶメリット
- 重複コンテンツによる評価分散を防げる
- Google の自動統合と手動指定の違いを理解できる
- 商談で「重複コンテンツはペナルティではない、評価分散」を即答できる
仕組み
重複コンテンツの種類
公式が挙げる主な発生源:
| 種類 | 例 |
|---|---|
| 地域別 | US 向けと UK 向けで同内容を別 URL |
| デバイス別 | デスクトップ版とモバイル版が別 URL |
| プロトコル別 | HTTP 版と HTTPS 版が両方アクセス可能 |
| URL パラメータ | ?utm_source=... ?ref=... ?session=... |
| サイト機能 | カテゴリページのソート / フィルタ結果 |
| 偶発的 | ステージング環境がクロールされている |
| AMP / モバイル URL | 別 URL 構成で配信 |
重複コンテンツはペナルティではない
公式に明記: 「重複コンテンツがある = ペナルティ」ではない。
Google は重複を検出して 1 ページにまとめるだけで、悪意のある複製でない限りスパム扱いにはならない。 ただし「評価分散」は起きるので、意図的な統合が必要。
Google の自動統合(クラスタリング)
- クロール済みページの中から内容が酷似する URL を集める(クラスタリング)
- クラスター内から「最も代表」と判断した 1 ページを canonical に選定
- それ以外の URL は alternate(代替バージョン)
サイト側から canonical を指定しなくても、Google が自動で選ぶ。ただし意図しない URL が選ばれることもある。
キー概念
統合手段の使い分け
| 手段 | 用途 | 強度 |
|---|---|---|
| 301 リダイレクト | 重複ページを完全に削除して統合 | 強(強制統合) |
| rel="canonical" | 重複を残しつつ正規 URL を指定 | 中(ヒント) |
| サイトマップ | 大規模で簡易に正規 URL を示す | 弱 |
| noindex | インデックスから完全除外 | 強(除外) |
URL 正規化のチェックリスト
プロトコル + ホスト
- HTTP → HTTPS(301 リダイレクト)
- www あり → www なし(または逆、どちらかに統一して 301)
- 末尾スラッシュ統一(あり / なしどちらかに)
- 大文字小文字統一(すべて小文字に)
URL パラメータ
- utm_source / ref / session などトラッキング系 → canonical で正規 URL に統一
- ソート / フィルタ系 → canonical または robots.txt 除外
AMP / モバイル URL
- AMP: AMP ページの canonical は通常ページに、通常ページに amphtml で AMP 参照
- m-dot: モバイル URL の canonical はデスクトップ URL に、デスクトップに rel=alternate でモバイル参照
Search Console での確認
「ページ」レポートで重複コンテンツ関連の警告:
- 「重複、Google が選択した正規 URL がユーザー指定と異なります」
- 「重複、ユーザーにより、正規 URL として選択されていません」
- 「重複、送信された URL が正規として選択されていません」
これらが多発する場合、canonical 戦略の見直しが必要。
偶発的重複の典型例
ステージング環境クロール
https://staging.example.com/article-1(テスト用)
https://example.com/article-1(本番)
ステージングは noindex + Basic 認証で守る。
URL の trailing slash
https://example.com/article
https://example.com/article/
サーバー側で 301 統一。
URL パラメータ違い
https://example.com/products/dress
https://example.com/products/dress?utm_source=email
https://example.com/products/dress?ref=facebook
https://example.com/products/dress?session=abc123
canonical でパラメータなし URL を正規指定。
よくある誤解
| よくある誤解 | 実際のところ | 出典 |
|---|---|---|
| 重複コンテンツがあるとペナルティを受ける | ペナルティではない、Google が自動で 1 つにまとめる | URL 正規化 |
| canonical さえ打てば必ず統合される | canonical はヒント、Google が別 URL を選ぶこともある | 同上 |
| 強制統合したいなら canonical を強く設定 | canonical では強制不可、強制なら 301 リダイレクトを使う | 同上 |
| Google が選んだ canonical はあとから変えられない | サイト側のシグナル(canonical / 301 / 内部リンク)を変えれば再評価される | 同上 |
| 重複コンテンツは noindex で消すべき | noindex は完全除外、評価集約したいなら canonical / 301 | noindex の使い方 |
| AMP ページの canonical は AMP 自身に向ける | AMP の canonical は通常ページに向ける、通常ページに amphtml で AMP 参照 | AMP |
| URL パラメータは Google が自動で重複処理 | 自動処理されるが、URL 数が多すぎるとクロール予算を消費 | URL 構造 |
| 重複コンテンツは社内コピペだけが問題 | プロトコル / URL パラメータ / 偶発的なものすべて評価分散の原因 | URL 正規化 |
実務での適用
重複コンテンツ監査フロー
- Screaming Frog / Ahrefs で全 URL をクロール
- 同一コンテンツの複数 URL を検出
- 各クラスターで「正規 URL」を決定
- 統合手段を選択(301 / canonical / noindex)
- 実装 + Search Console 確認
EC サイトの URL 正規化
プロトコル + ホスト統一:
http://example.com/* → https://www.example.com/* (301)
https://example.com/* → https://www.example.com/* (301)
商品カラー違い:
/products/dress?color=red → canonical: /products/dress
/products/dress?color=blue → canonical: /products/dress
/products/dress (統合元) → canonical: 自身
ファセットナビ:
/products?sort=price → robots.txt で Disallow
/products?filter=blue&size=M → robots.txt で Disallow
Search Console での監視
「ページ」レポートで月次確認:
- 「重複、Google が選択した正規 URL がユーザー指定と異なります」の件数
- 「クロール済み - インデックス未登録」の件数
- 「ソフト 404」の件数
これらが急増したら canonical 戦略 / URL 構造の見直し。
トラブル別の対処
| 症状 | 確認すべきこと |
|---|---|
| Google が自社指定と違う URL を canonical 化 | サイト内のシグナル整合(canonical / 内部リンク / サイトマップ) |
| 商品カラー違いがカニバライズ | canonical 戦略(メイン統合 / カラー個別 / URL パラメータ)の選択 |
| utm パラメータ URL がインデックスされる | canonical で正規 URL を指定 |
| ステージング URL が検索結果に出る | Basic 認証 + noindex を併用、robots.txt の Disallow だけは漏れる |
公式ソース
自己テスト
Q1. 重複コンテンツがあるとペナルティを受けるか?
ペナルティではない。Google が自動で 1 つにまとめる。ただし評価分散は起きる
Q2. canonical を打てば必ず統合されるか?
されない。canonical はヒントで、Google が別 URL を選ぶこともある
Q3. 強制的に統合したい場合の手段は?
301 リダイレクト。canonical では強制不可
Q4. AMP ページの canonical はどこに向けるか?
通常ページに向ける。通常ページには amphtml 属性で AMP ページを参照する
Q5. URL パラメータ違い(utm / ref など)の対処は?
canonical でパラメータなしの正規 URL を指定する。Google は自動処理もするが、明示が安全
Q6. ステージング URL が検索結果に出ないようにするには?
Basic 認証 + noindex を併用する。robots.txt の Disallow だけは漏れる
Q7. 「Google が選択した正規 URL がユーザー指定と異なります」エラーが出た場合は?
サイト内のシグナル(canonical / 内部リンク / サイトマップ)が一貫しているか確認、整合性を取る
Q8. 評価集約と「インデックスから完全除外」の手段の違いは?
評価集約 → canonical / 301(評価が正規 URL に集まる) 完全除外 → noindex(インデックスから消える、評価集約なし)
これらの内容を採点付きで挑戦したい場合は、本ドメインのプロ試験で 5 問形式で確認できる。