Domain 75 / 225
Google がインデックスするファイル形式は HTML / PDF / Office / メディアまで広範囲
ファイル形式 の要点
Google は HTML 以外にも PDF / Word / Excel / PowerPoint / 画像 / 動画 / 音声などをインデックスする。HTML 以外のファイル形式の noindex は X-Robots-Tag HTTP ヘッダで指定。PDF SEO は title プロパティと alt 同等メタデータで最適化
なぜこれを学ぶか
サイトには HTML 以外のファイル(PDF / 画像 / 動画 / Office)も存在し、それらも検索対象。 PDF レポートや動画コンテンツが検索結果に出ることで、想定外の流入や、逆に意図せぬ露出のリスクがある。
ホワイトペーパー / 資料ダウンロード / 動画コンテンツのあるサイトで重要。
学ばないと起きること
| よくある事故 | 被害 |
|---|---|
| PDF を noindex したつもりが meta タグでは効かず検索結果に出る | 機密 PDF が漏洩 |
| 古い PDF が HTML 版より上位表示 | ユーザーが古い情報にたどり着く |
| 大量の Office ファイルがインデックスされ重複コンテンツ扱い | サイト評価低下 |
学ぶメリット
- 各ファイル形式の noindex 制御を確実に実装できる
- PDF SEO で title / メタデータを最適化
- 商談で「X-Robots-Tag」を即答
仕組み
Google がインデックスする主なファイル形式
| 形式 | 拡張子 |
|---|---|
| HTML | .html .htm |
| Adobe PDF | |
| Microsoft Office | .doc .docx .xls .xlsx .ppt .pptx |
| Adobe PostScript | .ps |
| Open Office | .odt .ods .odp |
| 画像 | .jpg .png .gif .webp .svg |
| 動画 | .mp4 .webm |
| 音声 | .mp3 .wav |
| その他 | .txt .rtf .xml |
HTML 以外の noindex 方法
<meta name="robots"> タグは HTML でしか効かない。
PDF / 画像などには X-Robots-Tag HTTP ヘッダを使用。
HTTP/1.1 200 OK
Content-Type: application/pdf
X-Robots-Tag: noindex
Apache の例:
<Files ~ "\.pdf$">
Header set X-Robots-Tag "noindex"
</Files>
PDF SEO
Google は PDF 内のテキスト + メタデータを抽出:
- PDF の title プロパティ → 検索結果のタイトル候補
- PDF の作成者 / キーワード → ランキング考慮
- 本文テキスト → クエリマッチ
Adobe Acrobat の「ファイル > プロパティ」で編集可能。
キー概念
canonical を PDF で指定
PDF を HTML 版の補助として配信する場合、X-Robots-Tag で canonical を指定:
Link: <https://example.com/article>; rel="canonical"
これで PDF が HTML 版より優先表示されるのを防げる。
よくある誤解
| よくある誤解 | 実際のところ | 出典 |
|---|---|---|
| meta robots で PDF を noindex できる | できない、X-Robots-Tag 必須 | X-Robots-Tag |
| Google は HTML だけインデックスする | PDF / Office / メディアもインデックス | インデックス可能形式 |
| PDF はランキングに影響しない | PDF も他ページと同じく順位付け | 同上 |
実務での適用
PDF が検索結果に出ないようにする
- .htaccess / Nginx で X-Robots-Tag noindex
- または robots.txt の Disallow(クロール拒否)
- Search Console で「PDF」検索して既存インデックスを確認
トラブル別の対処
| 症状 | 確認すべきこと |
|---|---|
| PDF が検索結果に出る | X-Robots-Tag 設定 / robots.txt |
| PDF が HTML 版より上位 | canonical を HTML 版に向ける |
公式ソース
自己テスト
Q1. PDF を noindex する方法は?
X-Robots-Tag HTTP ヘッダで X-Robots-Tag: noindex。meta robots は HTML 専用
Q2. PDF が HTML 版より上位表示される対策は?
X-Robots-Tag の Link ヘッダで HTML 版に canonical を指定
Q3. Google がインデックスする画像形式は?
JPG / PNG / GIF / WebP / SVG など主要画像形式
これらの内容を採点付きで挑戦したい場合は、本ドメインのプロ試験で 5 問形式で確認できる。