Domain 75 / 225

Google がインデックスするファイル形式は HTML / PDF / Office / メディアまで広範囲

ファイル形式 の要点

Google は HTML 以外にも PDF / Word / Excel / PowerPoint / 画像 / 動画 / 音声などをインデックスする。HTML 以外のファイル形式の noindex は X-Robots-Tag HTTP ヘッダで指定。PDF SEO は title プロパティと alt 同等メタデータで最適化

なぜこれを学ぶか

サイトには HTML 以外のファイル(PDF / 画像 / 動画 / Office)も存在し、それらも検索対象。 PDF レポートや動画コンテンツが検索結果に出ることで、想定外の流入や、逆に意図せぬ露出のリスクがある。

ホワイトペーパー / 資料ダウンロード / 動画コンテンツのあるサイトで重要。

学ばないと起きること

よくある事故被害
PDF を noindex したつもりが meta タグでは効かず検索結果に出る機密 PDF が漏洩
古い PDF が HTML 版より上位表示ユーザーが古い情報にたどり着く
大量の Office ファイルがインデックスされ重複コンテンツ扱いサイト評価低下

学ぶメリット

  • 各ファイル形式の noindex 制御を確実に実装できる
  • PDF SEO で title / メタデータを最適化
  • 商談で「X-Robots-Tag」を即答

仕組み

Google がインデックスする主なファイル形式

形式拡張子
HTML.html .htm
Adobe PDF.pdf
Microsoft Office.doc .docx .xls .xlsx .ppt .pptx
Adobe PostScript.ps
Open Office.odt .ods .odp
画像.jpg .png .gif .webp .svg
動画.mp4 .webm
音声.mp3 .wav
その他.txt .rtf .xml

HTML 以外の noindex 方法

<meta name="robots"> タグは HTML でしか効かない。 PDF / 画像などには X-Robots-Tag HTTP ヘッダを使用。

HTTP/1.1 200 OK
Content-Type: application/pdf
X-Robots-Tag: noindex

Apache の例:

<Files ~ "\.pdf$">
  Header set X-Robots-Tag "noindex"
</Files>

PDF SEO

Google は PDF 内のテキスト + メタデータを抽出:

  • PDF の title プロパティ → 検索結果のタイトル候補
  • PDF の作成者 / キーワード → ランキング考慮
  • 本文テキスト → クエリマッチ

Adobe Acrobat の「ファイル > プロパティ」で編集可能。

キー概念

canonical を PDF で指定

PDF を HTML 版の補助として配信する場合、X-Robots-Tag で canonical を指定:

Link: <https://example.com/article>; rel="canonical"

これで PDF が HTML 版より優先表示されるのを防げる。

よくある誤解

よくある誤解実際のところ出典
meta robots で PDF を noindex できるできない、X-Robots-Tag 必須X-Robots-Tag
Google は HTML だけインデックスするPDF / Office / メディアもインデックスインデックス可能形式
PDF はランキングに影響しないPDF も他ページと同じく順位付け同上

実務での適用

PDF が検索結果に出ないようにする

  1. .htaccess / Nginx で X-Robots-Tag noindex
  2. または robots.txt の Disallow(クロール拒否)
  3. Search Console で「PDF」検索して既存インデックスを確認

トラブル別の対処

症状確認すべきこと
PDF が検索結果に出るX-Robots-Tag 設定 / robots.txt
PDF が HTML 版より上位canonical を HTML 版に向ける

公式ソース

自己テスト

Q1. PDF を noindex する方法は?

X-Robots-Tag HTTP ヘッダで X-Robots-Tag: noindex。meta robots は HTML 専用

Q2. PDF が HTML 版より上位表示される対策は?

X-Robots-Tag の Link ヘッダで HTML 版に canonical を指定

Q3. Google がインデックスする画像形式は?

JPG / PNG / GIF / WebP / SVG など主要画像形式

これらの内容を採点付きで挑戦したい場合は、本ドメインのプロ試験で 5 問形式で確認できる。