2006/12/03

sitemap.xml

若干古い話になりますが、Google, Yahoo!, MSN が共同で
sitemaps.org というサイトを立ち上げました。

このサイトでは sitemap.xml というファイルのフォーマットの形式を公開しています。以下のような形式です。

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <url>
      <loc>http://www.example.com/</loc>
      <lastmod>2005-01-01</lastmod>
      <changefreq>monthly</changefreq>
      <priority>0.8</priority>
   </url>
</urlset> 

これは、私たちのサイトにどのような URL が存在するのか、
どのページが重要なのか、更新頻度はどれくらいかなどの情報を表したものです。
これまではこれらの情報はロボットが私たちのサイトを自動的にクロールして集めていました。
ですが、リンク切れなどで辿れないページが存在することもありましたし、
重要度、更新頻度などは検索エンジン側が推測するほかありません。
これでは私たちが本当に伝えたい情報が検索エンジンに伝わっているかどうかはよくわかりません。
そのような状況を改善するために生まれたのが sitemap.xmlです。

sitemap.xml を使えば、上記の情報を私たちの側で作成して、
google, yahoo, msn など、sitemap.xmlに対応した検索エンジンに提供できるようになります。
非常にすばらしい試みだと思います。これまでの、ロボットが理解しやすいHTMLを作成するというバッドノウハウ的SEO対策から脱却するための良い一歩だと思っています。
大手3社が参加している、ということだけを見ても、
この方式が SEO 対策において重要な位置を占めることになるだろう、ということがわかります。

とはいうものの、あくまでも sitemap.xml は検索エンジンに対する「ヒント」でしかありません。
ここにかかれた情報を参考にしますよ、というだけです。
sitemap.xml で重要度1.0(最高)とされたページの順位が上がるわけではありませんし、
更新頻度が daily だったとしても毎日クロールしにくるわけではありません。
あくまでも「ヒント」です。
私の推測では、ここに書かれている情報がどの程度信頼されるかが PageRank によって変わってくるだと思います。PageRank が非常に高いページでは、更新頻度が daily と書かれていれば本当に毎日クロールしにくるでしょうし、PageRankが低ければ実際には週一回しか見に来ない、ということになるのではないでしょうか。



さて、ひとつの sitemap.xml には url は最大50000件、ファイルサイズは10MBまでという制限があります。ファイルサイズが10MBを超えた場合は gzip 形式で圧縮して10MBに収まればそれでOKです。
上記制限をどうしても超えてしまう場合は複数の sitemap.xmlに分割することが可能です。その場合は、sitemap_index.xml というものを別途作成する必要があります。

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <sitemap>
      <loc>http://www.example.com/sitemap1.xml.gz</loc>
      <lastmod>2004-10-01T18:23:17+00:00</lastmod>
   </sitemap>
   <sitemap>
      <loc>http://www.example.com/sitemap2.xml.gz</loc>
      <lastmod>2005-01-01</lastmod>
   </sitemap>
</sitemapindex>

これは単純に、複数の sitemap.xml のファイル名を教えてあげるだけのものです。

sitemap.xmlやsitemap_index.xmlは通常サイトのトップページに配置します。
ここにおいておけば、sitemap.xml に対応したロボットが自動的にファイルを読み込んでくれます。
(追記)これうそです。ごめんなさい。各検索エンジンごとにファイルの場所を知らせてあげる必要があるみたいですね。

他のサイトを眺めた限りでは、sitemap.xml を作成することはなかなか効果があるらしいので、ぜひとも作成しておきたいですね。
Google ウェブマスター ツールで sitemap.xml を自動生成できるらしいのですが、これはまた調査したいと思います。

0 件のコメント: