タグ「sitemap」が付けられているもの

今回はサイトマップ作成に関するメモ。

sitemapは、Yahoo!、Google、MSN(Bing)でサポート、記述はXML形式でUTF-8のエンコードで作成。
urlは多くはhttp://www.smaple.com/sitemap.xmlというようにしている。
xml形式でサイトマップを作成していれば、特にurlに関しては統一規格のようなものはない。

sitemap全体は

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

</urlset>
というように括る。

サイトの情報は<url>~</url>で括る。

その中で<priority>は、サイト内のページの優先度を示すもので、省略は可能だが、ブログのように、トップページ、カテゴリー、エントリーなど階層構造を形成する様な場合や他より重要とするページやジャンルがある場合、その優先度を指定したほうが良い。

数字は重要度の高い順で書くなら1.0から0.1の間の数字を重要度別に分類して書く。
これは検索エンジンにあるヘルプを読むと、検索順位には関係ないとあるが、サイト内を重要度によって分類分けし、検索エンジンに認識してもらう手段としては有効な方法となる。


<priority>1.0</priority>


sitemap内でURLを書くときの文字列は、エスケープ処理を行わないとエラーとなってサイトマップとして作成できない。

Movable Typeサイトマップ作成
mtでサイトマップを作成するのは、Movable Typeのタグを利用すればいいので簡単です。

1.
管理画面のインデックステンプレートにいき、「インデックステンプレートを作成」をクリック。

2.
テンプレート名を「sitemap」とします。
出力ファイル名を「sitemap.xml」と入力。
テンプレートの種類は「カスタムインデックス」のまま。

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc><$MTBlogURL encode_xml="1"$></loc>
<priority>1.0</priority>
</url>
<MTEntries lastn="9999">
<url>
<loc><$MTEntryPermalink encode_xml="1"$></loc>
<lastmod><$MTEntryModifiedDate utc="1" format="%Y-%m-%dT%H:%M:%SZ"$></lastmod>
</url>
</MTEntries></urlset>

3.
「保存」を押す。
ファイルを生成するには「再構築」を押す。
これでxml形式のsitemapの出来上がりです。

参考
Sitemapsの記述方法
XMLタグの定義、Sitemapsの例、URLのエスケープ処理など。

サイトマップを手動で作成する
手動で作成する手順は参考になる。

サイトマップについて
サイトマップを設置の効果が説明。

英数字以外の文字をサイトマップの URL に使用するには
エスケープコードの使用方法など。

このブログをはじめて数日しか経っていないが、これまで微量ながら変化があった。
記事を書いてからGoogleのウェブ検索やブログ検索に直ぐにインデックスされる様になったのが自分の中で小さな感動だった。

それが、昨日「Googleは全てインデックスしてから減少する。」でも触れたように、ウェブ検索やブログ検索ともにインデックスが減少する現象が現れた。

「バックリンクが殆どないから」といわれればうなずけることだが、これとは逆にさらにGoogleで今日は新たな変化があった。

Googleのウェブマスターツールに「サイトマップの統計情報」が表示され始めた。
これがブログを書き始めた6月13日から6日目の今日の出来事です。
記事数もアクセスも少ないため反応が鈍く、なかなか表示されないのではないかと思っていたが、

サイトマップの統計情報
URL の合計: 12
インデックスに登録されている URL: 8


表示された数字は、実際にインデックスされた数字と異なる。
この時点では実際にインデックスされた記事の方が多い。

Googleのヘルプにも時間差が生じる旨は記載されていたのでそのためだろう。
「送信いただいた URL」も12で「インデックスに登録されている URL」が3と実際の数字とは違い、全てが実際にインデックスされる様になるか心配ではあるが、統計情報が表示されたことでちょっと一安心です。


Googleウェブ検索の検索結果に時間表示
さらに今日、Googleでトップページの検索結果に時間が表示されるようになった。
これはインデックスが更新された時に表示されるものですが、ブログをはじめた頃は、一度インデックスされてはいたもののその後更新をしてもトップページには何も動きがなかった。

トップページの検索結果に時間が表示されインデックスも更新されたということは少しずつブログ全体がGoogleに認識されつつある...と勝手に解釈してみる。
これでトップページもタイムリーに反応してくれるようになっていればいいのだが...
google-search.jpg

robots.txtのsitemap.xmlの書き間違えに注意」の記事で書いたように、robots.txtに書いたsitemapのurlを最初の投稿時から書き間違えたまま運営していた。

その間、検索エンジンが全くインデックスしてくれなかった。
間違いに気づいて修正した直後から検索エンジンはきちんとクロールしてインデックスしてくれた。

この間違いで実感したのは、「sitemap.xml」がサイトやブログの存在を検索エンジンに知らせるためには必須になっているということです。

ブログというシステムが普及する前はこんな効率的な方法はなかったし、素人に近い自分には簡単に出来るので有難い機能です。

sitemap.xmlを書いたら、これを必ずrobots.txtに書いて存在を検索エンジンに伝える。
これで十分インデックスはしてくれます。
(ただし、サーバーなど各ブログの置かれる環境はそれぞれ違うので100%ではないです。)

しかし、sitemapはそのブログの記事のurlや更新日時を検索エンジンに知らせるための重要な手段の一つになっています。

robots.txtでsitemapsのURLを指定するには:Yahoo

sitemap.xmlを書いたら、検索エンジンに知らせるためにrobots.txtに正しいサイトマップのurlが書き込んであれば、それを検知した検索エンジンが追加された記事をクロールしてインデックスしてくれる。
このときのsitemapとはxml形式のものです。

例えばこんな感じ。

User-agent: *
Sitemap: http://sample.com/sitemap.xml

Disallow: /iyan/


この流れは分かっていたのですが...やってしまった...
通常はSitemapのとなりに作成しているブログの url内の
http://sample.com/sitemap.xml
となるのが正解だが、
http://間違い.com/sitemap.xml
とやってしまった。

すると、最近の検索エンジンはおりこうさんで見事に反応していなかった。
「これ、運営しているブログのurlじゃないよねえ?」
って認識して、トップページにはクローラーがやってきたが、新しく記事を書いてもその記事にはクロールさえしてない。
当然、インデックスは論外。

異変に気づいたのは、まだブログも新しくアクセスがないに等しいため確認が楽な生ログをチェックしてのこと。
間違ったurlを書きっぱなしだった時間帯だけクローラーが全くきてなかった。

そして、googleのウェブマスターツールの「クローラのアクセス」の「robots.txt のテスト」タブの解析結果にサイトマップが認識されていなかったこと。

正しく記載されていれば記載されたサイトマップがそのまま以下のように表示されている。

行 1: Sitemap: http://sample.com/sitemap.xml


間違っていれば今回のように認識されずウェブマスターツールの画面には表示されない。
これを間違ったままだとインデックスされることは一生ないかもしれない。

やっぱり検索エンジンによって動きが違う
でもヤフーのブログ検索は関係ないのかなあ?
atomやRSSで拾ってインデックスしていたようだ。
百度やgooブログなどもろもろのサービスも同様。

通常のウェブ検索のystやmsnbotはクローラーはきている。
忘れた頃にインデックスされる可能性はある。

googleはブログ検索でもインデックスどころかクローラーさえきてない。
間違っていることに気づいて修正してからはちゃんとインデックスしてくれた。
むしろブログ検索、ウェブ検索両方ともgoogleはどの検索エンジンよりも早くインデックス(最速で10数分前後)されるようになった。

だが、robots.txtでsitemap.xmlの記載が間違っていたとき、実はこのブログを書いた初めから修正するまでにアップした記事はgoogleのブログ検索にはインデックスされないまま。
ウェブ検索の方は修正後、殆ど全ての記事がインデックスされ出した。



1

バナー

過去に書かれたものはアーカイブのページで見られます。
月別アーカイブ
SEO
loading