2013年5月18日土曜日

グーグルにインデックスされない。原因はキャッシュ内容?

 当ブログの一部のコンテンツが、グーグルでインデックスされなくなってしまいましたが、解決しましたので、ブログ等を運営されている方の何かの役に立つかもしれないと思い、まとめてみました。

※今回の内容は、ほとんど乃木坂46に関係ない内容で、乃木坂46ファンのみなさま、すみません。もうしわけないので、齋藤飛鳥ちゃんの写真を貼ってみました。5thシングルTypeBの個人PVの写真ですが、うーん、飛鳥ちゃんステキ!(5thシングル個人PV 絶対見てほしい八つ (2013/04/07)記事もお勧め)

■インデックスされなくなった経緯

当ブログの衛藤美彩ちゃんシリーズの記事がグーグルの検索結果に表示されない、ということに2週間前(2013年5月はじめ)くらいに気がつきました。というか、衛藤美彩ちゃんシリーズ開始以降の記事が、グーグルでの検索結果で表示されなくなりました。2013年、現在、ヤフーもグーグルの検索エンジンを使っているので、グーグルの検索で表示されないということは、ヤフーの検索でも表示されません。

ということは、当ブログへは、登録している「人気ブログランキング」サイトから来ていただくか、ブックマーク(ブックマークされていれば、ですが)からか、古い記事の検索結果からしか、アクセスできないという状況になっていました。

これは、よろしくないです。最近の記事に書いた衛藤美彩ちゃん、星野みなみちゃんの人気を盛り上げるためにも、16人のプリンシパルdeuxの大阪公演人気のためにも、5th,6thの選抜理由の分析内容を知っていただくためにも、良くないです。

「site:」を頭につけて調べたいサイトのURLをグーグルに打ち込むと、そのサイトのコンテンツが、グーグルでどのようにインデックスされているか、分かるので当ブログのURL「site:http://nogizaka64.blog.fc2.com/」を入れてみたら、こんな感じでした。

追記(2013/7/13)
上記のURLが現URLと違っていますが、昔FC2ブログで、このAllez! Nogizaka 46を書いていた頃のURLなので。なぜFC2ブログから、現Bloggerに引っ越したかと言うと、2013年6月にFC2ブログ全体が、googleからサイトマップの更新およびインデックスを拒否された事件が、起こったためです。詳細は「FC2ブログがグーグルからインデックスを拒否されているようなので」(2013/6/23)記事をご覧ください。

■2013/5/15時点の各コンテンツのインデックスの状態

×:16人のプリンシパルdeux 5/6 昼公演 (05/07)
×:星野みなみちゃん エール (05/04)
○:6thシングル選抜基準 (04/26) から始まるトップページ
×:6thシングル選抜基準 (04/26)
×:6thシングル選抜 (04/21)
×:衛藤美彩ちゃん 紹介したい写真 (04/17)
×:衛藤美彩ちゃんの美しさ (04/15)
○:斉藤優里ちゃん 6thシングル選抜復帰おめでとう (04/10)
○:5thシングル個人PV 絶対見てほしい八つ (04/07)
○:生田絵梨花ちゃん / ご結婚(性格編) (04/04)
○:生田絵梨花ちゃん / ご結婚(お料理編のはずが、、、、) (04/01)
×=インデックスされていない。○=インデックスされている。カッコ内はコンテンツの作成日

4/15の衛藤美彩ちゃん以降のコンテンツは、グーグルにインデックスされていない。かろうじて、トップページのみ(4/26)が、2つ前の更新時の状態でインデックスされていました。だいたい、1ヶ月くらいグーグルにインデックスされていないようです。

わたしは、ブログ初心者のくせにウェブマスターツールに登録して、Fetch as googleでインデックス要請をしていたので、たまたまクローラー/スパイダーが巡回してこなかった、っていうことではありませんし「クロールの統計情報」を見ても平均10回/日以上クロールされているらしいです。

しかし、不思議なのは、5/15時点でインデックスされていない記事でも、ある時点までは、確かにグーグルで検索すると表示されていたことです。いつのまにか、検索しても表示されなくなってしまっていました。さらに不思議なのは、ウェブマスターツールの「サイトマップ」(毎日更新)を見ても「インデックスステータス」(1週間で更新)を見ても、インデックス数の推移を見ると、4/14からまったく変化無し。いったんインデックスに登録されたはずなのに、そのデータが残っていません。

■グーグルからのペナルティで、インデックスを削除されちゃったの?

いったんインデックスされたコンテンツが、重要性がないということで、落とされちゃうことはあるみたいですけど、1ヶ月間も新しいコンテンツがインデックスされないって、グーグルからのペナルティと思われます。悪質なものは、グーグルからウェブマスターツールに連絡が来るそうですが、そうでないものは連絡が来ないので、なんでペナルティを受けているのか、分かりません。

ペナルティ受けそうな点を、考えましたが、普通にブログ書いているだけなので、アフィリエイトとか変な被リンクとかありません。
メタデータの重複、タイトルタグの重複の指摘が、グーグルのウェブマスターツールに出ていたので、直しましたけど、やっぱりインデックスされません。
記事の内容のレベルはともかくとして、オリジナルの長文の記事を書いているし、テキストの量が少なすぎるからってことはないし。
同じ内容の記事で、複数のページを作ってもいないので、コンテンツの重複もないし。
ペナルティになりそうな点は、無いような気がします。

■ペナルティになりそうな点がないのでFecth as googleで再度インデックス要求を出しました。

すると、ちょっとの期間だけ検索で表示されるようになりますが、しばらくすると、検索で表示されなくなります。原因が分からないので、ひょっとして「6thシングル選抜基準 (04/26)」の記事で、選抜基準を重回帰分析したら、歌が上手だと、乃木坂46の選抜メンバーに選ばれにくい、ということが分かりました、って書いちゃったのが、ソニーミュージックの怒りを買って、グーグルに削除請求をされちゃったの?とかありえない妄想まで考えちゃいました(ありえないって)。

■インデックスされない原因、理由は、キャッシュの内容の重複でした。

ところで、グーグルでは、重複するコンテンツがあるサイトは、ペナルティがかかって検索結果の順位が下がるようです。

実は、当ブログでは「人気ブログランキング」サイトに登録していまして、そのサイトのバナーをクリックしてもらうために、いつも最新記事の末尾に、同一長文(バナーをクリックしてね。何でかというと、バナーをクリックすると、乃木坂46のためにもなるし、読者のみなさまのためにもなるし、、、、という内容の4,000文字くらいの、記事より長い文章)を、つけていたんです。この長文は、最新記事だけに付けて、古い記事からは、削除していたので、同一コンテンツの重複には、ならない、はずですよね。

だから問題ないと思っていたのですが、キャッシュでは、問題があるのです。
つまり、(1)最新記事がインデックスされる=バナーのクリックをお願いしている長文も一緒にキャッシュされる。(2)古い記事のバナーのクリックをお願いしている長文は、削除する。
という作業を繰り返して行くと、ブログ記事上は、長文の重複はないんですが、キャッシュには、同じ内容の長文が必ず入ってしまい、当ブログに関するグーグルのキャッシュの内容の末尾が同じ長文で埋まっているという状況になります。

グーグルがキャッシュを頻繁に更新してくれると、その長文の重複は、なくなるんですけど、キャッシュの更新は、何ヶ月も行われません。少なくとも、当ブログの記事では、昔の記事を修正してFectch as googleで再インデックス請求しても、キャッシュはほぼ更新されません。

■グーグルのキャッシュ内容を、削除してみました。

ブログ本体にコンテンツの重複がなくても、キャッシュの内容に重複があると、ペナルティになるのではないか。

ということに気づいて、ウェブマスターツールの「最適化→URLの削除→キャッシュの削除」を請求して、キャッシュ内容を削除してもらって、キャッシュ内での長文の重複を解消したところ、1日くらいで、記事がすべてインデックスされて(5/17現在)、グーグルの検索で表示されるようになりました。めでたし、めでたし。

ということで、読者のみなさまのサイトのコンテンツが、グーグルにインデックスされなくなったら、キャッシュに重複したコンテンツがないか?も確認されたほうが良いのではないでしょうか、という記事でした。

以下、疑問、感想をちょっと。

※グーグルのキャッシュには2種類ある?
キャッシュは、削除できるもの(ブログのテンプレートどおりにフォーマットが整っているもの)と、削除を拒否されるもの(テンプレートがなく、文字と画像がずらずら並んでいるもの)があります。削除を拒否されるキャッシュは、「ページのキャッシュ コピーが既に検索結果から削除されている。」って表示がされます。意味が分かりませんが、すでに削除されているようなので実害はないようです。なお、キャッシュを削除すると、検索で表示されても、数行のページの説明が表示されなくなります。あの説明って、キャッシュから毎回、作ってたんですね。しばらくして再キャッシュされると、説明も復活するそうです。

※でも本当にキャッシュの内容の重複が原因だったのでしょうか。
重複するサイトがある場合、インデックスされないのではなく、検索順位が下がるペナルティになるようです。当ブログの場合、古い記事の検索順位は下がらないで、新たにはインデックスされない、という現象でした。一般的なペナルティと違いますので疑問が残っています。サイト本体のコンテンツの重複と、キャッシュのコンテンツの重複では、ペナルティが異なるのでしょうか。あるいは、今回、たまたま、インデックスされなかった別の原因がなくなっただけなのでしょうか?ほんとのところは良く分かりません。

※ほんとうは、インデックスされていた?
いままでインデックスされていなかった記事も、インデックスされた(ことになっている)日は、記事の作成日という表示なっていますので、グーグル内部ではインデックスはされていたけど、キャッシュのコンテンツの重複のペナルティで、検索結果への表示が抑えられていたのか?

※グーグルはペナルティを課しているんだったら連絡するべき。
グーグルは、ペナルティを課しているんなら、こういうペナルティがかかってますよ、ってウエブマスターツールに連絡してくれても良いじゃない、って思いますよね。なんで連絡してくれないんでしょうか。連絡していると、ペナルティがかからない程度に、巧妙にSEO対策する人がいるからでしょうか。

乃木坂46ファンでないみなさまへ
「インデックスされない」「検索」「キャッシュ」「重複」などのキーワードの検索で、このページに立ち寄られた乃木坂46ファンでない方!乃木坂46っていうアイドルグループに興味を持っていただけると人生楽しくなるかも、です。たぶん日本で一番きれいなアイドルグループです。左側のカラムにリンクがありますので、ちょっと乃木坂46公式サイトにでも立ち寄ってみて下さい。絶対お勧め!

よろしかったら、クリックしてね。

2 件のコメント:

  1. ちょっと古い記事だけど勉強になった。
    最近、同じ事象に引っ掛かって苦悩してたんで助かりました。
    ありがとうね。
    乃木坂46もチェックしておきます。

    返信削除
    返信
    1. やまこうさんへ。
      コメントありがとうございます。実はこの記事って、当ブログでは結構アクセスされる記事なんです。お役に立てたら幸いです。

      乃木坂46もチェックしていただいて、ありがとうございます。ファンになっていただけるとさらにうれしいです。よろしくね!!

      削除