Googleの検索サマリーにタグの一部である「span lang=EN-US>」が出現


【COREPRESS Cloud(コアプレスクラウド)】10日間お試し無料

http://www.google.co.jp/search?hl=ja&ie=UTF-8&oe=UTF-8&q=span+lang%3Den-us%3E&btnG=Google+ %E6%A4%9C%E7%B4%A2&lr=lang_ja
にアクセスしてもらえれば、すぐにお分かりいただけると思いますが、HTMLの解説ホームページでもないのに、ずらずらと「span lang=EN-US>」がサマリーに表示されます。3月11日現在、7,340件の検索結果です。これは、その他の日本語は文字化けしていないことから、今までのメタタグの指定ミスとは異質の問題のようです。
1ページずつ検索結果を見てみると、いくつかの共通点が見られることが分かります。分析結果は以下の通り。
- 表が掲載されていること。これはほぼ100%。
- <meta name=Generator content="Microsoft Word 10">もしくは<meta name=Originator content="Microsoft Word 10">というタグがかなりの頻度で使用されていること。すなわち、これらの(Googleサマリーにおいて)文字化けが発生するのは、MS WORDで表組みを作成している人ということになります。
最初、MS WORDが吐き出すタグが一般的でないことが原因かと思いましたが、実はそうではありませんでした。<span〜の「<」がなくなっているということは、その前の文字が文字化けの原因である可能性が高いです。さらにHTMLソースを研究してみると、
  
などが使われていました。表に頻出していたのは、単に住所録などで が多用されていたからでした。そして、このような表を作成する人が一番多く利用していたのが、HTMLを知らなくても簡単にワープロ感覚で作成できるMS WORDであるだけでした。一方、NEC特殊文字と呼ばれた機種依存文字をGoogleは認識しないようです。そのため、例えば、「 」で検索しても1件もヒットしません。実際には、その部分は文字化けしてサマリーに登録されています。 (話が少し逸れますが、危うく犯人にしてしまいそうになったMS WORDについてですが、やはりMS WORDの吐き出すタグは一般的でないのは事実です。なぜ、これだけのことを表示するのにこんなにファイルサイズが大きくなるのかと不思議になるぐらい無意味なコードが多いです。このような冗長なコードを整形してくれる機能が例えば、Macromedia Dreamweaver MXなどにはありますね。「WORD HTMLのクリーンアップ」というメニューです。こういうのを使えば、MS WORDで作成したソースも少しはすっきりしますね。ちなみに、Dreamweaverには、Windows版だけでなくMac版もありますが両製品ともcbook24で購入可能です。 Windows版 Mac版)
話を元に戻します。NEC特殊文字については上述の通りでしたが、では、はしごだかのようなNEC選定IBM拡張文字やIBM拡張文字の場合はどうでしょうか?
▼ 「 」での検索結果
http://www.google.co.jp/search?hl=ja&ie=UTF-8&oe=UTF-8&q=%E9%AB%99&lr=lang_ja
▼ 「 」での検索結果
http://www.google.co.jp/search?hl=ja&ie=UTF-8&oe=UTF-8&q= %EF%A8%91&btnG=Google+%E6%A4%9C%E7%B4%A2&lr=lang_ja
9割以上の検索結果はPDFファイルです。このようなことは通常のキーワードでの検索結果ではこのようなPDFファイルの大量出現はありえません。
なぜ、一部のHTML文書でも認識できるものといえば、Shift_JISではなくUTF-8で作成していたり、Shift_JISで作成している場合は「髙」と入力しているためです。後者の方法は数値文字参照と呼ばれています。使用頻度の高いNEC選定IBM拡張文字の入力方法については、
(参照)▼ HTML で難しい漢字を表示させる
http://www.hi-ho.ne.jp/t-higu/memo/kanji_code.html
を参考にしてください。
しかしながら、この入力方法は一部のブラウザでは正しく表示できませんのでご注意ください。例えば、Mac版IE4.5及びIE5.0では「高」が代用され( の場合は「?」になります。)、Mac版ネットスケープ4.7及び6.0では「?」が表示されます。(詳細は、別稿「ブラウザ・メールソフト別UTF-8対応状況:数値文字参照編」を参照してください。)
機種依存文字は、Googleの検索結果では文字化けの原因になったり、検索対象から外れることがご理解いただけたと思います。
ちなみに、中国語のサイトでは文字コードがShift_JISでないため、 は機種依存文字でも何でもなく、HTMLファイルでもちゃんとインデックスされていました。同様に、多言語の表現が可能なUTF-8(Unicodeという文字符号規格のエンコード方法の一つ)であれば、これらの文字も機種依存文字ではなく、ほぼMacでもWindowsでも正しく表示されます。UTF-8を採用することでどれぐらい、機種依存文字と言われる文字が機種に依存しない文字になっているかは、別稿の「ブラウザ・メールソフト別UTF-8対応状況:機種依存文字編」を参照してください。
Googleにおいて、機種依存文字である などもPDFファイルでは問題なくインデックスされているのは、PDFのエンコードが一般的にはCIDエンコーディングで作成されているためだと思われます。CIDエンコーディングについては、
▼(参照)PDFと文字エンコーディング
http://www1.kcn.ne.jp/~k-tm/KTworld/tandt/fontencoding.html
を参照してください。
また、機種依存文字がタイトル(<title>〜</title>)に使われている場合はもっと深刻です。最悪の場合、タイトルが文字化けしますので結果的に終了タグである「<title>」も文字化けし、そのため、タイトルタグの下に書くことの多い、CSS(スタイルーシート)やJavascriptがタイトルとしてインデックスされます。
▼ 「style」「type」「title」での検索結果
http://www.google.co.jp/search?q=style+type+title&hl=ja&ie=UTF-8&oe=UTF-8&c2coff=1
3月11日現在、約500万件!!。「あ」での検索結果が約3050万件であることから考えて、いかに多いかが分かります。このようにサマリーが文字化けしているサイトの中には機種依存文字の使用による文字化けではなく、メタタグの指定ミスのものもあります。Shift_JISのページなのに「EUC-JP」と指定したり、「EUC_JP」というメタタグを新たに創造したりなどのケースもあります。あるいはメタタグを指定していなかったり。もちろん、技術系のページなどで、解説のためにこれらのタグを使用しているためにヒットしているサイトもありますが、少なくとも"上位サイト"の大半は違うようです。
▼ 「title」「script」での検索結果
http://www.google.co.jp/search?hl=ja&ie=UTF-8&oe=UTF-8&c2coff=1&q=title+script&btnG=Google+ %E6%A4%9C%E7%B4%A2&lr=lang_ja
3月11日現在、約51,900件。
▼ 「title」「head」での検索結果
http://www.google.co.jp/search?hl=ja&ie=UTF-8&oe=UTF-8&c2coff=1&q=title+head&btnG=Google +%E6%A4%9C%E7%B4%A2&lr=lang_ja
3月11日現在、約148,000件。
タイトルタグが、「/title>< span type="text/css〜」のようになっていますね。機種依存文字を使うことがSEO(サーチエンジン最適化)の観点でも最悪なのがご理解いただけると思います。
次のページでは、コメントの中に書いているJavascriptコードがなぜか、Googleの検索サマリーに現れる場合についての考察です。
   
|