【PR】 DVD「秋の童話」・・・人気の韓国ドラマ 【PR】 リスニング・イングリッシュ 【PR】 キッチン・ホーム用品もAmazon.co.jp 【PR】 無料アドレス from A to Z |
||||||
Googleの検索サマリーにタグの一部である「span lang=EN-US>」が出現【COREPRESS Cloud(コアプレスクラウド)】10日間お試し無料
http://www.google.co.jp/search?hl=ja&ie=UTF-8&oe=UTF-8&q=span+lang%3Den-us%3E&btnG=Google+ 1ページずつ検索結果を見てみると、いくつかの共通点が見られることが分かります。分析結果は以下の通り。
などが使われていました。表に頻出していたのは、単に住所録などでが多用されていたからでした。そして、このような表を作成する人が一番多く利用していたのが、HTMLを知らなくても簡単にワープロ感覚で作成できるMS WORDであるだけでした。一方、NEC特殊文字と呼ばれた機種依存文字をGoogleは認識しないようです。そのため、例えば、「」で検索しても1件もヒットしません。実際には、その部分は文字化けしてサマリーに登録されています。 (話が少し逸れますが、危うく犯人にしてしまいそうになったMS WORDについてですが、やはりMS WORDの吐き出すタグは一般的でないのは事実です。なぜ、これだけのことを表示するのにこんなにファイルサイズが大きくなるのかと不思議になるぐらい無意味なコードが多いです。このような冗長なコードを整形してくれる機能が例えば、Macromedia Dreamweaver MXなどにはありますね。「WORD HTMLのクリーンアップ」というメニューです。こういうのを使えば、MS WORDで作成したソースも少しはすっきりしますね。ちなみに、Dreamweaverには、Windows版だけでなくMac版もありますが両製品ともcbook24で購入可能です。Windows版 Mac版) 話を元に戻します。NEC特殊文字については上述の通りでしたが、では、はしごだかのようなNEC選定IBM拡張文字やIBM拡張文字の場合はどうでしょうか?
▼ 「」での検索結果 9割以上の検索結果はPDFファイルです。このようなことは通常のキーワードでの検索結果ではこのようなPDFファイルの大量出現はありえません。 なぜ、一部のHTML文書でも認識できるものといえば、Shift_JISではなくUTF-8で作成していたり、Shift_JISで作成している場合は「髙」と入力しているためです。後者の方法は数値文字参照と呼ばれています。使用頻度の高いNEC選定IBM拡張文字の入力方法については、
(参照)▼ HTML で難しい漢字を表示させる を参考にしてください。 しかしながら、この入力方法は一部のブラウザでは正しく表示できませんのでご注意ください。例えば、Mac版IE4.5及びIE5.0では「高」が代用され(の場合は「?」になります。)、Mac版ネットスケープ4.7及び6.0では「?」が表示されます。(詳細は、別稿「ブラウザ・メールソフト別UTF-8対応状況:数値文字参照編」を参照してください。) 機種依存文字は、Googleの検索結果では文字化けの原因になったり、検索対象から外れることがご理解いただけたと思います。 ちなみに、中国語のサイトでは文字コードがShift_JISでないため、は機種依存文字でも何でもなく、HTMLファイルでもちゃんとインデックスされていました。同様に、多言語の表現が可能なUTF-8(Unicodeという文字符号規格のエンコード方法の一つ)であれば、これらの文字も機種依存文字ではなく、ほぼMacでもWindowsでも正しく表示されます。UTF-8を採用することでどれぐらい、機種依存文字と言われる文字が機種に依存しない文字になっているかは、別稿の「ブラウザ・メールソフト別UTF-8対応状況:機種依存文字編」を参照してください。 Googleにおいて、機種依存文字であるなどもPDFファイルでは問題なくインデックスされているのは、PDFのエンコードが一般的にはCIDエンコーディングで作成されているためだと思われます。CIDエンコーディングについては、
▼(参照)PDFと文字エンコーディング を参照してください。 また、機種依存文字がタイトル(<title>〜</title>)に使われている場合はもっと深刻です。最悪の場合、タイトルが文字化けしますので結果的に終了タグである「<title>」も文字化けし、そのため、タイトルタグの下に書くことの多い、CSS(スタイルーシート)やJavascriptがタイトルとしてインデックスされます。
▼ 「style」「type」「title」での検索結果
▼ 「title」「script」での検索結果
▼ 「title」「head」での検索結果 タイトルタグが、「/title>< span type="text/css〜」のようになっていますね。機種依存文字を使うことがSEO(サーチエンジン最適化)の観点でも最悪なのがご理解いただけると思います。 次のページでは、コメントの中に書いているJavascriptコードがなぜか、Googleの検索サマリーに現れる場合についての考察です。
|