【PR】 IBMホームページ・ビルダー12 [発売記念通常版] バリューパック 【PR】 バイオ・リスニングなど英語教材比較 【PR】 ブロードバンド時代のプロバイダの選び方 【PR】 書籍・写真集をお探しならこちら |
||||||
Googleの検索結果サマリーが「\」やフランス語のアクセント記号だらけ【COREPRESS Cloud(コアプレスクラウド)】10日間お試し無料
http://www.google.co.jp/search?sourceid=navclient&hl=ja&ie=UTF-8&oe=UTF-8 これらの「\」「1/2」などはなぜ出現するのでしょうか? 一つ一つのページを開き、ソースを確認してみます。すると、
これで謎が解けました。EUC-JPのページなのに、メタタグの指定ミスでISO-8859-1の右半分の文字列であると解釈されるため、日本語のページなのに検索サマリーにフランス語のアクセント記号や「\」「1/2」「?が逆さになったもの」などが大量出現していたのです。あな、恐ろしや。 同じEUC-JPのページがShift_JISのページであると解釈されると、前のページで紹介したように、半角カタカナの大量出現となるのですが、このページの事例のように、EUC-JPのページがISO-8859-1と解釈されると、「\」やフランス語のアクセント記号の大量出現となったわけです。 ちなみに「」は「レクリエーション」が文字化けしたものです。「レクリエーション」での検索結果は112,000件でした。文字化けしたものの方が検索結果が4倍近くも多いなんて、びっくりですね。もちろん、文字化けしているものの方は必ずしもレクリエーションとは関係のないものも混じっているんですけど・・・。 次のページでは、英語のサイトなのに「痴」「稚」など漢字が大量出現する事例を取り上げます。これは、Googleの検索サマリーだけの問題でなく、一般ユーザーとして海外サイトの文献を見ているときにもよく出くわしますね。この原因を考えます。
|