2017.01.20 [years ago today]
# 文字化け
emacsのtwittering-modeでtwitterを見てたら、この記事のコピペを投稿してる人がいて、明らかに「役に立つ」の「立」の部分が文字化けしてて、なんじゃこりゃ、と。で、普通のブラウザで見てみると、これが化けない。
- ガッキー&星野も歓喜 『逃げ恥』質高いドラマとして表彰! TOKIO松岡の女装も高評価 (Yahoo!ニュース・RO69)
どうやら「立」の字が通常の字じゃなくて、Unicodeの「康煕部首(Kangxi Radicals)」領域…
- カテゴリ:Unicode Kangxi Radicals (ウィクショナリー日本語版)
に含まれている、部首を表す専用の「記号扱い」の領域にある文字に化けている…いや字形は同じだから化けてるとはいわないのか?まあそんな感じらしい。
「立」と「⽴」は違う文字なので、1文字で検索すると結果が違ってくる*1。
- 立 - Google 検索 (普通の「立」)
- ⽴ - Google 検索 (康煕部首の「立」)
ってか後者はPDF内で普通の「立」の代わりに使われてる例ばかり引っかかるね。
あと、最初の記事内では「人」とかの文字も違うのになってる。PDFの例といい、なんでこうなるんだろう。 普通に文書作ってたらならないと思うんだけど。OCR的なものが絡んでるのだろうか。
*1 2017/1現在。将来的に同じ字と見なして検索するようにGoogle側で変えちゃう可能性もある。