Gajulog


2017.01.20 [years ago today] edit

 文字化け

emacsのtwittering-modeでtwitterを見てたら、この記事のコピペを投稿してる人がいて、明らかに「役に立つ」の「立」の部分が文字化けしてて、なんじゃこりゃ、と。で、普通のブラウザで見てみると、これが化けない。

どうやら「立」の字が通常の字じゃなくて、Unicodeの「康煕部首(Kangxi Radicals)」領域…

に含まれている、部首を表す専用の「記号扱い」の領域にある文字に化けている…いや字形は同じだから化けてるとはいわないのか?まあそんな感じらしい。

「立」と「⽴」は違う文字なので、1文字で検索すると結果が違ってくる*1

ってか後者はPDF内で普通の「立」の代わりに使われてる例ばかり引っかかるね。

あと、最初の記事内では「人」とかの文字も違うのになってる。PDFの例といい、なんでこうなるんだろう。 普通に文書作ってたらならないと思うんだけど。OCR的なものが絡んでるのだろうか。

*1 2017/1現在。将来的に同じ字と見なして検索するようにGoogle側で変えちゃう可能性もある。