UNICODEの正規化
2013-05-07


java.text.Normalizerクラスを使って、JISX0201(158文字)とJISX0213(11,233文字)がどのように正規化されるのか調べてみました。

「&#x304C」(U+304C)が「&#x304B&#x3099」(U+304B+3099)に分解されることはネット上の解説記事にもよく例として出てきますが、「&#x332B」(U+332B)が「&#x30CF&#x309A&#x30FC&#x30BB&#x30F3&#x30C8」(U+30CF+309A+30FC+30BB+30F3+30C8)になったり、「&#x337B」(U+337B)が「&#x5E73&#x6210」(U+5E73+6210)になるのを見ると改めてなるほどと思ったりします。

そこで、NFD,NFKD,NFC,NFKCのいずれかで他の文字に置き換えられるもの(647文字)だけを表にしてみました。興味のある方はご覧ください。

表の置き場所は『[URL]』
[文字コード]

コメント(全0件)


記事を書く
powered by ASAHIネット