スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

サロゲートペアは飛ばしちゃえ

UnicodeにあってShiftJISにない文字

サロゲートペア飛ばしってので、あらためてサロゲートペアってそうな んだよなぁとか気づいたとか、 C# のエンコーディングはそう使うのか とか、UCS2について考えさせられたのでメモ。


スポンサーサイト

Memo: javaの文字符号化

javaの1.5の時点では文字符号化にかかわるパッケージは以下にある。
  • sun.io
  • sun.nio.cs
実際にコードを見るとその網羅度にあらためて驚く。 javaの内部文字もUTF-16?なのか2バイトだし。javaを使っていれば文字コードの変換をどうしようなんて考えなくて済む。 C/C++にもこんな標準的なライブラリがあればいいのに。 それにしてもjavaのコードってインデントがまちまちだったりしてるけど、自動生成してるっぽい。

Roundup CharacterSet/Encoding

RFC日本語化計画

RFC 2279 (UTF-8)
RFC 2781 (UTF-16)
RFC 3629 (UTF-8)

文字コードの話

日本の文字コード全般に関する記事。(JIS,Shift-JIS,EUC-jp,ISO-2022)

文字コードの解説 ━トップ━

JIS,EUC-jp,Shift-JISに加えUnicode/UCSの解説
UTF-16の解説にサロゲートペアの説明がある。

Character Set

roundup encoding

文字コードの変換がどうも良くわかってないわかってない。ベースをUTF-16に して各文字コードと相互変換するようなのを作れないかなとか思っているのだ けれど。まだまだ、もうちょっと調べる必要がある。計算だけで変換できるの はなんで?
Unicode Home Page

いろいろ資料がある。

文字コードについて

文字コード表がある。どう使えばいいかわかんないけど。

文字コードの部屋 -- Unicode のエンコーディング

解説。その他の文字コードの解説もある。

Japanese <-> Unicode Mapping Rules

C/C++のソースコード

RFC
文字コード掲示板より

UTF-8→SJIS変換
(1) Quoted-Printable デコード処理 → RFC 2045
(2) UTF-8 → UCS2(UCS4) 変換 → RFC 3629
(3) UCS2(UCS4) → SJIS 変換 → JIS X 0208:1997, Unicode規格, etc.
Windows Codepage 932 関連の資料
http://www.microsoft.com/globaldev/reference/dbcs/932.mspx
ftp://ftp.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP932.TXT
http://support.microsoft.com/default.aspx?scid=kb;ja;JP170559
http://www.ingrid.org/java/i18n/encoding/ja-conv.html →外字領域表(MS932)
http://support.microsoft.com/default.aspx?scid=kb;ja;286776
従来の文字コードとUnicodeの対応に関する諸問題
http://euc.jp/i18n/ucsnote.ja.html

@see UTF-8 @2006.07.20

UTF-8

SJISからUTF-8への変換方法を調べた結果、直ぐに使えそうな実装はなかった(ノ_-;)ハア…
結局、iconvを使ったけど。UTF-8の文字数を調べるのも大変なのか(´Д`)
■UTF-8とは
http://www.cnet-sc.ne.jp/hiraga/DLL/Convert/ConvertSub.cpp

CによるUTF-8とSjisなどの変換コード

文字列を UTF-8 に変換

VBによるUCS2とUTF-8の変換コード

■変換
UTF-8 - Wikipedia, the free encyclopedia

とりあえず

Unicode と UTF

わかりやすいです(文字コードの符号化辺りなど)

Manpage of UTF-8

manにあるんだぁ(゚o゚;)

UTFとは何か

UTF-8にもBOMがあったとは知りませんでした。

■文字コード
日本語文字コードのオンライン変換 Shift-JIS EUC-JP JIS UTF-8

オンライン変換に加えて、各種文字コード表もある。

Unicode対応 文字コード表

半角カタカナの文字コードを知りたい時

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。