エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
日本語文字列を小さく保存するユニコード対応12bits文字コードJacを試作した(utf8の51~2%くらい) - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
日本語文字列を小さく保存するユニコード対応12bits文字コードJacを試作した(utf8の51~2%くらい) - Qiita
どうやって小さくしたのか タイトルに書いたように文字を表す単位を12bitsにしました。utf8だと日本語は... どうやって小さくしたのか タイトルに書いたように文字を表す単位を12bitsにしました。utf8だと日本語は3Bytes、shift-Jisでも2Bytesなので、12bitsまで持ち込めばかなり容量が小さくなるだろうという目論見です。 常用漢字2000字強、ひらがな100字、記号ちょこっと、あたりが日本語で主に扱う文字なので、12bitsあればほぼほぼ足ります。上の表を見ると、おおよそ、Jac : shift-JIS : utf8 == 3 : 4 : 6になっています。 簡単な仕様 ひらがな、カタカナ、記号、常用漢字、ASCII文字は、12bits内で表せるようになってます(ハードコーディングされてます)。それ以外のUnicode文字は3Bytesを使ってのんびり記述しています。 読み書きは、3Bytes(二文字)単位で行います。 利点 容量が小さい。 欠点 最初から厳密に3Bytes