日本語文字列を小さく保存するユニコード対応12bits文字コードJacを試作した(utf8の51~2%くらい) - Qiita

テクノロジーカテゴリーの変更を依頼記事元:

qiita.com/aimof

2 usersがブックマークコメント

コメント

0

記事へのコメント0件

注目コメント
新着コメント

新着コメントはまだありません。
このエントリーにコメントしてみましょう。

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

日本語文字列を小さく保存するユニコード対応12bits文字コードJacを試作した(utf8の51~2%くらい) - Qiita

どうやって小さくしたのかタイトルに書いたように文字を表す単位を12bitsにしました。utf8だと日本語は... どうやって小さくしたのかタイトルに書いたように文字を表す単位を12bitsにしました。utf8だと日本語は3Bytes、shift-Jisでも2Bytesなので、12bitsまで持ち込めばかなり容量が小さくなるだろうという目論見です。常用漢字2000字強、ひらがな100字、記号ちょこっと、あたりが日本語で主に扱う文字なので、12bitsあればほぼほぼ足ります。上の表を見ると、おおよそ、Jac : shift-JIS : utf8 == 3 : 4 : 6になっています。簡単な仕様ひらがな、カタカナ、記号、常用漢字、ASCII文字は、12bits内で表せるようになってます（ハードコーディングされてます）。それ以外のUnicode文字は3Bytesを使ってのんびり記述しています。読み書きは、3Bytes(二文字)単位で行います。利点容量が小さい。欠点最初から厳密に3Bytes

ブックマークしたユーザー

nixeneko2018/07/15
prototechno2018/07/15

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx