[B! 文字コード] billie175のブックマーク

【第511回】UnicodeじゃなくてUTF-8にしてください！？ : イジハピ！

2014年01月13日18:08 【第511回】UnicodeじゃなくてUTF-8にしてください！？カテゴリ文字コード【プチ】研究 query1000 Comment(0)Trackback(0) このブログは、FacebookやTwitterへのボタンを配備するために、zenbackのサービスを使っている。 zenbackを使うと面白いのが、記事の題名や内容から類推して、他の人がポストした似たような記事を引っ張ってリスト化してくれることだ。先週の月曜日、「Unicodeを使うと犯罪ですか」というブログを書くと、「似たような記事」リストの中に、「UnicodeとUTF-8の違い」という記事があった。これもコンピューターを商売にしてるこっちにしたら、なかなかインパクトのある言葉である。でも、専門外の人が知らないのはしょうがないと思う。ぼくもよく知らない分野について相当トンチンカンな

billie175 2018/08/23

リンク

Unicodeについて

Maxyは、Unicode対応のテキストエディタです。ところで、そもそもUnicodeって何なのでしょうか。 UnicodeとUTF-8とかUTF-16との関係は？そのあたりのことを簡単に説明していきます。文字コードとは日本語を扱うには？文字化け多言語の混在 Unicodeの誕生サロゲートペアエンコード方式 BOM そして今… 資料文字コードとはまずは基本中の基本だけど、（現在のところ）コンピュータが扱えるのは数値のみという大前提がある。何をするにも数値をいじるしかない。きれいなCGも、優雅な音楽も、つまるところ数値なわけだ。「ここに100を書き込んで、ここに150を書き込んで…」と、コンピュータが必死になっていろんなところに数値を書き込んだ結果としてCGが表示されたり音楽が流れたりするわけ。そんなわけだから、当然コンピュータ内で文字を表現するにも数値が必要で、

billie175 2018/08/22

リンク

UTF-8/UTF-16/UTF-32の違い - tanamonの稀に良く書く日記

軽く調べてみた。 UTF-8 1文字は1byte〜6byteで表される。（6byteで31bitまでの表現ができる） ASCIIは1byte ISO 8859-1以外のISO 8859の8bit文字は2byte 大抵の日本語文字（半角カナ含む）は3byte 5〜6byteの文字は定義されていないし、する気もなさそう ISO 8859-1部分に互換性があるため、マルチバイト文字に対応していないような行儀の悪いプログラムでもそのまま動く。 BOMを付ける場合、BOMは3byteになる。エンディアンに関係なくEF BB BF BOMは本来要らないはずだけど、付いていることがある。文字コードを自動判別する際にはBOMが無いと誤判別することが多いため、出所不明の文書が飛び交う所では付けたほうがいいかもしれない。 BOM付きをUTF-8、なしを通称UTF-8N(正式名称ではない)という。既に

billie175 2018/02/19

リンク

文字コード考え方から理解するUnicodeとUTF-8の違い | ギークを目指して

UnicodeとUTF-8の違いを理解していない方が結構居るようなので、文字コードの考え方を元に解説してみようと思う。文字コードとは何か？文字コードとは、コンピュータ上で文字を扱うために、文字に対して割り当てられた数値のことであり、文字と数値の対応付けと呼べる。この対応付けの種類は沢山あって、Shift-JISであったり、UTF-8であったりする。以上！と言いたいけど、文字コードはこんなに単純ではない。文字コードを複雑にする要素は沢山あるが、今回の記事ではUnicodeとUTF-8の違いに焦点を絞って解説してみたいと思う。文字コードの構成要素文字コードの世界は以下の2つの要素で構成されている。この違いを意識しておかないと混乱を招くだろう。（１）．文字集合 – 表現したい文字の範囲（”あ”、”い”・・・といった文字の集合体）（２）．符号化方式 – 文字集合を構成する個々の文

billie175 2018/02/09

リンク

Encode 日本語などのマルチバイト文字列を適切に処理する - Perl入門〜サンプルコードによるPerl入門〜

Perl › モジュール › here 日本語などのマルチバイト文字をPerlで適切に扱うにはEncodeモジュールを使用します。次の3つのことを覚えておけば多くの場合適切に日本語を扱うことができます。外部から入力された文字列はEncodeモジュールのdecode関数でデコードする外部へ出力する文字列はEncodeモジュールのencode関数でエンコードするソースコードはUTF-8で保存しutf8プラグマを有効にするこの解説での用語この解説では外部から入力された文字列のことを「バイト文字列」と呼ぶことにします。Perlの内部表現に変換された文字列を「内部文字列」と呼ぶことにします。また「バイト文字列」が特定の文字コードで記述されている場合は「UTF-8バイト文字列」「Shift_JISバイト文字列」などと呼ぶことにします。プログラミングで日本語を扱う場合にその文字列がバイト文字

billie175 2017/12/08

リンク

はてなブックマーク

タグ

関連タグで絞り込む (5)

文字コードに関するbillie175のブックマーク (5)

お知らせ

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

今週のはてなブックマーク数ランキング（2024年5月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス