[B! 日本語][文字コード] peketaminのブックマーク

peketamin id:peketamin

日本語と文字コードに関するpeketaminのブックマーク (3)

文字と濁点・半濁点が分かれていて，それらを結合したい時 - Qiita
例えば「レポート」という文字列をユニコードで扱うときに，文字「ポ」が「ホ + ゜」というように，文字と濁点・半濁点に分かれてしまう場合
peketamin 2015/12/10
文字コード

日本語

unicode

python
リンク
PythonのUnicodeEncodeErrorを知る - HDEラボ
Pythonにはじめて触って、いつのまにか1年が過ぎたのですが、一番はまったのは、やっぱりunicodeの扱いだったと思います。特に、 UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-12: ordinal not in range(128) のようなエラーにはさんざん悩まされました。ここがたとえばrubyなど他の言語と比べてわかりにくいために、Pythonが取っつきにくい言語になっているのではないか、と個人的には思います。そこで、このエラーに関係するはまりどころとTipsをいくつか列挙してみました。これからPythonに触れられる方の参考になればと思います。なお、環境はUNIX上のPython 2.4, 2.5を想定しています。 u1はunicode型で、s1はstr型です。s1にどのよ
peketamin 2014/04/09
python

文字コード

unicode

日本語

utf-8
リンク
21. mb_strlen()関数の落とし穴
mb_strlen()関数は、日本語などのマルチバイト文字列の文字数をカウントする関数ですが、気をつけて使わないと思わぬバグの原因になってしまうことがあります。 <?php $str = '日本語にほんご'; var_dump(mb_strlen($str)); ?> このスクリプトを実行すると、多くの場合は int(7) と、正しい結果が表示されますが、環境によっては int(12)やint(9)など、変な値が表示されてしまう場合があります。これは、PHPの内部エンコーディングが文字列のエンコードと異なっている時に起こります。 <?php $str = '日本語にほんご'; var_dump(mb_strlen($str, 'SJIS')); ?> というように、mb_strlen()関数の第2引数に$strの文字エンコードを指定すると、PHPの内部エンコーディング設定に関わらず正
peketamin 2010/10/15
charsetパースして文字コード指定するしかないのかなぁ。

php

日本語

文字コード

web開発

mb_strlen

文字列

PHP関数

tips
リンク
1