タグ

ひらがなに関するtohokuaikiのブックマーク (2)

  • Produce by Sieg: [Perl での正規表現]

    # 半角スペース $str = '\x20'; # 全角スペース $str = '(?:\xA1\xA1)'; # EUC-JP $str_sjis = '(?:\x81\x40)'; # SJIS # 全角数字 [0-9] $str = '(?:\xA3[\xB0-\xB9])'; # EUC-JP $str_sjis = '(?:\x82[\x4F-\x58])'; # SJIS # 全角大文字 [A-Z] $str = '(?:\xA3[\xC1-\xDA])'; # EUC-JP $str_sjis = '(?:\x82[\x60-\x79])'; # SJIS # 全角小文字 [a-z] $str = '(?:\xA3[\xE1-\xFA])'; # EUC-JP $str_sjis = '(?:\x82[\x81-\x9A])'; # SJIS # 全角アルフ

  • phpでひらがな、カタカナの判別

    phpでマルチバイト(日語)の文字を判別にはmb_eregを使えば簡単なのですが、php4ではmb_eregはデフォルトでは使えず、phpのインストール時に「--enable-mbregex」としてconfigureしなければいけません。現状ではphp5がインストールされているサーバーや「--enable-mbregex」でconfigureされたphp4サーバーはまだ少ないので、mb_eregが使えない場合は、以下のようにpreg_match関数のPerl正規表現で文字コードを判別します。Perlプログラマでしたらおなじみですね。 他のWebサイトではmb_eregを使った例ばかりなので、今更ではありますが、参考までにpreg_matchでの例を記述してみます。 後述のサンプルスクリプトで使用する変数は以下です。文字コードはEUC-JP。 <?php $str1 = mb_conver

  • 1