A. ユースケース次第でどう実装すべきかは変わる。Intl.Segmenter が万能というわけでもない。 (クソ最悪な小バズをかましてしまったので、贖罪も兼ねて記事を書きました) 「文字数を数える」のは難しい 「文字数を数える」実装は意外と難しいです。というのも、アルファベットや数字だけなら str.length でも正しく数えられますが、絵文字や異体字などが入った文字列は見た目どおりに数えられません。
A. ユースケース次第でどう実装すべきかは変わる。Intl.Segmenter が万能というわけでもない。 (クソ最悪な小バズをかましてしまったので、贖罪も兼ねて記事を書きました) 「文字数を数える」のは難しい 「文字数を数える」実装は意外と難しいです。というのも、アルファベットや数字だけなら str.length でも正しく数えられますが、絵文字や異体字などが入った文字列は見た目どおりに数えられません。
PythonでEUC-JPのファイルを読み込んで正規表現を使う方法を紹介します。 Pythonは2.x系です。 1.問題点 下記の、文字コードがEUC-JPのファイルがあります。 text.txt テスト1 テスト2 テスト3 このファイルから「テスト2」の部分だけをマッチさせたいので、下記のスクリプトを作ったのですがマッチしません。 #!/usr/bin/env python2 # -*- coding: utf-8 -*- import sys import codecs import re path = './test.txt' f = codecs.open(path, 'r', 'euc_jp') for line in f: result = re.search('テスト2', line) if result: print line ということで、PythonでEUC-JPのフ
MOONGIFTはオープンソース・ソフトウェアを紹介するブログです。2021年07月16日で更新停止しました プログラマといえども難しいのが正規表現です。プログラミング言語によって方言もありますし、マッチした後の変換などでつい指定を間違えてしまったりします。Atomなどはマッチした部分が置換前にハイライトされますが、Emacsなどはそんな機能もないので何度もミスしてしまいます。 そこで使ってみたいのがregxrです。macOS用の正規表現チェッカーです。 regxrの使い方 上に正規表現、下にサンプルになるテキストを記述します。マッチした場所がハイライトするので分かりやすいです。 反映はリアルタイムに行われます。 正規表現の練習に良いですね。 regxrはSwift製なので、適用される正規表現はSwiftで使えるものになるでしょう。プログラムに組み込む前に正規表現を試したり、思ったマッチに
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く