タグ

pythonと正規表現に関するpeketaminのブックマーク (4)

  • 正規表現を用いる際のパフォーマンスチェックリスト - ヤドカリラボ

    Python で正規表現を書いて分析や機械学習のモデル構築、予測に活用する際には、正規表現実行時のパフォーマンスが足かせとなる場合があります。 正規表現の処理に用いられる実行時間がどのくらいになるかはテキストデータの分量や機械学習モデルの精度検証の実行回数に応じて変わってきます。 一つのテキストデータに対する正規表現の実行時間を少なくすることで、タスクによっては全体として大幅な処理時間の短縮が見込まれます。そのことによって精度検証を素早く回したり、テキスト処理実行時の前処理の実行時間を削減する等の効果が得られます。精度検証の間の実行待ち時間やバッチ・キューによる予測時の時間が減り、最終的には精度向上の機会の向上やサービスのユーザ体験の向上に繋がるというわけです。 記事では Python を用いた場合の正規表現のパフォーマンス改善候補についてリストアップし、具体的な対応方法について見ていき

    正規表現を用いる際のパフォーマンスチェックリスト - ヤドカリラボ
  • Python 3の正規表現で \d を使うな! - Qiita

    案外知られていないようなのですが、Python 3 標準の reモジュールの正規表現では\dがいわゆる全角数字にもマッチします。 実際に試してみます。 >>> import re >>> re.findall(r"\d", "012012") ['0', '1', '2', '0', '1', '2'] >>> \dが'0'、'1'、'2'にもマッチしていますね。 この挙動があまり知られていない原因としては、 Python 3の公式ドキュメントの「正規表現 HOWTO」の説明が、かなり誤解を招きやすい書き方になっている。 \dがいわゆる全角数字にマッチするかどうかをわざわざテストする人は少ない 敬虔なPythonistaは正規表現を使わないやり方を好む傾向がある 等の理由が考えられますが、他の原因もあるかもしれません。 \dを[0-9]にだけマッチさせるには、\dの代わりに[0-9]を使う

    Python 3の正規表現で \d を使うな! - Qiita
  • regex-weburl.js

    regex-weburl.js @� +NV // // Regular Expression for URL validation // // Author: Diego Perini // Created: 2010/12/05 // Updated: 2018/09/12 // License: MIT // // Copyright (c) 2010-2018 Diego Perini (http://www.iport.it) // // Permission is hereby granted, free of charge, to any person // obtaining a copy of this software and associated documentation // files (the "Software"), to deal in the Softw

    regex-weburl.js
  • Python の raw 文字列を用いて正規表現を書く - Pyxis 開発ブログ

    任意の文字列に \' をマッチさせようとして、混乱したので書きます。 例題 pattern: \' string: backslash \' single quote 以下、raw 文字列を使った場合と使わない場合で、それぞれ書き方の答え pattern も string も raw 文字列 >>> re.findall(r'\\\'', r'backslash \' single quote') ["\\'"] >>> print re.findall(r'\\\'', r'backslash \' single quote')[0] \' pattern も string も 普通の文字列(バックスラッシュのエスケープが必要) >>> re.findall('\\\\\'', r'backslash \\\' single quote') ["\\'"] >>> print re.fi

    Python の raw 文字列を用いて正規表現を書く - Pyxis 開発ブログ
  • 1