[B! regexp] a2ikmのブックマーク

regex101: build, test, and debug regex

Please rem ember this entry will be public in the community library. This is not your personal regex library! To save, access and manage your personal entries, please go to the account page instead.

a2ikm 2020/05/25

regexp

リンク

JavaScriptでパーサコンビネータのコンセプトを理解する(「正規表現だけに頼ってはいけない」の続き) - id:anatooのブログ

前回の記事の続き。前回は、正規表現が使えない時はパーサコンビネータを使ってみると良いということを書いた。パーサコンビネータのためのライブラリは、以下のように各言語ごとにいくつかある。 JavaScript - Parsimmon Ruby - rparsec treetop Python - parsy PHP - PHPPEG 各言語でいくつかあるのだが、正規表現と違ってパーサコンビネータには統一的な書き方があるわけではないし、ライブラリによって使い方も様々である。なので、今まで正規表現だけ使ってきた開発者がちょっと使ってみようと思っても、使い方がよくわからずに面食らってしまうことがある。パーサコンビネータはテキストをパースするための非常に強力な仕組みだが、その背後にある考え方を理解しなければこれらのパーサコンビネータのライブラリを使う際の障害になるだろう。逆に言うと、それさえ理解で

a2ikm 2020/05/18

リンク

メールアドレスの正規表現

更新日 2019/5/3 戻る Perlメモへ - メールアドレスの正規表現へ Perl正規表現雑技へ更新履歴 2019/05/03 「制御文字を除去する」「参考文献」RFC5321日本語訳のリンク修正 2009/08/13 $atextのバグ修正 2009/05/06 「正規表現を簡略化する」追記 2009/04/29 「旧形式を削除する」追記 2009/04/13 「IPアドレスを除去する」追記目次 RFCに準拠したメールアドレスの正規表現コメントと空白文字を除去する制御文字を除去する IPアドレスを除去する旧形式を除去する正規表現を簡略化する参考文献 RFCに準拠したメールアドレスの正規表現メールアドレスについては RFC 5322 に addr-spec として書かれています．下記は RFC 5322 に従って導き出した正規表現です． 14,277バイトあります．

a2ikm 2020/05/11

リンク

Vim Regular Expressions 101

This page has been moved from an old geocities to rescue it from a premature death. If you are the former maintainer of this content please contact us (we tried to contact you, honest) to let us know if you are interested in resume maintainence of this content or just to say Cheers! Vim is an improved (in many ways) version of vi, a ubiquitous text editor found on any UNIX system. VIM was created

a2ikm 2020/04/24

リンク

なぜGo言語の正規表現は遅いと言われるの？ - Qiita

はじめに Goの正規表現は遅いと言われていることが以前から疑問だったので調査してみました。こちらの記事やこちらの記事を拝見する限り ① 現実的なユースケース(例えばURLのパースなど)ではGo言語の正規表現は使うべきではなく、stringsパッケージの標準の関数を利用した方がパフォーマンスとしては良い。 ② Go言語で正規表現を利用するために必要な"正規表現オブジェクト"を並行にアクセスするにはパフォーマンスが問題になるので注意が必要。とあります。その理由は、それぞれ以下に集約できるようです。 ① Go言語標準の正規表現ライブラリは、正規表現と検査文字列の長さに対して常に$O(n^2)$のオーダーで計算量が増加する安定したアルゴリズムを採用している。 ② "正規表現オブジェクト"を用いたマッチング処理には排他制御が行われている。調べてみる Go言語のpkg/regexpの公式ドキュメ

a2ikm 2019/08/26

コメントも含めて面白い。

リンク

Regular Expression Matching with a Trigram Index or How Google Code Search Worked

Regular Expression Matching with a Trigram Index or How Google Code Search Worked Russ Cox rsc@swtch.com January 2012 Introduction In the summer of 2006, I was lucky enough to be an intern at Google. At the time, Google had an internal tool called gsearch that acted as if it ran grep over all the files in the Google source tree and printed the results. Of course, that implementation would be fairl

a2ikm 2019/06/17

リンク

Rubyで正規表現を中途半端に最適化する - Qiita

foobar|fooxar|foozap|foozaのような正規表現は、パイプを減らしてfoo(?:bar|xar|zap?)とすることで高速に動作する。とはいえ一発で後者のような正規表現はなかなか書きにくい。そこでそれを自動化するために書いたのが次のコード。 require 'forwardable' class Regexp class Trie def self.union(*patterns) trie = new patterns.each { |pattern| trie << pattern } trie.to_regexp end extend Forwardable def_delegators :@map, :include?, :[], :[]= def initialize @map = {} end def add(expr) ref = self expr.e

a2ikm 2019/02/02

regexp
ruby

リンク

Regexp::Assemble - Assemble multiple Regular Expressions into a single RE - metacpan.org

NAME Regexp::Assem ble - Assem ble multiple Regular Expressions into a single RE SYNOPSIS use Regexp::Assem ble; my $ra = Regexp::Assem ble->new; $ra->add( 'ab+c' ); $ra->add( 'ab+-' ); $ra->add( 'a\w\d+' ); $ra->add( 'a\d+' ); print $ra->re; # prints a(?:\w?\d+|b+[-c]) DESCRIPTION Regexp::Assem ble takes an arbitrary number of regular expressions and assem bles them into a single regular expression (or

a2ikm 2019/02/02

perl
regexp

リンク

Rubyの正規表現で対応する括弧を考慮していい具合にマッチさせる - There's an echo in my head

1.9以降に搭載された正規表現エンジン（oniguruma, onigumo）では (?<name>式)によってマッチした式部分に名前（ここではname）を付けることができ、それにマッチした内容を後方参照\k<name>で参照でき、また\g<name>でその式を再帰的に呼び出すことができるこれを使えば、括弧のペアを対応させた上でマッチさせることができる。たとえば次の例ではLispのシングルクォーテーション記法をquote関数の呼び出しに変換する。 regexp = /'(?<paren>$(?:[^()]|\g<paren>)*$)/ replace = '(quote \k<paren>)' # 1段 "'(+ 1 2)".match(regexp) #=> #<MatchData "'(+ 1 2)" paren:"(+ 1 2)"> "'(+ 1 2)".gsub(reg

a2ikm 2018/11/07

リンク

[コラム] 正規表現の先読み/後読みは、どう考えても名前が悪いので、呼称禁止令を出してルックと気軽に呼んでみませんか。 - Qiita

[コラム] 正規表現の先読み/後読みは、どう考えても名前が悪いので、呼称禁止令を出してルックと気軽に呼んでみませんか。regex 正規表現の "先読み" / "後読み" を、分かりにくいと感じるすべての人にお送りします。 --- 追記：2017/06/04 コメントにて、ご指摘を頂いております。当記事の解釈には誤りがあります。コメントのご指摘内容をご覧いただければ幸いです。当記事の主旨としては、"先読み・後読み" よりも "ルックアヘッド" の方が、意味を捉えやすいのでは？というものでしたが.. そもそも私の、「lookahead」の解釈（とくに、look の主語はどれなのかという部分だと思います）に、勘違いがありました。ですので、いまのところ当記事の主題は、「"先読み" でも、"ルックアヘッド” でも、どちらでもよいけど、しっかりと厳密に理解しよう！（反省）」となります。コメント

a2ikm 2017/06/04

regexp

リンク

Ruby 2.4.1新機能: Onigmo正規表現の非包含演算子(?~ )をチェック｜TechRacho by BPS株式会社

2017.03.23 Ruby 2.4.1新機能: Onigmo正規表現の非包含演算子(?~ )をチェックこんにちは、hachi8833です。Ruby 2.4.1リリースおめでとうございます。多くの修正・変更点の中から、私にとって関心の高い非包含演算子を取り急ぎチェックしてみました。結構奥が深そうなので、何かわかったら別途記事にするかもしれません。「特定の文字列を含まない文字列にマッチする」なんて夢のようじゃありませんか。参考情報公式ニュース: Ruby 2.4.1 Released 2.4.0以降のコミット: Comparing changes 公式のコミットはmergeばかり並んでいて読みづらいので、RubyFlowの速報も参照しました。 Ruby 2.4.1 Onigmoアップデートで非包含演算子が導入 Rubyの正規表現エンジンとしておなじみのOnigmoはRubyとは独

a2ikm 2017/03/24

リンク

Goの正規表現エンジンを使ってファジング用ツールを書いてみる - YAMAGUCHI::weblog

はじめにこんにちは、Go界のコリン・ファースです。この記事はGo Advent Calendar 2014の21日目の記事です。昨日初サバゲーしたら、左手の薬指の爪のどまんなか含め、ピンポイントに左手の薬指3箇所を撃たれて、めっちゃ痛いです。ところで今年のGo Advent Calendarではすでに2本の記事が正規表現に関する記事が上がっています。 Go で Language Benchmark Game に挑戦して惨敗した - Qiita by @methane Go - Luceneで使われてるFSTを実装してみた（正規表現マッチ：VMアプローチへの招待） - Qiita by @ikawaha @methane さんの記事の中では「Goの正規表現エンジンが遅い」という話が出ていました。また @ikawaha さんの記事では丁寧にVirtual Machine Approachな

a2ikm 2017/02/14

golang

リンク

PerlのRegexp::TrieをRubyに移植した - Islands in the byte stream

GitHub - gfx/ruby-regexp_trie: Optimized Regexp builder with Trie (a Ruby port of Perl's Regexp::Trie) # Gemfile gem 'regexp_trie' これははてなキーワードやWikipediaのリンクのように、ある程度の量のテキストに対して大量のキーワードをマッチさせるときに、最適化した正規表現を生成するライブラリです。はてなキーワード*1をとあるブログエントリ*2にマッチさせるための簡単なベンチマークもあります。 example/benchmark.rb 結果: $ bundle exec example/benchmark.rb (snip) user system total real Regexp raw 4.270000 0.030000 4.300000 ( 4.3

a2ikm 2016/01/22

リンク

正規表現クラス[:alnum:]の罠 - Qiita

Register as a new user and use Qiita more conveniently You get articles that match your needsYou can efficiently read back useful informationYou can use dark themeWhat you can do with signing up

a2ikm 2015/09/01

regexp
ruby

リンク

遅いッ！遅すぎるッ！Java の正規表現のお話。 - Cybozu Inside Out | サイボウズエンジニアのブログ

こんにちは、ミドルウェア開発チームの青木です。先日、アプリケーションサーバーが応答を返さなくなるトラブルに遭遇しました。今回はその時のトラブルの原因と対策の顛末についてお話しようと思います。現象アプリケーションサーバーが突如応答を返さなくなりました。現象が発生したアプリケーションサーバーのスタックトレースを見ると、あるスレッドの先頭が上記のようになっていました。 "qtp258153142-514386" prio=10 tid=0x00007f40b8dbf000 nid=0x7b4e runnable [0x00007f415ccb0000] java.lang.Thread.State: RUNNABLE at java.util.regex.Pattern$Loop.match(Pattern.java:4692) at java.util.regex.Pattern$G

a2ikm 2015/05/12

\wが_を含むの初めて知った。見慣れないからだいたい\w使わずに[]で列挙してた

リンク

非 ASCII 文字を含む行を検出 - mooz deceives you

ファイル中にある「非 ASCII 文字」を含む行を検出したければ、次のコマンドで。 grep '[^ -~]' file 仕組みは ASCII文字コード - IT用語辞典を見ると一目瞭然。まずホワイトスペースからチルダまでを ASCII 文字とみなし、 [a-z] のノリで [ -~] とする。これで ASCII 文字からなる文にマッチする正規表現が出来る。今回は「非 ASCII 文字」が欲しかったので ^ をつけて条件を逆転させ、完成。ソースコード中からマルチバイト文字を取り除きたいときなどに便利。コメントを全部英語化したいときとかね。追記 Emacs 使いの人なら M-x rgrep でこの正規表現を使うと、プロジェクトのマルチバイト文字を一括検索出来て便利。

a2ikm 2015/02/25

grep '[^ -~]' file

リンク

「PHP使いはもう正規表現をblogに書くな」と言わせないでくれ : 404 Blog Not Found

2009年03月19日18:00 カテゴリLightweight Languages 「PHP使いはもう正規表現をblogに書くな」と言わせないでくれああ、まただよ... かなり使えるPHPの正規表現まとめ - IDEA*IDEA 〜百式管理人のライフハックブログ〜正規表現って、プログラミング言語間の差が少ないサブ言語なのに、なぜ「PHP」がつくとダメ正規表現ばかり登場するのか。うんざりだ。かなり使えるPHPの正規表現まとめ - IDEA*IDEA 〜百式管理人のライフハックブログ〜メールアドレスは厳密にチェックしようとするとなかなか難しいのですが、簡単なチェックだったらこれでOKぽいですね。 /^[^0-9][a-zA-Z0-9_]+([.][a-zA-Z0-9_]+)*[@][a-zA-Z0-9_]+([.][a-zA-Z0-9_]+)*[.][a-zA-Z]{2,4}$

a2ikm 2015/02/23

リンク

配列を渡して正規表現オブジェクトをつくる - Qiita

こんな風に書くと思います。（僕はそうでした）悪くないけど "foo"、"bar"、"baz" のいずれかにマッチする正規表現である"foo|bar|baz"という文字列を組み立ててから、それをRegexp.newに渡して正規表現オブジェクトを得る。というのが少し遠回りですね。そこでRegexp.union

a2ikm 2014/12/02

ruby
regexp

リンク

正規表現 (Ruby 2.0.0)

正規表現(regular expression)は文字列のパターンを記述するための言語です。また、この言語で記述されたパターンも正規表現と呼びます。正規表現を用いると、文字列が指定したパターンを含んでいるかどうかを判定し、また含んでいるならばそれが文字列中のどの場所であるかを知ることができます。 /pat/ %r{pat} などの正規表現リテラルや Regexp.new などで正規表現オブジェクトを得ることができます。メタ文字列とリテラル、メタ文字とエスケープ正規表現の文法には、正規表現内で特別な働きをする文字列と、それ以外のその文字列そのものにマッチするような文字列があります。前者をメタ文字列(meta string)、後者をリテラル(文字列)(literal string)と呼びます。 /京都|大阪|神戸/ という正規表現においては、「京都」「大阪」「神戸」がリテラルで

a2ikm 2014/12/02

ruby
regexp

リンク

Perl 6 の正規表現いいじゃん

Ryoma Sin'ya @sinya8282 Perlに関して「while (<>) { print; } っていうコードが動くのがキモいです．なにこれは．」って(Perl ハッカー)河野先生に言ったら「便利じゃん」と答えられた記憶がある．「Perlはそういうモノなんだな」とその時思いましたまる． 2013-12-24 05:04:45

a2ikm 2013/12/25

perl
regexp

リンク

はてなブックマーク

タグ

関連タグで絞り込む (47)

regexpに関するa2ikmのブックマーク (50)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス