[B! regex] mas-higaのブックマーク

正規表現が"$"と"^"をラインアンカーとして採用した理由 | ソフトアンテナ

「正規表現」はさまざまなプログラミング言語やアプリケーションから利用できますが、正規表現で使われている「記号」がどのように選ばれたのか不思議に思っている方もいるかもしれません。今回、正規表現の"$"と"^"が行末・行頭を示すラインアンカーとして選ばれた理由を推測するブログ記事、「Why do regexes use `$` and `^` as line anchors?」が公開され注目を集めています(Reddit)。記事を作成したコンサルタントのHillel Wayne氏によると、正規表現が最初に登場したのはKen Thompson氏が移植したQEDテキストエディタだとのことです。移植版のQEDエディタのマニュアルには以下のような情報が掲載されています。 b) "^" is a regular expression which matches character at the beg

mas-higa 2024/04/01

\A \z とかあるけど意味が違うし、可読性が上がるわけでもないしねぇ

regex

リンク

アイヌ語仮名「ㇷ゚」に対する正規表現の罠

導入アイヌ語は日本語と異なり、閉音節（子音で終わる音節）も存在するので、表記の際音素文字であるラテン文字なら、そのまま p, t, k, m, n, s, r などの子音文字を後ろの付ければ良いわけなので、アイヌ語ローマ字表記では、何も問題が生じない。しかし、元々開音節言語である日本語に特化したカタカナのような仮名文字で表記する際、鼻音 n は「ン」でなんとかなる（実はそれでもまずい事になっているけどここでは割愛する）が、p, t, k, m, n, s, r, h はどうしようもないので、特殊の捨て仮名（小書き仮名文字）を利用することになっている。具体的には以下のような特殊仮名文字（通称　アイヌ語仮名）である。ㇷ゚ -p ッ -t ㇰ -k ㇺ -m ㇱ -s ㇻ -(a)r, ㇼ -(i)r, ㇽ -(u)r, ㇾ -(e)r, ㇿ -(o)r お分かり頂けただろうか… 問題 r

mas-higa 2023/09/01

結合文字は 1文字という理解で正しければ、正規表現で 1文字を正しく扱えていないという話かな? 昔マルチバイト文字に対応してないプログラムが Shift JIS や EUC の文字の途中で分割して文字化けしたりしてたのと似てる

リンク

正規表現とは何なのか、makenowjustが正規表現に興味を持ったきっかけ。深掘りRubyKaigi 2023 with spikeolaf & makenowjust 文字起こしレポート vol.1 - STORES Product Blog

2023年6月15日に『深掘りRubyKaigi 2023 with spikeolaf & makenowjust』を開催しました。イベントの内容をほぼ全文文字起こし形式でお届けします。この記事は第1部です。 hey.connpass.com イベントのアーカイブはYouTubeでも公開しています。 www.youtube.com 登場人物ゲスト makenowjust/藤浪大弥さん spikeolaf/金子雄一郎さん STORES fujimura/藤村大介 shyouhei/卜部昌平 hogelog/小室直正規表現に興味を持ったきっかけ fujimura：最初は藤浪さん、makenowjustさんに正規表現の発表について伺おうと思います。まずは改めてRubyKaigi 2023でどんなことを発表したかを紹介いただけないでしょうか？ makenowjust：Rubyの正規

mas-higa 2023/07/26

Hyperscanの話をしてるとこ、めちゃ早口だったんじゃないかと想像してる。

リンク

RubyKaigi 2023での発表の「2進数の足し算を計算する正規表現」の解説

RubyKaigi 2023で「Make Regexp#match much faster」という発表をします、@makenowjust です。この発表では、ReDoS対策のためにRuby 3.2で導入された、正規表現マッチング (Regexp#match) のメモ化による最適化について解説します。さて、発表の中に次のようなスライドがあります。このスライドはRubyの正規表現がいかに強力かを説明するためのもので、例として「2進数の足し算を計算する正規表現」を示しています。また、このツイートで使っている正規表現も、実はこの正規表現です。今回の記事では、この「2進数の足し算を計算する正規表現」の解説をしていきたいと思います。「2進数の足し算を計算する正規表現」コピペがしやすいように、スライドの画像ではなくテキストのコードで上の正規表現を出しておきます。 RE = /(?<s>[

mas-higa 2023/05/11

"left, right, answer の長さが等しい" 繰り上がりができないんじゃなく、answer の桁数に合わせて left, right に前0を埋めればええんやね。

ruby
regex

リンク

シンプル図解: 正規表現の (?= ) とか (?! ) とか (?<= ) とか (?<! ) とか - Qiita

入社1年目、趣味は整理整頓、 @pal4de です。正規表現が大好きです。先日投稿した記事が好評いただき本当にうれしかったです。もっとたくさんの人に読んでもらいたい！！！さて、上の記事で紹介したのは単語境界 \b でしたが、これは先読み/後読みを駆使して下記の通りに表せると紹介しました。便利な\bですらショートハンドに過ぎず、真に強力なものは先読み(?=...)と後読み(?<=...) だということを主張したい！！！わかりすい図解も添えましたので、是非お楽しみください🏝️ 正規表現の記号は4種類先読みの紹介に入る前に、改めて正規表現を俯瞰してみましょう。誤解を恐れずに言えば、正規表現に出てくる記号の種類は4つしかないといえます1 2。このようにとらえてみると、正規表現と向き合うのがだいぶ楽になります。体系化された理解への第一歩ですね 🗿 図にもある通り、行頭 ^ も

mas-higa 2022/12/22

リンク

キャッシュによるRubyの正規表現のマッチングの高速化の紹介 - クックパッド開発者ブログ

9月からRuby開発チームにインターンシップとして参加している@makenowjustです。総合研究大学院大学の学生で、普段は情報セキュリティに関する研究をしています。インターンシップでは、キャッシュ (メモ化) を利用したRubyの正規表現の高速化を行いました。 ReDoSと呼ばれる、バックトラックが爆発することでマッチング時間が膨大になる脆弱性があります (ReDoSについては、拙作ですがWEB+DB PRESSに掲載された記事があります)。近年、ReDoSは多く報告されており、Rubyもその例外ではありません (参考1、参考2)。今回実装した最適化は、ReDoSを防ぐことを目的としたもので、多くの正規表現のマッチング時間が文字列の長さに対して線形となります。 ReDoSが起こる正規表現の例として、/^(a|a)*$/が挙げられます。今回の修正の前後での実行時間を比較すると、

mas-higa 2022/12/13

リンク

正規表現の先読み・後読み

正規表現の「先読み（lookahead）」「後読み（lookbehind）」について紹介します。正規表現の「位置へのマッチ」正規表現は、文字列のパターンマッチに使われます。たとえば [0-9]{4} は数字4つが並ぶ文字列にマッチする表現です。多くの正規表現は「文字列」にマッチしますが、「文字列」ではなく「位置」にマッチする表現があります。これは、アンカーと呼ばれます。また、長さ0の文字列にマッチすると考えて、ゼロ幅アサーションとも呼ばれます。アンカーの例として、^（先頭）$（末尾）\b（単語の境界）などがあります。この例では、cat にはマッチします。一方、category や concat は cat を含みますが前後が単語の境界になっていないためマッチしません。先読み先読み（lookahead）は、位置にマッチする記法の一種です。位置の指定に正規表現を使います。(?=

mas-higa 2022/08/23

"どちらが「先」でどちらが「後」か、少し混乱します" ほんまこれ。文字列の先頭から見て行って、現在位置より先を見るのが先読み、既に通り越した後ろを見るのが後読み。後に～が続くとか意識しちゃうと意味が逆に

regex

リンク

3の倍数を正規表現で - 37.50.48

leading zero を許容しない十進非負整数は、 /^(0|[1-9][0-9]*)$/ と表現できる。これは、 /^(0|([1-9]0*)+)$/ と表現することもできる。以下では、「数」は「 leading zero を許容しない十進非負整数」と同じ意味で扱う。「 x が 3 の倍数である」と「 x の各桁の数字の和が 3 の倍数である」が同値であることは知られている。ということは、「 3 の倍数の後ろに 3 の倍数の繋げたもの」も 3 の倍数である。ということは、3 の倍数全体の集合を正規表現で表現できるはずである。できた。 /^(0|(([147][0369]*([147][0369]*[258][0369]*)*([147][0369]*[147]|[258])|[258][0369]*([258][0369]*[147][0369]*)*([147]|[258

mas-higa 2022/02/25

"少し変形しておく" ? "3 の倍数であるが上記に該当しないものについて考える" ?? "ここに 4, 5, 6, 7, 8, 9 を加えると" ??????

regex

リンク

40行以内で正規表現エンジンを構築 | POSTD

最終目標は、最小限のコードで正規表現ユースケースの大部分をカバーできるくらい十分堅牢な構文を提供することです。 1文字と一致させるまずはじめに、1文字のパターンと1文字で構成される文字列を引数に取り、一致するかしないかを示すブール値を返す関数を作成してみます。1文字のパターンである . はワイルドカードとされ、任意の文字リテラルと一致します。下記のようなかんじです matchOne('a', 'a') -> true matchOne('.', 'z') -> true matchOne('', 'h') -> true matchOne('a', 'b') -> false matchOne('p', '') -> false function matchOne(pattern, text) { if (!pattern) return true // 任意テキストが空パターンと一致

mas-higa 2017/12/26

リンク

Email Address Regular Expression That 99.99% Works.

Just copy and paste the em ail regex below for the language of your choice. Feeling hardcore (or crazy, you decide)? Read the official RFC 5322, or you can check out this Em ail Validation Summary. Note there is no perfect em ail regex, hence the 99.99%. General Em ail Regex (RFC 5322 Official Standard) (?:[a-z0-9!#$%&'*+/=?^_`{|}~-]+(?:\.[a-z0-9!#$%&'*+/=?^_`{|}~-]+)*|"(?:[\x01-\x08\x0b\x0c\x0e-\x1f\

mas-higa 2017/12/07

email
regex

リンク

正規表現：最短一致でマッチさせる表現 | WWWクリエイターズ

※Vimのmagicを利用した正規表現は、記述方法が異なりますので、ご注意下さい。こちら「　正規表現：特殊文字（メタ文字）の一覧　」をご覧ください。最短マッチを見つける正規表現さて、具体例を見ていきましょう。例えば、から<a></a>で囲まれたアンカータグを「１つだけ」取り出す事を考えます <nav> <a href="/about">About</a> | <a href="/access">Access</a> | <a href="/contact">Contact</a> </nav> 改行以外のすべての文字を表す「.」を利用して、「<a . *</a>」と言った正規表現が思いつきます。ですが、これだと「最長一致」を探してしまい、上記の例だと、３つのアンカータグをひと続きでマッチしてしまいます。 // アンカータグを検出？（デリミタに#を利用） #<a.*>(.*)</a>#

mas-higa 2017/06/08

まとめって3つだけ? (vim で php のコード書いてる人だってことだけはわかった)

regex

リンク

[コラム] 正規表現の先読み/後読みは、どう考えても名前が悪いので、呼称禁止令を出してルックと気軽に呼んでみませんか。 - Qiita

[コラム] 正規表現の先読み/後読みは、どう考えても名前が悪いので、呼称禁止令を出してルックと気軽に呼んでみませんか。regex 正規表現の "先読み" / "後読み" を、分かりにくいと感じるすべての人にお送りします。 --- 追記：2017/06/04 コメントにて、ご指摘を頂いております。当記事の解釈には誤りがあります。コメントのご指摘内容をご覧いただければ幸いです。当記事の主旨としては、"先読み・後読み" よりも "ルックアヘッド" の方が、意味を捉えやすいのでは？というものでしたが.. そもそも私の、「lookahead」の解釈（とくに、look の主語はどれなのかという部分だと思います）に、勘違いがありました。ですので、いまのところ当記事の主題は、「"先読み" でも、"ルックアヘッド” でも、どちらでもよいけど、しっかりと厳密に理解しよう！（反省）」となります。コメント

mas-higa 2017/06/05

［あとで読まない］どこが当っててどこが間違ってるのか考えながら読むの苦痛

regex

リンク

Ruby 2.4.1新機能: Onigmo正規表現の非包含演算子(?~ )をチェック｜TechRacho by BPS株式会社

2017.03.23 Ruby 2.4.1新機能: Onigmo正規表現の非包含演算子(?~ )をチェックこんにちは、hachi8833です。Ruby 2.4.1リリースおめでとうございます。多くの修正・変更点の中から、私にとって関心の高い非包含演算子を取り急ぎチェックしてみました。結構奥が深そうなので、何かわかったら別途記事にするかもしれません。「特定の文字列を含まない文字列にマッチする」なんて夢のようじゃありませんか。参考情報公式ニュース: Ruby 2.4.1 Released 2.4.0以降のコミット: Comparing changes 公式のコミットはmergeばかり並んでいて読みづらいので、RubyFlowの速報も参照しました。 Ruby 2.4.1 Onigmoアップデートで非包含演算子が導入 Rubyの正規表現エンジンとしておなじみのOnigmoはRubyとは独

mas-higa 2017/03/26

regex
ruby

リンク

PerlのRegexp::TrieをRubyに移植した - Islands in the byte stream

GitHub - gfx/ruby-regexp_trie: Optimized Regexp builder with Trie (a Ruby port of Perl's Regexp::Trie) # Gemfile gem 'regexp_trie' これははてなキーワードやWikipediaのリンクのように、ある程度の量のテキストに対して大量のキーワードをマッチさせるときに、最適化した正規表現を生成するライブラリです。はてなキーワード*1をとあるブログエントリ*2にマッチさせるための簡単なベンチマークもあります。 example/benchmark.rb 結果: $ bundle exec example/benchmark.rb (snip) user system total real Regexp raw 4.270000 0.030000 4.300000 ( 4.3

mas-higa 2016/01/25

Regexp の何がイヤって、いつも最後の p を忘れるのがイヤ。/ regex を rx って省略するのか。Emacs なら re なんだが。(どうでもいい)

ruby
regex

リンク

遅いッ！遅すぎるッ！Java の正規表現のお話。 - Cybozu Inside Out | サイボウズエンジニアのブログ

こんにちは、ミドルウェア開発チームの青木です。先日、アプリケーションサーバーが応答を返さなくなるトラブルに遭遇しました。今回はその時のトラブルの原因と対策の顛末についてお話しようと思います。現象アプリケーションサーバーが突如応答を返さなくなりました。現象が発生したアプリケーションサーバーのスタックトレースを見ると、あるスレッドの先頭が上記のようになっていました。 "qtp258153142-514386" prio=10 tid=0x00007f40b8dbf000 nid=0x7b4e runnable [0x00007f415ccb0000] java.lang.Thread.State: RUNNABLE at java.util.regex.Pattern$Loop.match(Pattern.java:4692) at java.util.regex.Pattern$G

mas-higa 2015/05/13

本の宣伝だった!!

regex
book

リンク

第60回 Ruby/Rails勉強会＠関西で正規表現の先読みについてという発表をしました - @znz blog

第50回 Ruby/Rails勉強会＠関西に参加して、「正規表現の先読みについて」という発表をしてきました。発表資料 https://github.com/znz/regexp-201403 http://slide.rabbit-shocker.org/authors/znz/regexp-201403/ https://speakerdeck.com/znz/zheng-gui-biao-xian-falsexian-du-minit uite http://www.slideshare.net/znzjp/regexp-201403 デモアプリデモに使った Web アプリのソースは https://gist.github.com/znz/9835956#file-regexp-201403-rb で公開しています。 heroku にも deploy したので、デモサイト (20

mas-higa 2014/04/04

リンク

鬼車正規表現

サービス終了のお知らせいつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。お客様がアクセスされたサービスは本日までにサービスを終了いたしました。今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

mas-higa 2013/12/22

リンク

数字を3桁ずつ区切る - 橋本詳解

通貨みたいな表示 1234567890.to_s.reverse.split(/(\d{3})/).select{|i|i.size>0}.join(',').reverse => "1,234,567,890"1234567890.to_s.reverse.gsub(/(\d{3})/,'\1,').reverse => "1,234,567,890"

mas-higa 2012/11/28

http://doc.ruby-lang.org/ja/1.9.3/doc/spec=2fregexp.html にもいろいろ書いてある。

ruby
regex

リンク

正規表現の限界 @ Shibuya.pm

swatmac.info Buy this domain. 2020 Copyright. All Rights Reserved. The Sponsored Listings displayed above are served automatically by a third party. Neither the service provider nor the domain owner maintain any relationship with the advertisers. In case of trademark issues please contact the domain owner directly (contact information can be found in whois). Privacy Policy

mas-higa 2011/07/08

なぜ否定の正規表現は難しいか。

regex

リンク

電話番号、郵便番号にマッチする真の正規表現 : にぽたん研究所

Shibuya.pm #16 「夏の正規表現祭り」で、正規表現のお話をさせていただきました。まぁ、「電話番号にマッチする正規表現」とか「郵便番号にマッチする正規表現」とかよく書かれてるけど、「どれもこれも手緩いよね」って話。あ、だいぶはしょったかな。とりあえずスライドに書いたので、発表をご覧になってない方はスライドからご覧ください。ふと見返すと、このブログで電話番号の正規表現を公表するのは 3 度目ですが、あれからだいぶ経ってますね。今ではもっと厳密な正規表現を作っています。そして、Number::Phone::JP に続き、Number::ZipCode::JP という酔狂なモジュールが公開された記念で、郵便番号にマッチする正規表現を今回初めて公開しますが、そもそもここまで厳密な正規表現が公開されること自体、本邦初公開ってヤツでしょう。 Shibuya.pm でも言いましたが

mas-higa 2011/07/08

regex
joke

リンク

はてなブックマーク

タグ

関連タグで絞り込む (11)

regexに関するmas-higaのブックマーク (21)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

今週のはてなブックマーク数ランキング（2024年4月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス