[B! ネタ][正規表現] mohnoのブックマーク

mohno id:mohno

ネタと正規表現に関するmohnoのブックマーク (6)

RubyKaigi 2023での発表の「2進数の足し算を計算する正規表現」の解説
RubyKaigi 2023で「Make Regexp#match much faster」という発表をします、@makenowjust です。この発表では、ReDoS対策のためにRuby 3.2で導入された、正規表現マッチング (Regexp#match) のメモ化による最適化について解説します。さて、発表の中に次のようなスライドがあります。このスライドはRubyの正規表現がいかに強力かを説明するためのもので、例として「2進数の足し算を計算する正規表現」を示しています。また、このツイートで使っている正規表現も、実はこの正規表現です。今回の記事では、この「2進数の足し算を計算する正規表現」の解説をしていきたいと思います。「2進数の足し算を計算する正規表現」コピペがしやすいように、スライドの画像ではなくテキストのコードで上の正規表現を出しておきます。 RE = /(?<s>[
mohno 2023/05/11
「計算する」←正規表現でどういう答えを出すのかと思ったが「検算」なのか。

露里きつね

RubyKaigi

正規表現

2進数

計算

Ruby

ネタ
リンク
ChatGPTのヤバさは、論理処理が必要と思ったことが確率処理でできるとわかったこと - きしだのHatena
ChatGPTのヤバいところは、論理処理が必要だと思っていたことが、じつは多数のデータを学習させた確率処理で解決可能だと示したことだと思います。たとえば、このように正規表現にマッチする文字列を生成するには、特別に専用の論理処理が必要だと思っていました。前のブログのときには特殊処理が必要だと考えてましたね。ウソはウソと見抜ける人じゃないとChatGPTを使うのは難しい - きしだのHatena けど、123_45678world.mdはマッチするのにマッチしないと言っているので、そのような誤りが入ることを考えると、どうも確率処理だけでやっているようです。考えてみると、3層以上のニューラルネットであれば論理素子を再現できるので、ディープラーニングで論理処理を模倣することは可能なんですよね。バックプロパゲーションでニューラルネットの学習 - きしだのHatena そもそも論理は、多数の
mohno 2023/01/11
テストは書けるんかな。「あとは論理的な確認を行うようにすれば完璧」←プログラムが正しいかどうか人的に確認しなきゃいけないなら、自分で書く方が速い予感（ChatGPTは電力消費が大きいらしいし）

きしだ

ChatGPT

人工知能

機械学習

正規表現

開発

ネタ
リンク
正規表現の先読み・後読み
正規表現の「先読み（lookahead）」「後読み（lookbehind）」について紹介します。正規表現の「位置へのマッチ」正規表現は、文字列のパターンマッチに使われます。たとえば [0-9]{4} は数字4つが並ぶ文字列にマッチする表現です。多くの正規表現は「文字列」にマッチしますが、「文字列」ではなく「位置」にマッチする表現があります。これは、アンカーと呼ばれます。また、長さ0の文字列にマッチすると考えて、ゼロ幅アサーションとも呼ばれます。アンカーの例として、^（先頭）$（末尾）\b（単語の境界）などがあります。この例では、cat にはマッチします。一方、category や concat は cat を含みますが前後が単語の境界になっていないためマッチしません。先読み先読み（lookahead）は、位置にマッチする記法の一種です。位置の指定に正規表現を使います。(?=
mohno 2022/08/23
「「先読み」の「先」は「このあとに続く部分」という意味なので、「後」が対義語になっていない感じ」←“あと”というより“うしろ”感。あるいは“手前”かなあ。

宇佐見公輔

開発

正規表現

日本語

ネタ
リンク
よく使う正規表現はもうググりたくない！ - Qiita
タイトル通りによく使う正規表現を毎回ググるのが効率悪いのでまとめてみました。各言語で正規表現のサンプルを書いてみました。正規表現式 Em ailアドレス ^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$ ドメイン名 ^[a-zA-Z0-9][a-zA-Z0-9-]{1,61}[a-zA-Z0-9]\.[a-zA-Z]{2,}$ インタネットURL ^(http|https)://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$ ユーザー名 (Twitter username) ^[a-zA-Z0-9_\-.]{3,15}$ 固定電話 ^0\d-\d{4}-\d{4}$ 携帯電話 ^(070|080|090)-\d{4}-\d{4}$ IP電話 ^050-\d{4}-\d{4}$ フリーダイヤル ^0120-\d{3}-\d{3}
mohno 2017/12/11
Emailの正規表現って難しかったはずじゃ……と思ったら固定電話でさんざんツッコミがw　それ、ググってみても(個別事例でしか)出てこんぞ。

Qiita

dongri

Origami

正規表現

開発

ネタ

電子メール

電話
リンク
gccの正規表現がバグだらけという話 - Qiita
！！！？？？どうなってるの？？？これ、"_" の場所を変えたりしたらマッチするようになるんですよ。なぜか？わからない。わかりたくもない。こんなファッキンなバグが、gcc 4.9.2 まで残ってるんですよ。 4.9.3 では直っていました。その2 今度は、これをgcc 4.9.2 で実行してみましょう。文字クラスにマッチさせるだけの簡単な正規表現です。 string s("~"); smatch m; regex re(R"([~\-_])"); if (regex_search(s, m, re)) { cout << m[0] << endl; } else { cout << "Not matched" << endl; }
mohno 2017/01/29
へぇーw

Qiita

gcc

C言語

正規表現

開発

ネタ
リンク
なるべく短い正規表現で住所を「都道府県/市区町村/それ以降」に分けるエクストリームスポーツ - Qiita
rex = /ごにょごにょ/ p "東京都文京区後楽１丁目３−６１".match(rex).captures #=> ["東京都", "文京区", "後楽１丁目３−６１"] みたいなやつ。なるべく短く。実用性？そんなもの、うちにはないよ。 TL;DR 「読むのめんどくさい」という人用に最初に最終結果を置いておきます (...??[都道府県])((?:旭川|伊達|石狩|盛岡|奥州|田村|南相馬|那須塩原|東村山|武蔵村山|羽村|十日町|上越|富山|野々市|大町|蒲郡|四日市|姫路|大和郡山|廿日市|下松|岩国|田川|大村)市|.+?郡(?:玉村|大町|.+?)[町村]|.+?市.+?区|.+?[市区町村])(.+) あまり厳密ではないのでちゃんとしたとこでは使わないほうがいいです住所データを用意する郵便局からデータをダウンロードしておく。一ヶ月毎に更新されている。 → 郵便番号データ
mohno 2016/01/27
面白い（でも自分でプログラムするときは正規表現を使わずに処理するだろうな）

Qiita

開発

正規表現

住所

技術

ネタ
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx