タグ

正規表現に関するsalon_hiyakeのブックマーク (24)

  • 正規表現の先読み・後読み

    正規表現の「先読み(lookahead)」「後読み(lookbehind)」について紹介します。 正規表現の「位置へのマッチ」 正規表現は、文字列のパターンマッチに使われます。たとえば [0-9]{4} は数字4つが並ぶ文字列にマッチする表現です。 多くの正規表現は「文字列」にマッチしますが、「文字列」ではなく「位置」にマッチする表現があります。これは、アンカーと呼ばれます。また、長さ0の文字列にマッチすると考えて、ゼロ幅アサーションとも呼ばれます。 アンカーの例として、^(先頭)$(末尾)\b(単語の境界)などがあります。 この例では、cat にはマッチします。一方、category や concat は cat を含みますが前後が単語の境界になっていないためマッチしません。 先読み 先読み(lookahead)は、位置にマッチする記法の一種です。位置の指定に正規表現を使います。(?=

    正規表現の先読み・後読み
  • 正規表現:悪い表現、いい表現、最良の表現 | POSTD

    わずかな文字がいかにしてパフォーマンスに大きな違いを生めるかというお話 正規表現は、私たち開発者がことあるごとに駆使する呪文のようなものですが、私たちはそれをどんな時も巧みに使いこなしていると言えるでしょうか。正規表現は繊細で精密な言語です。入念な慎重さで記述してやれば、ボウリングで一瞬にして完璧なストライクを取るような強力なテキストとなり得ます。 しかし、正規表現が精密さに欠ける状態で投げ出されると、さながら酔っ払いがよろよろとつまずきながらテキストの上を歩くがごとく、そのボールはぎこちなくボウリングのレーンを転がり、ピンを1つか2つ倒すだけで終わってしまうのです。 これら2つの正規表現の違いは何なのか。何がいい表現と悪い表現を分けるのか。正規表現に素晴らしい力を与えるメカニズムを、この投稿で明かしてみようと思います。効果的な表現とそうでない表現との大きな違いをきっと分かってもらえるはず

    正規表現:悪い表現、いい表現、最良の表現 | POSTD
  • よく使う正規表現はもうググりたくない! - Qiita

    タイトル通りによく使う正規表現を毎回ググるのが効率悪いのでまとめてみました。各言語で正規表現のサンプルを書いてみました。 正規表現式 Emailアドレス ^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$ ドメイン名 ^[a-zA-Z0-9][a-zA-Z0-9-]{1,61}[a-zA-Z0-9]\.[a-zA-Z]{2,}$ インタネットURL ^(http|https)://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$ ユーザー名 (Twitter username) ^[a-zA-Z0-9_\-.]{3,15}$ 固定電話 ^0\d-\d{4}-\d{4}$ 携帯電話 ^(070|080|090)-\d{4}-\d{4}$ IP電話 ^050-\d{4}-\d{4}$ フリーダイヤル ^0120-\d{3}-\d{3}

    よく使う正規表現はもうググりたくない! - Qiita
  • 自然言語処理における前処理の種類とその威力 - Qiita

    自然言語処理に前処理は不可欠です。テキストは文字の羅列であり構造化されていないため、そのままでは処理するのが難しいです。特にWebテキストの中には HTMLタグ や JavaScript のコードといったノイズが含まれています。このようなノイズは前処理して取り除かなければ期待する結果は得られないでしょう。 出典: Deep learning for computational biology 記事では自然言語処理における前処理の種類とその威力について説明します。説明順序としては、はじめに前処理の種類を説明します。各前処理については、1.どんな処理なのか、2.なぜその処理をするのか、3.実装方法(なるべく) という観点から説明します。種類について説明した後、前処理の威力を測るために前処理をした場合としなかった場合での文書分類の結果を比較します。 前処理の種類と実装 この節では以下に示す5つ

    自然言語処理における前処理の種類とその威力 - Qiita
  • Speee DEVELOPER BLOG

    2023-12-05 事業をもっと速く大きく推進するための巻き込みとカルチャー浸透 株式会社Speeeのイエウール事業部でプロダクトマネージャーをしている酒井(@ryo-touch)です。 この1年で「巻き込み力を高めることによって、もっと速く大きく事業を推進できる」「カルチャーの土台があることによって強い巻き込みができる」という気付きが… #プロダクトマネジメント #考え方 #コミュニケーション #PM #PdM 2023-12-03 Terraformリポジトリがモノレポから分散レポになってもう一度モノレポに戻ってくるまで インフラ・ネットワーク 記事はterraformのカレンダー | Advent Calendar 2023 - Qiitaの3日目の記事です。 昨日の記事はgithub actions(w/z composite) + setup-terraform in 202

    Speee DEVELOPER BLOG
  • 「文字の学校」インデザインの正規表現 | 記事一所に

  • 鬼車 正規表現

    サービス終了のお知らせ いつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。 お客様がアクセスされたサービスは日までにサービスを終了いたしました。 今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

  • 正規表現を解析して可視化してくれるサイトが凄すぎる件

    ある正規表現に対して、特定の文字列がマッチするかどうかをチェックするツールやサイトは沢山ありますが、正規表現そのものが何を意味しているのか、どんな文字列を期待しているのかを解析・解読・説明してくれるツールやサイトってなかなか見ない気がします。 他人の書いた正規表現を見て、「ん?」ってなったことはありませんか? 例えばこれ。 1 ^[a-zA-Z0-9-_.]@([a-zA-Z0-9_-]+\.)+[a-zA-Z]{2,4}$ これくらいなら分かりますが、複雑になってくるとつらい… いつかはマスターしたいけど…今は楽したい。 そう思ってググってみると…ありました! それがこちら。 Regexper http://www.regexper.com/ 正規表現を入力して Display をクリックすると、その正規表現が表す内容を図にして表示してくれます。 例えば先程の正規表現は、当記事の一番上の

    正規表現を解析して可視化してくれるサイトが凄すぎる件
  • 正規表現入門 星の高さを求めて

    第13回日情報オリンピック(JOI2013/2014)春季トレーニング合宿での講義資料です. http://www.ioi-jp.org/camp/2014/2014-sp_camp-rules.html 【概要】 正規表現とはパターンマッチングのための記法であり,文字列検索の便利な道具として広く親しまれています.この講義では,正規表現の基礎から始め,「星の高さ」という性質に注目して正規表現の裏側に潜む数理構造に迫っていきます.1960年代から未解決である「星の高さ問題」に浪漫を感じてもらえると幸いです.

    正規表現入門 星の高さを求めて
  • Perlメモ

    複数のプロセスでロック状態が異常であると判断し,そのうちの 1つがロックを解除したことにより,別のプロセスがロックしたにもか かわらず,先ほどロック状態が異常であると判断したプロセスによってこの正常なロッ クを解除されてしまう可能性があります. この方法の問題点は,異常なロック状態を解除する操作が正常なロック状態をも 解除できてしまうことにあります.逆に言えば,異常なロック状態を解除する操作に よって正常なロック状態を解除できなければ問題ないわけです.そのためにはどうす ればよいのか? 答えはロック状態が常に変化していけば よいということです.そして,これを実現するのに都合がよいのが rename による方法になります. 最初のスクリプトで説明しますと,ロックファイルが lockfile という 名前のときがロックが解除されている状態で,lockfile987654321 のよう に後ろに

    Perlメモ
  • 図解でみる正規表現入門  part31 - 文字列 の 否定

    正規表現 否定 文字列前のページ    次のページ いろいろな環境の中には、先読みの否定である (?! ) が 使えない環境があります。 このような環境では、 「ABC」 という文字列を含まない というような、文字列の否定をする正規表現を作るのは とても難しい作業になります ※ (?! ) が使える環境での作り方は こちら 。 では、例として、 以下のようなテキストにマッチする正規表現を考えてみましょう★ ・ テキストの先頭が AA から始まる ・ テキストの末尾が AA で終わる ・ 先頭の AA と、末尾の AA との間に挟まれた文字列の中には  AA が存在しない ちなみに、 "AAAAA" というテキストの場合、中に挟まれた文字列が  A の1文字だけなので、マッチするものとします ▽ マッチさせたいテキストの図 このような場合、 まず、以下のように正規表現に使えそうなパーツを書き

  • 正規表現サンプル(HTMLタグを削除する(記号で囲まれた文字の削除))

    Hello! 上記のようにHTMLタグをすべて削除したい場合にこの正規表現を使用できます。 タグの中に改行が含まれているとうまく削除できません。 タグの中にタグが含まれている場合もうまく削除できません。 正規表現の書き方 上記の文字をそのままテキストエディターの置換画面に入力してください。 (検索文字列と置換文字列の両方を入力してください。) 置換文字列は空です。(削除するという意味になります。) 「正規表現を使用する」にチェックを入れるのを忘れずに。 正規表現の説明 「<」と「>」はそのまま文字として解釈されます。 「.」は文字(どんな文字でも)を表します。 「.+」は.が1つ以上続くことを表します。 「?」は最小マッチングといい、余計に広くマッチするのを防ぐ為の文字です。 囲み文字(「<」「>」)を変更するとHTML以外にも対応できます。 ただし「()

  • Rails で、Controller に定義されている action を一度に取得する方法はありますか? - QA@IT

    平素よりQA@ITをご利用いただき、誠にありがとうございます。 QA@ITは「質問や回答を『共有』し『編集』していくことでベストなQAを蓄積できる、ITエンジニアのための問題解決コミュニティー」として約7年間運営をしてきました。これまでサービスを続けることができたのは、QA@ITのコンセプトに共感をいただき、適切な質問や回答をお寄せいただいた皆さまのご支援があったからこそと考えております。重ねて御礼申し上げます。 しかしながら、エンジニアの情報入手方法の多様化やQAサービス市場の状況、@ITの今後のメディア運営方針などを検討した結果、2020年2月28日(金)15:00をもちましてQA@ITのサービスを終了することにしました。 これまでご利用をいただきました皆さまには残念なお知らせとなり、誠に心苦しく思っております。何とぞ、ご理解をいただけますと幸いです。 QA@ITの7年間で皆さまの知識

    Rails で、Controller に定義されている action を一度に取得する方法はありますか? - QA@IT
  • 漢字を探す正規表現: 環榴台分所

  • 手を動かしながら覚える正規表現<置換処理編>

    文字列の検索や文字列の書式チェックに使うだけでも正規表現は便利なのですけど、置換の際にも使えるようになると、正規表現を何倍も便利に感じられます。 多機能なテキストエディタであればたいていは正規表現を用いた置換をサポートしています。プログラミングする方だけでなくテキストエディタで文章を書いている方にとっても便利な道具となりますので、正規表現による置換処理をぜひ身につけていって下さい。 なお、このページは基礎入門編を読み終えた方を想定しております。正規表現について分からないことがあればそちらをご覧下さい。 登場した正規表現はリファレンスにまとめてあります。まとめて振り返る時などはこちらをご覧下さい。 まずは基から。単純な文字列置換を紹介します。置換では「マッチパターン」と「置換文字列」の二つを指定することになります。例えば「ください」を「下さい」に置換する場合、マッチパターンと置換文字列はそ

  • EPUB版『InDesign者のための正規表現入門』頒布はじめました。 - 名もないテクノ手

    InDesignを使って正規表現の基礎と実例が学べるテキストです。EPUBフォーマット*1になっていますので、多くのEPUBリーダー上で閲覧できます。 目次 目次は以下のとおりになっています。 InDesign者のための正規表現入門 はじめに 基礎編 正規表現とは何か? 正規表現で何ができる? ■初めての正規表現検索 メタ文字とは? メタ文字を攻略する ■文字を表すメタ文字 ■位置を表すメタ文字 ■繰り返しを表すメタ文字 ■その他のメタ文字 ■メタ文字をそのものを表すには 「先読み」と「戻り読み」テクニック ■先読み ■戻り読み ■補足 陥りやすい罠 ■欲張りなマッチ ■否定文字クラス ■方言 正規表現の考え方 正規表現スタイルについて InDesign独自の正規表現 ■独自のメタ文字表現 ■改行文字 ■全角半角の区別 ■POSIXブラケット表現 実技編 マーキング済みのテキストに段落スタ

    EPUB版『InDesign者のための正規表現入門』頒布はじめました。 - 名もないテクノ手
  • RegEx PlugIn | DJT Organisationsberatung

    RegexPlugIn is a Plug-In for FileMaker which enables FileMaker users to work with regular expressions. It works with FileMaker 8 or higher on Microsoft Windows or MacOS X on Intel (requires 10.4 or higher). FileMaker Version 14 works using the 32-bit version. Support of 64-bit is in progress! + D o w n l o a d + + + + + + + + RegexPlugIn is available as a ZIP archive from RegexPlugIn for Mac and R

  • 正規表現の先読みと後読みはどっちがどっちだかわかりにくいんだよ!(追記あり) - chalcedony_htnの日記

    といつも思うので、自分用にメモすることで覚えようという魂胆です。 以下はInDesign CS4の正規表現について記述します(たしかCS3から使えたような気がする)。 結論から 名前 英語で 位置 演算子 後読み lookbehind マッチパターンより前の部分 (?<=) 肯定 (?<!) 否定 先読み lookahead マッチパターンより後の部分 (?=) 肯定 (?!) 否定 肯定の場合はパターンの前が「=」、否定の場合は「!」。 英語を見ると「後読み」「先読み」の訳語も納得できそうな気はするのですが、やっぱりわかりにくいです。背後と前方……とか言うとまた混ざるし! 「つぎの電車」と「こんどの電車」はどっちが早く発車するかみたいな感じに似ていますな。 別に演算子さえ覚えてしまえば名前は意識しなくてもよさそうなのですが、せっかくInDesignには正規表現の記述支援機能がついてるので

    正規表現の先読みと後読みはどっちがどっちだかわかりにくいんだよ!(追記あり) - chalcedony_htnの日記
  • InDesign居残り補習室 正規表現スタイルで単語間スペースを縮める その2

    前回のエントリ正規表現スタイルで単語間スペースを縮めるの続きです。 InD-Boardにて、梅花藻さんのレスが素晴らしかったのと、前回エントリ内で例示した正規表現の修正を兼ねて。 スペースの文字幅を縮めるための文字スタイル。 数字と単位の単語間スペースは普通の欧文スペースを入れておき、全角字形+16.6%に。 で、こちらが戻し置換用。標準字形+100%のスタイル。 戻し置換したい単語間スペースは和欧混植の度合いにもよりますが、いろんなパターンが出てくることが考えられます。 そこで、場合によっては戻し置換なしである程度決め打ちしたほうが良い場合もあると思います。 ここでは、戻し置換した方が効率が良い場合を想定し、そのための正規表現として例示させていただきます。 (?i) にて大文字・小文字の区別をOffにしています。検索パターンはスペースの直後に単語を記述。 この、スペース+単語のパターンを

  • 正規表現サンプル集

    今日の正規表現Tips (2008/10/05) \d 0〜9の数字を表す正規表現です。 \D 数字以外を表す正規表現です。 正規表現では小文字が大文字になると反対の意味を持ちます。 ツール 正規表現チェッカー 正規表現Tips集 Tips その1 Tips その2 テキスト編集で役立つ『正規表現のサンプル集』を詳しい説明つきで紹介。 正規表現を使ってテキスト検索&置換して仕事の効率アップを図ろう。 ≪ メニュー ≫ 1.正規表現とはなにか? 2.正規表現を使う準備 3.正規表現サンプル集【検索編】 4.正規表現サンプル集【置換編】 5.正規表現のお勉強との紹介 6.エディタの強調表示でテキストに色づけ 7.プログラムで正規表現を使う 8.正規表現サンプルリクエスト