タグ

正規表現に関するvndnのブックマーク (4)

  • Pythonの正規表現

    Pythonの正規表現 「朔最新版」に寄せられたネタ。 http://~ が10回以上現れたらスパムと判定するような正規表現を書くとき、 (.+? http\:\/\/){10}.+? と書くとCPU負荷がすごいことになります。 (http://.+){10} と書くと普通です。 .+ が左側にあるのが駄目なのかな。 BNFだと左再帰とか右再帰とかあって、 うまく書かないと無限ループに陥るんですけど、 正規表現でもそんな感じの問題があるんですね。 原理的にはBNFの話とは違うと思いますが。 2006-07-15 23:55:04 コメントする この記事へのリンク

  • perl - 自動で /a|b|c/ を /[abc]/ にしてくれたら... : 404 Blog Not Found

    2006年06月16日00:00 カテゴリLightweight Languages書評/画評/品評 perl - 自動で /a|b|c/ を /[abc]/ にしてくれたら... 正規表現においては、/a|b|c/(alteration)は[abc](character class)にすべし、というのは、perlに限らない常識です。 Mastering Regular Expression Jeffrey E. Friedl [邦訳: 詳説 正規表現] qootas.org/blog - perl regex performance"|"(パイプ)を使った正規表現はめちゃくちゃ遅いから使わないように、ということです。確かにベンチマークを取ると32倍速いです。 どうせならPerl自身が内部で/a|b|c/を[abc]にしてくれたらと思ったことありませんか? 少なくとも、正規表現を仕事で使う

    perl - 自動で /a|b|c/ を /[abc]/ にしてくれたら... : 404 Blog Not Found
  • EUC の正規表現 - Ceekz Logs (Move to y.ceek.jp)

    最近は、ニュース検索に新たな機能を追加しようと試行錯誤しています。 EUC の文字列が文字化けしていないかどうかをチェックする必要がありました。チェック自体は難しくなく、単に EUC の範囲外の文字が含まれているかどうかを調べればよいのです。 EUC の 1byte 文字は、以下のように表現することが出来ます。というか、すべての ASCII 文字 はこれ。 [\x00-\x7F] しかし、よくよく考えると、この表現には制御文字も含まれているんですよね。なので、このままマッチさせると文字化けを発見することが出来ないわけです。なので、制御文字を除いてマッチさせるのが吉だと思う。 [\x20-\x7E] ということで、僕は、以下のように定義して文字化けが無いかどうかを調べています。 $euc = '[\x20-\x7E]|[\x8E\xA1-\xFE][\xA1-\xFE]|\x8F[\xA1-

  • 正規表現最新リンク集2005

    正規表現/文字コード最新リンク2005 [3000URL最新人気リンク発表][お報せ][開発管理運営者][サイトマップ] ★リンク追加希望はホムペ紹介掲示板へ | 文字主体の高速表示リンク集 | 紹介文付き ■:最近行ってない | ■:最近行った | ●リンク切れ最終チェック:2003/10/26 NEWSだ!(^o^)/ : 台風 - 地図検索 Start is Hello world : HSP - C - Borland - VB - DLL&OCX - Web開発 - DB - 正規表現 コミュニティ : 掲示板 - 市場 - 出会い  トレンド : 月別レシピ(その季節しか出ない) メモ帳(M)あります : 小説 - 料理 - 占い - ? - 辞書&文例 - HARD - SOFT - 政 - 名スレ ◆正規表現って何? ◆正

  • 1