並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 3976件

新着順 人気順

正規表現の検索結果41 - 80 件 / 3976件

  • 正規表現の機能の覚書き

    はじめに「はじめての正規表現」がホッテントリ入りしていますが、 導入としては、何に使うのかがわかりやすくて良いのではないかと思います。 あれを見て、基本機能をまとめてみたくなったので、正規表現の基本的な機能について書いてみます。 (正規表現が初めてという人は「はじめての正規表現」を先に見たほうがいいと思います。) 例では「検索」か「置換」をするものとして話を進めていきます。 (「はじめての正規表現」が実例を中心にしたのに対して、こちらは機能を中心に書きます) 正規表現は、プログラミング言語やその他のツールなど、それぞれで微妙な違い(方言)があるので、その点には注意が必要です。 (表記法が違ったり、ここに紹介する機能がサポートされていなかったり、逆に紹介していない機能をサポートしていたりする場合があります) メタ文字とリテラル文字正規表現には、メタ文字とリテラル文字というものがあります。 メ

      正規表現の機能の覚書き
    • Rubular: a Ruby regular expression editor and tester

      Rubular is a Ruby-based regular expression editor. It's a handy way to test regular expressions as you write them. To start, enter a regular expression and a test string. Or you can try an example.

        Rubular: a Ruby regular expression editor and tester
      • プログラマが知っておくべき100のVimコマンド

        上記ページを見て、vimコマンド覚えるぜ!と意気込んで訳しながら試してみた。fmt は日本人じゃあまり使わないよなー、とか read/write file と Case の欄は初めて見るコマンドばっかだなーとか。そんな感じ。 Search

          プログラマが知っておくべき100のVimコマンド
        • 正規表現をわかりやすく視覚化してくれる『REGEXPER』 | 100SHIKI

          おっと、これは便利かも。 REGEXPERを使えば、JavaScriptの正規表現をわかりやすく表現してくれる。 一見、難解な正規表現だが、これを通しても見ると「なるほど、この文字とこの文字にはされまれていて、この間は何の文字でも良いのだな」といったことがわかるようになる。 他の人のコードを読んでいて「?」となったときに試してみてもいいかもですな。

            正規表現をわかりやすく視覚化してくれる『REGEXPER』 | 100SHIKI
          • JavaScript正規表現メモ。 (JavaScriptでよく使う書き方。) - こせきの技術日記

            タイトル変えました。旧タイトル「JavaScriptでよく使う書き方」。よく使うけど毎回忘れる。 正規表現にマッチするかどうか。 RegExp#testを使う。 /abc/.test("abcdefg") // => true String#searchはマッチした位置を返す。マッチしない場合は-1。先頭にマッチすると0でfalseなので注意。真偽値が欲しい場合はString#searchを使わない。 "abcdefg".search(/xxx/) // => -1 "abcdefg".search(/def/) // => 3 "abcdefg".search(/abc/) == false // => true 正規表現の部分マッチを得る。 部分マッチを得るには、RegExp#execかString#matchを使う。execとmatchの速度は大して変わらない。 正規表現のベンチマー

              JavaScript正規表現メモ。 (JavaScriptでよく使う書き方。) - こせきの技術日記
            • tappli blog: Googleアカウントを消されてしまった話

              先日、普段使っていたGoogleアカウントを突然消されてしまいました。 使っていたサービスは、メール、カレンダー、リーダー、Google+、Android Developer、ドライブ、Play storeなどなど。 もう生活の一部でした。 変だな、と思ったのは5/31の朝のことでした。 使っていたAndroid端末でGoogle関連のアプリが使用できなくなっていたのです。 ブラウザからログインしてみると、「削除」されたことが書かれていました。 しかも理由は「違法な性的コンテンツが含まれるため」とのことでした。 心当たりがなかったので、「削除が間違いだと思う人用のリンク」から問い合わせを行おうと考えました。 しかし、そのページがエラーで利用できませんでした。 やむを得ず、Googleに電話をかけてみました。 もうあまり覚えていないのですが、自動応答の音声にしたがってボタンを押していくと、電

              • サンプルコードによるPerl入門

                文字列 数値をASCII(アスキー)コードに対応する文字に変換するには、chr関数を使用します。 #!/usr/bin/perl use strict; use warnings; # ASCII文字コードでは65,66,67はそれぞれ 'A','B','C'に対応する。 my $a_num = 65; my $b_num = 66; my $c_num = 67; print chr( $a_num ), "\n"; print chr( $b_num ), "\n"; print chr( $c_num ), "\n"; __END__ 続きを読む

                • 業務で楽するためのUNIXテクニック集 まずはおさらい、シェル制御構造と正規表現の基礎:CodeZine

                  CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

                    業務で楽するためのUNIXテクニック集 まずはおさらい、シェル制御構造と正規表現の基礎:CodeZine
                  • ChatGPTのヤバさは、論理処理が必要と思ったことが確率処理でできるとわかったこと - きしだのHatena

                    ChatGPTのヤバいところは、論理処理が必要だと思っていたことが、じつは多数のデータを学習させた確率処理で解決可能だと示したことだと思います。 たとえば、このように正規表現にマッチする文字列を生成するには、特別に専用の論理処理が必要だと思っていました。 前のブログのときには特殊処理が必要だと考えてましたね。 ウソはウソと見抜ける人じゃないとChatGPTを使うのは難しい - きしだのHatena けど、123_45678world.mdはマッチするのにマッチしないと言っているので、そのような誤りが入ることを考えると、どうも確率処理だけでやっているようです。 考えてみると、3層以上のニューラルネットであれば論理素子を再現できるので、ディープラーニングで論理処理を模倣することは可能なんですよね。 バックプロパゲーションでニューラルネットの学習 - きしだのHatena そもそも論理は、多数の

                      ChatGPTのヤバさは、論理処理が必要と思ったことが確率処理でできるとわかったこと - きしだのHatena
                    • 文字列アルゴリズムの学びかた - Hatena Developer Blog

                      こんにちは!はてなアプリケーションエンジニアの id:takuya-a です。 みなさんは、このような疑問をもったことはありませんか? grep はどのように文字列を検索しているのか? MeCab はどうやって辞書を高速にルックアップしているのか? パーサやコンパイラを作りたいけど、何から始めればいいのか? 本稿では、「文字列アルゴリズムとはどんなものなのか?」「なぜ重要なのか?」「何を知っておくべきか?」「どうやって勉強すればいいのか?」といった疑問にお答えしていこうと思います。 文字列アルゴリズムの意外な応用や、モチベーションを保ちやすい勉強のしかた、文字列アルゴリズムを勉強するために行った社内での取り組み、実装するときのコツといったトピックについても触れています。 このエントリは、はてなエンジニアアドベントカレンダー2016の22日目の記事です。昨日は id:syou6162 さんに

                        文字列アルゴリズムの学びかた - Hatena Developer Blog
                      • もし『よくわかるPHPの教科書』の著者が徳丸浩の『安全なWebアプリケーションの作り方』を読んだら - ockeghem's blog

                        たにぐちまことさんの書かれた『よくわかるPHPの教科書(以下、「よくわかる」)』を購入してパラパラと見ていたら、セキュリティ上の問題がかなりあることに気がつきました。そこで、拙著「体系的に学ぶ 安全なWebアプリケーションの作り方(以下、徳丸本)」の章・節毎に照らし合わせて、「よくわかる」の脆弱性について報告します。主に、徳丸本の4章と5章を参照します。 4.2 入力処理とセキュリティ 「よくわかる」のサンプルや解説では、入力値検証はほとんどしていません。しかし、入力値検証をしていないからといって即脆弱かというとそうではありません。徳丸本でも強調しているように、入力値検証はアプリケーション要件(仕様)に沿っていることを確認するもので、セキュリティ対策が目的ではないからです。 「よくわかる」の中で、私が見た範囲で唯一の入力値検証は、郵便番号のチェックをするものです。以下に引用します(「よくわ

                          もし『よくわかるPHPの教科書』の著者が徳丸浩の『安全なWebアプリケーションの作り方』を読んだら - ockeghem's blog
                        • PHPでのセキュリティ対策についてのメモ - Liner Note

                          • Stack Overflow

                            Collectives™ on Stack Overflow Find centralized, trusted content and collaborate around the technologies you use most. Learn more about Collectives Teams Q&A for work Connect and share knowledge within a single location that is structured and easy to search. Learn more about Teams

                              Stack Overflow
                            • PHP コード最適化 Best Practices 63+ - カタコト日記

                              みたいなタイトルの記事を Digg 経由で発見。チートシート代わりにと思い超訳。*1 A Software Architect PHP 最適化 ベストプラクティス! 01. static にできるメソッドは static として宣言しよう。(4倍速い) 02. echo の方が print より速い。 03. echo '文','字'; (カンマ区切り)の方が、'文'.'字' (ドット連結)より速い。 04. ループの最大値は、ループ「内」ではなく「前」にセットしておこう。 05. 大きい配列のような変数は unset() してメモリを解放しよう。 06. マジックメソッド(例: __get, __set, __autoload)は使用を避けよう。 07. require_once はハイコストなのです。 08. include や require でファイルはフルパスで指定しよう。 09

                                PHP コード最適化 Best Practices 63+ - カタコト日記
                              • 正規表現まとめサイト | エンタープライズ | マイコミジャーナル

                                Smashing Magazine - WE SMASH YOU WITH THE INFORMATION THAT WILL MAKE YOUR LIFE EASIER, REALLY. 文字列を処理するにあたって正規表現は欠かせない機能といえる。任意の文字列やテキストファイル、HTML/XMLから特定のキーワードを検索したり取り出し、置換をおこなうにあたって、正規表現が使えると使えないのとでは、プログラミングの手間やツールの活用度合いが変わってくる。 正規表現は便利で強力な機能だが、その独特の表記方法はプログラマ初心者には敷居の高いものでもある。Glen Stansberry氏による正規表現に関するチュートリアルや資料、ツールなどのまとめがSmashing MagazineにEssential Guide To Regular Expressions: Tools and Tutori

                                • Perlメモ

                                  複数のプロセスでロック状態が異常であると判断し,そのうちの 1つがロックを解除したことにより,別のプロセスがロックしたにもか かわらず,先ほどロック状態が異常であると判断したプロセスによってこの正常なロッ クを解除されてしまう可能性があります. この方法の問題点は,異常なロック状態を解除する操作が正常なロック状態をも 解除できてしまうことにあります.逆に言えば,異常なロック状態を解除する操作に よって正常なロック状態を解除できなければ問題ないわけです.そのためにはどうす ればよいのか? 答えはロック状態が常に変化していけば よいということです.そして,これを実現するのに都合がよいのが rename による方法になります. 最初のスクリプトで説明しますと,ロックファイルが lockfile という 名前のときがロックが解除されている状態で,lockfile987654321 のよう に後ろに

                                    Perlメモ
                                  • OLの事務vim日記 - 藻ログ

                                    4月から都会でOLとして働き始めたので, OL的windowsの事務処理環境を手探りで作ってみました. OLとWindows 事務処理といえばOffice, 当然Windowsで行うことになります. 今時のOLは家ではLinuxを使っているはずなので, 自然とシェル環境で困ることになります. Windowsが本当にわからない linuxコマンド使いたい(DOS音痴) Cygwinは嫌い MinGW+MSYS にしてみたい(けど未だによくわかってない) 事務PCなので, 大掛かりな環境は入れたくない(入れられない) WSL ? そもそも Windows7 なので(ry) などのモチベーションから 色々見ていてcmderが良さそうだなと思ったのですが cmder.net 所属機関でフィルタされて落とせなかった(つらい)ので, ConEmu + msys bash の組み合わせで端末環境を整える

                                    • GithubのWeb開発用エディタ「Atom」が、いつの間にか進化し過ぎている件! | シェアしたくなる最新のWebサービス・ITニュース情報をチェック! APPGIGA!!(アプギガ)

                                      このドメインは、お名前.comで取得されています。 お名前.comのトップページへ Copyright © 2020 GMO Internet, Inc. All Rights Reserved.

                                        GithubのWeb開発用エディタ「Atom」が、いつの間にか進化し過ぎている件! | シェアしたくなる最新のWebサービス・ITニュース情報をチェック! APPGIGA!!(アプギガ)
                                      • 新しくプログラミング言語を覚えたいときに行うべき10の練習問題 | IDEA*IDEA

                                        ドットインストール代表のライフハックブログ

                                        • http://higashizm.sakura.ne.jp/reg/

                                          • JavaScriptでうっかりやってしまいそうなこと色々

                                            こんにちは、中川です。 今回はJavaScriptで開発していると、うっかりハマってしまうちょっとした罠たちを紹介したいと思います。 JavaScriptでの開発経験者であれば、どれか一度はひっかかったことがあるのではないでしょうか? String ●String#replace()は文字列指定では全部置き換えない 対象文字列を一括して置き換えたいなどでString#replace()を使いますが、 検索対象を文字列で指定してしまうと最初に一致した部分しか置換しません。

                                            • Yahoo!Pipesの使い方(全モジュール解説)

                                              • JavaScript における文字コードと「文字数」の数え方 | blog.jxck.io

                                                Intro textarea などに入力された文字数を、 JS で数えたい場合がある。 ここで .length を数えるだけではダメな理由は、文字コードや JS の内部表現の話を理解する必要がある。 多言語や絵文字対応なども踏まえた上で、どう処理するべきなのか。 それ自体は枯れた話題ではあるが、近年 ECMAScript に追加された機能などを交えて解説する。 なお、文字コードの仕組みを詳解すること自体が目的では無いため、 BOM, UCS-2, Endian, 歴史的経緯など、この手の話題につき物な話の一部は省くこととする。 1 文字とは何か Unicode は全ての文字に ID を振ることを目的としている。 例えば 😭 (loudly crying face) なら 0x1F62D だ。 1 つの文字に 1 つの ID が割り当てられているのだから、文字の数を数える場合は、この ID

                                                  JavaScript における文字コードと「文字数」の数え方 | blog.jxck.io
                                                • アドビ―Dreamweaverデベロッパーセンター

                                                  Enhance and extend DreamweaverDreamweaver provides its own API as well as the Common Extensibility Platform (CEP), and offers you the flexibility of using C++, HTML, CSS, and JS to build extensions for Dreamweaver. You can extend the Dreamweaver UI, add powerful features for building web apps and automate entire cross-application workflows. Build custom web development toolsImport database data in

                                                  • 今日のCPANモジュール(跡地) 目次

                                                    Redirecting… Click here if you are not redirected.

                                                    • これだけでGoogle検索の達人になれる便利すぎる検索演算子ベスト10 - SEO Japan|アイオイクスのSEO・CV改善・Webサイト集客情報ブログ

                                                      無料で資料をダウンロード SEOサービスのご案内 専門のコンサルタントが貴社サイトのご要望・課題整理から施策の立案を行い、検索エンジンからの流入数向上を支援いたします。 無料ダウンロードする >> パーソナライゼーションやアルゴリズムの進化で検索者の考えていることを勝手にある程度予想して答えを出してくれるようになってきたGoogle、一昔前のGoogleと比べてもローカル検索からGoogle Nowまで超絶な進化を遂げています。検索時のちょっとしたテクニック的な技は進化するGoogleの前にその必要性も失われつつありますが、特定用途の検索をしたい時にはまだまだ使えるテクニックも多数存在します。今回は改めて代表的な検索演算子をまとめた記事を紹介します。とりあえずこれだけ覚えておけば、あなたも一端の検索マスターは名乗れるかも。 — SEO Japan グーグルは、全力で検索を改善する取り組みを

                                                        これだけでGoogle検索の達人になれる便利すぎる検索演算子ベスト10 - SEO Japan|アイオイクスのSEO・CV改善・Webサイト集客情報ブログ
                                                      • 全てのプログラマが読むべき本 まとめ

                                                        全てのプログラマが読むべき本 まとめ は、2010 年 11 月 23 日に投稿された 全てのプログラマが読むべき本ベスト10冊 - とみー を発端とする、多くの技術者(ソフトウェアエンジニア) が「全てのプログラマが読むべき本」や「プログラマにおすすめする良書」と言うテーマで執筆した記事の中から、 プログラミングやソフトウェア開発に役立つ推薦書籍を集計してランキング形式でまとめた Web サイトです。 独学でプログラミングを勉強しようと考えている初心者、初学者等が、書籍を選ぶ際の参考としてご利用下さい。 尚、上記期の間以外に公開された記事でも、同様の趣旨で執筆されたものについては集計の対象としています。

                                                        • .htaccess の書き方

                                                          .htaccess とは.htaccess のルールファイル名コメントアウト文字コードと改行httpd.conf転送と有効範囲正規表現Apache のモジュールと .htaccess で利用可能なディレクティブモジュールとディレクティブ一覧HTTP環境変数後方参照RewriteRuleの後方参照RewriteCondの後方参照まとめ.htaccess とは[1] Apache HTTP Server Webサーバソフトウェアが "Apache" である必要があります。 .htaccess とは、Webサーバの動作を制御するための設定ファイル [1] です。設定例としては、特定のファイルやディレクトリのアクセスを禁止したり、HTTP 404(Not Found:未検出)エラーページをカスタマイズすることもできます。.htaccess は設置しなくともWebサイトは問題なく動作しますが、セキュ

                                                            .htaccess の書き方
                                                          • 200ページ超え!LPICの完全無料「Linux入門テキスト」をまだ知らない人は絶対損してる!

                                                            最近Linuxに触れる機会が多くなってきたので、そろそろ時間を割いて勉強でもしようかとネットで検索していたら、意外な事実を知りました…。 日本には、素晴らしい教材があったんですね…。 その名も「Linux標準教科書」。 「Linuxとは…」から始まり、基本的なコマンドの使い方から「ファイル操作」「シェルスクリプト」「Vim操作」「ネットワーク管理」など、基本的な知識が無料で公開されています。 どうやって入手するの?この教材は、Linux技術者認定試験を運営する「LPICの公式サイト」からダウンロードできるようになっています。 そのため、すでにご存知の方も多いと思うのですが、私のようにまだ知らない人もいるのでは…? と思ったのでご紹介しておきます。 入手方法は簡単で、「Linux標準教科書」のダウンロードサイトにアクセスして、「PDFダウンロードリンク」をクリックします。 あとは、名前とメル

                                                              200ページ超え!LPICの完全無料「Linux入門テキスト」をまだ知らない人は絶対損してる!
                                                            • 株式会社ALBERT(レコメンドエンジン)

                                                              データ分析から導き出されたインサイト無しにAI(人工知能)の活用は始まりません。私たちは、各業界知識とデータ・アナリティクス技術を駆使しデータドリブン経営を強力に支援します。 データ、アナリティクス、AIは企業にとって競合他社との差別化を図るかつてないほど大きな要因になっています。今日の経営幹部が効率を向上しながら新たな収益源を開拓し、新しいビジネスモデルをタイムリーに構築する方法を模索する中、価値を生み出し成長を続ける企業には「データ活用」という共通項があります。私たちは、無数のデータから企業にとって本当に必要なデータを活用するための方法を知っています。 将来を見据えたオペレーション体制を備えている企業の半数以上(52%)は、すでにデータとアナリティクスを大規模に活用しています。データとAIに関する取り組みをビジネス戦略に沿って実施することで投資利益率を迅速に最大化し、最終的にはAIをビ

                                                                株式会社ALBERT(レコメンドエンジン)
                                                              • 正規表現の先読み・後読み

                                                                正規表現の「先読み(lookahead)」「後読み(lookbehind)」について紹介します。 正規表現の「位置へのマッチ」 正規表現は、文字列のパターンマッチに使われます。たとえば [0-9]{4} は数字4つが並ぶ文字列にマッチする表現です。 多くの正規表現は「文字列」にマッチしますが、「文字列」ではなく「位置」にマッチする表現があります。これは、アンカーと呼ばれます。また、長さ0の文字列にマッチすると考えて、ゼロ幅アサーションとも呼ばれます。 アンカーの例として、^(先頭)$(末尾)\b(単語の境界)などがあります。 この例では、cat にはマッチします。一方、category や concat は cat を含みますが前後が単語の境界になっていないためマッチしません。 先読み 先読み(lookahead)は、位置にマッチする記法の一種です。位置の指定に正規表現を使います。(?=

                                                                  正規表現の先読み・後読み
                                                                • 「メールアドレスのルール」系まとめがそろって間違ってるのでご注意を - 若くない何かの悩み

                                                                  メールアドレスのルールのまとめ系のサイトの内容が間違っています。 なので、この類のまとめは安易に信じないように 、という注意喚起をしておきます。 追記(2013/11/27) twitterやはてブをみていたところ、「ユーザーへの啓蒙という観点ではまとめの内容間違ってない」というご意見をたくさんいただきましたので、補足をしておきますね。 どうも「ルール」と「トラブルを避けるためのガイドライン」が混同されているように思います。まとめで紹介されている内容がユーザ向けの「ガイドライン」なのであれば、「+ 記号使わせてよ」ぐらいしか文句はありません。 ですが、ほとんどのまとめは上記の内容を「ルール」として説明しています。ひどいものにはRFCに基づいてまとめを書いたようにミスリードさせる記事もありました。このような現状を憂い、このような記事を書いたのです。 そもそもこれに気づいた発端は@kusano

                                                                  • Lessの便利な使い方

                                                                    最近 Stop using tail -f (mostly) や 「tail -f」を使うのは情弱、情強は「less +F」を使う などless押しな記事が幾つか上がっているんだけど、タイトルが煽り気味なのか若干反感を呼んでいるようなのでless派が職場で肩身の狭い思いをしないようにもう少し便利な使い方を紹介したい。 tail -fの様なScroll forward less +Fで起動またはless起動中にF 元記事にもあるtail -fと同様の振る舞い。正直この機能と検索だけでいいのであればtailで十分。lessの便利なところは様々な機能との組み合わせにあって、これから紹介する機能は基本的にこのモードと組み合わせが可能だ。あと、less開いてFのほうがタイプが面倒くさくないのでおすすめ。 1行で表示する (改行しない) less -Sで起動またはless起動中に-Sr(-Sでモード切

                                                                      Lessの便利な使い方
                                                                    • 【個人開発】正規表現を学ぶ狩りに出ませんか?モンスターを倒しながら正規表現が学べるゲーム「Regex Hunting」を作りました - Qiita

                                                                      【個人開発】正規表現を学ぶ狩りに出ませんか?モンスターを倒しながら正規表現が学べるゲーム「Regex Hunting」を作りましたRubyRails正規表現TypeScriptReact はじめに はじめまして! 個人開発者のハガユウキと申します。 突然ですが、皆さん正規表現はお好きですか? 私は好きです。「複数の文字列を一つのパターンで表現できる」部分にすごく面白味を感じています。 もっといろんな方に正規表現を知っていただきたい、好きになってほしいと思っています。 しかし、現状では2つの課題があると感じています。 正規表現の勉強自体がそもそも面白くない。 正規表現を勉強しても、しばらく使わないと忘れる。 この2つの課題を突破できるサービスは、現状存在しません。 そのため、楽しみながら正規表現を学べるサービスがあれば良いなと思いました。 作りました。 ▼スライド型正規表現学習ゲーム【Reg

                                                                        【個人開発】正規表現を学ぶ狩りに出ませんか?モンスターを倒しながら正規表現が学べるゲーム「Regex Hunting」を作りました - Qiita
                                                                      • Terminal Emulator Poderosa

                                                                        • Google Analyticsの意外と知られていない便利な裏技5選 | Moz - SEOとインバウンドマーケティングの実践情報

                                                                          この間、Google AnalyticsとGoogle Website Optimizerのトレーニングセミナー「Seminar for Success」にSEOmoz社員数人で参加してきた。参加者は全員、Google Analyticsについてそれなりに理解してはいるが、さらに上級者向けの情報を入手して、Google Analyticsの可能性について理解を深めたいと切に願っていた。加えて、何かのトレーニングを受けることは、たとえ自分がよく知っているつもりのものでさえ、必ず役立つものだ! セミナー初日は、Google Analyticsの紹介とユーザートレーニングが行われたが、私がまったく想像もしてなかった使い方のコツや戦術がたくさんあるということにすぐ気付かされた。そのうちいくつかについては、Google Analyticsにそんなものがあるということさえ知らなかったので、愚か者になっ

                                                                            Google Analyticsの意外と知られていない便利な裏技5選 | Moz - SEOとインバウンドマーケティングの実践情報
                                                                          • 新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転 改

                                                                            新はてブ正式リリース記念ということで。もうリリースから何週間も経っちゃったけど。 新はてなブックマークではブックマークエントリをカテゴリへと自動で分類しているが、このカテゴリ分類に使われているアルゴリズムはComplement Naive Bayesらしい。今日はこのアルゴリズムについて紹介してみる。 Complement Naive Bayesは2003年のICMLでJ. Rennieらが提案した手法である。ICMLというのは、機械学習に関する(たぶん)最難関の学会で、採択率はここ数年は30%を切っている。2003は119/371で、32.1%の採択率だったようだ。 Complement Naive Bayesの位置づけは 実装が簡単 学習時間が短い 性能もそこそこよい という感じで、2003年段階にあっても、絶対的な性能ではSVMに負けていた。しかし、学習が早いというのは実アプリケーシ

                                                                              新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転 改
                                                                            • なるべく短い正規表現で住所を「都道府県/市区町村/それ以降」に分けるエクストリームスポーツ - Qiita

                                                                              rex = /ごにょごにょ/ p "東京都文京区後楽1丁目3−61".match(rex).captures #=> ["東京都", "文京区", "後楽1丁目3−61"] みたいなやつ。なるべく短く。 実用性? そんなもの、うちにはないよ。 TL;DR 「読むのめんどくさい」という人用に最初に最終結果を置いておきます (...??[都道府県])((?:旭川|伊達|石狩|盛岡|奥州|田村|南相馬|那須塩原|東村山|武蔵村山|羽村|十日町|上越|富山|野々市|大町|蒲郡|四日市|姫路|大和郡山|廿日市|下松|岩国|田川|大村)市|.+?郡(?:玉村|大町|.+?)[町村]|.+?市.+?区|.+?[市区町村])(.+) あまり厳密ではないのでちゃんとしたとこでは使わないほうがいいです 住所データを用意する 郵便局からデータをダウンロードしておく。一ヶ月毎に更新されている。 → 郵便番号データ

                                                                                なるべく短い正規表現で住所を「都道府県/市区町村/それ以降」に分けるエクストリームスポーツ - Qiita
                                                                              • Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita

                                                                                「BigQueryは120億行を5秒でフルスキャン可能」は本当か? 先日、kaheiさんがGoogle BigQuery(Googleクラウドの大規模クエリサービス)について、こんなエントリを書いていた。 とにかくパフォーマンスがすごい。(Fluentd Meetupでの)プレゼン中のデモで、ディスクに収められた5億件のデータをSQLでフルスキャンするのに3秒しかかからない。9億件のデータを正規表現を含んだSQLでスキャンしても、7秒で終わる(これ、記憶がちょっとあいまい。もう少しかかったかも)。これには驚いた。佐藤さんがGoogleに入社して一番驚いた技術が、一般公開される前のBigQueryだったと言っていたが、その気持ちはわかる。 From Fluentd Meetupに行ってきました これを読んだ時、BigQueryの検索スピードについてちょっと補足したくなった。確かにFluent

                                                                                  Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita
                                                                                • りょうくんグルメの文体を自動でもとに戻すやつを作りました - 開け閉め

                                                                                  りょうくんグルメをご存知だろうか。知らなくても、本人のツイートの雰囲気は料理のレシピなんかで一度は見た文脈のはずだ。 こんなやつ。 まじでこの世の全てのタピオカ好きに教えてあげたいんだが新宿三丁目のceleb縁味には全ての人間を虜にする禁断のオレオミルクフォームがある。 これが濃厚黒糖で超絶美味いからぜひ全国のタピオカ好き、タピオカを愛する者たち、タピオカを憎む者たち、全てのタピオカ関係者に伝われ pic.twitter.com/wnnPvkJ2pr— りょうくんグルメ (@uryo1112) 2019年6月15日 「りょうくんグルメ」は文章が情報量に対してやたら長いので、pythonの練習も兼ねてアイデンティティである上から目線の構文を取り去ることにした。逆りょうくんグルメである。 手順は大雑把に分けて以下の3ステップ。 1. Twitterからりょうくんグルメのツイートをスクレイピング

                                                                                    りょうくんグルメの文体を自動でもとに戻すやつを作りました - 開け閉め