somemoのブックマーク - はてなブックマーク

改善施策の効果検証はどうやるべきか？ - 渋谷駅前で働くデータサイエンティストのブログ

最近「効果検証」というキーワードを見聞きする機会が増えてきたので、僕のこれまでの経験に基づいてちろっと書いてみます。シンプルにA/Bテストをやる場合色々なところで既に言われていますが、独立性の検定*1一択でしょう。そもそも独立性の検定って、古典的な統計学の世界では予防接種が効いたor効かなかった工場のある工程への改善が効果があったorなかったといったテストに使われる手法なんですよね。これはどこからどう見てもその当時のA/Bテストそのものです。単にwebで全自動でできるかできないかぐらいの違いしかないです。ということで、例えばこういう例を考えてみましょう*2。 CVしなかった CVした CVR 施策打つ前 2892 447 13.3% 施策打った後 2422 439 15.3% 物凄くボリューム感が小さいんですが（笑）、そこは置いといて。さて、これは効果があったと言えるんでしょう

somemo 2020/12/23

リンク

機械学習のビジネス上の価値を「効果測定」して「数値評価」する方法 - 六本木で働くデータサイエンティストのブログ - 渋谷駅前で働くデータサイエンティストのブログ

(Image by Pixabay) 気が付けば、日本における第一次データサイエンティストブームから6年、人工知能ブーム開始から3年が経ったようです。意外と言っては何ですが、これまでのところ人工知能ブームも、そしてそれにブーストされた形で起こった第二次データサイエンティストブームも、まだまだ続くどころかどんどん加速していきそうな状況です。なのですが、これだけ統計学や機械学習のような高度なデータ分析技術がビジネスの現場に浸透するようになった現在でも、なぜかあまり多く見かけないものがあります。それは「機械学習（もしくは自動化された統計分析）によるビジネス上の成果を数値として示したもの」。意外かもしれませんが、個人的な観測範囲では例えば「Deep Learningを導入したら〇〇がXX%向上した」みたいなリリースや記事を見かけることは、正直なところ思った以上に少ないように思われます。それでも第

somemo 2020/12/23

リンク

RにTorchとLightGBMがやってきた - 渋谷駅前で働くデータサイエンティストのブログ

これまで、RとPythonは両方使える人が少なくないながらも開発陣やコミュニティの思想が違うせいもあってか、「Rは統計学向け」「Pythonは機械学習向け」的な住み分けが年々進み、特に機械学習関連の重要なフレームワーク・ライブラリ類はPython向けのみがリリースされることが多く、R向けにはリリースされないということが常態化している印象がありました。そんな中、この9月にPythonの機械学習OSSを代表する2つのライブラリが相次いでR版パッケージを発表したので、個人的にはなかなか驚きました。中には「この2つがRに来たからにはもうPythonは触らない」と豪語する過激派の方もいらっしゃるようですが（笑）、それはさておき個人的な備忘録としてこの2つのR版パッケージを試してみた記録を記事として残しておこうと思います。なお、以下のモデリングはほぼ何もチューニングを行っておりません。あくまでも「

somemo 2020/10/07

リンク

データサイエンティストの「真の実力」を測るための効果的な面接方法 - 渋谷駅前で働くデータサイエンティストのブログ

(Image by neo tam from Pixabay) 最近こんな記事が出ていたようですが、僕にとっては既視感満載の話題でした。何故かというと、実は現職に来る以前に既にここで書かれている面接方法を実務担当者面接の責任者として実践していたからです。ちなみにその方法は2013年ぐらい当時のテック系メディアで記事として取り上げられていたものなのですが、残念なことに現在どれほど検索してもその記事が見つかりません……。その内容自体はしばらく前に英語版Quoraに書いていたり*1もっと遡ればTwitterに書いたりしていたのですが、そう言えばブログには書いていなかったなと思い出したので、改めてブログ記事にしてみようと思います。なお、ここに書かれている内容は僕の現在の職務とは一切関係がないことを予めお断りしておきます。データサイエンティストに必要なのは「解決する力」であって「瞬発力」ではない

somemo 2020/09/25

リンク

機械学習の説明可能性（解釈性）という迷宮 - 渋谷駅前で働くデータサイエンティストのブログ

ちょっと前に、しょうもないことを某所で放言したら思いの外拡散されてしまいました。機械学習の説明可能性（解釈性）、大半のケースで求められているのは厳密な分類・回帰根拠ではなく受け手の「納得感」なので、特に実ビジネス上は説明可能性に長けたモデルを開発するより、納得できないお客さんを巧みに関係性構築した上で口八丁で完璧に説得できる凄腕営業ピープルを雇う方が重要— TJO (@TJO_datasci) 2019年11月23日これ自体は与太話なので実際どうでも良い*1のですが、最近色々な研究や技術開発の進展はたまた実務家による考察などを見ていて、「機械学習の説明可能性（解釈性）というのは思った以上に複雑な迷宮だ」と感じることがままあったのでした。ということで、今回の記事では僕のサーベイの範囲でザッと見て目についた資料などを超絶大雑把にリストアップした上で、主に実務における説明可能性とは何かとい

somemo 2019/12/21

リンク

2019年版：データサイエンティスト・機械学習エンジニアのスキル要件、そして期待されるバックグラウンドについて - 渋谷駅前で働くデータサイエンティストのブログ

(Image by Pixabay) この記事は、以前の同様のスキル要件記事のアップデートです。正直言って内容的には大差ないと思いますが、今回は2つ新たな軸を加えることにしました。一つは「ジュニアレベル（駆け出し）」と「シニアレベル（熟練職人）」とで分けるということ、もう一つは「データ分析以外の業界知識（ドメイン知識）」にも重きを置く、ということです。というのも、空前の人工知能ブームが予想よりも長く続いていることで、人材マーケットを観察する限りではデータサイエンティスト・機械学習エンジニアとも求人数が高止まりしているように見えるのですが、その結果としてこのブログの過去のスキル要件記事で挙げたような「完成されたデータ分析人材（熟練職人）」に限らず「駆け出し」でも良いからデータ分析人材が欲しいという企業が増えているように感じられるからです。その一方で、かつては主にwebマーケティング業界

somemo 2019/10/24

リンク

データサイエンティストや機械学習エンジニアに求められる「素質」とは何か - 渋谷駅前で働くデータサイエンティストのブログ

(Image by Pixabay) 某所で時々意見交換させていただいている@maskedanlさんが、面白い記事をnoteにupなさっていたので拝読しました。細かい内容は上記のリンク先から皆さんに直接お読みいただくとして、記事中で某所で僕が放言（笑）したことへのご質問をいただいていたのでした。それは、データサイエンティストや機械学習エンジニアといったデータ分析人材に求められる「素質」について、です。それは例えば統計学や機械学習はたまたプログラミングといった「スキル」や「素養」とも違う、言ってみれば性格的傾向とか仕事スタイルとかはたまた思想信条のような、もうちょっと属人的で曖昧なものだと思うのですが、個人的な経験からはその「素質」の有無がデータ分析職として育成した結果、ものになるかならないかを分けるように感じられています。ということで、あくまでも個人的経験に基づく範囲でデータサイエンテ

somemo 2018/08/26

“これだけ恵まれている状況にあっても「統計学や機械学習やプログラミングに興味がある」と言いながら、実際には学びたがらないという人は少なくありません。それはただの「勉強するする詐欺」です。”

リンク

不均衡データをundersampling + baggingで補正すると汎化性能も確保できて良さそう - 渋谷駅前で働くデータサイエンティストのブログ

弊社のランチゲストにお招きしたことのある[twitter:@tmaehara]さんが、こんなことをツイートしておられました。 imbalanced data に対する対処を勉強していたのだけど，[Wallace et al. ICDM'11] https://t.co/ltQ942lKPm … で「undersampling + bagging をせよ」という結論が出ていた．— ™ 🔰 (@tmaehara) 2017年7月29日不均衡(imbalanced)データのクラス分類における補正方法については、代表的な手法であるclass weight（損失関数に対して負例のコストを負例と正例の割合に応じて割り引くもの）のやり方を以前このブログでも取り上げたことがあります。ということで、ほんの触り程度ですがやってみようと思います。ちなみに計算負荷とか自分の手間とか色々考えて、基本的にはra

somemo 2017/08/12

“感想確かに、2通りの正例設定で試してみた感じだとclass weightよりはdownsampling + baggingの方がより汎化性能に優れた決定境界が得られそうだと思った次第” https://pdfs.semanticscholar.org/a8ef/5a810099178b70d1490a4e6fc4426b642cde.pdf

リンク

サンプリング時の最適なサンプルサイズをRパッケージ{pwr}で求める - 渋谷駅前で働くデータサイエンティストのブログ

最近、「ビッグデータ」というバズワードに対するアンチテーゼとして叫ばれるようになってきたのが、「統計学ってのは限られたサンプル（抽出）データから、まだ見ぬ全体像を知るためのもの」「だからビッグデータなんて苦労して集める必要はない、サンプリングされたデータだけで十分だ」という主張。えーと、半分はその通りだと思います。けれども、半分はそうでもないかなぁ、と。何故なら、レコメンダーとかSPAMフィルタなどのバックエンドシステム開発では、できれば全数データを使って可能な限り精度を上げ続けた方が良いものが多いからです。だからHadoop以下大規模分散処理などの高度な手法を沢山駆使しているわけで、そこでは依然として全数データは非常に重要です。一方、マーケティングなどでオフライン＆アドホックで分析する際には、そこまでやらんでもええやん的な状況は多くあります。手動でデータ分析したいんだけど、全数デ

somemo 2017/02/06

※も見る

リンク

効果量(effect size)のはなし - 渋谷駅前で働くデータサイエンティストのブログ

統計学的検定の話を始めたら自分の勉強の方が止まらなくなってしまったので（笑）、ついでにやってみようと思います。ちなみにこの記事は前回のやたらブクマを集めた記事の続きみたいなものです。そもそもビジネスの現場ではどういう「レベル」の統計学を使うべきなのか - 六本木で働くデータサイエンティストのブログ例えば有意ではないという結果になった時にそれが「実際に帰無仮説が真」なのか「単にサンプルサイズが小さくて検出力が足りないだけ」なのか判断せよという問題。前者なら果てしなくサンプルサイズを大きくしても有意にはならないし、後者なら今度は効果量(effect size)のことを考えなければいけません。というように前回の記事では検出力(statistical power)と効果量(effect size)について触れたんですが、タイムリーに先日の第36回TokyoRでその辺の話をしてきたので*1、そ

somemo 2017/01/12

リンク

実務の現場においてモデリング（統計学的・機械学習的問わず）を行う上での注意点を挙げてみる - 六本木で働くデータサイエンティストのブログ

気が付いたら僕がデータ分析業界に身を置くようになってそろそろ5年近くになるんですね*1。この5年間の間に色々勉強したり業界内で見聞してきた経験をもとに、「実務の現場においてモデリングを行う上での注意点」についてだらだらと書いてみようと思います。と言うのも、色々な現場で様々なモデリング（統計学的にせよ機械学習的にせよ）が行われていることが伝わってくるようになった一方で、ともすれば「え？こんな基礎的なポイントも守ってないの？」みたいなとんでもないモデリングがまかり通る現場があると愚痴る声を業界内で聞くことが少なくないので。自戒の意も込めて重要なポイントを備忘録としてブログ記事にまとめておくのも有益かなと思った次第です。この記事では手法選択（線形・一般化線形・ベイズ＋MCMC・識別関数・識別モデル・生成モデル・樹木モデル・Deep Learning etc.）の話題は割愛しました。一般に、モ

somemo 2016/12/28

コメ(´・ω・｀) “とりあえず手に入る特徴量になりそうなデータセットをありったけ突っ込む（そうしないと特徴次元が低過ぎる）みたいなケース”

リンク

RでL1 / L2正則化を実践する - 渋谷駅前で働くデータサイエンティストのブログ

L1 / L2正則化と言えば機械学習まわりでは常識で、どんな本を見てもその数式による表現ぐらいは必ず載ってる*1わけですが、そう言えばあまり実務では真面目にL1 / L2正則化入れてないなと思ったのと、Rでやるなら普通どうするんだろう？と思ったので*2、もはや周回遅れみたいな感じではありますが備忘録的に実践してみようかと思います。 L1 / L2正則化って何だっけということで復習（自分の記憶が合っているかどうかの確認）。。。PRMLにも載ってる有名な図がありますが、あれの説明が直感的には最も分かりやすいかと思います。これは重み付けベクトルが2次元の場合、つまりとを求めるという問題を想定した図です。もうちょっと言えば2次元データに対する分類or回帰問題ということで。基本的には分類器にせよ回帰モデルにせよ、学習データに対する誤差*3を定式化して、これを最小化するように（このケースでは2つの

somemo 2016/12/15

“ちなみにL1 / L2正則化項は数学的には単なる線形和で表せるので、普通にL1を0.6, L2を0.4というように割合を定めてミックスさせることもできます。これをElastic net正則化と呼びます”

リンク

Rで計量時系列分析：はじめに覚えておきたいこと - 渋谷駅前で働くデータサイエンティストのブログ

機械学習は全然専門ではない僕が知ったかぶりをするのも何なので*1、もっともっと以前からそこそこやっている*2計量時系列分析の話でもしてお茶を濁してみることにします（笑）。もうしつこ過ぎて自分でも嫌になってきたんですが（笑）、このシリーズでベースにするテキストは以下の2冊。沖本テキストとHamiltonテキストです*3。他にも良いテキストはあるんじゃないかと思いますが、ここではこの2冊をベースにしていきます。なお、ほとんど沖本テキストからの抜粋なのでお持ちの方はそちらを読んでもらった方が圧倒的に早いです、悪しからず。経済・ファイナンスデータの計量時系列分析 (統計ライブラリー) 作者: 沖本竜義出版社/メーカー: 朝倉書店発売日: 2010/02/01メディア: 単行本購入: 4人クリック: 101回この商品を含むブログ (6件) を見る Time Series Analysis 作者

somemo 2015/05/31

リンク

Rで計量時系列分析：AR, MA, ARMA, ARIMAモデル, 予測 - 渋谷駅前で働くデータサイエンティストのブログ

前回の記事では計量時系列分析とは何ぞや？みたいなところをやりましたので、今回はいろはのイともいえるARIMAまわりから始めていこうと思います。ということで改めて、使用テキストはいつものこちらです。経済・ファイナンスデータの計量時系列分析 (統計ライブラリー) 作者: 沖本竜義出版社/メーカー: 朝倉書店発売日: 2010/02/01メディア: 単行本購入: 4人クリック: 101回この商品を含むブログ (6件) を見る以下タイトルにのっとってRで各モデルの挙動を見ながらやっていきます。必要なRパッケージ {forecast}をインストールして展開して下さい。Rそのものの初心者向け説明はここでは全面的に割愛するので、適宜何かしらの初心者向け説明をご参照あれ。今回のモデルで目指すもの前回の記事では、要は「自己相関が大事よー」という話を何度もしました。ということは、時系列モデリング

somemo 2015/03/12

R
statistics

リンク

Rでデータ分析・統計学・機械学習・データマイニングを学ぶならこの10冊で（2015年2月版） - 渋谷駅前で働くデータサイエンティストのブログ

今週はまともなデータ分析やら統計学やら機械学習やらの記事を書くのが面倒になったので*1、しばらくやってなかったお薦め書籍リストでも書こうかと思います。今回まとめるリストは、ズバリ「Rでデータサイエンス・統計学・機械学習を学ぶための10冊」。Rと言えばこのブログのメイン言語なので特に説明は要さないでしょう。去年1年間は拙著も含めてR絡みの本が大豊作で、以前のお薦め書籍リストに比べるとRの良書が増えたという部分もあり、そう言えばR本だけでリスト作れるなぁと思ったのでした。というわけで、主に僕が持っているor読んだことがある本を中心にお薦めリストをまとめてみました。いつも通り独断と偏見まみれなので、他にも良いR本は沢山ありますよーという旨予めお断りしておきます。そうそう、先に書いておきますがこのリストは中級者向けです。でも初学者向けに良いRの本ってあるのかなぁ。。。初学者はまずはExcel

somemo 2015/02/16

リンク

「使い分け」ではなく「妥当かどうか」が大事：重回帰分析＆一般化線形モデル選択まわりの再まとめ - 六本木で働くデータサイエンティストのブログ

先日の記事はおかげさまで好評をいただいたんですが、勉強中の身で教科書を確認せずに書いたこともあり多数ツッコミをいただきました。ツッコミをいただけるというのはもちろん大変良い勉強の機会になるということで*1、今回もひとしきり勉強してみました。ということで、自戒も込めて備忘録的に勉強したことをまとめておこうと思います。今回はあまり広く読んでもらう内容ではないので、不親切かもしれませんがごめんなさい。ただし、あまりにも理論的側面ばかり色々書いても何なので、インターネット広告業界の言葉で喩えて言うなら「クリック数*2をモデリングしたい場合」と「コンバージョン数*3をモデリングしたい場合」とに分けた、と理解してもらえたら良いかなと思ってます。今回も参考文献は久保本です。一般化線形モデルまわりではこの本より分かりやすい本は依然としてないと思います。データ解析のための統計モデリング入門――一般化線

somemo 2015/01/26

モデル選択

statistics

リンク

Webデータ分析＆データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ

追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。主に自分向けのまとめという意味合いが強いんですが（笑）、僕が実際に2013年6月現在webデータ分析＆データサイエンスの実務でツール・ライブラリ・パッケージを利用しているものに限って、統計学・機械学習系の分析手法を10個挙げて紹介してみようと思います。追記回帰分析（特に線形重回帰分析）独立性の検定（カイ二乗検定・フィッシャーの正確確率検定）主成分分析(PCA) / 因子分析クラスタリング決定木 / 回帰木サポートベクターマシン(SVM) ロジスティック回帰ランダムフォレストアソシエーション分析（バスケット分析・相関ルール抽出）計量時系列分析おわりにおまけ1：「素性ベクトル＋分類ラベル」なるデータ前処理おまけ2：グラフ理論*10 {igraph}パッケージでグラ

somemo 2014/01/19

リンク

パッケージユーザーのための機械学習(1)：決定木 - 渋谷駅前で働くデータサイエンティストのブログ

（※はてなフォトライフの不具合で正しくない順番で画像が表示されている可能性があります）だいぶ前に「糞コードで頑張る機械学習シリーズ」と言うのを始めようとしたんですが、パーセプトロンをPythonで実装した次にMatlabで書いたSMO-SVMコードをPythonに移植しようと思っているうちに時間が過ぎ。。。あまつさえ転職したら、今の現場にはライブラリ皆無でほぼ全ての機械学習のコードをPython / Java / C++のどれでも書ける化け物^H^H「教授」がいてそんなこと僕がやる必要性は完全になくなってしまったのでした（笑）。ということで、カテゴリ名はそのまま*1ながら方向性を変えて、僕のようなパッケージやライブラリに依存するユーザーが機械学習を実践する際に原理上のどのような点に気を付けて実装・実践すべきかを、僕自身の備忘録のためにだらだらと書いていくシリーズにしてみようと思います