[B! 統計][分析] simommのブックマーク

simomm id:simomm

統計と分析に関するsimommのブックマーク (16)

データ分析のための統計学入門.pdf
simomm 2023/06/18
統計

データ分析

分析

statistics

book

本

勉強

学習
リンク
検索エンジンのABテストで発生するユーザー内相関を突破する - エムスリーテックブログ
この記事はエムスリー Advent Calendar 2021 1日目の記事です。明日からも面白い記事が続々投稿されるので、ぜひ購読・拡散お願いします！ qiita.com エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(@po3rin) です。好きな言語はGo。情報検索系の話が好物です。最近検索エンジンの改善やアルゴリズムの変更などの効果を分析する機会が多くなってきたのですが、ABテストの効果検証でやらかしてしまい、改めてABテストについて復習しています。そこで「A/Bテスト実践ガイド」という本を読みました。 A/Bテスト実践ガイド　真のデータドリブンへ至る信用できる実験とは (アスキードワンゴ) 作者:Ron Kohavi,Diane Tang,Ya Xu,大杉直也ドワンゴAmazon この本で、私が陥った大量にクリックするユーザー
simomm 2023/05/23
検索

検索エンジン

分析

統計

ABテスト

エムスリー
リンク
cakes（ケイクス）
- 3 users
- cakes.mu
- 学び
cakesは2022年8月31日に終了いたしました。 10年間の長きにわたり、ご愛読ありがとうございました。 2022年9月1日
simomm 2020/07/04
オッズとは「該当する割合」÷「該当しない割合」

統計

statistics

分析

データサイエンス

ロジスティック回帰
リンク
統計的因果推論(1): 差分の差分法(Difference-in-Differences)をRで回してみる - 渋谷駅前で働くデータサイエンティストのブログ
世の中様々な介入効果・施策効果を検証するためのexperimentが行なわれていると思うんですが、意外とその効果検証というのは難しいものです。特にいわゆる統計的因果推論の立場から見れば、web上で接触する一般ユーザーに対する介入や施策といったものの検証を完全にランダム化比較試験(Randomized Controlled Trial: RCT)として実施するのは困難です。この問題について統計的因果推論の観点からは様々なソリューションを与えることが可能なようです。例えば傾向スコア(Propensity Score)は最近色々なところで取り上げられていますし、バックドア基準といったものも挙げられます。で、今回はその中でも差分の差分法(Difference-in-Differences: DID)を取り上げることにします。理由は単純で「どうしてもexperimentによって何かしらの介入・施策
simomm 2019/04/30
統計

データ分析

data science

データサイエンス

分析
リンク
統計検定を理解せずに使っている人のために III
483 化学と生物 Vol. 51, No. 7, 2013 セミナー室研究者のためのわかりやすい統計学-3 統計検定を理解せずに使っている人のために III 池田郁男東北大学大学院農学研究科 34 34 484 化学と生物 Vol. 51, No. 7, 2013 35 36 * 35 * 485 化学と生物 Vol. 51, No. 7, 2013 * 37 36 * 486 化学と生物 Vol. 51, No. 7, 2013 * 38 * 38 * * 37 487 化学と生物 Vol. 51, No. 7, 2013 39 * 40 * 39 40 * * 488 化学と生物 Vol. 51, No. 7, 2013 * 41 42 41 * 489 化学と生物 Vol. 51, No. 7, 2013 43 42 43 490 化学と生物 Vol. 51, No. 7, 2
simomm 2018/03/18
statistics

統計学

統計

分析

データサイエンス

データ分析
リンク
統計検定を理解せずに使っている人のために II
408 化学と生物 Vol. 51, No. 6, 2013 15 μ σ μ σ μ σ 16 セミナー室研究者のためのわかりやすい統計学-2 統計検定を理解せずに使っている人のために II 池田郁男東北大学大学院農学研究科 15 16 409 化学と生物 Vol. 51, No. 6, 2013 μ σ σ σ μ σ * 17 μ σ μ σ * μ μ μ Z n 1 1 = − ( ) X µ σ σ 18 μ σ σ σ σ σ μ σ μ μ μ σ / n σ / n σ / n σ / n * * 17 18 σ 410 化学と生物 Vol. 51, No. 6, 2013 t u n 1 1 = − ( ) X µ σ σ σ σ σ μ t X 1 1 = − ( ) µ SE 19 μ μ μ μ μ 20 μ σ μ μ σ μ μ u n / 19 20 4
simomm 2018/03/18
statistics

統計

統計学

分析

データサイエンス

データ分析
リンク
統計検定を理解せずに使っている人のために I - J-Stage
318 化学と生物 Vol. 51, No. 5, 2013 セミナー室研究者のためのわかりやすい統計学-1 統計検定を理解せずに使っている人のために I 池田郁男東北大学大学院農学研究科 319 化学と生物 Vol. 51, No. 5, 2013 1 1 320 化学と生物 Vol. 51, No. 5, 2013 2 μ σ σ 3 * 2 3 * 321 化学と生物 Vol. 51, No. 5, 2013 4 * 5 * 6 σ 4 5 6 σ * * 322 化学と生物 Vol. 51, No. 5, 2013 μ μ μ μ μ σ 7 σ σ σ σ σ σ σ σ σ σ 8 8 9 7 σ 323 化学と生物 Vol. 51, No. 5, 2013 9 10 11 * σ σ * * * * 10 11 * * * * 324 化学と生物 Vol. 51, No.
simomm 2018/03/18
statistics

統計

統計学

分析

データサイエンス

データ分析
リンク
「統計学と機械学習の違い」はどう論じたら良いのか - 渋谷駅前で働くデータサイエンティストのブログ
何かこんなメディア記事が出ていたようです。これを読んで色々な人がツッコミを入れまくっている模様ですが、この記事の不思議なところは「完全に間違った説明というわけでもないのに何故か（両分野に詳しい）誰が読んでも猛烈な違和感を覚える」ところなんじゃないかなぁと。正直、これはライター・インタビュアー・コメンテーター・編集者の誰のせいなのかは全く分からないんですが、ツッコミ入れられまくっている内容について色々あげつらってもあまり建設的でないので、ここでは記事中で本題として取り上げられている「統計学と機械学習の違い」についてちょっとコメントしてみようと思います。あ、もちろん僕がこれから書くコメントも別に正しいとは全く限らないので、おかしいところや間違ってるところがあったらバンバン突っ込んでいただければ幸いです*1。そしてガチ勢向けのコメントでもないので何卒悪しからず。統計学はデータを「説明」す
simomm 2016/06/19
統計学

機械学習

統計

分析

machine learning

データ分析

データサイエンス

data science
リンク
データサイエンティストというかデータ分析職に就くための最低限のスキル要件とは - 渋谷駅前で働くデータサイエンティストのブログ
追記（2017年7月）こちらのスキル要件ですが、2017年版を新たに書きましたので是非そちらをご覧ください。「データサイエンティストというかデータ分析職に就くためのスキル要件」という話題が某所であったんですが、僕にとって馴染みのあるTokyoR界隈で実際に企業のデータ分析職で活躍している人たちのスキルを眺めてみるに、みどりぼん程度の統計学の知識はじパタ程度の機械学習の知識 RかPythonでコードが組める SQLが書けるというのが全員の最大公約数＝下限ラインかなぁと。そんなわけで、ちょろっと色々与太話を書いてみます。なお僕の周りの半径5mに限った真実かもしれませんので、皆さん自身がどこかのデータサイエンティスト（）募集に応募して蹴られたとしても何の保証もいたしかねますので悪しからず。統計学の知識は「みどりぼん以上」データ解析のための統計モデリング入門――一般化線形モデル・階層
simomm 2015/05/02
分析

データサイエンス

データ分析

統計

statistics

機械学習

統計学

仕事

data science
リンク
マイナーだけど最強の統計的検定 Brunner-Munzel 検定 - ほくそ笑む
対応のない 2 群間の量的検定手法として、最も有名なのは Student の t 検定でしょうか。以前、Student の t 検定についての記事を書きました。小標本問題と t検定 - ほくそ笑むしかし、Student の t 検定は、等分散性を仮定しているため、不等分散の状況にも対応できるように、Welch の t 検定を使うのがセオリーとなっています。ただし、これら 2つの検定は分布の正規性を仮定しているため、正規性が仮定できない状況では、Mann-Whitney の U検定というものが広く使われています。 Mann-Whitney の U検定は、正規性を仮定しないノンパラメトリック検定として有名ですが、不等分散の状況でうまく検定できないという問題があることはあまり知られていません。今日は、これらの問題をすべて解決した、正規性も等分散性も仮定しない最強の検定、Brunner-
simomm 2015/05/02
分析

データサイエンス

データ分析

統計

statistics

data science

検定
リンク
2014年度！有名アプリのDAU、MAU、アクティブ率まとめ：スマートフォン＆ソーシャル@trendism：オルタナティブ・ブログ
2014年度もあと1ヶ月ほどとなりましたね〜早いものです。そんな年末が近いからなのか、日々アプリビジネスに関する色々な相談を多数もらいます。ありがたい話っす。そんな中で、2014年度を振り返る上でも、アプリビジネスをする上で、あらためて感覚値の認識を深めておきたいよね〜と思いまして、有名アプリのDAU、MAU、アクティブ率をまとめてみました。アプリビジネスをする方は、ぜひ参考にしてみてください。と言いつつ、結論から言うと、FULLER株式会社（http://fuller.co.jp/）さんの「App Ape Analytics」が今月中まで無料で一部のアプリの統計Dataを公開してくれているので、調べまくって、それを元にアクティブ度合いを分析してまとめみました！という話です。こちらのツールですよ　⇒　http://analytics.appa.pe/index.html ちなみに、
simomm 2015/03/01
マーケティング

アプリ

android

marketing

analytics

統計

iphone

分析

app
リンク
RStanで『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた
こんばんは、ゆるふわの対極であるところのガチムチ角刈り系のberoberoです。この記事はR Advent Calendar 2013の26日目の記事になります。 12/22(日)にBUGS/Stan勉強会#2がドリコム株式会社にて催されました。そこで2つ発表をしました。そのうちの1つ「『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた」に関する詳細＆補足＆苦労話をここで書きたいと思います。RStanというパッケージでRからStanというMCMCサンプリングソフトを使っています。最初に発表内容のスライドは以下になります。ざっと見るにはこれで十分です。『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた from berobero11 以降ではスライドごとに簡単に補足していきます。まずは元となった書籍の紹介です。時系列解析の第一人者による分か
simomm 2014/01/02
分析

データ

Stan

R

MCMC

統計

statistics
リンク
単純な集計とデータサイエンスによる分析とで結果が食い違うかもしれない3ケース - 渋谷駅前で働くデータサイエンティストのブログ
一般に、データ分析の大半はそれほど高度なテクニックの類を必要としないものです。僕も常日頃から口に出して言うことが多いんですが、「統計学だの機械学習だのの出番なんてそもそも少なくて当たり前」。工数もかかるし、できればやらない方が良いです。ぶっちゃけ単純な四則演算で十分なケースの方が多数派でしょう。なので、普段はDB上でSQL（というかHiveなど）でサクッと四則演算だけで集計処理を済ませてしまって、その結果だけを表示するようにしておいた方が圧倒的に楽で手っ取り早いはず。多くのBIツールもそういう考えのもとで作られていると思います。ところがどっこい。世の中には、単純な四則演算での集計結果と、データサイエンスを駆使した分析結果とで、食い違ってしまうケースが何故かあることが知られています。どちらかと言うとレアケースだとは思いますが、その矛盾をおざなりにするととんでもないことになることも多々あり
simomm 2013/10/23
データサイエンス

分析

統計学

機械学習

統計

data mining

big data

bigdata

ビッグデータ
リンク
Webデータ分析＆データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ
追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。主に自分向けのまとめという意味合いが強いんですが（笑）、僕が実際に2013年6月現在webデータ分析＆データサイエンスの実務でツール・ライブラリ・パッケージを利用しているものに限って、統計学・機械学習系の分析手法を10個挙げて紹介してみようと思います。追記回帰分析（特に線形重回帰分析）独立性の検定（カイ二乗検定・フィッシャーの正確確率検定）主成分分析(PCA) / 因子分析クラスタリング決定木 / 回帰木サポートベクターマシン(SVM) ロジスティック回帰ランダムフォレストアソシエーション分析（バスケット分析・相関ルール抽出）計量時系列分析おわりにおまけ1：「素性ベクトル＋分類ラベル」なるデータ前処理おまけ2：グラフ理論*10 {igraph}パッケージでグラ
simomm 2013/06/10
分析

データ

データ分析

SPSS

統計

analytics

R

データマイニング

data mining

機械学習
リンク
Forecast Update: Will 2014 be the Beginning of the End for SAS and SPSS? | R-bloggers
[This article was first published on r4stats.com » R, and kindly contributed to R-bloggers]. (You can report issue about the content on this page here) Want to share your content on R-bloggers? click here if you have a blog, or here if you don't. I recently updated my plots of the data analysis tools used in academia in my ongoing article, The Popularity of Data Analysis Software. I repeat those h
simomm 2013/05/19
[SAS}

統計

statistics

分析

データ解析

analysis

SPSS
リンク
データマイニングで使われるトップ10アルゴリズム - データサイエンティスト上がりのDX参謀・起業家
2006年のデータマイニング学会、IEEE ICDMで選ばれた「データマイニングで使われるトップ10アルゴリズム」に沿って機械学習の手法を紹介します（この論文は@doryokujin君のポストで知りました、ありがとうございます！）。必ずしも論文の内容には沿っておらず個人的な私見も入っていますので、詳細は原論文をご確認下さい。また、データマイニングの全体観をサーベイしたスライド資料がありますので、こちらも併せてご覧下さい。データマイニングの基礎 View more presentations from Issei Kurahashi 1. C4.5 C4.5はCLSやID3といったアルゴリズムを改良してできたもので、決定木を使って分類器を作ります。決定木といえばCARTが良く使われますが、CARTとの違いは以下のとおりです。 CARTは2分岐しかできないがC4.5は3分岐以上もできる C
simomm 2011/11/24
データマイニング

algorithm

アルゴリズム

統計

statistics

分析

解析
リンク
1