[B! データサイエンス][分析] simommのブックマーク

simomm id:simomm

データサイエンスと分析に関するsimommのブックマーク (18)

cakes（ケイクス）
- 3 users
- cakes.mu
- 学び
cakesは2022年8月31日に終了いたしました。 10年間の長きにわたり、ご愛読ありがとうございました。 2022年9月1日
simomm 2020/07/04
オッズとは「該当する割合」÷「該当しない割合」

統計

statistics

分析

データサイエンス

ロジスティック回帰
リンク
統計的因果推論(1): 差分の差分法(Difference-in-Differences)をRで回してみる - 渋谷駅前で働くデータサイエンティストのブログ
世の中様々な介入効果・施策効果を検証するためのexperimentが行なわれていると思うんですが、意外とその効果検証というのは難しいものです。特にいわゆる統計的因果推論の立場から見れば、web上で接触する一般ユーザーに対する介入や施策といったものの検証を完全にランダム化比較試験(Randomized Controlled Trial: RCT)として実施するのは困難です。この問題について統計的因果推論の観点からは様々なソリューションを与えることが可能なようです。例えば傾向スコア(Propensity Score)は最近色々なところで取り上げられていますし、バックドア基準といったものも挙げられます。で、今回はその中でも差分の差分法(Difference-in-Differences: DID)を取り上げることにします。理由は単純で「どうしてもexperimentによって何かしらの介入・施策
simomm 2019/04/30
統計

データ分析

data science

データサイエンス

分析
リンク
A/Bテストよりすごい？はじめてのインターリービング - Gunosyデータ分析ブログ
はじめにこんにちは。メディアデータ分析部の飯塚(@zr_4)です。弊社では現在、複数のニュース形式のアプリケーションを運用しており、各プロダクトでユーザーの趣向にあうような記事リストのパーソナライズを行っています。左から：LUCRA、ニュースパス、グノシーそのため、記事のランキングに関するA/Bテストをする機会が多々あり「少数のユーザーで高速に有力なパラメータを探したい」というニーズがありました。今回は上記ニーズを満たすべく、グノシーの本番環境に導入したインターリービングを紹介します。インターリービングとは概要インターリービングは高感度なランキング評価手法です。実験的に、10倍から100倍従来のA/Bテストよりも効率的であることが知られています。*1 従来のA/Bテストにおいて、2つのランキングリストを評価する際は、ユーザを2つの群に分け各々に別々のランキングリストを提示
simomm 2018/11/11
ABテスト

分析

data science

データサイエンス

データ分析
リンク
データサイエンティストや機械学習エンジニアに求められる「素質」とは何か - 渋谷駅前で働くデータサイエンティストのブログ
(Image by Pixabay) 某所で時々意見交換させていただいている@maskedanlさんが、面白い記事をnoteにupなさっていたので拝読しました。細かい内容は上記のリンク先から皆さんに直接お読みいただくとして、記事中で某所で僕が放言（笑）したことへのご質問をいただいていたのでした。それは、データサイエンティストや機械学習エンジニアといったデータ分析人材に求められる「素質」について、です。それは例えば統計学や機械学習はたまたプログラミングといった「スキル」や「素養」とも違う、言ってみれば性格的傾向とか仕事スタイルとかはたまた思想信条のような、もうちょっと属人的で曖昧なものだと思うのですが、個人的な経験からはその「素質」の有無がデータ分析職として育成した結果、ものになるかならないかを分けるように感じられています。ということで、あくまでも個人的経験に基づく範囲でデータサイエンテ
simomm 2018/08/30
分析

データ

data science

データサイエンス
リンク
【2023年5月改訂版】実践 Python データサイエンス
このコースは、Pythonを使ってデータを解析し可視化するために必要なスキルを網羅しています。Pythonと科学計算のためのライブラリの使い方が完璧に理解できるようになっています。このコースを習得すれば、次のような事ができるようになります。 - Pythonプログラミングへの知識が深まります。 - NumPyを使って、アレイを使った数値計算ができるようになります。 - pandasを使った効果的なデータ解析ができるようになります。 - Matplotlibとseabornを使って、出版にも使えるほど綺麗なデータの可視化が可能になります。 - Pythonを使って実際にデータを解析する方法論が身につきます。 - 機械学習への理解が相当高まります。 2023年5月にコースの大幅改訂を行いました。ほとんどすべての動画と資料が更新されています。 17時間以上、100本を超えるビデオと、すぐに使え
simomm 2018/08/29
データ

プログラミング

python

data science

データサイエンス

分析
リンク
そろそろデータサイエンティストの定義とスキルセットについて本気で考えてみる - Qiita
データサイエンティストってなんだろう掲題の通り、昨今色々と言われてるデータサイエンティストなる職業について考えてみる。業界にいてもこの職種はとかく定義が曖昧で、統一的な見解がない。まあ正直、『データサイエンティストなんて名乗りたい奴が名乗ればいーんじゃねーのぉ』という話ではあるのだが、せっかくなのでこの期に個人的な考えを書いておこうと思う。なお、普段からデータサイエンティストについて考えている諸氏にとっては目新しいことは特に書いてないかもしれないどちらかと言えば、「データサイエンティストってどうやったらなれるんじゃい」、もしくは「流行りのデータサイエンティスト様を雇いたいけどどんな人採ればよいかのぅ」って方々に見て欲しい記事なのでそのあたりはご了承願いたい世間一般の見解を見てみるとりあえず世の中に既にある有名な幾つかの定義の俗説を見てみることにする。 "Data Scien
simomm 2018/08/29
ビジネス言語、数字/KPI、統計学/数式、プログラミング言語のマルチリンガルである必要がある。

data science

データサイエンス

データ分析

分析

データ
リンク
シリコンバレーのIT企業が利用しているA/Bテスト手法まとめ - データ分析エンジニアのブログ
いま注目すべきシリコンバレーの有名なIT企業は新規のデザインや機能が有効かどうかを検証するためにA/Bテストを行っています。その一方で、日本の企業も含め、A/Bテストを本番環境で導入している企業は非常に少ないです。加えて、日本で言われているA/Bテストと海外で言われているA/Bテストは少々異なるものだと感じています。日本のA/Bテストはフォームの最適化やデザインの修正にとどまっている一方で、海外のA/Bテストはプロダクト開発のサイクルの一部分となっています。プロダクト開発のサイクルの一部としてA/Bテストを取り入れるためには、大量のテストを定常的に回していく仕組みが必要となってきます。そこでデータドリブンであると言われているようなシリコンバレーのIT企業は自社でA/Bテストの基盤を作成しています。今回は社内A/Bテスト勉強会で発表するために、シリコンバレーの有名IT企業がどのよ
simomm 2018/08/15
ABテスト

data

data science

データ

データサイエンス

データ分析

分析
リンク
【保存版】Pythonでデータサイエンスするための全体像と、必要な学習項目を初心者向けにまとめてみたよ！｜Dai
このnoteでは、データ分析をやってみたい人向けに、何を学んだらよいかまとめます。ちなみにこの記事では、「ディープラーニングで何かしたい！」みたいな人ではなく、「データをもとに有益なアウトプットを出せるようになりたい」という人向けの記事となっています。追記) 反響があり、News Picksではテクノロジー一面に掲載されていました。また、はてなブックマークでもホットエントリー入りして、5/5現在898ブックマークを突破しました。データ分析の全体像まず、データ分析を行う上での全体像から見ていきたいと思います。流れとしては大きく分けて、4つあります。 1. データ分析から何を検証したいか決める (調査のデザイン) 2. データ収集 3. データの整形 4. 分析を行う各フェーズごとに行うことと、何が学ぶべきかまとめていきたいと思います。 1. データ分析から何を検証したいか決める (
simomm 2018/07/16
データ

分析

python

データサイエンス

データ分析

data science

プログラミング
リンク
統計検定を理解せずに使っている人のために III
483 化学と生物 Vol. 51, No. 7, 2013 セミナー室研究者のためのわかりやすい統計学-3 統計検定を理解せずに使っている人のために III 池田郁男東北大学大学院農学研究科 34 34 484 化学と生物 Vol. 51, No. 7, 2013 35 36 * 35 * 485 化学と生物 Vol. 51, No. 7, 2013 * 37 36 * 486 化学と生物 Vol. 51, No. 7, 2013 * 38 * 38 * * 37 487 化学と生物 Vol. 51, No. 7, 2013 39 * 40 * 39 40 * * 488 化学と生物 Vol. 51, No. 7, 2013 * 41 42 41 * 489 化学と生物 Vol. 51, No. 7, 2013 43 42 43 490 化学と生物 Vol. 51, No. 7, 2
simomm 2018/03/18
statistics

統計学

統計

分析

データサイエンス

データ分析
リンク
統計検定を理解せずに使っている人のために II
408 化学と生物 Vol. 51, No. 6, 2013 15 μ σ μ σ μ σ 16 セミナー室研究者のためのわかりやすい統計学-2 統計検定を理解せずに使っている人のために II 池田郁男東北大学大学院農学研究科 15 16 409 化学と生物 Vol. 51, No. 6, 2013 μ σ σ σ μ σ * 17 μ σ μ σ * μ μ μ Z n 1 1 = − ( ) X µ σ σ 18 μ σ σ σ σ σ μ σ μ μ μ σ / n σ / n σ / n σ / n * * 17 18 σ 410 化学と生物 Vol. 51, No. 6, 2013 t u n 1 1 = − ( ) X µ σ σ σ σ σ μ t X 1 1 = − ( ) µ SE 19 μ μ μ μ μ 20 μ σ μ μ σ μ μ u n / 19 20 4
simomm 2018/03/18
statistics

統計

統計学

分析

データサイエンス

データ分析
リンク
統計検定を理解せずに使っている人のために I - J-Stage
318 化学と生物 Vol. 51, No. 5, 2013 セミナー室研究者のためのわかりやすい統計学-1 統計検定を理解せずに使っている人のために I 池田郁男東北大学大学院農学研究科 319 化学と生物 Vol. 51, No. 5, 2013 1 1 320 化学と生物 Vol. 51, No. 5, 2013 2 μ σ σ 3 * 2 3 * 321 化学と生物 Vol. 51, No. 5, 2013 4 * 5 * 6 σ 4 5 6 σ * * 322 化学と生物 Vol. 51, No. 5, 2013 μ μ μ μ μ σ 7 σ σ σ σ σ σ σ σ σ σ 8 8 9 7 σ 323 化学と生物 Vol. 51, No. 5, 2013 9 10 11 * σ σ * * * * 10 11 * * * * 324 化学と生物 Vol. 51, No.
simomm 2018/03/18
statistics

統計

統計学

分析

データサイエンス

データ分析
リンク
「統計学と機械学習の違い」はどう論じたら良いのか - 渋谷駅前で働くデータサイエンティストのブログ
何かこんなメディア記事が出ていたようです。これを読んで色々な人がツッコミを入れまくっている模様ですが、この記事の不思議なところは「完全に間違った説明というわけでもないのに何故か（両分野に詳しい）誰が読んでも猛烈な違和感を覚える」ところなんじゃないかなぁと。正直、これはライター・インタビュアー・コメンテーター・編集者の誰のせいなのかは全く分からないんですが、ツッコミ入れられまくっている内容について色々あげつらってもあまり建設的でないので、ここでは記事中で本題として取り上げられている「統計学と機械学習の違い」についてちょっとコメントしてみようと思います。あ、もちろん僕がこれから書くコメントも別に正しいとは全く限らないので、おかしいところや間違ってるところがあったらバンバン突っ込んでいただければ幸いです*1。そしてガチ勢向けのコメントでもないので何卒悪しからず。統計学はデータを「説明」す
simomm 2016/06/19
統計学

機械学習

統計

分析

machine learning

データ分析

データサイエンス

data science
リンク
実務で使う統計手法は、５つ。すごい、そんなシンプル？
このセミナー、冒頭の渋谷直正さん(日本航空旅客販売統括本部Web販売部 1to1マーケティンググループアシスタントマネジャー)のお話がとても参考になりました。まず、渋谷さんはご存知のように、2014年に「データサイエンティスト・オブ・ザ・イヤー」を受賞され、ビジネス・サイドにおける、データサイエンスのリーダー的存在です。その渋谷さんの「実務で使う分析手法は５つで十分、マーケターこそデータサイエンティスト候補」という講演は、多くの示唆に富んだものでした。まず、みなさんが気にしている５つの手法とは、クロス集計ロジスティック回帰決定木アソシエーション分析非階層的クラスター分析（k-meansなど）の５つです。統計の教科書にはさまざまな手法が出てきますが、マーケターが実務で使うのはこの５つ程度だと説明されるのです。でも、この説明には、私も思い当たる部分があります。東大の数学
simomm 2016/06/19
クロス集計、ロジスティック回帰、決定木、アソシエーション分析。非階層的クラスター分析（k-meansなど）

分析

data science

データサイエンス

データ分析
リンク
データサイエンティストというかデータ分析職に就くための最低限のスキル要件とは - 渋谷駅前で働くデータサイエンティストのブログ
追記（2017年7月）こちらのスキル要件ですが、2017年版を新たに書きましたので是非そちらをご覧ください。「データサイエンティストというかデータ分析職に就くためのスキル要件」という話題が某所であったんですが、僕にとって馴染みのあるTokyoR界隈で実際に企業のデータ分析職で活躍している人たちのスキルを眺めてみるに、みどりぼん程度の統計学の知識はじパタ程度の機械学習の知識 RかPythonでコードが組める SQLが書けるというのが全員の最大公約数＝下限ラインかなぁと。そんなわけで、ちょろっと色々与太話を書いてみます。なお僕の周りの半径5mに限った真実かもしれませんので、皆さん自身がどこかのデータサイエンティスト（）募集に応募して蹴られたとしても何の保証もいたしかねますので悪しからず。統計学の知識は「みどりぼん以上」データ解析のための統計モデリング入門――一般化線形モデル・階層
simomm 2015/05/02
分析

データサイエンス

データ分析

統計

statistics

機械学習

統計学

仕事

data science
リンク
マイナーだけど最強の統計的検定 Brunner-Munzel 検定 - ほくそ笑む
対応のない 2 群間の量的検定手法として、最も有名なのは Student の t 検定でしょうか。以前、Student の t 検定についての記事を書きました。小標本問題と t検定 - ほくそ笑むしかし、Student の t 検定は、等分散性を仮定しているため、不等分散の状況にも対応できるように、Welch の t 検定を使うのがセオリーとなっています。ただし、これら 2つの検定は分布の正規性を仮定しているため、正規性が仮定できない状況では、Mann-Whitney の U検定というものが広く使われています。 Mann-Whitney の U検定は、正規性を仮定しないノンパラメトリック検定として有名ですが、不等分散の状況でうまく検定できないという問題があることはあまり知られていません。今日は、これらの問題をすべて解決した、正規性も等分散性も仮定しない最強の検定、Brunner-
simomm 2015/05/02
分析

データサイエンス

データ分析

統計

statistics

data science

検定
リンク
データ分析ができないなら、ビッグデータを集めない方がいい「日本企業はビッグデータの活用に向けて何が足りないのか」（前編） | データ経営｜DIAMOND ハーバード・ビジネス・レビュー
2014年5月号の特集は「アナリティクス」。ビッグデータの収集から分析へとステージは移っているが、いまだ積極活用ができている日本企業はまだ少ない。2013年2月号『ビッグデータ競争元年』で日本におけるビッグデータ活用の課題を指摘した、マッキンゼーのポール・マクナーニ氏に、日本のアナリティクスの状況について話を伺った。全2回。右へならえのポイント・プログラムが収益構造を傷める ――最近のビッグデータを取り巻く環境について、どう思われますか。小売業界の話になりますが、ビッグデータ分析をしたいと思った時にデータを集めますよね。その時、よくあるのがポイントカードの発行です。ポイント・プログラムには、ポイントを付与することで顧客が頻繁に買い物をしてくれたり、多く買ってくれたりするようになるという直接的な効果と、そうやって蓄積したデータを活用することで品ぞろえを見直したり、価格戦略を考えたりできる
simomm 2014/04/29
テスコでも2004年に始めた2%のポイント還元率を、2011年に1%に下げたら総スカンを食らいました。

ビッグデータ

データマイニング

データ

分析

マーケティング

marketing

data science

big data

データサイエンス

データ分析
リンク
データプロダクトをつくるときに気をつけること - ワザノバ | wazanova
http://blog.relateiq.com/the-data-revolution/ 1 comment | 0 points | by WazanovaNews ■ comment by Jshiike | 約2時間前 LinkedIn / Greylockを経て、CRMツールのRelatelIQのVP of ProductをしているDJ Patilの "Building Great Data Products"をまとめたものです。データの絡むプロダクトづくりをするときにハイレベルで気をつけるべきことが挙げられてます。 1. あまり凝りすぎないこと。シンプルで素直なかたちの方が、凝ったアプローチよりも、10回のうち9回は正しい。 2. シンプルなものからはじめて、必要あらば、複雑にしていけばよい。複雑なものからはじめて、それからシンプルしようなんて思わないこと。 3. データ
simomm 2014/01/28
データ

開発

データサイエンス

data

分析
リンク
単純な集計とデータサイエンスによる分析とで結果が食い違うかもしれない3ケース - 渋谷駅前で働くデータサイエンティストのブログ
一般に、データ分析の大半はそれほど高度なテクニックの類を必要としないものです。僕も常日頃から口に出して言うことが多いんですが、「統計学だの機械学習だのの出番なんてそもそも少なくて当たり前」。工数もかかるし、できればやらない方が良いです。ぶっちゃけ単純な四則演算で十分なケースの方が多数派でしょう。なので、普段はDB上でSQL（というかHiveなど）でサクッと四則演算だけで集計処理を済ませてしまって、その結果だけを表示するようにしておいた方が圧倒的に楽で手っ取り早いはず。多くのBIツールもそういう考えのもとで作られていると思います。ところがどっこい。世の中には、単純な四則演算での集計結果と、データサイエンスを駆使した分析結果とで、食い違ってしまうケースが何故かあることが知られています。どちらかと言うとレアケースだとは思いますが、その矛盾をおざなりにするととんでもないことになることも多々あり
simomm 2013/10/23
データサイエンス

分析

統計学

機械学習

統計

data mining

big data

bigdata

ビッグデータ
リンク
1