タグ

統計に関するsh19910711のブックマーク (405)

  • ABテストツールは「数打ちゃ当たる」を機械化するためのツールではない - 絶倫ファクトリー

    タイトルが全てなんですけどね。 以下のような記事を見つけまして。 駄文:ABテストがモノづくりを破壊する | nekokak's blog いろいろと突っ込みどころはあるんですが、まず最初の「ABテストとは何か」が間違ってるんですよね。 ABテストって簡単に言うと2つ以上ある選択肢のうち一番良い結果を出すことのできるものを見つける事ですね。 もしこの記事を書いた方の組織がABテストをこのように捉えているなら、そりゃモノづくりもクソもあったもんじゃないよなと思います。 ABテストって、単に複数のクリエイティブから良いものを見つけ出す手法じゃないんです。 仮説を検証する行為なんです。テストなんですから。 単に複数のクリエイティブから良いものを見つけ出すなら、クリエイティブのパーツを機械的に作って、何千何万パターンと試せばいい。逆に言えば2つやそこらのパターン試しても意味ないです。数少なすぎ。

    ABテストツールは「数打ちゃ当たる」を機械化するためのツールではない - 絶倫ファクトリー
    sh19910711
    sh19910711 2024/05/13
    "事前のリサーチから得られた仮説を検証する / 仮説のあるテストならば、テスト結果が悪くても学びはあり + 良い仮説は良いテストを生み出し、良いテストは良い仮説を生み出します" 2015
  • 入門 統計的因果推論 | MoT Lab (GO Inc. Engineering Blog)

    AI技術開発部分析グループマネージャーの島田です。分析グループは、タクシーアプリ「GO」におけるデータドリブンなビジネス意思決定を行うために、様々なユーザ分析、乗務員分析を行っています。記事では、分析グループ内で開催した統計的因果推論の勉強会について紹介したいと思います。 勉強会のモチベーション「データドリブンなビジネス意思決定」という文脈においては、機械学習モデルの精度を向上させる能力はあまり重要ではありません。どちらかといえば、物事をどうモデリングすべきか不明なケースで、状況を整理して課題を明確にし、適切に定式化したり、データ分析に落とし込む能力が重要で、その一助となるであろう「統計的因果推論」をチームのスキルとして身につけようということで勉強会を開始しました。つぎのような場面で統計的因果推論が活躍してくれることを期待しています。 A/Bテストでは効果なしとなったが、あるサブグループ

    入門 統計的因果推論 | MoT Lab (GO Inc. Engineering Blog)
    sh19910711
    sh19910711 2024/05/13
    "Introduction to Causal Inference: カナダのモントリオール大学で設立されたAI研究所であるMilaで開講されたコースで、講義資料やテキストブックが公開されているだけではなく、講義動画はYouTubeで公開" 2021
  • 「回帰分析から分かること」と「変数選択」

    10/23にp.11をアップデート

    「回帰分析から分かること」と「変数選択」
    sh19910711
    sh19910711 2024/05/10
    "仮定としての誤差と、分析結果として確認できる残差が違うことは注意 / DAGはコミュニケーションツール / 自分の考える因果構造を伝えたり、なぜバイアスが生じるのか説明するのに有用" 2021
  • SHAPで因果関係を説明できる?

    2023年6月19日に社内で発表したLT資料です. SHAPでありがちなミスリーディングや,特徴量が予測に与える影響(因果効果)を推定できるケースについて紹介しました. 資料内で出てくるリンクは以下です(参照日: 2023年6月13日) https://arxiv.org/abs/2011.01625 https://christophm.github.io/interpretable-ml-book/shapley.html https://christophm.github.io/interpretable-ml-book/shap.html https://econml.azurewebsites.net/ https://qiita.com/s1ok69oo/items/0bf92b84e565789a2191 https://shap.readthedocs.io/en/late

    SHAPで因果関係を説明できる?
    sh19910711
    sh19910711 2024/05/09
    "SHAP値をそのまま因果効果として解釈すると交絡や未観測要因の影響によりミスリーディング / 特徴量間の独立性: 強い無視可能性を満たす + 交絡がすべて観察されているケース" 2023
  • ベイズ統計学入門 〜頻度主義からベイズ主義へ〜

    connpassで開催した勉強会『ベイズ統計学入門 〜頻度主義からベイズ主義へ〜』の内容スライドです。 統計学は、「データに潜む規則や構造を抽出し、現象の理解や未知の現象に対する予測を行う」ための学問です。 実験や社会調査の解析だけではなく、ビッグデータ分析AI開発でも統計学は不可欠であり、現代人にとって必須の学問と言っても過言ではないでしょう。 一方で、その背後には単なる数学的論理には収まらない様々な哲学的問題が横たわっています。 そんな統計学の歴史にあって、最大にして今なお継続中の議論が、ベイズ主義vs頻度主義についてでしょう。 統計学が台頭してきた19世紀から20世紀には、頻度主義が主流でしたが、21世紀になった今やベイズ主義こそが統計学の主流になりつつあります。 ベイズ推論は、自動運転から迷惑メールフィルタリング、画像復元やノイズキャンセリングなど、様々な分野に爆発的に応用されて

    ベイズ統計学入門 〜頻度主義からベイズ主義へ〜
    sh19910711
    sh19910711 2024/05/09
    "頻度主義とベイズ主義: 推測という行為の不確実性をどこに閉じ込めるのかが異なる / ベイズ主義では推測しようとしているパラメータそのものに不確実性を持たせる / 仮説・命題がどの程度正しそうかを確率で表す" 2022
  • 評価指標入門を読んでみた

    はじめに 『評価指標入門〜データサイエンスとビジネスをつなぐ架け橋〜』というを読んでみました。 CRISP-DMに沿った推論モデルの開発において、「評価指標の選定」と「開発した推論モデルが必要な精度を達成しているかを判断するための閾値をどう設定すれば良いか」がわからず、困ったことがあったからです。 ネットで評価指標について検索すると、評価指標はいろいろ出てくるのですが、例えばRMSEだと「小さければ小さいほど良いです。ただし、どのくらい小さいと良いのかはデータサイエンティストの経験によります。」とか書かれていて、「その経験の部分を知りたいんだけど…」と感じることが多かったです。 そもそも、回帰の問題だったらRMSEやMAE等の評価指標が小さければいいんでしょ的な考えがあり、教科書的な評価指標というかよく出てくる評価指標の閾値をどう考えるのかを知りたくて読み始めました。 書は、第1章 評

    評価指標入門を読んでみた
    sh19910711
    sh19910711 2024/05/08
    "目的関数と評価指標の違い / Kaggleに挑戦していたときは評価指標はすでに決められていた / お客様に納得していただけるように、これから評価指標の立て方を見直すべきで、その大まかな流れがわかった"
  • データサイエンスを記述と予測と因果推論に分類する

    A Second Chance to Get Causal Inference Right: A Classification of Data Science Tasks を読んだまとめです。 モチベーション 業務で予測モデルの構築や、予測モデルを用いる機能の検討を行うことが多いのですが、当に必要なのは予測ではないと強く感じています。実際、予測モデルを適用したい業務については次の状態です。 現状で業務の中で予測を行っていない 予測を行いたい理由を聞くと、予測結果がどのような特徴に左右されるのか知りたいという 同様にヒアリングすると、予測結果を高めるためにはどのような介入を行えばよいか知りたいという この状態でも予測モデルを作成することはできますが、予測結果を業務に組み込むことは著しく困難です。現在の業務フローが予測結果に基づくものでないため、予測結果を提供しても既存の業務フローでは用いら

    データサイエンスを記述と予測と因果推論に分類する
    sh19910711
    sh19910711 2024/05/08
    "因果推論: 良いデータ・良いアルゴリズム・専門知識 + ある変化を起こすことによる効果をシミュレーションする / 専門家の因果関係に関する知識を再現できていることが重要" 2021
  • 統計検定の3級、2級を順に受験して合格したので学習内容や所感を記録する - shine-Notes

    サマリ 統計検定3級と2級に合格するまでの学習記録 「最短距離詰め込み」ではなく、「寄り道しつつ突っ走る」学習法について、自分のケーススタディを記録する 数値分析を生業とはしていないけど、結構学ぶ楽しさが有ったよ、というポエムめいた所感 背景 書きたい内容は表題のとおりなのだが、まず簡単に自分のバックグラウンドについて少し記載する。 (自分が他人の勉強法を参考にする時に欲しい情報だったので) ふだんの飯の種&スキルセットはITコンサルタント寄り。 一応JDLA資格はE、G共に取得済。ただ知識はDeep Learningの一部テクノロジに偏重気味(過去記事参照)。 文系学部卒。線形代数や微積分はE資格取得時に泣きながら復習したが、未だちょっと苦手。 数値解析系やテーブルデータへのML処理は、参考書は通ったが実務経験なし。 周囲にいる数値解析系の有識者(理系卒)が勉強会を偶に開いてくれるのだが

    統計検定の3級、2級を順に受験して合格したので学習内容や所感を記録する - shine-Notes
    sh19910711
    sh19910711 2024/05/04
    "統計検定: 2級の範囲は非理系の人間にとっては結構膨大 + 簡単な記述統計の範囲であっても慣れが必要(四分位数や分散の概念など) + 3級が2020年から範囲を少し広げており、むしろ連続して受けるくらいが丁度いい" 2020
  • モデルの意思決定がわかるベイズ因果推論手法を提案してみた - Qiita

    はじめに こんにちは、事業会社で働いているデータサイエンティストです。 記事では、異質処置効果モデルを提案してみます。 共変量によって処置効果がどう違うかを推定できるだけでなく、推定のプロセスの可視化までできる手法です。 ぜひ最後まで読んでください! 因果推論の問題意識と既存手法の限界 皆さん、ビジネスやアカデミアで以下のようなことを聞かれた経験はありますか? 営業部のマネージャ:新しい営業施策の処置効果はどこの部署のKPIで計算されたの? 学会の参加者:内戦の経済効果の推定にアメリカのデータも入れてるの? 全然違う観測値を比較してはいけない、というのがこの二つの指摘に共通している前提です。因果推論でいうと共変量をきちんと揃えないと信頼性が問われるということです。 共変量のバランスを揃えるために様々マッチング系の手法が開発されました。一番有名な傾向スコアマッチング(Rosenbaum a

    モデルの意思決定がわかるベイズ因果推論手法を提案してみた - Qiita
    sh19910711
    sh19910711 2024/05/04
    "同じクラスター内の観測値同士の共変量は類似しているはず > 推定結果のモデル依存性が軽減 / 「他のところの情報をうまく転用する」ことが統計学と機械学習の強さの本当の秘密 + 少し異なる観測値から情報を借りる"
  • 生存時間分析入門 | 株式会社ARISE analytics(アライズ アナリティクス)

    初めまして。Social Innovation Divisionの木と申します。 普段の業務では、ヘルスケアアプリで収集されるデータの分析を行っています。 記事では生存時間分析について概要を説明した後、通信会社の顧客離脱に関するサンプルデータを用いたマーケティング分野での活用例を紹介します。 生存時間分析とは あるイベント(例えば疾病発症)が起きるまでの時間に焦点を当てる分析方法を生存時間分析といいます。 例えばAさんが何年後に「疾病を発症するか」知りたいとします。生存時間分析を行うと、Aさんについて、①生存関数と呼ばれる時点ごとの生存確率の予測値が取得できます。また、②生存確率に対する発症タイミングを予測することができます。 生存時間分析の流れ あるデータに対して生存時間分析を用いる場合、生存期間とイベント発生有無について整理する必要が出てきます。 ここでイベント発生無しと定義したデ

    生存時間分析入門 | 株式会社ARISE analytics(アライズ アナリティクス)
    sh19910711
    sh19910711 2024/05/02
    "生存時間分析: あるイベントが起きるまでの時間に焦点を当てる分析方法 / 最近ではRandom Survival ForestsやDeep Survといった生存時間分析に機械学習を適用している手法も現れ / lifelines.CoxPHFitter" 2021
  • 因果推論における未観測の共変量の影響を考える感度分析 - 名前はまだない

    はじめに 数年前に岩波書店の確率と情報の科学シリーズの星野崇宏 著「調査観測データの統計科学」を読んでいきまとめていました。 調査観察データの統計科学―因果推論・選択バイアス・データ融合 (シリーズ確率と情報の科学) 作者:星野 崇宏岩波書店Amazon しかし、感度分析の部分について放置していたので、今回まとめました。 隠れた共変量によるバイアス 適切に因果効果を推定するにあたり、共変量は全て観測されている状態であることが求められます。 しかし、実際の観測データでは全ての共変量は観測されていない可能性が高いです。 観測されていない共変量が存在するとき、重回帰分析や傾向スコアを用いた分析により推定した因果効果にバイアスがのってしまいます。 未観測の共変量の影響を分析する 隠れた/観測されてない共変量が存在している場合に因果効果の推定値にバイアスが乗る事は避けされないことがわかっています。

    因果推論における未観測の共変量の影響を考える感度分析 - 名前はまだない
    sh19910711
    sh19910711 2024/05/02
    "感度分析: 未観測の共変量をモデリングし、その影響力を変化させることで、得られる因果効果の変動を調べる / 未観測共変量があるかどうかは、ドメイン知識や過去の取り組みから判断" 2021
  • 初めてのコーシー分布 - Qiita

    コーシー分布について調べる必要があり、色々Google先生に聞いていました。 なのですが、ほとんどが期待値と分散が存在しないという話しか教えてくれず、かなり苦戦しました。 Wikipediaが一番詳しかったような感じがしましたが、計算方法とかは載っていないからモヤモヤするし、英語の文献とかだと詳しいのあったけど、そもそも英語読むの大変だし。。。 日語である程度まとまっているのが読めたら、何人かはハッピーになるかなということで、今回はコーシー分布について書いていこうと思います。 1.確率密度関数 コーシー分布の確率密度関数は、以下で与えられます。 f(x) = \frac{1}{\pi \left( 1+x^2 \right)} \;\;\; (-\infty < x < \infty) \tag{1.1} import numpy as np import matplotlib.pypl

    初めてのコーシー分布 - Qiita
    sh19910711
    sh19910711 2024/05/02
    "お前の思い通りにはいかない分布 / 期待値が存在しないので、2次以降の中心積率も存在しません。従って、分散も歪度も尖度も存在しません / 標本平均の分布は考えることができます + 再生性を持つ" 2021
  • Uplift Modelling for Location-based Online Advertising

    LLMの普及による機械学習の民主化とMLPdMの重要性 / democratization-of-ml-and-importance-of-mlpdm-by-llm

    Uplift Modelling for Location-based Online Advertising
    sh19910711
    sh19910711 2024/05/02
    "最適な特徴量の組み合わせ / 来店頻度や直近の来店といった従来重要とされていた特徴量が採用されなかった / 店舗からの距離が近いユーザーより遠いユーザーに効果的 → 広告効果は移動コストが高い層に効く?" 2019
  • 『Pythonでスラスラわかる ベイズ推論「超」入門』を読んでみた。 - いものやま。

    Pythonでスラスラわかる ベイズ推論「超」入門』を読んでみたので、軽く感想とか。 Pythonでスラスラわかる ベイズ推論「超」入門 (KS情報科学専門書) 作者:赤石 雅典講談社Amazon 概要と感想 ベイズ推論のはいろいろあるけど、このは理論というよりツールとして活用することに重きをおいた感じの。 サンプリングをどう計算するのかとかはライブラリ(PyMC)に任せてしまってでは解説せず、統計モデルの作り方と得られたサンプリングの結果の使い方の解説が中心になってる。 数理最適化でたとえると、単体法とかの解説はしないでPuLP使ったモデリングの解説をしている感じ。 そういうこともあってすごく読みやすかったし、実用としてはこういうの方が助かるよね。 別に研究者として新しいアルゴリズムを作りたいとかでもないし。 数理最適化もそうだけど、理論とか勉強しても実際に使うときはライブラ

    『Pythonでスラスラわかる ベイズ推論「超」入門』を読んでみた。 - いものやま。
    sh19910711
    sh19910711 2024/04/29
    "統計モデルの作り方と得られたサンプリングの結果の使い方の解説が中心 / 実際に使うときはライブラリ叩くだけで、一番壁になるのはモデルを作る部分なので、その部分がちゃんと解説されてるのはとてもよかった"
  • あなたのサービスのランキングアルゴリズムを改善する因果モデル - Qiita

    これは何か、誰を対象としているか 記事は、私の検索機能のランキングアルゴリズム改善の経験則を、半ば後付けで定式化したものです。独学で身につけたものも多く、不正確・不勉強な記述があってもおかしくないので、コメント等で補足いただけるとありがたいです。 以下のような課題感がある方を対象にしています。 (1) ECサイトやらフリマアプリやら就活サイトなどの垂直型検索を対象とし、 (2) nDCGの改善ではなく、ユーザーにコンバージョン(CV)改善が目標 よくある情報検索(Information retrieval)の公開文献では (1) 図書館の蔵書検索や、水平検索課題が念頭におかれている (2) 確立されたベンチマークなどによる部分的な問題の深化 であることが多く、私含めて上記のような問題に直面している方には、応用のために少し工夫が必要だと感じています。記事は、そのための工夫について書かれて

    あなたのサービスのランキングアルゴリズムを改善する因果モデル - Qiita
    sh19910711
    sh19910711 2024/04/29
    "クエリとドキュメントが与えられた時のそのドキュメントの検索位置を変更するので、Rへの介入と見なせます / 情報欲求XがあったときにドキュメントDを検索結果画面で見られた時にCVする確率 を最大化" 2021
  • 確率モデルを使ったグラフクラスタリング

    [DL輪読会]Understanding Black-box Predictions via Influence Functions Deep Learning JP

    確率モデルを使ったグラフクラスタリング
    sh19910711
    sh19910711 2024/04/23
    "ネットワーク構造を知りたいからクラスタリングを行うのにネットワーク構造を仮定するのは矛盾 / 確率モデル: リンクの生成モデルを考え、モデル学習を通じてクラスタリング + クラスタの構造は仮定しない" 2013
  • しなやかな項目反応モデル

    第28回パーソナリティ心理学会大会講習会1

    しなやかな項目反応モデル
    sh19910711
    sh19910711 2024/04/22
    "brms: ベイズで(Bayesian)・回帰モデル(Regression Model)・Stan使って(using Stan)+ モデルを指定すると自動的に内部でStanコードが生成 / 柔軟なIRTモデルを実行するためにbrmsやmirtパッケージは便利" 2019
  • MMM(Marketing Mix Modeling)を内製化した話

    はじめに世界的な個人情報保護の流れが加速しています。AppleのiOSでは明示的にトラッキングの同意取得を行わないとデバイス単位のターゲティング(以下、識別子を用いたターゲティング)がほぼできないということがあります。 このため、識別子を取得しづらくなった広告やSNSのプロモーション施策は、KGI/KPIに対してどの程度の寄与であったか見づらくなるという影響があります。 図1. 社内のプレゼン資料これらの課題に対する答えとして、MMM(Marketing Mix Modeling)という技術があります。MMMを自社で設計・開発し、業務に利用したので、良かった点・苦労した点など、巷で語られるMMMのメリット以外のデメリットについてもご紹介いたします。 MMMのできるとされていることインプレッション・投資金額・クリック数などの値を変数にして広告の効果を予測する/見積もるcookieやIDFAが

    MMM(Marketing Mix Modeling)を内製化した話
    sh19910711
    sh19910711 2024/04/20
    "因果推論: 反実仮想を計算するために配信をしていた時期と配信をしていなかった時期の双方の十分なデータが必要 + 現実的にそのような実験を行うことは難しい / MMMの精度で妥協することが最適であるケースが多い" 2023
  • 【因果探索・因果推論】DeepLearningを用いた因果探索(SAM)を実行 - Qiita

    最近、因果推論・因果探索について勉強したので、 DeepLearning・GANを使用した因果探索の手法であるSAM(Structural Agnostic Modeling)[2018]のPython実装例を記載します。 最も有名であろうベイジアンネットワークについては別記事にて後日実装例を公開してみたいと思います。 記事はSAMのみになります。 データはTitanicデータを使用しました。 目次 ゴール 因果関係とは SAMとは 実装例 コードとデータのダウンロード 環境準備 コード実行 最後に 1. ゴール ゴールは下図のように、データから因果関係の有無・方向性を算出することです。 これを因果探索と呼びます。 一方、これらの因果関係(矢印)の大きさを推定することを因果推論と呼びます。 2. 因果関係とは そもそも、因果関係とは何かを簡単に説明します。 「ある変数Xを大きくしたらある

    【因果探索・因果推論】DeepLearningを用いた因果探索(SAM)を実行 - Qiita
    sh19910711
    sh19910711 2024/04/20
    "SAM; Structural Agnostic Modeling: GANを使用した因果探索の手法 + 因果を表すマトリクスを生成器のforward関数に与え、生成器の学習時にこのマトリクスも学習 / 実運用を考えるとなかなか難しい点が多い" arXiv:1803.04929 2020
  • 状態空間モデルのれんしゅう(レストランの来客予測) - rmizutaの日記

    はじめに 時系列解析を行う上で、状態空間モデルが現状使用できる手法の中で優れているのではと自分の中で話題だったので、 使ってみることにしました。 状態空間モデルを使うことの目的 時系列解析を行う上でもモデルの種類は無数にあるのですが、 どういう場合に状態空間モデルを使うのでしょうか? この部分については以下のサイトに詳しく書かれていました。 https://logics-of-blue.com/%E3%81%AA%E3%81%9C%E7%8A%B6%E6%85%8B%E7%A9%BA%E9%96%93%E3%83%A2%E3%83%87%E3%83%AB%E3%82%92%E4%BD%BF%E3%81%86%E3%81%AE%E3%81%8B/ 状態空間モデルはデータが得られるプロセスとは何か?を重視したモデルであり、 回帰分析よりも各要因の影響が納得性の高い形で見ることができ、またその構

    状態空間モデルのれんしゅう(レストランの来客予測) - rmizutaの日記
    sh19910711
    sh19910711 2024/04/17
    "状態空間モデル: データが得られるプロセスとは何かを重視したモデル + 各説明変数がどう作用しているかを理解できる形で出せる + その構造が機械学習手法よりも理解しやすい" 2019