サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
GPT-4o
qiita.com/ssugasawa
上のコードでnIterは全体のMCMCの長さ,burnInは収束前の期間(バーンイン期間)の長さを表しており,nIter - burnInの数だけ事後サンプルが得られます.出力として回帰係数の事後平均や事後標準誤差などが得られます. フルスクラッチで実装してみる 前回の記事でギブスサンプリングを実行するために必要な完全条件付き分布の形を与えましたので,そこから繰り返しサンプルを生成する手順を実装することで,比較的簡単にBayesian Lassoの自作関数が作れます.以下でその一例を示します. library(MCMCpack) library(statmod) BL.Gibbs <- function(Y, X, mc=2000, burn=500, lam.prior=c(1,1), sig.prior=c(1,1)){ ## preparation XX <- cbind(1, X)
慶應義塾大学・株式会社Nospareの菅澤です. 今回はベイズ統計学を勉強するための参考書の順番 (私見) について紹介していきます. 3年ほど前に『日本語で学べるベイズ統計学の教科書10冊』を紹介しましたが,今回は「どのような順番でどの参考書を読んでいくと比較的スムーズに勉強が進められるのか」に焦点を当て,比較的最近の書籍や英語の書籍まで含めて紹介していきます. まずは全体的なフローのイメージを提示しておきます. 今回の記事では,「ベイズ統計学を勉強すること」のスタートとゴールを以下のように定めます. (スタート) 統計学の基礎的な内容 (統計検定2級程度の内容) は身についている (ゴール) ベイズモデリングに関する最新の論文がある程度理解して読め,自力でモデルを組んだり実装することができる また,このゴールへの道のりとして,大きく2通りのルートを想定します. (ルートA: フルスクラ
慶應義塾大学・株式会社Nospareの菅澤です. 今回はガウス過程を用いた空間データの(階層)ベイズモデリングに関して,MCMCを用いた具体的なアルゴリズムの詳細について解説します. 空間データの階層モデリングに関する一般的な導入やモデルの説明については前の記事をご参照ください. 空間効果モデル $y_i$を被説明変数,$x_i$を説明変数 (ベクトル) として,以下のようなモデルを考えます. y_i=x_i^\top \beta + \omega_i + \varepsilon_i, \ \ \ \ \varepsilon_i\sim N(0, \sigma^2), \ \ \ i=1,\ldots,n. ここで,$\omega_i$は各地点固有の切片項で,各地点における相場感を表現するパラメータです.$\omega_i=0$の場合 (空間効果がない場合),通常の線形回帰モデルになります
慶應義塾大学・株式会社Nospareの菅澤です. 今回は,回帰不連続デザインを用いてサブグループごとの因果効果の推定を考えたときに,階層ベイズ的アプローチを導入することで安定的な推定を実現 することができる最近の研究成果について紹介します.本記事の最後にも情報を記載しておりますが,本記事は最近公開したワーキングペーパーに基づいています. 回帰不連続デザイン(RDD)とは 回帰不連続デザイン(RDD: Regression Discontinuity Design)の導入と理論的な詳細については石原先生の記事(記事1,記事2)をご覧ください.本記事では,最低限必要な問題設定について紹介しておきます. $Y_i$を目的変数,$W_i$を処置変数とします.RDDでは,ある変数$X_i$が存在して$X_i$がある閾値$c$を超えるか否かで処置を受けるか否かが決まることを想定します.すなわち,$W_
posted articles:統計学:96%機械学習:70%ベイズ推定:37%データサイエンス:26%線形回帰:19%
慶應義塾大学・株式会社Nospareの菅澤です. 今回はガウス過程を用いた空間データの(階層)ベイズモデリングについて紹介します. 空間データの分析 緯度・経度などの位置情報が付随したデータは一般的に空間データと呼ばれます.例えば不動産価格のデータは価格や物件の特徴量に加えて住所の情報から緯度・経度の位置情報を得ることができます. 実は空間データの中にも様々な型のデータがあるのですが,今回は$n$個の地点$s_i \ (i=1,\ldots,n)$において被説明変数$y_i$と説明変数$x_i$が観測されている状況を考えます.例えば不動産の例ですと,$y_i$が不動産価格,$x_i$が不動産の特徴量,$s_i$が物件の緯度・経度に相当します. 基本的な目的は 説明変数$x_i$が被説明変数$y_i$に与える影響を調べる 新しい地点$s_0$において説明変数$x_0$を用いて未観測の$y_0
慶應義塾大学・株式会社Nospareの菅澤です. 今回は異質性のある因果効果とその推定方法について紹介します. 異質処置効果 (Heterogeneous Treatment Effect) 標準的な潜在アウトカム(potential outcome)の設定下での因果効果の推定を考えます.そのため,以下の変数を用意しておきます. $X$: 説明変数 $T$: 処置変数 ($T=1$: 処置群, $T=0$: 対照群) $Y^{(T)}$: 処置$T$のもとでの潜在アウトカム $Y=TY^{(1)} + (1-T)Y^{(0)}$: 観測できるアウトカム 観測データとしては$(Y,X,T)$の三つ組です. 処置$T$の因果効果を測る指標として広く用いられているのは平均処置効果(ATE; average treatment effect)でして,以下のように与えられます. 集団内には異なる特徴
東京大学・株式会社Nospareの菅澤です. 今回は状態空間モデルによる時系列予測手法を用いた因果効果の推定手法であるCausalImpactについて紹介します. CausalImpactとは CausalImpactはGoogleによって開発された因果効果推定の方法です.手法の詳細はBrodersen et al. (2015, AoAS)に記載されており,手法を実装したRパッケージも公開されています. CausalImpactは,ある介入が時間変化するアウトカムにどのような影響を与えるかを推定(推測)するための手法です.時間変化するアウトカム(時系列データ)に対して因果効果を推定する有名な方法としてDifference-in-Difference (DID)がありますが,DIDよりも緩い仮定のもとで時間変化する因果効果を推定できる方法として知られています. CausalImpactのコ
東京大学・株式会社Nospareの菅澤です. こちらの記事でLassoのベイズ版であるBayesian Lassoのメカニズムについて紹介し,こちらの記事ではRでの実装について扱いました. 頻度論的なLassoと比べて,Bayesian Lassoの事後中央値はexactに0の値とならないことが欠点として挙げられていました.(その代わりに推定結果の不確実性評価が容易に実行できることが利点です.) そこで,今回はBayesian Lassoの発展版であるHorseshoe prior(馬蹄事前分布)について紹介します. 単純な設定(シグナル推定)における議論 Horseshoe priorのコンセプトを明確化するために,まずかなり単純化した以下のモデルで議論します. y_i=\beta_i+\varepsilon_i, \ \ \ \varepsilon_i\sim N(0, 1), \ \
東京大学・株式会社Nospareの菅澤です. 今回から多次元データの従属構造に対するベイズ分析の方法を2回に分けて紹介します.前半となる今回は,順位尤度を用いた事後分布とMCMCアルゴリズムについて紹介します. 従属構造のモデリングとコピュラ 多次元データが与えられたとき,変数間の関係性(従属構造)を把握することはデータの構造を理解する上で非常に重要です.多次元データの確率的な構造を考えるためには,データが従う多次元分布について考える必要があります. 多次元分布の分解 多次元分布は,ある条件のもとで各変数ごとの周辺分布と従属性を表す構造に一意に分解できることがスクラー(Sklar)の定理から知られています.これは多次元分布を考える際に,各変数ごとの確率的なバラつきと,従属構造は分けて考えられることを意味しています.このとき,従属構造の部分は一般的に コピュラ(copula) と呼ばれていま
東京大学・株式会社Nospareの菅澤です.今回から前編・後編に分けて,標準的なベイズ推測の枠組みを拡張した 一般化ベイズ(general Bayes)法 について紹介します. 標準的なベイズ推測 $y_1,\ldots,y_n$(以下ではまとめて$Y_n$と表記)をパラメータ$\theta$の確率分布$f(x|\theta)$からのランダムサンプルとします.$\theta$の事前分布を$\pi(\theta)$とすると,$\theta$の事後分布は \pi(\theta \mid Y_n) \propto \underbrace{\pi(\theta)}_{事前分布} \times \underbrace{\prod_{i=1}^n f(y_i \mid \theta)}_{尤度} で与えられます.この手順は,事前分布(事前信念)にデータの情報を尤度という形で与え,分布(信念)を更新して
東京大学・株式会社Nospareの菅澤です. 今回から「外れ値とロバスト推定」のテーマでいくつか記事を書いていこうと思います. 具体的には以下の内容について解説していく予定です. 一次元データの外れ値処理 多次元データおよび回帰モデルにおける外れ値とロバスト推定 一般的な統計モデルのロバスト推定 (ダイバージェンスの利用) ベイズ的なロバスト推定の方法 今回は「一次元データの外れ値処理」について解説していきます. 外れ値の存在 現実のデータには様々な要因(特異なサンプルの存在,入力ミス等)で外れ値が混入します.このような外れ値を適切に処理しなかった場合,本来求めたい結果とは大きく異なった結果が得られてしまう危険性があります.そのため,データを解析する前には外れ値の存在可能性について検討し,実際に(意味のない)外れ値が含まれる場合は適切に除去するなどの対策が必要になります. 平均値と中央値
東京大学・株式会社Nospareの菅澤です. 今回は統計学・データサイエンスの効果的な勉強方法(私見)について紹介します. 前提として大学レベルの微積分・線形代数をある程度取得している状況を想定します. 勉強の進め方のポイント 個人的に統計学・データサイエンスは「総合格闘技」な分野だと思っています.というのは,適切なデータ分析を実行するためには例えば 分析データに対するドメイン知識 対象のデータに対して使える手法の知識 分析手法の数理的な背景の知識 (分析手法が妥当なのはどのような場面か) 分析手法を実装する能力 が必要となってきます. 特に個々のデータ分析のドメイン知識以外の部分は「理論」と「実装」が大きなウエイトを占めるかと思います. 統計学・データサイエンスを勉強するにあたっては,大きく分けて「理論」と「実装」の2つのパートがあることを意識し,両者をバランス良く勉強することが効率的に
で表現されます.簡単のため,回帰モデルにおける分散パラメータ$\sigma^2$には逆ガンマ事前分布$\sigma^2\sim {\rm IG}(a_{\sigma}, b_{\sigma})$を用います. ここで$a_{\sigma}, b_{\sigma}$は固定したハイパーパラメータです.(以下の数値例では$a_{\sigma}=b_{\sigma}=1$を用います.) この事前分布は条件付き共役となり,後述のように$\sigma^2$の完全条件付き分布も逆ガンマ分布となります. $\tau^2$の事前分布としては$\lambda_k$と同様に半コーシー分布$C^{+}(0,1)$を用いることが推奨されています. 少し話は逸れますが,階層モデルにおける($\tau^2$のような)スケールパラメータの妥当な事前分布に関する研究(Gelman (2006)やPolson and Scot
はじめに 東京大学・株式会社Nospareの菅澤です. 今回はベイズ統計を用いたデータ分析を実施する上で欠かせないマルコフ連鎖モンテカルロ法(いわゆるMCMC)をフルスクラッチで実装するためのトレーニング方法と,そのための参考書について紹介いたします. 最近ではstanのように,モデルと事前分布を記述するだけで汎用的にMCMCが実行できてしまう環境が整っていますが, そもそもMCMCがどういう流れで動いているのか理解する stanなどの汎用ツールがうまく使えない(orうまく動かない)場面に遭遇したときに自分の手で実装できるようにする ためには,標準的なモデルでMCMCをフルスクラッチで実際に組んだ経験が重要になってくると思います. 参考書について トレーニングのために私がオススメするのは以下の本です. J. Chan, G. Koop, D. J. Poirier, J. L. Tobia
東京大学・株式会社Nopareの菅澤です.今回から縮小事前分布を使ったベイズ的変数選択の方法について,背景の原理やRでの実装について数回に分けて紹介していこうと思います. 今回は正則化法として有名なLassoのベイズ版であるBayesian Lassoについて紹介していきます. 線形回帰モデル 以下のような線形回帰モデルを考えます. $$ y_i=x_{i}^T\beta+\varepsilon_i, \ \ \ \ i=1,\ldots,n. $$ ここで$y_i$は被説明変数,$x_i=(x_{i1},\ldots,x_{ip})^T$は説明変数のベクトル,$\beta=(\beta_1,\ldots,\beta_p)^T$は回帰係数のベクトル,$\varepsilon_i$は誤差項を表します.以下では簡単のために,$\varepsilon_i$は独立かつ$\varepsilon_i\
東京大学・株式会社Nospareの菅澤です. 今回はベイズ統計学を勉強する上で個人的にオススメな日本語の教科書10冊を簡単に紹介したいと思います. 一般的な方法論・基礎理論 中妻照雄『入門ベイズ統計学』 簡単な例と実践的な例を使ってベイズ推論の考え方が導入された後,マルコフ連鎖モンテカルロ法(MCMC)の基礎的な事項がまとめられています.基本的な数理統計学が理解できていれば十分読める内容になっている印象です.この本の続編である中妻照雄『実践ベイズ統計学』では,ファクターモデルやそのポートフォリオ選択への応用,ベイズ的線形回帰モデル,モデル平均化法などのより発展した内容について丁寧に解説されています. 伊庭幸人・種村正美・大森裕浩・和合肇・佐藤整尚・高橋明彦『計算統計II』 かなりボリュームのある内容の本です.基本的な話題として,MCMCの基礎や標準的な統計モデルにおけるベイズ推論に関して数
東京大学・株式会社Nospareの菅澤です. 今回は空間データに対する回帰分析として最も有名な地理的加重回帰(GWR; Geographically Weighted Regression)について紹介します. 空間データと空間異質性 緯度・経度などの位置情報が付随したデータは一般的に空間データと呼ばれます.このようなデータは不動産価格,犯罪の発生件数,地域別の選挙投票率など,様々な場面で登場します. 具体的な問題設定として,$y_i$ $(i=1,\ldots,n)$を興味のある被説明変数とし,それに対する説明変数を$x_i$とします.(複数種類の説明変数がある場合,$x_i$はベクトルになります.) また,各データに付随する位置情報を$s_i$とします. 通常の線形回帰分析では以下のようなモデルを想定します. このモデルの特徴は「説明変数が被説明変数に与える効果が地点に依らず均一」とい
東京大学空間情報科学センター・株式会社Nospareの菅澤です. 今回は「ロバストなベイズ的回帰分析のための新しい誤差分布(理論編)」で紹介した手法をRで利用する方法について紹介します. R関数のダウンロード 提案手法を実行するR関数はこちらのGitHubのページからダウンロードできます.今回はその中で提案したEH分布を線形回帰モデルに組み込んだEHE-LM-Function.Rを使います. 提案したEH分布のもとで基本的な回帰分析を実行する関数がEHE()関数です.重要な引数としては Y: 線形回帰モデルにおける応答変数のベクトル X: 線形回帰モデルにおける説明変数の行列 (切片項は含めない) mc: MCMCの総繰り返し数 burn: 収束までの期間として捨てるサンプル数 mcからburnを引いた数が関数から返ってくる事後分布のサンプル数になります. 使ってみる 人工的なデータを以下
東京大学空間情報科学研究センター・株式会社Nospareの菅澤です. 今回は最近の研究成果「ロバストなベイズ的回帰分析のための新しい誤差分布」について紹介いたします. モデルの仮定から大きく逸脱したデータのことを一般的に外れ値と言います.多くの統計手法は外れ値に大きな影響を受けてしまうことが知られており,推定結果に深刻なバイアスが生じる危険性があります. 簡単な例として以下のような回帰分析の例を考えてみます.(データは擬似的により生成したものです.) 上図では赤線が真の回帰直線を表します.青線が通常の線形回帰分析によって推定された直線ですが,右上部にある外れ値らしきデータに影響を受けて真の傾きよりも大きい値が推定されてしまっています. この場合の簡単な対処法としては外れ値らしきデータを取り除いてから解析をすることですが,外れ値の特定は必ずしも容易ではありません.今回のようにデータを図示でき
このページを最初にブックマークしてみませんか?
『@ssugasawaのマイページ - Qiita』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く