タグ

GLMに関するDiomedeidaeのブックマーク (5)

  • Overdispersion and Underdispersion in Negative Binomial/Poisson Regression

  • log 変換する?しない?AICでモデル比較するときの注意点 - ほくそ笑む

    データを分析にかける前に、出力変数を log 変換する、というのはよくあることだと思います。 次のデータを見て下さい。 このデータ、線形モデルに当てはめる前に log 変換したほうがよさそうだなーというのが見てとれます。 それもそのはず、このデータは次のように作っています。 N <- 100 x <- runif(N, min = 1, max = 2) y <- exp(x + rnorm(N, sd = 0.3)) data <- data.frame(x, y) それでは、log 変換しないバージョンと、するバージョンでモデルを作成して、AIC を比較してみましょう。 model <- lm(y ~ x, data) model.log <- lm(log(y) ~ x, data) aic <- AIC(model, model.log) print(aic) ## df AIC

    log 変換する?しない?AICでモデル比較するときの注意点 - ほくそ笑む
    Diomedeidae
    Diomedeidae 2013/12/24
    ちなみにlmの代わりにglmを使ってリンク関数に対数を指定することで同じ結果が得られるようですね。しかし複雑な変数変換を要するときにはこのやり方が役に立ちますね。
  • Rいろは・第五部:現代統計への導入(GLM、GLMMの基礎)

    Rの統計ネタは自分自身の勉強を兼ね発信しています。作成者は統計の専門家ではないので自己責任でご参照ください。ご指摘も(応援も^^)歓迎します! (cf. Rいろはのトップページ http://nhkuma.blogspot.jp/p/r_5.html) # 注:作成者は統計の専門家ではありません。内容には十分な注意を払っているつもりですが、限界があることを理解した上で参照してください。感想・苦情・間違いのご指摘、歓迎します。 (注:使用環境によっては、スペースやクオーテーションマーク"などが化けてコードがエラーになるかもしれません) ### GLM準備編 ########### # まずは古典統計を統計モデリング風に解いてみよう #(統計モデルの構築とパラメータ推定の練習) # 回帰の例(yへのxの影響が有意か、ではなく、yへのxの影響の仕方を推定する) x00 <- c(1:100) y

    Diomedeidae
    Diomedeidae 2013/10/11
    RでGLM・GLMM実行時のTipsや関数を紹介している。知らない関数があって参考になった。
  • 「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ - 六本木で働くデータサイエンティストのブログ

    先日の記事はおかげさまで好評をいただいたんですが、勉強中の身で教科書を確認せずに書いたこともあり多数ツッコミをいただきました。ツッコミをいただけるというのはもちろん大変良い勉強の機会になるということで*1、今回もひとしきり勉強してみました。 ということで、自戒も込めて備忘録的に勉強したことをまとめておこうと思います。今回はあまり広く読んでもらう内容ではないので、不親切かもしれませんがごめんなさい。ただし、あまりにも理論的側面ばかり色々書いても何なので、インターネット広告業界の言葉で喩えて言うなら「クリック数*2をモデリングしたい場合」と「コンバージョン数*3をモデリングしたい場合」とに分けた、と理解してもらえたら良いかなと思ってます。 今回も参考文献は久保です。一般化線形モデルまわりではこのより分かりやすいは依然としてないと思います。 データ解析のための統計モデリング入門――一般化線

    「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ - 六本木で働くデータサイエンティストのブログ
    Diomedeidae
    Diomedeidae 2013/09/24
    前回の問題点が大体修正されていてよいと思いました。次はベイズ推定ですねw
  • 今さら人に聞けない「重回帰分析の各手法の使い分け」 - 渋谷駅前で働くデータサイエンティストのブログ

    (※※※続編記事書きました→「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ) 今ちょうどadtech tokyo 2013の会期中で、職場からも近い&会社から行ってこいという指示が出たということで僕も色々セッションを聞いたり企業ブースのお話を聞いたりしてる*1ところです。 ところで、いくつかのセッションの中でキーワードとして「重回帰分析」という言葉が出てきてました。ま、それ自体はこのブログでもRによるデータ分析絡みで頻出だし、ぶっちゃけありふれた手法と言って良いでしょう。やりようによっては普通にExcelでもできますし、それだけ人口に膾炙していると言って良いのかもですね。 ただし。意外にも内部のパラメータというか細かい手法の分岐というか、それこそ普通の線形モデルvs.一般化線形モデル(バリエーション多数)があることを無視して漫然と重回帰分析をや

    今さら人に聞けない「重回帰分析の各手法の使い分け」 - 渋谷駅前で働くデータサイエンティストのブログ
    Diomedeidae
    Diomedeidae 2013/09/19
    GLMで使う確率分布の選択はover dispersionかどうか検討するのも(特にカウントデータの場合)大事ですよー、っと。久保さんの本もいいですし、Webサイトを読むだけでも勉強になりますよ。
  • 1