タグ

統計に関するshowyouのブックマーク (9)

  • Python: 特徴量の重要度を Permutation Importance で計測する - CUBE SUGAR CONTAINER

    学習させた機械学習モデルにおいて、どの特徴量がどれくらい性能に寄与しているのかを知りたい場合がある。 すごく効く特徴があれば、それについてもっと深掘りしたいし、あるいは全く効かないものがあるなら取り除くことも考えられる。 使うフレームワークやモデルによっては特徴量の重要度を確認するための API が用意されていることもあるけど、そんなに多くはない。 そこで、今回はモデルやフレームワークに依存しない特徴量の重要度を計測する手法として Permutation Importance という手法を試してみる。 略称として PIMP と呼ばれたりすることもあるようだ。 この手法を知ったのは、以下の Kaggle のノートブックを目にしたのがきっかけだった。 Permutation Importance | Kaggle あんまりちゃんと読めてないけど、論文としては Altmann et al. (2

    Python: 特徴量の重要度を Permutation Importance で計測する - CUBE SUGAR CONTAINER
  • ブートストラップ法で信頼区間を求めるときの注意点 - ほくそ笑む

    1. はじめに ブートストラップ信頼区間について調べていたんですが、理論的な求め方は教科書などに載っているのですが、実践的な情報が少ないように思います。 今回、少し調査してみて、実際に適用する際に注意が必要だなと感じたことについて書いておきます。 2. ブートストラップ信頼区間 ブートストラップ法は、理論的に求めるのが難しい統計量を、経験分布からのシンプルなリサンプリングによって推定できるという手法です。 ブートストラップ法では、推定された統計量に対して、その信頼区間を求めることもできます。 このような信頼区間をブートストラップ信頼区間といいます。 ブートストラップ信頼区間を求める方法については色々議論があるようですが、主な手法は次の5つです。 正規分布近似法 ベーシック法 パーセンタイル法 BCa法(bias-corrected and accelerated percentile me

    ブートストラップ法で信頼区間を求めるときの注意点 - ほくそ笑む
  • 中古マンション売買データを分析してみた(1) - 築年数と駅からの距離は価格にどう影響するか - About connecting the dots.

    新しい年度になって消費税も上がったことで,3月までの駆け込み消費*1の反動でマンションとか全く売れていないんだろうなぁと思う今日この頃です*2.個人的な趣味でいうと新築よりは中古派ですので,増税前に無理矢理ローン組んだ人がさくっと数年で手放したのを買うのとかが,味があってよいと思うわけですけれども.2015年に消費税が10%にあがる公算も高そうですしね. さて,先日こんな興味深い記事を拝見いたしました. 徒歩5分vsバス利用、中古マンションの値下がり具合を可視化 - マンションチラシの定点観測 | マンション選びのお役立ち情報ブログ REINSといえば,不動産会社御用達の物件データベースなわけですが,当然のことながら業者専用のデータベースなので,私のような一般の人はみることができません.と思っていたら,上記記事で紹介があるように,中古物件の成約済みデータに関しては閲覧可能なんですね. 上記

    中古マンション売買データを分析してみた(1) - 築年数と駅からの距離は価格にどう影響するか - About connecting the dots.
  • 統計学復習メモ10: なぜ共分散行列の固有ベクトルが単位主成分なのか - Weblog on mebius.tokaichiba.jp

    かつてJR横浜線 十日市場駅近くのMebius (CPU:Pentium 150MHz)より発信していたウェブログです。 前項に書いた通り、主成分分析における主成分の単位ベクトルは、共分散行列の固有ベクトルとして求まる。そのこと自体に昔から興味があったので、主成分分析の復習ついでに考察してみる。 まず、最小2乗法で考えてみる。簡単のために2次元で考える。n個のサンプルデータを とし、第1主成分の単位ベクトルを とすると、Xに対応する主成分軸上の第1主成分Yは であり、そのYを元の座標系に戻したものX~は である。このことは、高校で習った一次変換を思い出してやってみるとわかる。このX~が、Xを第1主成分の軸上に射影したものであり、これとXとの距離が、最小にしたい誤差ということになる。その誤差Eを、Xを直交座標とした場合の距離の2乗とすると、 であり、p12+p22=1に注意すると、これは と

    統計学復習メモ10: なぜ共分散行列の固有ベクトルが単位主成分なのか - Weblog on mebius.tokaichiba.jp
  • Microsoft PowerPoint - 2008-08-05-okanohara.ppt

    L1正則化について 岡野原大輔 東京大学辻井研 D2 2008/8/5@奥村研 目次 • L1正則化の性質 – Laplace事前分布によるMAP – Representor Theorem (L2との違い) • L1の最適化⼿法 – 差分表現 / OWLQN / Multiplicative Update Grafting • L1によるアプリケーション例 教師有り学習のおさらい • ⼊⼒x∈Rm から出⼒yへの写像を求める – y∈{-1,+1}: ニ値分類 y∈{1…k}: 多値分類 – y∈r1× r2× …×rt ri∈{1…k}:構造出⼒分類 • 写像のモデルとして線形識別器を使う – w∈Rm モデルパラメータ(重みベクトル) – Φ(x,y)∈Rm : x, yから決定される素性ベクトル – y*=argmaxywTΦ(x,y) – SVM, NB, MaxEnt (Lo

    showyou
    showyou 2010/03/09
    L1正則化について
  • PRML 読書会 #11 資料(max-sum アルゴリズム) - 木曜不足

    「パターン認識と機械学習」(PRML)読書会 #11 で担当する 8.4.5「max-sum アルゴリズム」の資料です。 8.4.5 max-sum アルゴリズム 8.3 まで モデルを表現するツールとしてグラフィカルモデルを使う 8.4 以降、周辺化や同時分布の大域最大解を求めるツールとしてのグラフィカルモデル 8.4.4 積和(sum-product) : 周辺分布を求める 8.4.5 max-sum : 同時分布の大域最大確率と、それを与える変数の値を求める max-sum algorithm 同時分布の最大解を求めるツール sum-product algorithm において 因子(local function) の対数を取り sum を max におきかえ 単調増加なlogと交換可能 非負な係数に対して分配則が成立 product を sum におきかえ ★注意★ sum-pro

    PRML 読書会 #11 資料(max-sum アルゴリズム) - 木曜不足
    showyou
    showyou 2010/02/06
    わかりやすいなー
  • ノンパラベイズを勉強してみる (6) まとめ - nokunoの日記

    長々と書いてきたベイズ関連のエントリについてまとめました。ノンパラベイズを勉強してみる (5) ベイズ階層言語モデルによる教師なし形態素解析 - nokunoの日記個人的には「言語モデルの性能最大化で、教師なし単語分割ができる」という基の部分が目からうろこでした。ノンパラベイズを勉強してみる (4) 階層Pitman-Yor過程 - nokunoの日記Pitman-Yor過程はディリクレ過程の拡張で、観測回数を実際より低く見積もるディスカウント項が追加されているのが特徴です。ノンパラベイズを勉強してみる (3) 階層ディリクレ過程 - nokunoの日記階層ディリクレ過程はその名の通りディリクレ過程に階層構造を持ち込んだもので、これを使うとN-gramモデルのスムージングを理論的に導出することができるというものです。ノンパラベイズを勉強してみる (2) ディリクレ過程 - nokunoの

  • R+Pythonでマルコフ連鎖モンテカルロ - dataminer.me

    バイト先で広告の効果測定を頼まれたので、前々から興味があったMCMCを使って測定を行った。 PythonにはPyMCという専用のパッケージがあるけど、そっちはどうも小難しい感じがしたので Rpyを使って使えるようにしてみた。 使い方はRで回帰分析をするときとほとんど同じでデータフレームと数式を入れると結果を出すという形式にした。 用いたデータは2004年1月〜2009年9月までの円ドルレートとアメリカの失業率。(http://www.mediafire.com/?mfo5mmezow3) MCMCで解析した結果とその際に行われた推定の過程をPDFファイルで吐き出してくれるようにした。 解析した結果はと言うと、失業率と円/ドルはそこまで関係が強くないらしい(回帰分析でR2が0.63くらい) 単変量であたるくらい単純なものだったら、FXで損する人はいないか。 以下、今回用いたソースコード。 #

    R+Pythonでマルコフ連鎖モンテカルロ - dataminer.me
    showyou
    showyou 2009/11/07
    あーそっかRPy使えば統計楽なのか
  • 糞ネット弁慶

    糞ネット弁慶 日声優統計学会/声優統計についてはこちら

    showyou
    showyou 2009/09/07
    あれ?ブックマークしてなかったっけ?
  • 1