タグ

ブックマーク / ibisforest.org (4)

  • 階層ベイズ - 機械学習の「朱鷺の杜Wiki」

    階層ベイズ (hierarchical Bayes)† 通常の非階層的なベイズモデルではデータが与えられたときのパラメータの事後分布はベイズの定理により次式で与えられる \[\Pr[\theta|D]\propto\Pr[D|\theta]\Pr[\theta]\] すなわち,\(\Pr[\theta]\) に従ってパラメータ \(\theta\) が発生し,そのパラメータの下でデータ \(D\) が \(\Pr[D|\theta]\) に従って発生する. それを多段階にしたのが階層ベイズモデル. 超パラメータ \(\eta\) が \(\Pr[\eta]\) に従って発生,その超パラメータの下でパラメータ \(\theta\) が \(\Pr[\theta|\eta]\) に従って発生,さらに,そのパラメータの下でデータ \(D\) が \(\Pr[D|\theta]\) に従って発生す

    stealthinu
    stealthinu 2009/09/15
    階層ベイズ。メタパラメータが下位のベイズ確率によって算出され多段階になったもの。あー、まさにこれだわ。…と思ったら違う感じ。自分はパラメータ同士の関係性をベイズで学習させたいんだな。
  • 確率的勾配降下法 - 機械学習の「朱鷺の杜Wiki」

    確率的勾配降下法 (stochastic gradient descent method)† 予測の誤差関数が \(E^N=\sum_i^NE_i\) のように,各データ点についての誤差の総和で表されているとする.例えば,2乗誤差なら \[E_i=(y_i-f(\mathbf{x}_i))^2\] とすれば, \[E^N=\sum_i^NE_i=\sum_i^N(y_i-f(\mathbf{x}_i))^2\] のように,各データ点の誤差の総和となっている. 最急降下法では \(N\) 個のデータ全体についての勾配を考えた \[\theta\leftarrow\theta-\nabla E^N\] 確率的勾配降下法では,総和の勾配を計算する代わりに,\(i\)個目データについての勾配を計算してパラメータを更新する手続きを \(i=1,\ldots,N\) について行う. \[\theta\

    stealthinu
    stealthinu 2009/03/14
    確率的勾配降下法について朱鷺の杜での解説。わからん…
  • FrontPage - 情報論的学習理論と機械学習の「朱鷺の杜Wiki」

    朱鷺の杜Wiki(ときのもり うぃき)† 朱鷺の杜Wikiは,機械学習に関連した,データマイニング,情報理論,計算論的学習理論,統計,統計物理についての情報交換の場です.これら機械学習関係の話題,リンク,関連事項,書籍・論文紹介などの情報を扱います. 更新されたページを確認するにはRSSリーダを使って右下のRSSリンクをチェックするか,最終更新のページを参照してください. ページの中でどこが更新されたかを見るには,上の「差分」をクリックして下さい. 数式の表示に MathJax を利用しています.数式の上でコンテキストメニューを使うと各種の設定が可能です.特に設定をしなくても数式は閲覧できますが,フォントをインストールすれば数式の表示がきれいで高速になります.詳しくは 数式の表示 のページを参照して下さい. ごく簡単なWikiの使い方がこのページの最後にあります.トップページやメニューなど

    stealthinu
    stealthinu 2008/08/06
    ニューロや機械学習の情報集積されているWiki
  • 強化学習 - 機械学習の「朱鷺の杜Wiki」

    強化学習 (reinforcement learning)† 知識をもった教師からサンプルが与えられるのではなく,環境から与えられる報酬を元に,環境のモデルと報酬を最大化する政策を学習する枠組み. -- しましま 強化学習は、ベルマン方程式 \(Q(s,a)=\int Q(s'|a)p(a|\theta)+r_{ss'} p(s'|s,a)da\)のもとで期待報酬和\(\int Q(s,a)p(a|\theta)da\)を最大化する政策θを探す問題として、定式化される。このように定式化された強化学習では、ベルマン方程式を解くことと、最適な政策を探すという2つの操作を同時に行う。ベルマン方程式の解き方によって、モンテカルロ法、TD(λ)、動的計画法と呼び分ける。一方、政策の最適化(サンプリング)は方策オンと方策オフの2つ分類される。 応用上の問題点としては次のようなものが挙げられる。 状態s

    stealthinu
    stealthinu 2008/08/06
    『知識をもった教師からサンプルが与えられるのではなく,環境から与えられる報酬を元に,環境のモデルと報酬を最大化する政策を学習する枠組み』
  • 1