タグ

ブックマーク / hillbig.cocolog-nifty.com (1)

  • DO++: 機械学習のチュートリアル (ICML2008)

    今年のICML2008はUAIとCOLTの共催と大規模で行なわれたようです。いろいろな方の話を伺うと楽しかったようで。 私は適当にお勧めされた論文やらを読み漁ってます。 個人的に印象深かったのはいくつかのmulti-armed bandit problemの話かな。特にこれとか。 bandit problemは強化学習の中にでてくるような問題の一つで、元々は複数のスロットマシンがあって、これから収益を最大化したいという問題。この時、やらなければいけないことは、現在持っている結果を元に各スロットのモデルを予想するとともに、自分からちょっとリスクを冒してでも他のスロットを試しにいかないといけない。スロットAが今のところ調子いいんだけど、もしかしたらさっきは出なかったスロットBの方がすごい調子がいいかもしれない。探索と最適化がまざったような話ですね。 コンピュータ囲碁で今一番強いモンテカルロ法と

    DO++: 機械学習のチュートリアル (ICML2008)
  • 1