エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント4件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
オフライン強化学習② Decision Transformerの系譜 - どこから見てもメンダコ
Decision transoformer (2021)は、自然言語モデルGPTにおける次トークン予測の枠組みでオフライン強化学... Decision transoformer (2021)は、自然言語モデルGPTにおける次トークン予測の枠組みでオフライン強化学習タスクを解けることを示し新たなパラダイムをもたらしました。最近ではDeepMindの超汎用エージェントGATOなどもDecision Transformerベースのアーキテクチャを採用しており、その重要性が増しています。 Decision Transformer とは オフライン強化学習の新たなパラダイム 言語を生成するように行動を生成する 自然言語風アプローチのメリット 条件付き生成:Reward conditioned Sequence modelingの系譜 Multi-Game Decision Transoformer(NeurIPS 2022) Uni[Mask](NeurIPS 2022): MaskedLMの導入 GATO(2022):超汎用エー
2023/01/11 リンク