エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
PokéLLMonの論文を読む - TadaoYamaokaの開発日記
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
PokéLLMonの論文を読む - TadaoYamaokaの開発日記
LLMを使用してポケモンバトルをプレイするPokéLLMonの論文を読んだ際のメモ。 概要 LLMを使用して、ポケ... LLMを使用してポケモンバトルをプレイするPokéLLMonの論文を読んだ際のメモ。 概要 LLMを使用して、ポケモンバトルをプレイするエージェントを作成する。 現在の状態をテキストとして与え、行動を生成する 以前のターンの結果をテキストとして、コンテキストに与える「インコンテキスト強化学習」 外部知識として、技や能力の効果、タイプ相性をコンテキストに与える パニック スイッチング(強い相手のときに交代を繰り返す)を防ぐため、プロンプトエンジニアリング手法のSelf-Consistency(SC)を使用 行っていないこと 探索は行わない モデルのパラメータの学習は行わない アルゴリズムの概要は、図4が分かりやすい。 結果 オンライン対戦(Pokemon showdown)において、ラダー戦で勝率49%、招待戦で勝率56%を達成 平均的な人間レベル 課題 長期計画に弱い 短期的な利益を達成で