Q* の勝手な予想メモ｜深津貴之 (fladdict)

テクノロジーカテゴリーの変更を依頼記事元:

note.com/fladdict

30 usersがブックマークコメント

コメント

2

記事へのコメント2件

注目コメント
新着コメント

quwachy みんなそう思ってる、これのどこがアルトマンを解任するほどの重大な情報なのかは全く理解できないけど

2023/11/26 リンク

Ho-oTo Q*がA*を文字っていそうというのは全く気付かなかった/記事内でベクトル空間という語が数学におけるそれとは全く違う意味でサラッと使われているのがだいぶ気持ち悪いかもしれん

2023/11/25 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

Q* の勝手な予想メモ｜深津貴之 (fladdict)

OpenAIのQ*というモデルアプローチに関してメモ。この分野は素人なので、あくまで勝手な予想です。 Qラ... OpenAIのQ*というモデルアプローチに関してメモ。この分野は素人なので、あくまで勝手な予想です。 Qラーニングとは？Q学習（Q-learning）は、強化学習の一種で、エージェントが最適な行動を学習する方法です。このアプローチでは、エージェントは環境との相互作用を通じて、各状態でどの行動を選択することが最も報酬をもたらすかを学習します。 A*は？A*（エースター）アルゴリズムは、最短経路問題を解決するための効率的なグラフ探索アルゴリズムです。このアルゴリズムは、グラフの一部を探索し、目的地に最も近いと推定される経路を優先して探索します。Aの重要な特徴は、それが「最適」かつ「完全」であることです。つまり、解が存在すればAはその解を見つけ、その解は最適な解です。この2つから素直に考えると、Q* とは解決方法が不明のタスクAを、自律的なトライ&エラーのフィードバックループを用いて探索し、

ブックマークしたユーザー

quwachy2023/11/26
bayaread2023/11/26
macro15972023/11/26
a-know2023/11/26
coziro2023/11/26
podpod2023/11/26
daitom2023/11/25
Ho-oTo2023/11/25
Itisango2023/11/25
roogh5eeSha62023/11/25
asyst2023/11/25
NSTanechan2023/11/25
einherjar2023/11/25
dhesusan46492023/11/25
tomotomo10tan2023/11/25
ZAORIKU2023/11/24
cutc-mt2023/11/24

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx