並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 184件

新着順 人気順

深層強化学習の検索結果1 - 40 件 / 184件

  • 東大が無料公開している超良質なPython/Data Science/Cloud教材まとめ (*随時更新) - Digital, digital and digital

    東京大学がちょっとびっくりするくらいの超良質な教材を無料公開していたので、まとめました Python入門講座 東大のPython入門が無料公開されています。scikit-learnといった機械学習関連についても説明されています。ホントいいです Pythonプログラミング入門 東京大学 数理・情報教育研究センター: utokyo-ipp.github.io 東大のPython本も非常にオススメです Pythonによるプログラミング入門 東京大学教養学部テキスト: アルゴリズムと情報科学の基礎を学ぶ https://amzn.to/2oSw4ws Pythonプログラミング入門 - 東京大学 数理・情報教育研究センター Google Colabで学習出来るようになっています。練習問題も豊富です https://colab.research.google.com/github/utokyo-ip

      東大が無料公開している超良質なPython/Data Science/Cloud教材まとめ (*随時更新) - Digital, digital and digital
    • 「未経験文系から3ヶ月でデータサイエンティストになって一発逆転」はここで終わり (2020/7/31 更新) - todo-mentor’s diary

      データサイエンティストを生業にする手段と実態について述べる。 途中、具体例・境界値の例として私個人の話もするが、なるべく一般性のある話をする。 この記事で言いたいことは具体的には4つだ。 プログラミングスクールをディスるなら代わりの入門方法を提供しようよ。 もう「未経験文系から3ヶ月でデータサイエンティストで一発逆転物語」を止めろ。*1 おじさんは人生逆転したいなら真面目にやれ。 若者はワンチャンじゃなくて、ちゃんと化け物になれよ。 この記事についてはパブリック・ドメインとして転載・改変・リンク記載を自由にしてよいです。 (続き書いた) a. 入門は辛いが… b. 思考停止でプログラミングスクールに通うな。 なろう系・始めてみよう系資料一覧 (最速・最短ルート用) まずは動かしてみよう。強くてニューゲームが体験出来るぞ! 入門以前の本 一般向け業界本 (AI業界と展望がわかる本) 技術者入

        「未経験文系から3ヶ月でデータサイエンティストになって一発逆転」はここで終わり (2020/7/31 更新) - todo-mentor’s diary
      • 東大松尾研究室、無料でディープラーニングや自然言語処理を学べる講座開講 松尾豊氏が講師を務める講座も | Ledge.ai

        TOP > Article Theme > AI(人工知能)ニュース > 東大松尾研究室、無料でディープラーニングや自然言語処理を学べる講座開講 松尾豊氏が講師を務める講座も 東京大学 松尾研究室は1月29日から、無料でディープラーニング(深層学習)や自然言語処理について学べる、短期間のオンライン講座の受講者を募集している。対象は学生(大学院、大学、高専、専門学校生、高校、中学など)。募集は2月8日(月)の10時00分まで。選考結果は2月15日(月)までに受講決定者にメールで連絡する。 今回、募集しているオンライン講座は「スプリングセミナー2021:深層強化学習」「プリングセミナー2021:深層生成モデル」「プリングセミナー2021:Deep Learning for NLP講座」の3つ。なお、人工知能(AI)研究の第一人者で、東京大学 松尾研究室を率いる松尾豊氏は企画・監修だけではなく、

          東大松尾研究室、無料でディープラーニングや自然言語処理を学べる講座開講 松尾豊氏が講師を務める講座も | Ledge.ai
        • 誰でもわかる強化学習

          本資料は,東京大学松尾研究室で開催された強化学習セミナーの講義資料をもとに,講演目的でより初学者向けに内容を調整したものです.特に強化学習で最も基本的かつ最重要手法であるQ学習や,それの深層強化学習版のDQN(Deep Q-Network)を中心に解説しています. 昨今,ChatGPT等の大規模言語モデル(LLM)の開発に強化学習が使用(RLHF等)され,さらに強化学習をLLMに本格的に組み込んだAI( GoogleのGemini,OpenAIのQ*等)の出現が予想されることから,�強化学習の知識の普及のため公開しました.

            誰でもわかる強化学習
          • データサイエンティストという職業の10年間の変遷を振り返る - 渋谷駅前で働くデータサイエンティストのブログ

            (Image by Gordon Johnson from Pixabay) TL;DR 今年の6月に僕自身がデータサイエンティストに転じて10年という節目の年を迎え、10月でDavenportの「データサイエンティストは21世紀で最もセクシーな職業である」HBR総説から10周年になるのを機に、この10年間のデータサイエンティストという職業の変遷を振り返ることにしました。 6月の回顧録記事でも書いた通り、僕がデータサイエンティストの仕事に就いてから今年で10年になります。最近も同じかどうかは分かりませんが、古くから「10年ひと昔」という常套句がある通りで個人的には大きな節目の年だと感じています。 一方で、今年の10月にはあまりにも有名な「データサイエンティストは21世紀で最もセクシーな職業である」HBR総説が出てから10周年を迎え、後述するようにDavenportは「今もデータサイエンティ

              データサイエンティストという職業の10年間の変遷を振り返る - 渋谷駅前で働くデータサイエンティストのブログ
            • 自分が読んだ強化学習の資料達 - 下町データサイエンティストの日常

              こんにちは。nino_piraです。 先日、強化学習の資料の引用ツイートをしましたら、それなりに伸びたので、「もしかして、みんな強化学習に興味ある!?」と思い自分が読んだ&好きな資料をまとめてます。 また、ブログを書いているうちに「何を持って基礎とするか」などカテゴライズも自分の中でも行方不明になっていましたので、色々思うところはあると思いますが、暖かい目で読んで頂ければ幸いです。。。。 あくまでも私の経験 強化学習基礎系 [Qiita] DQN(Deep Q Network)を理解したので、Gopherくんの図を使って説明 [書籍]これからの強化学習 [pdf] (小南さん作成) 強化学習入門 [pdf] (通称) Sutton本第2版 [書籍] 機械学習スタートアップシリーズ Pythonで学ぶ強化学習 [ブログ]強化学習 もう少し強化学習を詳しく知りたい系の人へ [書籍]速習 強化学

                自分が読んだ強化学習の資料達 - 下町データサイエンティストの日常
              • 機械学習エンジニアに爆速でなるための教材集 - Qiita

                0. はじめに 昨今のAI、DXブームの影響で、機械学習、深層学習(ディープラーニング, Deep Learning) への注目は増すばかりですが、初学者の方にとって機械学習を学ぶハードルは依然高い状態かと思います。 機械学習、特にディープラーニングを習得するには学ぶべきことが多く、また分野によっては難易度が高いということもあり、学んでいる途中で挫折してしまうという人も多いという印象があります。 そこで本記事では、これから機械学習を学びたい方が自学自習する際の助けになるようにと、有用な自習コンテンツをまとめました。 本記事では、機械学習エンジニアとして実務に参画できるレベルを目指して、コンテンツを収集しました。よって機械学習の理論やライブラリに加え、社会実装する上で付随して必要となるソフトウェアエンジニアリングのスキルも含めています。 コンテンツについては、適宜追記していく予定です。 対象

                  機械学習エンジニアに爆速でなるための教材集 - Qiita
                • AIの想像力が人間を超えるとき。深層強化学習のブレイクスルー、D3RLの衝撃

                  AIの想像力が人間を超えるとき。深層強化学習のブレイクスルー、D3RLの衝撃 2020.10.08 Updated by Ryo Shimizu on October 8, 2020, 11:13 am JST 「最近のAIがすごい」と言われてからもう6年ほどが経過した。 なかでも人目を引いたのは、なんといっても2016年のAlphaGoだろう。最難関ゲームの一つと言われる囲碁において、人間のトップ棋士に対しAIが圧勝したのである。 これは「深層強化学習」というAIだが、実際のところ、「深層強化学習」を実用的に利用した例はまだ少ない。 多くのAIベンチャーやAIベンダーが扱う「AI」技術は、古典的な統計解析か、時折ニューラルネットを使っているくらいで、「深層学習」ではあっても「深層強化学習」とは完全に別物である。ラジオもコンピュータも同じ電気で動くものだが別物であるのと同じだ。 深層強化学

                    AIの想像力が人間を超えるとき。深層強化学習のブレイクスルー、D3RLの衝撃
                  • 達人出版会

                    探検! Python Flask Robert Picard, 濱野 司(訳) BareMetalで遊ぶ Raspberry Pi 西永俊文 なるほどUnixプロセス ― Rubyで学ぶUnixの基礎 Jesse Storimer, 島田浩二(翻訳), 角谷信太郎(翻訳) 知る、読む、使う! オープンソースライセンス 可知豊 きつねさんでもわかるLLVM 柏木餅子, 風薬 R/RStudioでやさしく学ぶプログラミングとデータ分析 掌田津耶乃 データサイエンティストのための特徴量エンジニアリング Soledad Galli(著), 松田晃一(訳) 実践力をアップする Pythonによるアルゴリズムの教科書 クジラ飛行机 スッキリわかるサーブレット&JSP入門 第4版 国本 大悟(著), 株式会社フレアリンク(監修) 徹底攻略 基本情報技術者教科書 令和6年度 株式会社わくわくスタディワール

                      達人出版会
                    • LLM時代の強化学習 - どこから見てもメンダコ

                      強化学習におけるLLMの活用パターン調査 はじめに:実世界における強化学習の課題 LLM×強化学習 人間はゼロショット推論によりサンプル効率の良い学習ができる LLMによるゼロショット推論の例 さまざまなLLM活用パターン 1. 報酬モデルとしてのLLM LLMによる代理報酬モデル VLMによる外観ベース代理報酬モデル 外部知識にもとづく報酬モデル設計 2. 計画モデルとしてのLLM LLMによるセマンティック計画 LLMによる構造的な探索計画 3. 方策モデルとしてのLLM LLM as 確率方策 マルチモーダルLLM as 確率方策 参考:GPTアーキテクチャの転用 4. 世界モデルとしてのLLM Language Models Meet World Models (あとで書く) おわりに:VLM as 確率方策に期待 はじめに:実世界における強化学習の課題 レトロゲームで人間並みのパ

                        LLM時代の強化学習 - どこから見てもメンダコ
                      • 強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)

                        東京大学 松尾研究室が主催する深層強化学習サマースクールの講義で今井が使用した資料の公開版です. 強化学習の基礎的な概念や理論から最新の深層強化学習アルゴリズムまで解説しています.巻末には強化学習を勉強するにあたって有用な他資料への案内も載せました. 主に以下のような強化学習の概念やアルゴリズムの紹介をしています. ・マルコフ決定過程 ・ベルマン方程式 ・モデルフリー強化学習 ・モデルベース強化学習 ・TD学習 ・Q学習 ・SARSA ・適格度トレース ・関数近似 ・方策勾配法 ・方策勾配定理 ・DPG ・DDPG ・TRPO ・PPO ・SAC ・Actor-Critic ・DQN(Deep Q-Network) ・経験再生 ・Double DQN ・Prioritized Experience Replay ・Dueling Network ・Categorical DQN ・Nois

                          強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
                        • 無料、独学で機械学習エンジニアになる!~機械学習が学べる無料サイト、書籍~ - Qiita

                          こんにちはkamikawaです 今回は無料で利用できる機械学習、データサイエンスに関するサイトや書籍をまとめました 私自身も機械学習プロジェクトに関わった経験があるのですが、ここに載せたサイトや資料を勉強に使っていました 機械学習エンジニアを目指す人必見です 入門者レベル〜応用・発展レベルまで幅広く載せていますレベルは個人の見解です。(あくまでも参考程度に) 日本語のものと英語のものを紹介します 海外の大学の講義もあるので英語の勉強にも使えます 海外でのキャリアを考えている方も必見です 対象読者 機械学習を学びたいけどお金をかけたくない人 独学で機械学習を身につけたい人 機械学習エンジニアになりたい人 発展的な機械学習を学びたい人 日本語 Python 三重大学奥村教授のサイト 機械学習、様々な分析、スクレイピング、データ可視化、地図データ、CV、統計など幅広い分野を扱っている R編もある

                            無料、独学で機械学習エンジニアになる!~機械学習が学べる無料サイト、書籍~ - Qiita
                          • 強化学習の基礎まとめ - Qiita

                            こんにちは、すきにーです。 強化学習の基礎的な手法についてまとめました。 はじめに この記事では以下を説明しています 動的計画法 モンテカルロ法 TD法(SARSA、Q学習) コードはゼロから作るDeepLearning4 強化学習編 に載っているものを参考にしています。 参考記事 深層強化学習アルゴリズムまとめ ゼロからDeepまで学ぶ強化学習 これから強化学習を勉強する人のための「強化学習アルゴリズム・マップ」と、実装例まとめ 今さら聞けない強化学習(1):状態価値関数とBellman方程式 全体図 動的計画法 動的計画法は、エージェントが置かれた環境のモデルがすでに分かっているとき最適な方策を見つけるアプローチです。 方策反復法と価値反復法があります。 環境のモデルが分かっていることは少ないので、あまり使われません。 モンテカルロ法 動的計画法では環境のモデルが完全にわかっている状態

                              強化学習の基礎まとめ - Qiita
                            • 達人出版会

                              探検! Python Flask Robert Picard, 濱野 司(訳) BareMetalで遊ぶ Raspberry Pi 西永俊文 なるほどUnixプロセス ― Rubyで学ぶUnixの基礎 Jesse Storimer, 島田浩二(翻訳), 角谷信太郎(翻訳) 知る、読む、使う! オープンソースライセンス 可知豊 きつねさんでもわかるLLVM 柏木餅子, 風薬 デザインディレクション・ブック 橋本 陽夫 現場のプロがやさしく書いたWebサイトの分析・改善の教科書【改訂3版 GA4対応】 小川 卓 解釈可能なAI Ajay Thampi(著), 松田晃一(翻訳) PowerPoint 目指せ達人 基本&活用術 Office 2021 & Microsoft 365対応 PowerPoint基本&活用術編集部 ランサムウェア対策 実践ガイド 田中啓介, 山重徹 TODによるサステナ

                                達人出版会
                              • Kaggleランカーの9人に聞いた、2020年面白かったコンペ9選と論文9選 | 宙畑

                                9名のKagglerの方にアンケートにご協力いただき、2020年に面白かったコンペと論文を教えていただきましたのでその結果を紹介します。 2020年も数多くのデータ解析コンペが開催され、興味深い論文が多く発表されました。 昨年公開した「Kaggle上位ランカーの5人に聞いた、2019年面白かったコンペ12選と論文7選」は現時点で20,000人を超える方にご覧いただき、Kaggleを始めとするデータ解析コンペへの関心が非常に高まっていると感じました。 そして本年も9名のKagglerの方にアンケートにご協力いただき、2020年に面白かったコンペと論文を教えていただきましたのでその結果を紹介します。 (1)回答いただいたKaggler9名のご紹介 まずは今回のアンケートに回答いただいたのは以下9名のKagglerの方です。 aryyyyyさま(@aryyyyy221) カレーちゃんさま(@cu

                                  Kaggleランカーの9人に聞いた、2020年面白かったコンペ9選と論文9選 | 宙畑
                                • 達人出版会

                                  探検! Python Flask Robert Picard, 濱野 司(訳) BareMetalで遊ぶ Raspberry Pi 西永俊文 なるほどUnixプロセス ― Rubyで学ぶUnixの基礎 Jesse Storimer, 島田浩二(翻訳), 角谷信太郎(翻訳) 知る、読む、使う! オープンソースライセンス 可知豊 きつねさんでもわかるLLVM 柏木餅子, 風薬 R/RStudioでやさしく学ぶプログラミングとデータ分析 掌田津耶乃 データサイエンティストのための特徴量エンジニアリング Soledad Galli(著), 松田晃一(訳) 実践力をアップする Pythonによるアルゴリズムの教科書 クジラ飛行机 スッキリわかるサーブレット&JSP入門 第4版 国本 大悟(著), 株式会社フレアリンク(監修) 徹底攻略 基本情報技術者教科書 令和6年度 株式会社わくわくスタディワール

                                    達人出版会
                                  • セキュリティエンジニアのための機械学習

                                    情報セキュリティのエンジニアや研究者を読者対象とした機械学習の入門書。フィッシングサイト、マルウェア検出、侵入検知システムなどの情報セキュリティ全般の課題に対して、機械学習を適用することでどのようなことが可能になるのか? 本書ではサイバーセキュリティ対策でとても重要なこれらの知識を実装レベルで身につけることができます。また、どうすれば機械学習による検出を回避できるか、という点についても同時に解説します。サンプルコードはPython 3対応。Google Colaboratory上で実際に手を動かしながら学ぶことができます。 訳者まえがき まえがき 1章 情報セキュリティエンジニアのための機械学習入門 1.1 なぜ情報セキュリティエンジニアに機械学習の知識が必要なのか 1.2 本書のコードサンプルの実行環境 1.2.1 Google Colaboratory入門 1.2.2 GPU/TPUラ

                                      セキュリティエンジニアのための機械学習
                                    • 達人出版会

                                      探検! Python Flask Robert Picard, 濱野 司(訳) BareMetalで遊ぶ Raspberry Pi 西永俊文 なるほどUnixプロセス ― Rubyで学ぶUnixの基礎 Jesse Storimer, 島田浩二(翻訳), 角谷信太郎(翻訳) 知る、読む、使う! オープンソースライセンス 可知豊 きつねさんでもわかるLLVM 柏木餅子, 風薬 R/RStudioでやさしく学ぶプログラミングとデータ分析 掌田津耶乃 データサイエンティストのための特徴量エンジニアリング Soledad Galli(著), 松田晃一(訳) 実践力をアップする Pythonによるアルゴリズムの教科書 クジラ飛行机 スッキリわかるサーブレット&JSP入門 第4版 国本 大悟(著), 株式会社フレアリンク(監修) 徹底攻略 基本情報技術者教科書 令和6年度 株式会社わくわくスタディワール

                                        達人出版会
                                      • 強化学習未経験者がテトリスの AI を作ってみた話

                                        はじめに この度、強化学習によるテトリスの AI を作成してみました。想像以上にうまくいき、最終的には半永久的にラインを消してくれる AI に成長してくれたので、今回はその記録として AI を作成した過程をここに記していきます! 今回の AI の概要 今回作成したテトリス AI の概要は以下の通りです。 特定のゲームの状態から可能な行動パターンを全てシミュレーションする 行動後の状態を入力情報として Neural Network に今後の報酬の期待値を推測させる 今後の報酬の期待値が一番高くなる行動を実際の行動として選択して遷移する (貪欲方策) Game Over になるまで 1 ~ 3 を繰り返す Tetris AI を可視化した図 何も知らない頃は『AI ってどうやって動いてるんだ?』と自分は思っていたんですが、動作原理は非常にシンプルです。強化学習とは、この今後の報酬の期待値を推測

                                          強化学習未経験者がテトリスの AI を作ってみた話
                                        • Kaggleランカーの7人に聞いた、2021年面白かったコンペ7選と論文7選 | 宙畑

                                          7名のKagglerの方にアンケートにご協力いただき、2021年に面白かったコンペと論文を教えていただきましたのでその結果を紹介します。 2022年8月31日以降、Tellus OSでのデータの閲覧方法など使い方が一部変更になっております。新しいTellus OSの基本操作は以下のリンクをご参照ください。 https://www.tellusxdp.com/ja/howtouse/tellus_os/start_tellus_os.html 2021年も数多くのデータ解析コンペが開催され、興味深い論文が多く発表されました。 毎年Kaggle等のデータサイエンスコンペティションに取り組んでおられる人達にアンケートを実施し、その年の記事をまとめてきました。 そして本年も7名のKagglerの方にアンケートにご協力いただき、2021年に面白かったコンペと論文を教えていただきましたのでその結果を紹

                                            Kaggleランカーの7人に聞いた、2021年面白かったコンペ7選と論文7選 | 宙畑
                                          • 実践 自然言語処理

                                            自然言語処理(Natural Language Processing:NLP)の本格的な実践書。過去10年間で起きたブレークスルーにより、NLPは小売、医療、金融、法律など、さまざまな分野での利用が増えてきました。急速に利用が拡大する中で、産業界でNLPを使ったシステムを構築するのに必要な知識を学べる講座や書籍は不足していました。本書を読むことで、NLPの要素技術やSNS、Eコマース、医療、金融といった具体的なビジネスへの適用方法に加えて、NLPシステムを開発するためのベストプラクティスを詳しく学べます。 賞賛の声 序文 訳者まえがき まえがき 第I部 基礎 1章 自然言語処理入門 1.1 実世界での自然言語処理 1.1.1 NLPのタスク 1.2 言語とは何か 1.2.1 言語の構成要素 1.2.2 自然言語処理の難しさ 1.3 機械学習、ディープラーニング、そして自然言語処理の概要 1

                                              実践 自然言語処理
                                            • 【入門】強化学習 - Qiita

                                              強化学習をざっと勉強した際のまとめです。 入門者の参考となれば幸いです。 強化学習とは 強化学習の位置付けはこのようになります。 【用語】 - 教師あり学習 - 教師データとして入力とその出力がある - 回帰や分類問題 - 教師なし学習 - 教師データがない - データの特徴を抽出したり、表現変換 強化学習では何をしていくかというと、 「将来の価値を最大化するような行動を学習」 していきます。 強化学習のモデル 強化学習の基本的な仕組みは次のようになっています。 以下の$t$は任意のステップを示します エージェント(意思決定者): 意思決定と学習を行う主体 環境: エージェントが相互作用を行う対象 状態: 環境がエージェントの行動を反映した上で、エージェントに与える状況, $s_t$ 行動: $a_t$ 報酬: $r_t$ 方策: $π_t(s, a)$:確率分布で表される行動戦略。任意の

                                                【入門】強化学習 - Qiita
                                              • 技術書典応援祭+技術書典8(+α)で買ったおすすめの技術系同人誌 - Qiita

                                                自分が技術書典応援祭+技術書典8(+α)で買った技術系同人誌のなかでおすすめのものを書いていきたいと思います。データサイエンス、機械学習系が多めです。 買ったもの全部は書けなかったので、ここに書いていないのがおすすめではないというわけではないです。(最後以外は)全て自分で購入したものです。 A Primer on Adversarial Examples タイトル:A Primer on Adversarial Examples サークル:原理的には可能 著者:菊田遥平 ページ数:99ページ 電子版 https://techbookfest.org/product/5483924549533696 個人的にはめちゃめちゃおすすめの本です。「技術書典 応援祭」に出ている本では一番これがおすすめです。 いきなり「Adversarial Examples」と言っても何のことだかわからないですよね

                                                  技術書典応援祭+技術書典8(+α)で買ったおすすめの技術系同人誌 - Qiita
                                                • 統計学・機械学習を自分なりに概観してみた - Qiita

                                                  *この記事は統計学や機械学習を専門としていない学生が書いた主観的なまとめ記事です。間違いが含まれている可能性があります。 統計学・機械学習を学んでいると、たくさんの手法や考えが出てきてよくわからなくなります。 特に自分が何かに取り組んでいるときには、今やっている手法が全体から見てどういうものなのか、より良い手法が無いのかが気になってしまいます。 まるで地図を持たず森の中を彷徨っているような感覚です。 そこで、統計学・機械学習で使われる概念や手法を自分なりにまとめて頭を整理したいと思います。 以下のような図になりました。 以下にそれぞれを説明します。 数理科学 統計学・機械学習のベースとなる学問です。 主に解析学、代数学、幾何学からなります。 微分積分学と線形代数学が基本になってるのは言うまでもないと思います。 その他に個人的に関わりが深いと思う分野を3つ挙げます。 確率論 大数の法則(中心

                                                    統計学・機械学習を自分なりに概観してみた - Qiita
                                                  • 強化学習 - 2020論文までの道のり(Q学習中心~R2D3, Agent57) - Qiita

                                                    強化学習の基礎から最近の論文までの道のりを繫ぎたいというモチベーションで,最初は強化学習の基礎の基礎の解説から,Q学習についてR2D3, Agent57あたりまで読んだ論文についてまとめてみました.Actor-Criticについては,Q学習との比較用にA3Cあたりを少しだけ書いています.あと,最後に軽くマルチエージェント強化学習(MARL)とオフライン強化学習(Offline RL)にも触れて紹介しています. 基礎の基礎 強化学習とは? 教師あり学習,教師無し学習に並ぶ,機械学習の一分野. 端的に言うと,エージェントと呼ばれる行動主体が,ある環境のなかで得られる報酬を最大化する最適化問題. ただし,報酬を得るためにどうしたらよいかというのは非自明な場合が多く,また,報酬のみではスパースで扱いにくいので,途中の過程ででてくる状態や,エージェントの行動に価値を付与し,その価値を最大化する問題に

                                                      強化学習 - 2020論文までの道のり(Q学習中心~R2D3, Agent57) - Qiita
                                                    • (20年10月新刊メイン)IT・AIエンジニア&PdMにおすすめの書籍集 - Qiita

                                                      本記事では、私が2020年10月に読んだ書籍の内容や感想を紹介・解説します。 はじめに 私がこの1カ月間に読んだ、書籍の内容と感想のまとめ記事です (これらの読書は仕事ではなくプライベートの趣味です) Twitterでリアルタイムに投稿した内容を、1カ月分まとめます。 ※Twitterでは、書籍感想以外にも、IT・AI・Biz関連の情報をたくさんつぶやいているので、 これらの情報を収集したい方はぜひフォローください♪(海外の情報が多めです) Twitterアカウント:小川雄太郎@ISID_AI_team 2020年10月に読んだ書籍(はじめに) (過去記事) ●20年7月分の記事はこちら ●20年8月分の記事はこちら ●20年9月分の記事はこちら (書影) 版元ドットコムで公開されている場合のみ掲載しています (書籍分野) AI:機械学習&ディープラーニングのアルゴリズム、研究能力、開発・

                                                        (20年10月新刊メイン)IT・AIエンジニア&PdMにおすすめの書籍集 - Qiita
                                                      • サマースクール’20:深層強化学習 | Deep Learning JP

                                                        本講座は、Deep Learningを用いた強化学習に特化した全6回の講義です。東京大学でDeep Learning基礎講座を公開してきた松尾研究室が、深層学習の基礎を習得済みの学生を対象として開講するものです。 深層学習を用いた強化学習の研究・社会実装のスタートラインに立てるレベルの知識・実装力の習得を目指します。離散制御や連続値制御、モデルベース学習などの強化学習の基礎的なアルゴリズムから、sim2real、模倣学習、Control as Inference、世界モデル、まで深層強化学習の種々のトピックをカバーします。講義のみでなく、実践的な演習を通して、効率的に強化学習について手を動かしながら技術を深く理解します。

                                                          サマースクール’20:深層強化学習 | Deep Learning JP
                                                        • 数理最適化勉強会: Optimization Night #1 を開催しました - Platinum Data Blog by BrainPad

                                                          2019年10月15日(火)に当社のCDTOが主催した、数理最適化に興味のある人が集まる有志イベント「Optimization Night #1」が開催されました。 本ブログでは、運営者目線でのイベントの取り組み内容について紹介します! こんにちは。CDTOの太田です。先日Optimization Night #1という数理最適化に関するイベントを開催したので、運営者側の目線で、会の内容や開催の経緯を紹介したいと思います。なお、当日の様子はYoutubeでご覧いただけます。 開催の経緯 私はTFUG (TensorFlow User Group)の運営もやっているのですが、全国8箇所あるTFUGのオーガナイザーが集まって議論していたときに、「(TensorFlow関係ないけど)数理最適化のイベントをやりたい」という発言をしたのがきっかけです。 なぜ数理最適化のイベントをやりたいと思ったかと

                                                            数理最適化勉強会: Optimization Night #1 を開催しました - Platinum Data Blog by BrainPad
                                                          • Pythonによる因果推論と因果探索(初心者の方向け) - Qiita

                                                            因果推論と因果探索を学びたい初心者の方を対象に、因果分析のPythonプログラムを実際にGoogle Colaboratoryで実装しながら学ぶ書籍を執筆しました。 単著としては、「つくりながら学ぶ! PyTorchによる発展ディープラーニング」、以来、約1年ぶりの新刊となります。 本記事では、因果分析の書籍を執筆したモチベーション、Pythonによる因果推論、因果探索の概要について解説します。 「つくりながら学ぶ! Pythonによる因果分析 ~因果推論・因果探索の実践入門」 ●2020年6月30日発売 ●著者:小川雄太郎(自己紹介、Twitter)@電通国際情報サービス(ISID) ●出版社: マイナビ出版 本記事の内容 ● 0. 本書を執筆したモチベーション ● 1. 因果推論が必要な事例 ● 2. 因果推論をしたいデータ ● 3. 因果推論の方法 ● 4. 因果探索の手法 ● 5.

                                                              Pythonによる因果推論と因果探索(初心者の方向け) - Qiita
                                                            • 西川善司の3DGE:グランツーリスモのAI「GTソフィー」は,ドライビングテクニックの教科書を書き換える

                                                              西川善司の3DGE:グランツーリスモのAI「GTソフィー」は,ドライビングテクニックの教科書を書き換える ライター:西川善司 GTソフィーを説明するPDI代表取締役 プレジデントの山内一典氏 去る2022年2月10日,ソニーのAI開発部門であるソニーAIは,「グランツーリスモ」(以下,GT)シリーズの開発元で知られるポリフォニーデジタル(以下,PDI)とソニー・インタラクティブエンタテインメント(SIE)が共同開発したGTシリーズ向けAI「グランツーリスモ・ソフィー」(以下,GTソフィー)を発表して,2022年3月4日発売のシリーズ最新作「グランツーリスモ7」(PS5,PS4)へと将来的に実装すると予告した(関連記事)。 本稿では,GTソフィーはいかにして開発され,どのような能力を持ち,そしてどのような可能性を持っているのかを解説したい。 なお,GTソフィーの開発には,開発中のグランツーリ

                                                                西川善司の3DGE:グランツーリスモのAI「GTソフィー」は,ドライビングテクニックの教科書を書き換える
                                                              • TensorFlow Liteを使った組み込みディープラーニング開発

                                                                ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning

                                                                  TensorFlow Liteを使った組み込みディープラーニング開発
                                                                • Jetson Nanoで動く深層強化学習を使ったラジコン向け自動運転ソフトウェアの紹介 - masato-ka's diary

                                                                  この記事について 深層強化学習を利用してAI RC Carの走行を学習させるソフトウェアをGithub上で公開しています。learnign_racerと命名しました。2020年4月29日の時点でのバージョンはv1.0.0です。この記事ではこのソフトウェアについて紹介していきます。 github.com なお、NVIDIAのJetson Community Projectsのページでも紹介されています。 developer.nvidia.com learning_racerの概要 このソフトウェアは10分から15分程度の学習時間で、コースに沿って走行する方法を獲得することができます。従来のAI RC Carでは人間のお手本操作をDNNに覚えこませる手法が一般的です1。ですが、本手法は教師なし学習の手法である強化学習をベースとしているため、教師データとなる人間のお手本操作は必要ありません。さら

                                                                    Jetson Nanoで動く深層強化学習を使ったラジコン向け自動運転ソフトウェアの紹介 - masato-ka's diary
                                                                  • 10代のプログラマーたちの話を聞いてみた(後編)|shi3z|note

                                                                    前回に引き続き、全国小中学生プログラミング大会の過去の受賞者に話を聞いてみる、ということで、今回は蓼沼さんと尾崎さんに話を伺った。聞き手は僕と和尚ことシフトールの岩佐琢磨氏。 蓼沼諒也さんは第一回で優秀賞・小学校高学年部門、第二回でグランプリを受賞した。 第二回グランプリとなった「僕のドラえもん」では、Viscuitというグラフィックベースの特殊なプログラミング言語を使い、経路探索した上で経路を絞り込むという非常にロジカルな解法を見つけた。 Viscuitを知らなかった岩佐さんは最初は戸惑ったものの、Viscuitの仕組みを説明すると驚嘆していた。 Viscuitは、「メガネ」と呼ばれる絵の中に左右で微妙に異なる絵を描くと、それが一種の法則となって増殖したり移動したり減少したりする。 蓼沼さんはその性質を使ってまず一度、スタートからゴールまで全経路を「細い神経」で探索するメガネを描き、次に

                                                                      10代のプログラマーたちの話を聞いてみた(後編)|shi3z|note
                                                                    • 毎週のように登場する「すごいAI」、ロボットの知能も大幅進化

                                                                      近年におけるAI(人工知能)の発展には目覚ましいものがあるが、そのスピードがここに来て急加速している。毎月、いや毎週のように驚くような能力を備えたすごいAIが登場しているのだ。驚くべきAI進化の事例を紹介しよう。 人間の曖昧な言葉に基づきロボットが行動 ごく最近登場した「すごいAI」の代表格は、米Google(グーグル)が2022年8月16日(米国時間)に発表したロボット用の人工知能「PaLM-SayCan」だ。人間が曖昧な言葉でロボットに話しかけるだけで、ロボットが取るべき行動をAIが判断し、行動計画を立案してくれる。 例えば人間が「飲み物をこぼしました。助けてくれませんか」とロボットに話しかけると、PaLM-SayCanはロボットの周囲の状況をカメラによって見渡して何ができるか判断したうえで、近くにあったスポンジを人間のところにまで運ぶようロボットに指示する。 従来はロボットを操作する

                                                                        毎週のように登場する「すごいAI」、ロボットの知能も大幅進化
                                                                      • DeepMindが深層強化学習を利用してアルゴリズムを改善するAI「AlphaDev」を発表、すでにソートアルゴリズムやハッシュ関数の高速化に成功

                                                                        AlphaGoの開発元として有名なGoogle DeepMind社が深層強化学習を応用してさまざまなコンピューティングアルゴリズムを改善するAI「AlphaDev」を発表しました。同時に、AlphaDevを利用してソートアルゴリズムを高速化できたという論文がNatureに掲載されています。 AlphaDev discovers faster sorting algorithms https://www.deepmind.com/blog/alphadev-discovers-faster-sorting-algorithms Faster sorting algorithms discovered using deep reinforcement learning | Nature https://doi.org/10.1038/s41586-023-06004-9 ソートアルゴリズムとは

                                                                          DeepMindが深層強化学習を利用してアルゴリズムを改善するAI「AlphaDev」を発表、すでにソートアルゴリズムやハッシュ関数の高速化に成功
                                                                        • 機械学習チームで論文読み会を実施してみました(A ConvNet for the 2020s解説) - BASEプロダクトチームブログ

                                                                          BASEの機械学習チームで論文読み会を実施してみました こんにちは。BASEのDataStrategy(DS)チームでエンジニアをしている竹内です。 DSチームではBASEにおける様々なデータ分析業務をはじめ、機械学習技術を利用した検索、推薦機能のサポート、商品のチェックや不正決済の防止などに取り組んでいます。 先日、チーム内で最新の機械学習技術についての知見を相互に深めるための試みとして、各々興味のある機械学習系の論文を持ち寄って紹介し合う、いわゆる論文読み会というものを実施してみました。 この記事では、その会で私が発表した内容の一部を紹介したいと思います。 ※ 中身は論文読み会用から本記事用に一部修正を加えています。 A ConvNet for the 2020s 紹介する論文について タイトル: A ConvNet for the 2020s 著者: Zhuang Liu, Hanz

                                                                            機械学習チームで論文読み会を実施してみました(A ConvNet for the 2020s解説) - BASEプロダクトチームブログ
                                                                          • AI最大の課題「フレーム問題」解決の糸口をグリッドが開発!強化学習とアンサンブル学習を連携 米国物理学協会発刊学術誌が掲載 - ロボスタ ロボスタ - ロボット情報WEBマガジン

                                                                            株式会社グリッドは、エネルギー分野における「不確実な環境における深層強化学習による最適化」の開発に成功した。これは現在のAIにとって最大の課題のひとつとされている「フレーム問題」を解決する糸口になる、と言う。そして、その成果を、米国物理学協会が発刊する「Journal of Renewable and Sustainable Energy」に評価され、論文が掲載されたことを発表した。 この発見・開発をもとに、このAI技術を将来の電力需要や天候を予測しながら、365日分の効率的な電力の需給計画を算出することへの実用化を進める。同社はそれに合わせて、報道関係者向け説明会を開催した。 「不確実な環境」でも機能するAIの開発に成功 AIは過去のデータやパターンを学習し、画像を識別したり、将来を予測したりと、識別や認識技術を進化させた。今では将来の状況を踏まえて最善な選択をおこなう人間の意識決定に寄

                                                                              AI最大の課題「フレーム問題」解決の糸口をグリッドが開発!強化学習とアンサンブル学習を連携 米国物理学協会発刊学術誌が掲載 - ロボスタ ロボスタ - ロボット情報WEBマガジン
                                                                            • 《日経Robotics》グーグルが開発、強化学習を1000倍高速にする技術

                                                                              米グーグルが、ロボットの深層強化学習を1000倍以上に高速化する驚異的な技術を開発した。数時間を要していた学習を、わずか10秒ほどに短縮できる。新しい強化学習のアルゴリズムを考案したという話ではなく、強化学習のすべての分野に影響が及ぶ、よりベーシックなレイヤーで革新を起こした。 ディープラーニング技術といえば、その学習から推論までGPUのようなアクセラレータ上で動くのが当然と思われるかもしれない。しかし、ディープラーニング技術が全盛の現在でも、未だにGPU上で動かず、CPUの上でシングルスレッドで実装されているところがあった。それが物理演算を行うシミュレータである。 強化学習では、環境中での試行錯誤を繰り返しながら学習を進めていくが、ロボットのような物理的な動きを伴うケースでは、いきなり実機で試行錯誤を行うと環境やロボットそのものを破損することがあり危険である。このため、当初は物理演算エン

                                                                                《日経Robotics》グーグルが開発、強化学習を1000倍高速にする技術
                                                                              • AIが激ムズ100メートル走ゲー『QWOP』の人類の世界記録を抜く。人間の元世界記録保持者を教師とし、独学と模倣の果てに大記録を達成

                                                                                2008年に公開され、4つのキーで人間の両足を操作する超難度の徒競走ゲームとして話題を呼んだ『QWOP』だが、本作をAIにプレイさせる試みが海外でひそかに注目を集めている。 データサイエンティストのウェスリー・リャオ氏は「強化学習」と「模倣学習」を使ってAIに『QWOP』をプレイさせる方法について発表した。簡単に説明すると「強化学習」はAIが何度も試行錯誤を繰り返して学習する方法、「模倣学習」は人間のお手本を元にAIが学習する方法だ。 (画像はYouTube 「AI sets new QWOP World Record (47.34) using Reinforcement Learning」より) 『QWOP』は、「壺男」こと『Getting Over It with Bennett Foddy』の開発者として有名なベネット・フォディ氏が2008年に公開したFlashゲーム。ランナーがト

                                                                                  AIが激ムズ100メートル走ゲー『QWOP』の人類の世界記録を抜く。人間の元世界記録保持者を教師とし、独学と模倣の果てに大記録を達成
                                                                                • 深層強化学習AI時代の”人間”の仕事

                                                                                  深層強化学習AI時代の"人間"の仕事 2022.01.21 Updated by Ryo Shimizu on January 21, 2022, 07:18 am JST 2022年は、AIはあまりニュースの話題にのぼらないだろうと思う。 なぜならば、もはやAIを用いることは当たり前になってきているからだ。 バズワードとしてのAIは2021年で終わった感がある。 一方で、AIの仕事は、うまくいけばいくほど地下に潜る性質がある。 すなわち、競争相手にどうやっているかを探られないように巧妙に隠す必要があるからだ。 次にニュースになるものがあるとすれば、AIがコンシューマ製品に搭載された時だが、たとえば「スマホにAI」は既に入っているのでニュース性がない。「ゲーム機にAI」が入っているのは当たり前であり、「テレビにAI」ももはや新鮮味がない。 アカデミズムの世界では、少し前までは、「ディープラ

                                                                                    深層強化学習AI時代の”人間”の仕事