フォレストワークショップ2023で行った招待講演の内容 ・honest treesとは? ・Causal treesによる因果推論 ・Random forestの漸近正規性と、causal forestによる因果推論 ・Generalized random forestによる因果推論
タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。
土地被覆分類とは? 衛星画像や航空写真などのリモートセンシングデータを分析し、地表のさまざまなカバータイプ(例えば、森林、農地、水域、都市地域など)を識別するプロセスです。土地被覆分類は地球環境のモニタリング、土地利用計画、生態系の管理、気候変動の研究など、多くの応用分野で利用されます。 以前の記事で利用した環境省生物多様性センターの植生図をはじめ、国土地理院の地理院地図、産総研のシームレス地質図などが作成され公開されています。 GEEには土地被覆分類を行うためのオブジェクトとしてee.Classifierというものが用意されています。これを利用することで機械学習を利用した土地被覆分類を行うことができます。 ee.Classifierが対応している主要な機械学習モデルは以下の通りです。 決定木(Decision Tree):条件分岐によってグループに分けられる木の構造をしたものです。回帰に
こんにちは,次世代システム研究室のS.T.です。普段はHadoopネタを書いていますが,今回はテーマをがらっと変えて,FPGAネタです。 「FPGAに機械学習の推論部分を実装し高速に処理を行う」という技術は耳にしたことがありましたが,漠然としたイメージがあるだけで実際にどのように実装していくのかということは知りませんでした。調べてみると,高位合成を用いた手法(1)や,学術研究として開発されたアクセラレータとしてのアーキテクチャ(2)は存在するようですが,シンプルなサンプルコードの形で存在するものはないようです。 もちろん「ソフトウェアエンジニアやデータサイエンティストが作成したモデルを高位合成でFPGAに落とし込みアクセラレータとして使用する」というユースケースを考えれば納得がいきますし,応用できる範囲もHDLで直接実装するより広くなると思います。 しかし,「低コスト小規模なローエンドFP
はじめに 表題の通りの話をたまに聞きます。「ランダムフォレストは内部で変数選択を行う。なので変数選択は必要ない」という主張です。 しかし個人的には、それはあくまでも 他の手法*1と比べれば変数選択しなかった場合の悪影響が少ない ということであって、ランダムフォレストであっても変数選択した方が良いんじゃ? ということを昔からずっと思っていました。 検証してみます。 思考実験 実際に検証する前に思考実験を行います。 まずパターンA(変数選択なし)とパターンB(変数選択あり)の2通りを考えます。 パターンA 有効な変数:10個 無効な変数:90個 パターンB 有効な変数:10個 のみ(無効な変数なし) ランダムフォレストの弱分類器では、元々の変数の数の平方根くらいの数の変数を使うのが一般的です。そうすると、 パターンAの場合 弱分類器で使う変数は10個。うち有効なもの(の期待値)は1個。 パター
1.目的 機械学習をやってみたいと思った場合、scikit-learn等を使えば誰でも比較的手軽に実装できるようになってきています。 但し、仕事で成果を出そうとしたり、より自分のレベルを上げていくためには 「背景はよくわからないけど何かこの結果になりました」の説明では明らかに弱いことが分かると思います。 前回投稿させていただいた【機械学習】決定木をscikit-learnと数学の両方から理解するでは決定木の詳細について記載しましたが、今回は、より実務やkaggle等のコンペでも使われるランダムフォレストについてまとめていきます。 いつものような数学の話は今回はあまり出てきませんが、何となく「決定木を組み合わせたのがランダムフォレスト」くらいの理解しかできていなかったので、自分自身でも整理し、「ランダムフォレストとは何なのか」「パラメータチューニングは何を行っていけばいいのか」ということを、
みなさん。こんにちは。DX推進開発部のluckystar_021008です。 今回は私が現場で学んだモデルの機械学習に関してまとめさせていただきました。 お時間のある方は、是非ご一読ください。 1.事前準備 1-1.説明変数 1-2.目的変数 2.機械学習 2-1.データの絞り込み 2-2.学習法 2-3.学習結果の精度 3.最後に 1.事前準備 まず、機械学習をする前に必要な材料を集める所から行われています。 大きく必要なものは2点です。 ・説明変数 ・目的変数 以前まとめさせていただいたブログで簡単に記載させていただいていますが軽くおさらいしていきましょう。 blog.css-net.co.jp 1-1.説明変数 機械がモデルを学習した結果を解釈するのに必要です。 このモデルは「○○な人が利用しやすい」、「○○を購入経験がある」等のモデルを学習した結果から、機械的に判断できる材料になる
1. 本記事の目的 本記事では、ランダムフォレストについて理論的な説明を詳しくしていきます。 最近は深層学習を用いた研究が活発ですが、まだランダムフォレストの適用がふさわしい場面も多々あると言われています。そこで本記事では、気軽に利用できる機械学習アルゴリズムであるランダムフォレストへの理解を深めることで、より応用的な活用を可能にすることを目的とします。 加筆修正の必要箇所がございましたら、是非ご指摘頂けると幸いです。 2. ランダムフォレストの概要 ランダムフォレストは、権威ある記事では以下のように説明されています。 ランダムフォレストは、機械学習のアルゴリズムであり、分類、回帰、クラスタリングに用いられる。決定木を弱学習器とするアンサンブル学習アルゴリズムであり、この名称は、ランダムサンプリングされたトレーニングデータによって学習した多数の決定木を使用することによる。 フリー百科事典『
今回は、Webからキノコに関するデータをダウンロードして、ランダムフォレストで分類を行いました。 これまでは、数学的に境界を決定して分類するSVM(サポートベクターマシン)という学習モデルを使ってきましたが、今回は、「ランダムフォレスト」という多数決で予測するクラスを決定する学習モデルを使っていきます。 今回も Pythonによるスクレイピング&機械学習開発テクニック増補改訂 Scrapy、BeautifulSoup、scik [ クジラ飛行机 ]の第4章を参考にさせていただきながら、取り組んでいます。 では、振り返っていきたいと思います。 ランダムフォレストでキノコを分類する 1.準備(キノコのデータをダウンロードする) 2.全体像 3.データの読込 4.データの中の記号を数値に変換する 5.学習用とテスト用データに分ける 6.学習と予測 7.精度を確認 8.Jupyter Notebo
はじめに ランダムフォレストは決定木のアンサンブル学習なので、何も考えずに使うと過学習します。過学習対策はいろいろあるので(木の深さだったり、ノードあたりのサンプル数による制御だったり)、やってみます。 まあ、その過学習した状態の方が性能良いこともあるんですが…… sklearnの場合に設定できるパラメータ 以下のようなものがあるようですね。 なお、以下で「ノードに属する」のような表現がたくさん出てきますが、すべて学習時の話です。 max_depth(default=None) 木の最大深さです。一番よく使われる気がします。何も設定しないと伸び放題になります。 min_samples_split(default=2) 中間ノードに属するサンプル数がこの数字未満になったら、分割をやめます。 デフォルトの2は「2つまでは分割する」と言っているので、制約がきついというか過学習しやすい設定です。
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く