lightGBMの人気記事 40件 - はてなブックマーク

1 - 40 件 / 40件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

lightGBMの検索結果1 - 40 件 / 40件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

lightGBMに関するエントリは40件あります。機械学習、 python、学習などが関連タグです。人気エントリには『「初手LightGBM」をする7つの理由 - u++の備忘録』などがあります。

「初手LightGBM」をする7つの理由 - u++の備忘録
- 69 users
- upura.hatenablog.com
- テクノロジー
- 2019/10/29
Kaggleなどのデータ分析コンペでテーブルデータを扱う場合、最近は取りあえずLightGBMを利用する場合が多いです。本記事では、初手の機械学習アルゴリズムとして「LightGBM」*1を採用する理由を紹介します。あくまで2019年10月末時点での個人の主観なので、ご参考までにご覧いただければと思います。 1. 欠損値をそのまま扱える 2. カテゴリ変数の指定ができる 3. 特徴量のスケーリングが不要 4. feature importanceが確認できる 5. 精度が出やすく最終的なモデルとして残る可能性が高い 6. 比較的大きいデータも高速に扱える 7. 過去の経験からハイパーパラメータの勘所があるおわりに初手としては、手の混んだ特徴量を作らずに、まずは何かしらの予測結果を生成したい場合も多いです。LightGBMは既存のデータセットを極力加工せずに利用するという観点で、特徴量
競馬予想　機械学習(LightGBM)で回収率100%超えたと思ったら、やらかしてた話 - Qiita
- 56 users
- qiita.com/gara_gara
- テクノロジー
- 2020/05/26
謝意注意!!! この記事は完全にやらかしていますストックしてくれた人、申し訳ないです。 @hal27 様の指摘で気づくことができました、ありがとうございます。・やらかしたことスクレイピング段階から致命的なミスを犯しました。レース時点から前走3レース分のデータを取得していたつもりですが、実はスクレイピング実行時刻から最新の3レース分の情報を取得していました。ただ、前走の情報を全く使わずに予測したところ、平均して90%ほどの回収率だったので、正しいデータを使っても、100%は超えれるんじゃないかと思っています。やり直します! この記事はやらかしちゃっててるんだなと思いながら見て下さい。（特に前走情報のスクレイピング部分に気を付けてください）はじめに最近データ分析にはまっています。データ分析コンペのKaggleをやっていて、私がよく思うのは「売上予測？もっと面白いテーマはな
- 機械学習
- あとで読む
- 学習
- HotEntry
- qiita
- 競馬
【機械学習 × テニス】姿勢推定とLightGBMを用いたテニスのスイング認識【動作検出】 - はんぺんのIT日記(改)
- 56 users
- hampen2929.hatenablog.com
- テクノロジー
- 2019/09/21
はじめに手法の決定開発環境データ取得動画撮影アノテーション関節位置のデータモデリング学習用データデータ加工データ分割学習評価評価用データ Feature Importance Confusion matrix 動作の誤検出高度化検討トラッキングの追加姿勢の検出精度の高いモデルの使用特徴量の再検討予測モデルへの転換関節位置データのAugmentation さいごに参考はじめにこんにちは。はんぺんです。テニスのスイングの検出・分類モデルを作ってみました。 youtu.be モチベーションとしては、インテリジェントデバイス的な何かを作ってみたいというものです。ちょうど魔法少女リリカルなのはのレイジングハートみたいなイメージです。インテリジェントデバイスとは、AIを有し自ら思考するタイプのデバイスのこと。出展：レイジングハートとは (レイジングハ
LightGBMを使って競馬予想で回収率100％を超えるコードを書いた（その2） - Qiita
- 45 users
- qiita.com/km_takao
- テクノロジー
- 2020/08/31
つまりモデルでは穴馬の当選も予測できているが、卍氏の賭け方では予算の金額によって賭けられる最大オッズが下がってしまい、穴馬に賭けることができなくなります。その影響によりオッズの低い人気馬しか賭けることができず、回収率が下がる要因ともなっているようです。しかしその反対に荒れなかったレースについては卍氏の賭け方のように傾斜をつける方が回収率を上げる要因になっています。なお今考えている予算が10万円の場合、複勝のようにオッズが低い場合（せいぜい5倍前後で）はあまり影響しません。しかし単勝ではオッズが約10倍以上の場合は、最小賭け金が100円のため、特に影響が出るようです。このあたりは賭け金の計算式の定数(今の場合0.01)と自身の予算、モデルの予測値との検討が必要となります。コードの公開 noteにて公開します。またコードの詳細な説明は公開するnote及びnotebook内のコメントにて記

コンペで使える！？LightGBMで実装する３つの弱教師あり学習 - ABEJA Tech Blog
- 41 users
- tech-blog.abeja.asia
- テクノロジー
- 2023/09/04
ABEJAでデータサイエンティストをしている小林です。今回は、もしかしたらいつか業務や機械学習コンペに役立つかもしれない情報、LightGBMで弱教師あり学習を行う方法についてお話します。コードはこちらで公開しております。目次はじめに弱教師あり学習の例（マルチインスタンス学習） LightGBMで弱教師あり学習がしたい！ PU分類問題設定解き方 LightGBMの実装実験 Partial Label Learning 問題設定解き方 LightGBMの実装実験マルチインスタンス学習問題設定解き方 LightGBMの実装実験おわりにはじめに機械学習を行うためには、一般的に、大量の入力データと、それら一つ一つに対応した正確なラベルが必要です。例えば、犬と猫の画像分類を行う場合には、それぞれの画像一つ一つに犬か猫のラベルがついていてほしいですね。一方で場合に
- 機械学習
- あとで読む
LightGBMを超わかりやすく解説(理論+実装)【機械学習入門33】
- 40 users
- datawokagaku.com
- テクノロジー
- 2022/05/20
こんにちは，米国データサイエンティストのかめ(@usdatascientist)です．機械学習入門講座第33回です．(講座全体の説明と目次はこちら) 追記) 機械学習超入門本番編ではLightGBMについてさらに詳しく解説をしています．勾配ブースティング決定木アルゴリズムのスクラッチ実装もするので，さらに理解を深めたい方は是非受講ください:) 前回の記事で決定木の勾配ブースティングアルゴリズムであるXGBoostを紹介しましたが，今回は同じ決定木の勾配ブースティングの別のアルゴリズムであるLightGBMについて解説します． LightGBMはXGBoostが発表されてから2~3年後に発表され，今やXGBoostよりも高速で高精度なアルゴリズムとして認識され，XGBoostに代わる最強のアルゴリズムの一つとなっています． XGBoostと同じ決定木の勾配ブースティングをベースにしているの
Optuna の拡張機能 LightGBM Tuner によるハイパーパラメータ自動最適化 - Preferred Networks Research & Development
- 39 users
- tech.preferred.jp
- テクノロジー
- 2020/01/20
Optuna 開発メンバの小嵜 (@smly) です。この記事では Optuna の拡張機能として開発している LightGBM Tuner について紹介します。 LightGBM Tuner は LightGBM に特化したハイパーパラメータ自動最適化のためのモジュールです。Pyhton コードの import 文を 1 行変更するだけで簡単に利用できます。LightGBM Tuner はエキスパートの経験則を自動化しコードに落とし込むことで、従来より短い時間で最適なハイパーパラメータを探索できます。また記事の後半では従来手法と比較したベンチマーク結果についても紹介します。ベンチマークをとることで、従来の方法と比較して効率的に探索できることを確認しました。ナイーブな LightGBM のハイパーパラメータチューニング LightGBM は勾配ブースティング法の高速な実装を提供する人気の
機械学習における勾配ブースティングのアルゴリズム「XGBoost」「LightGBM」「CatBoost」の違い
- 37 users
- logmi.jp
- テクノロジー
- 2020/04/14
データアナリスト／データサイエンティストのためのカジュアルな勉強会「Data Gateway Talk」。「GBDTアルゴリズム」というテーマで登壇した工学院大学情報学部コンピュータ科学科のYasshieeee氏は、勾配ブースティングの基本、そしてアルゴリズム「XGBoost」「LightBGM」「CatBoost」の違いについて説明しました。趣味はWebプロ・ゲーム・マインクラフト Yasshieeee氏：場違い感がすごいですが、一応、僕は大学生です。LTには若干慣れている予感はするんですけど、大学生なりのクオリティなのでご了承ください。題名には「XGBoostについて」と書いたんですが、そもそも最初からXGBoostのすごく深いところまでいくのは、ちょっと初心者向けではないかなと思って……。今回は、XGBoostであるGradient Boost Decision Treeのア
LightGBMを使って競馬予想で回収率100％を超えるコードを書いた（その1） - Qiita
- 27 users
- qiita.com/km_takao
- 暮らし
- 2020/08/31
競馬歴10年・データサイエンティストとして働いて5年になって、そろそろ流行りの機械学習で競馬予想にも手を出すか、と思いQiitaの記事を参考にしつつ作ってみました。すると予想を遥かに上回り、回収率100％を超えるモデルができたので、勢いでこの記事を書くことにしました。また作成したコードは後ほど公開するつもりです。自己紹介とあるメーカー系企業でデータサイエンティストとして働いています。もともと大学院では物理学専攻で昔からFortranやC++、Pythonで科学計算（微分方程式を解いたり行列の固有値を出したり）をしていましたが、社会人になってからはガラッと転向しデータ分析を専門にしています。R&D系の部署に所属しており、割とアカデミックな部分からビジネスまで携わっていたのですが、最近は専ら分析組織作りやらマネジメント系のPJTが多くなってきてしまったので、元々やっていたkaggleに再
- スクレイピング
- あとで読む
LightGBMをGPUで回すと結果の再現性が得られない - Qiita
- 24 users
- qiita.com/tetsuro731
- テクノロジー
- 2024/04/14
概要タイトルの通りなのだが、LightGBMをGPUで回すと結果の再現性が得られないことに気づいた。 CPUの場合は乱数seedを42などに固定すれば、同じ条件で何回回しても毎回同じ結果が得られる。しかし、GPUの場合は乱数seedを固定しても回すたびに結果が変わってしまうのだ。なぜ再現性がないのか？この問題はLightGBMの公式のissueでも議論されている。まず、GPUを使う場合は並列で計算できる部分は並列処理をすることで効率化している。さらに、並列化した結果を足し算するときに、順番によって微妙に値が変わってしまうということだ。もちろん数学的には足し算の順番が変わっても結果が変わることなんてないんだけど、コンピュータでfloatなどの値を計算する以上、丸め誤差だったり複数の要因で結果が「ほんのわずかに」違うということが起きうる。さらに、LightGBMをGPUで回した
Python: LightGBM の学習率を動的に制御する - CUBE SUGAR CONTAINER
- 18 users
- blog.amedama.jp
- テクノロジー
- 2019/07/18
LightGBM の学習率は基本的に低い方が最終的に得られるモデルの汎化性能が高くなることが経験則として知られている。しかしながら、学習率が低いとモデルの学習に多くのラウンド数、つまり計算量を必要とする。そこで、今回は学習率を学習の過程において動的に制御するコールバックを実装してみた。きっかけは以下のツイートを見たこと。 validation scoreをモニタリングして、lr=0.1で限界に達したらlr=0.01に下げる、みたいなことやったら面白い気がする。誰かcallback使って実装して欲しい https://t.co/iaG6rNo1t5— mamas (@mamas16k) 2019年7月17日なるほど面白そう。下準備使用するライブラリをあらかじめインストールしておく。 $ pip install lightgbm seaborn scikit-learn 学習率を動
- 機械学習
- あとで読む
RにTorchとLightGBMがやってきた - 渋谷駅前で働くデータサイエンティストのブログ
- 17 users
- tjo.hatenablog.com
- テクノロジー
- 2020/10/06
これまで、RとPythonは両方使える人が少なくないながらも開発陣やコミュニティの思想が違うせいもあってか、「Rは統計学向け」「Pythonは機械学習向け」的な住み分けが年々進み、特に機械学習関連の重要なフレームワーク・ライブラリ類はPython向けのみがリリースされることが多く、R向けにはリリースされないということが常態化している印象がありました。そんな中、この9月にPythonの機械学習OSSを代表する2つのライブラリが相次いでR版パッケージを発表したので、個人的にはなかなか驚きました。中には「この2つがRに来たからにはもうPythonは触らない」と豪語する過激派の方もいらっしゃるようですが（笑）、それはさておき個人的な備忘録としてこの2つのR版パッケージを試してみた記録を記事として残しておこうと思います。なお、以下のモデリングはほぼ何もチューニングを行っておりません。あくまでも「
- R
- data
- python
- it
Python: LightGBM の cv() 関数の実装について - CUBE SUGAR CONTAINER
- 17 users
- blog.amedama.jp
- テクノロジー
- 2020/08/11
今回は LightGBM の cv() 関数について書いてみる。 LightGBM の cv() 関数は、一般的にはモデルの性能を評価する交差検証に使われる。一方で、この関数から取り出した学習済みモデルを推論にまで使うユーザもいる。今回は、その理由やメリットとデメリットについて書いてみる。 cv() 関数から取り出した学習済みモデルを使う理由とメリット・デメリットについて一部のユーザの間では有名だけど、LightGBM の cv() 関数は各 Fold の決定木の増やし方に特色がある。まず、LightGBM では決定木の集まりを Booster というオブジェクトで管理している。 Booster が内包する決定木の本数は、ラウンド (イテレーション) 数として認識できる。 https://github.com/microsoft/LightGBM/blob/v3.0.0rc1/py
機械学習で学習中にログをぼーっと見てしまうあなたに〜 LightGBMで筋トレする〜 - Qiita
- 17 users
- qiita.com/dcm_hattori
- テクノロジー
- 2019/12/23
皆さん、機械学習でモデルの学習時、何していますか？ぼーっとコンソールに出力されるログを眺めていませんか？「お、思ったより下がった！」「あれ、精度悪くなってる、頑張れ！！」と思いながら、見るのは意外と楽しいですよね。でも応援したところで、モデルがその分頑張ってくれるわけでもないし、ドラマチックな展開があるわけでもないので、見てても時間の無駄なんですよね。そんなことを考えてるときに気付いてしまいました。「あれ、この時間筋トレしたらよくね？」そんなわけで、機械学習の合間に筋トレできるような環境を考えました。 NTTドコモの服部です。こちらはNTTドコモサービスイノベーション部 AdventCalender2019 23日目の記事です。この記事の対象者筋トレ好き運動不足な機械学習界隈の人 kagglerなどLightGBMをよく使う人なんで筋トレするの？モデルの精度向上の
最新機械学習モデル HistGradientBoostingTreeの性能調査(LightGBMと比較検証) - Qiita
- 13 users
- qiita.com/r2en
- テクノロジー
- 2019/05/29
Abstract white, inc のソフトウェアエンジニア r2en です。自社では新規事業を中心としたコンサルタント業務を行なっており、普段エンジニアは、新規事業を開発する無料のクラウド型ツールを開発したり、新規事業のコンサルティングからPoC開発まで携わります今回は、機械学習の技術調査を行なったので記事で共有させていただきます以下から文章が長くなりますので、口語で記述させていただきますヒストグラムベースのGradientBoostingTreeが追加されたので、系譜のLightGBMと比較した使用感を検証する。今回はハイパーパラメータ探索のOptunaを使い、パラメータ探索時点から速度や精度を比較検証する。最後にKaggleにSubmissionして、汎用性を確認する。 Introduction scikit-learn v0.21 で追加された HistGr
- 機械学習
Python: LightGBM の学習率と精度および最適なイテレーション数の関係について - CUBE SUGAR CONTAINER
- 12 users
- blog.amedama.jp
- テクノロジー
- 2023/01/25
勾配ブースティング決定木 (Gradient Boosting Decision Tree; GBDT) では、以下が経験則として知られている。学習率 (Learning Rate) を下げることで精度が高まる一方で、学習にはより多くのイテレーション数 (≒時間) を必要とするしかしながら、上記が実際に実験などで示される機会はさほど無いように思われた。そこで、今回は代表的な GBDT の実装のひとつである LightGBM と、疑似的に生成した学習データを使ってそれを確かめていく。確かめる内容としては、以下のそれぞれのタスクで学習率を変化させながら精度と最適なイテレーション数の関係を記録して可視化する。二値分類タスク多値分類タスク回帰タスク使った環境は次のとおり。 $ sw_vers ProductName: macOS ProductVersion: 12.6.2 Bu
- あとで読む
PyData Tokyo Meetup #21 LightGBM
- 11 users
- alphaimpact.co.jp
- テクノロジー
- 2019/09/27
LightGBM PyData.Tokyo Meetup #21 AlphaImpact • (@henry0312) • (2015.04−2019.06) • Dwango Media Village • AlphaImpact (2019.02−) • • LightGBM • 2 LightGBM • 2016 10 GBDT + • Python 12 • PR OSS 3 • LightGBM • LightGBM • XGBoost CatBoost • LightGBM • 4 LightGBM LightGBM • Microsoft • • Kaggle (2019/4/4) 6 7 https://twitter.com/fchollet/status/1113476428249464833 GBM • Gradient Boosting Machines • 1 N
- GBDT
LightGBMのearly_stoppingの仕様が変わったので、使用法を調べてみた - Qiita
- 8 users
- qiita.com/c60evaporator
- テクノロジー
- 2022/05/15
LightGBMとearly_stopping LightGBMは2022年現在、回帰問題において最も広く用いられている学習器の一つであり、機械学習を学ぶ上で避けては通れない手法と言えます。 LightGBMの一機能であるearly_stoppingは学習を効率化できる（詳細は後述）人気機能ですが、この度使用方法に大きな変更があったようなので、内容を記事にまとめたいと思います変更の概要 early_stoppingを使用するためには、元来は学習実行メソッド（train()またはfit()）にearly_stopping_rounds引数を指定していましたが、2021年の年末（こちらのissues）よりこの指定法は非推奨となり、コールバック関数lightgbm.early_stopping()で指定する方式へと変更になりました。新たな方式であるコールバック関数によるearly_stopp
- python
- プログラミング
Python: SHAP (SHapley Additive exPlanations) を LightGBM と使ってみる - CUBE SUGAR CONTAINER
- 7 users
- blog.amedama.jp
- テクノロジー
- 2020/08/13
SHAP は協力ゲーム理論にもとづいて機械学習モデルを解釈する手法と、その実装を指している。今回は、あまり理論の部分には踏み込むことなく、使い方を中心として書いていく。使った環境は次のとおり。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.15.6 BuildVersion: 19G73 $ python -V Python 3.8.5 下準備はじめに、利用するパッケージをインストールしておく。 $ pip install shap lightgbm scikit-learn matplotlib jupyterlab また、SHAP は Jupyter 経由で使った方がインタラクティブな表示ができる。そのため、今回は Jupyter Lab 上で操作することを想定する。 $ jupyter-lab Jupyter Lab を
Python: LightGBM の決定木を可視化して分岐を追ってみる - CUBE SUGAR CONTAINER
- 7 users
- blog.amedama.jp
- テクノロジー
- 2021/03/19
今回は、LightGBM が構築するブースターに含まれる決定木を可視化した上で、その分岐を追いかけてみよう。その過程を通して、LightGBM の最終的な出力がどのように得られているのかを確認してみよう。使った環境は次のとおり。 $ sw_vers ProductName: macOS ProductVersion: 11.2.3 BuildVersion: 20D91 $ python -V Python 3.9.2 もくじもくじ下準備二値分類問題 (乳がんデータセット) 回帰問題 (ボストンデータセット) 多値分類問題 (あやめデータセット) まとめ下準備まずは動作に必要なパッケージをインストールする。決定木の可視化のために graphviz を、並列計算のために OpenMP を入れておく。 $ brew install graphviz libomp そして、Pyt
- AI
Pythonガチの初学者が「LightGBM・TensorFlow」を使って競馬予測のモデルを作ったら単勝回収率100％こえた - Qiita
- 7 users
- qiita.com/KHTTakuya
- テクノロジー
- 2021/11/09
Pythonガチの初学者が「LightGBM・TensorFlow」を使って競馬予測のモデルを作ったら単勝回収率100％こえたPython機械学習pandasTensorFlow競馬目次 1, はじめに 2, 今回の目標 3, 使用するデータ 4, 前処理 5, モデル作成 6, スコア結果 7, レース結果 8, 反省点・改善点 9, さいごにはじめにご覧いただきありがとうございます。今回は、競馬予測の機械学習モデルを作ってみました。作成しようと思った理由としては元々競馬が好きで予想とかをしていましたが、自分で予想するのは難しくなってきたから機械にやってもらおうというのが事の発端です。まだまだ勉強不足や荒い知識で作成しているようななところもありますが、改善案などをコメントでいただけると幸いです。 GitHubにコードをあげています！ GitHub-競馬予想モデル今回の目標
年利30%超え！！！！！LightGBMを用いたトヨタ株自動売買シミュレーション - Qiita
- 6 users
- qiita.com/kt38k
- 世の中
- 2021/10/05
胡散臭いタイトルですがガチです。（シミュレーション方法等間違っていたらコメントで教えてください） TL;DR LightGBMを用いて翌日のトヨタ株の終値が予測実行日の終値よりも、上がる or 下がるの二値分類を実施上がる場合は株を買う、下がる場合は株を売る、という処理を毎日実施 2020/01/01~2020/12/31の実績を用いて売買のシミュレーションを行ったところ、年利30.2299%のプラスとなった背景仕事をサボりながらネットサーフィンをしていたら面白そうな論文を発見。当論文は2008年の発表で、予測モデルはSVMを使用している。そこで、2008年以降に発表されたモデル(今回はLightGBM)で予測する実験を行う。また、該当論文では、日経平均株価を予測対象としているが、今回は実際の取引を想定して、トヨタ自動車株式会社の株価を予測対象とする。実験環境 Google
scikit-learnとLightGBMの評価関数比較 - Qiita
- 5 users
- qiita.com/shnchr
- テクノロジー
- 2020/10/31
このページについて LightGBMで学習して、そのパラメタグリッドサーチをGridSearchCV(sklearn)でという状況が多いかと思います。どの評価関数であれば、ライブラリ標準で共通で利用できるのかをまとめてみようと思います。下記を書いたあとに、気になって調べ始めたので内容は重複します。（スミマセン）途中で力尽き、今回は回帰だけでまとめています。比較一覧評価関数 GridSearchCVでの指定方法 lightGBMでの指定方法メモ
- 機械学習
Python: LIME (Local Interpretable Model Explanations) を LightGBM と使ってみる - CUBE SUGAR CONTAINER
- 5 users
- blog.amedama.jp
- テクノロジー
- 2020/10/11
今回は、機械学習モデルの解釈可能性を向上させる手法のひとつである LIME (Local Interpretable Model Explanations) を LightGBM と共に使ってみる。 LIME は、大局的には非線形なモデルを、局所的に線形なモデルを使って近似することで、予測の解釈を試みる手法となっている。今回使った環境は次のとおり。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.15.7 BuildVersion: 19H2 $ python -V Python 3.8.5 もくじもくじ下準備 Boston データセットを LightGBM で学習させる LIME を使って局所的な解釈を得る参考下準備まずは、下準備として使うパッケージをインストールしておく。 $ pip install lime sciki
LightGBMのパラメータチューニングまとめ - Qiita
- 5 users
- qiita.com/c60evaporator
- テクノロジー
- 2021/09/05
はじめに本記事は、下記のハイパーパラメータチューニングに関する記事の、LightGBMにおける実装例を紹介する記事となります。 ※2022/4 early_stoppingの仕様変更について early_stoppingの指定に関して、以前はfit()メソッドのearly_stopping_round引数で指定する事ができましたが、現在はcallbacks引数にコールバック関数early_stopping()を指定する方法に変わっています。本記事も新しい仕様に合わせて修正しました。 ※2023/6 チューニング手順の改善本記事に記載されていた手法では以下のような問題が発生していたため、内容を修正いたしました。こちらの記事で述べたように、本記事で紹介していたcallbacks引数にコールバック関数を指定する方法とScikit-learnのcross_val_score()メソッドとを
Kaggler がよく使う「LightGBM」とは？【機械学習】 – 株式会社ライトコード
- 4 users
- rightcode.co.jp
- テクノロジー
- 2020/09/26
LightGBMとは？ LightGBM は、2016年に米マイクロソフト社が公開した勾配ブースティングに基づく機械学習手法です。公開されてまだ3年足らずですが、「Kaggler」の上位6割以上が LightGBM を用いているという集計結果が報告されています。これは、データサイエンティストとして、「知らなかった」では済まされません。 LightGBM を実装できるようになり、ステップアップしていきましょう！それでは、計算原理から実装まで、順を追って説明していきます。 LightGBM の計算原理LightGBM 公開前の勾配ブースティングは、「XGboost」が主流でした。勾配ブースティングには、「予測精度は高いが、計算時間が長い」という特徴があります。当時、勾配ブースティングの主流であった「XGboost」に対し、LightGBM の「予測精度を保ったまま計算時間を大きく削減
Understanding LightGBM Parameters (and How to Tune Them)
- 4 users
- neptune.ai
- 世の中
- 2021/02/27
Case studyHow Brainly avoids workflow bottlenecks with automated tracking Case studyHow Neptune gave Waabi organization-wide visibility on experiment data
- あとで読む
CTR予測にLightGBMを導入した話 - MicroAd Developers Blog
- 4 users
- developers.microad.co.jp
- テクノロジー
- 2020/11/24
はじめに初めまして, マイクロアドで機械学習エンジニアをしている福島です. 今年の4月に新卒でマイクロアドに入社し, 現在は UNIVERSE Ads というプロダクトでCTR(Click Through Rate)予測や入札アルゴリズムの開発研究をしています. 今回はCTR予測について共有させていただきたいと思います. CTR予測ではロジスティック回帰が広く使われてきており, マイクロアドでも長らく利用されてきました. 線形モデルであるため解釈性の高さや推論速度の速さなどのメリットも多く, 現在でも広く使われている手法です. しかし複雑なデータにはフィッティングしづらく, CTR予測のようなカテゴリ変数が多いデータの場合はデータを何らかの方法で連続値に変換する必要もあります. マイクロアドでは, entity embedding1を用いて作った分散表現を利用してカテゴリ変数を連続値に変
- 機械学習
【第5回】Python で競馬予想してみる　~ LightGBM ~ - Qiita
- 4 users
- qiita.com/H58
- テクノロジー
- 2020/12/08
前回までに、scikit-learn のロジスティック回帰を使って競馬予測のモデルを作ってみた。説明変数などを工夫してみても馬券回収率（単勝）は 80％超程度までで上昇は見込めずこの回からは、流行りの決定木アルゴリズムに基づいた勾配ブースティング（Gradient Boosting）の機械学習フレームワーク LightGBM を使って競馬予想してみるのだ #データの取得 ###ターゲットフロンティアのレース検索データを出力して使用前回までと同様にターゲットフロンティアのレース検索で 2000年からのレースをすべて検索前走読込みボタンを押して前走のレースID等を取得して、今回はすべてのデータを CSV で出力した全データを出力すると出力時間や pandas での読込みに時間がかかるのだが、使いたいデータがないときの出力し直しが面倒なのでとにかく全データを出力したのだ参照：【第1
- techfeed
- Python
LightGBMの出力結果を解析したい！(SHAPのススメ) - Qiita
- 4 users
- qiita.com/ku_a_i
- テクノロジー
- 2021/02/09
1.はじめに SIGNATEで「日本取引所グループファンダメンタルズ分析チャレンジ」というコンペが開催されています。私も参加していますが、その中で出てくる知識に関して基礎部分をまとめよう！という動機で書いた記事の第2弾です。コンペのチュートリアルでは、「XGBoost」での予測結果に関しての根拠説明として本記事で紹介する「SHAP」を使用していますが、本記事では現在一番メジャーなLightGBMを使用してこのSHAPを紹介していきます。動作環境 OS : Windows10 pro Python : 3.8.3 // Miniconda 4.9.1 LightGBM: 3.1.1 SHAP : 0.38.1 jupyter notebook 2.LightGBMでとりあえず学習して、特徴量重要度を図示する今回は、回帰分析を例として行うことにする。サンプルデータはscikit-le
XGBoostとLightGBMの違い - DATAFLUCT Tech Blog
- 3 users
- tech.datafluct.com
- テクノロジー
- 2022/10/06
こんにちは！皆さんはXGBoostとLightGBMの二つをご存じですか？機械学習をやっている方は聞き慣れているフレームワークだと思いますが、両者の違いを正しく理解できているでしょうか。今回はこの二つのフレームワークの違いを解説していきます。結論から話すと、XGBoostではLevel-wiseという決定木の作成方法を用いており、LightGBMではLeaf-wiseを用いています。Leaf-wiseでは決定木の分岐が少ないためそれを活用したLightGBMでは高速な計算が可能になります。 GBDTの計算手順を復習してから、両者の違いを理解していきましょう。勾配ブースティング決定木とは決定木アンサンブル学習勾配降下法 GBDTの計算手順 XGBoostとLightBGMの異なる点 Level-wise Leaf-wise ジニ不純度その他のLightGBMの高速化の理由
- data
ML botterにオススメなLightGBMのとっておきパラメータ紹介｜j26
- 3 users
- note.com/j26
- テクノロジー
- 2021/12/11
仮想通貨botter Advent Calendar 2021の10日目の記事です。幅広いbotterに有意義な優良記事が続いてる中で恐縮なのですが、ML botter向けにLightGBMの少々マニアックなパラメータを紹介します。 TL;DRLightGBMを使ってる？ → “extra_trees”: True がオススメ sklearnのExtraTreesRegressorを使ってる？ → “extra_trees”: True, ”boosting”: “rf” のLightGBMもオススメこの2点について順を追って説明していきます。 Extra Treesって？extra treesというのはextremely randomized treesの略で、直訳すると非常にランダム化された木です。意味分からないですね。extra treesはrandom forestの変種で、普通
- あとで読む
LightGBMのweightの使い方、weightは一体何を行っているのか - Qiita
- 3 users
- qiita.com/sinchir0
- テクノロジー
- 2020/05/10
簡潔に LightGBMのパラメータであるweightの実装方法と、何を行っているのかを説明した。ざっくり言うと、各行に重みを与え、重みが大きい行が学習時に重視されるようになる。詳しく言うと、weightは学習時のgradiant,hessian,lossの変化に影響を与え、weightが大きい行が木の分岐点決定において重視されるようになる。 H2O.aiのサイトでは、weightが2だった場合は、該当の行を複製(2行に増やす)ことと同じです。と説明されている。初めに Kaggleで大人気のLightGBMにはweightというパラメータが存在します。上位ソリューションでは、このパラメータを使った解法が比較的多いと感じていますが、weightを日本語で解説している記事があまり多くなかったため、説明記事を自分で作成しました。
Python: LightGBM でカスタムメトリックを扱う - CUBE SUGAR CONTAINER
- 3 users
- blog.amedama.jp
- テクノロジー
- 2019/06/11
今回は LightGBM で、組み込みで用意されていない独自の評価指標 (カスタムメトリック) を扱う方法について。ユースケースとしては、学習自体は別の評価指標を使って進めつつ、本来の目標としている評価指標を同時に確認するといったもの。例えば、精度 (Accuracy) やマシューズ相関係数 (Matthews Correlation Coefficient) は、学習にそのまま用いることは難しい。しかしながら、最終的な目標としている評価指標がそれらになっていることはよくある。使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.14.4 BuildVersion: 18E226 $ python -V Python 3.7.3 $ pip list | grep -i lightgbm lightgbm 2.
lightgbmで二値分類の一連の流れをしたメモ - Qiita
- 3 users
- qiita.com/d_desuyon
- テクノロジー
- 2021/02/17
はじめに lightgbmで学習から評価までの一連の流れをやってみました。（結構忘れてしまうんですよねぇ…） ※ 追記追記で読みにくいところもあるかと思います環境 Corabolatory で実行しています。 ※ これ環境変わっちゃうので良くなかった… コード 4.1.0 の例バージョン上がって今までのじゃNGになったので。ついでに GroupKFold も。 import os import random import numpy as np import pandas as pd import lightgbm as lgb from sklearn.model_selection import GroupKFold def seed_everything(seed: int): random.seed(seed) os.environ["PYTHONHASHSEED"] =
- Python
Catboostとは？XgboostやLightGBMとの違いとPythonでの実装方法を見ていこうー！！｜スタビジ
- 3 users
- toukei-lab.com
- テクノロジー
- 2020/06/21
当サイト【スタビジ】の本記事では、XgboostやLightGBMに代わる新たな勾配ブースティング手法「Catboost」について徹底的に解説していき最終的にPythonにてMnistの分類モデルを構築していきます。LightGBMやディープラーニングとの精度差はいかに！？こんにちは！消費財メーカーでデジタルマーケター・データサイエンティストをやっているウマたん(@statistics1012)です！ Xgboostに代わる手法としてLightGBMが登場し、さらにCatboostという手法が2017年に登場いたしました。これらは弱学習器である決定木を勾配ブースティングによりアンサンブル学習した非常に強力な機械学習手法群。計算負荷もそれほど重くなく非常に高い精度が期待できるため、Kaggleなどのデータ分析コンペや実務シーンなど様々な場面で頻繁に使用されているのです。
- catboost
- lightgbm
- xgboost
- study
- python
Python: LightGBM v4.0 の CUDA 実装を試す - CUBE SUGAR CONTAINER
- 3 users
- blog.amedama.jp
- テクノロジー
- 2023/07/15
LightGBM のバージョン 4.0.0 が 2023-07-14 にリリースされた。このリリースは久しぶりのメジャーアップデートで、様々な改良が含まれている。詳細については、以下のリリースノートで確認できる。 github.com リリースの大きな目玉として CUDA を使った学習の実装が全面的に書き直されたことが挙げられる。以前の LightGBM は、GPU を学習に使う場合でも、その計算リソースを利用できる範囲が限られていた。それが、今回の全面的な刷新によって、利用の範囲が拡大されたとのこと。ただし、PyPI で配布されている Linux 向け Wheel ファイルは CUDA での学習に対応していない。対応しているのは CPU と、GPU でも OpenCL の API を使ったもの。そのため、もし CUDA を使った学習を利用したい場合には自分で Wheel を
- python
- CPU
- 学習
- 勉強
LightGBMでFocal lossを実装してcustom objective functionを理解する｜Coding Memorandum
- 3 users
- yaakublog.com
- 世の中
- 2021/08/09
Focal Lossとは？ facebookが開発した損失関数で、分類問題を解く時にイージーサンプル(予測が容易なサンプル)のロスを小さくすることで、ハードサンプルを集中的に学習させることができる損失関数になります。分類で一般的に使用されるcross entropy lossと非常に似ている損失曲線をしています。 (参照：Focal Loss for Dense Object Detection) 図でFLがFocal Lossを表しており、γはこちらで与えるパラメータになります。γの値が大きいほど、分類が良くできている対象(容易な対象)に対してロスが0に近いことがわかります。例えば、学習データに大量のイージーサンプルが含まれている場合、Cross entropy lossではイージーサンプルに対してもロスが発生している(図の青線)ので、それらに対してモデルのパラメータが更新されてしま
LightGBMの理論のまとめ - 盆暗の学習記録
- 3 users
- nigimitama.hatenablog.jp
- テクノロジー
- 2021/09/09
今更ながらLightGBMの論文を読んだのでその時のメモを残しておきます。 ※GPUでの計算への適応など、計算機での活用に関する技術については省略しています。要約 LightGBMが使う既存の技術 pre-pruning early stopping問題 best-first (leaf-wise) tree histogram-based 考察：予測精度は激減しないのか？ LightGBMが新たに提案した技術背景 Gradient-based One-Side Sampling（GOSS） Exclusive Feature Bundling（EFB）実験結果参考要約 LightGBMは pre-pruning（決定木の枝をそれ以上分岐させても予測が改善しなくなったら分割を停止する剪定方法） best-first（情報利得が最大の枝から順に伸ばす。pre-pruningが使える
- ml
SageMakerでLightGBMを使ってモデル構築する方法まとめ - Qiita
- 3 users
- qiita.com/ishidahra
- テクノロジー
- 2023/03/26
はじめに LightGBMは、Gradient Boosting Decision Tree (GBDT) アルゴリズムをベースとした人気の高い機械学習アルゴリズムです。そのため、SageMaker でもLightGBM を使いたいというユースケースは非常に多いと思います。 SageMaker では、LightGBM を使う方法がいくつかあるため、ここではそれらの方法について整理したいと思います。 SageMakerでLightGBMを使ってモデル構築する方法 SageMakerでLightGBMを使ってモデル構築する方法は、現時点（2023/3）で以下の4つの方法があります。 1. SageMaker built-in LightGBM を利用 2. SageMaker でカスタムスクリプトを利用 3. SageMaker Autopilot を利用 4. SageMaker Jump