並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 150件

新着順 人気順

optunaの検索結果1 - 40 件 / 150件

  • 誰の声でも100人の声に変えられる声変換システム - Dwango Media Village(ドワンゴメディアヴィレッジ,dmv)

    著者の声を録画・録音して声を変換し元の映像と組み合わせてみた映像です。 このときの変換元の音声は撮影用のスマートフォンで録音しており、部屋の残響が含まれるなど声が少し不鮮明になる収録環境ですが、それでもしっかり声変換できていることがわかると思います。 概要 Dwango Media Villageの廣芝です。 誰の声でも狙った複数の人の声に変えることができる声変換システムを開発し、実際に声を変えることができるデモページを公開しました。 (2022年5月 SeirenVoiceシリーズの製品化に伴いデモページは終了しました。) この記事では、声変換技術を研究開発する際に取り組んだ課題について紹介します。 声の変換技術には、リアルタイム性と品質のトレードオフがあります。 既存の声変換システムはリアルタイム性を重視する傾向がある一方、品質を重視したものはあまり見かけません。 品質を優先した声変換

      誰の声でも100人の声に変えられる声変換システム - Dwango Media Village(ドワンゴメディアヴィレッジ,dmv)
    • AI・Python活用レシピ100選 - Qiita

      ※ 一部ガイドラインに反する内容がありましたので、該当箇所を修正のうえ再投稿しております。 はじめに Axross は、エンジニアの"教育"と"実務"のギャップに着目し、「学んだが活用できない人を減らしたい」という想いで、ソフトバンク社内起業制度にて立ち上げたサービスです。 現役エンジニアによる実践ノウハウが"レシピ"として教材化されており、実際に動くものを作りながら、具体的な目的・テーマをもってプログラミングを学ぶことができます。 今回は、Axross運営が厳選した『AI・Python活用レシピを100選』をご紹介します。是非、みなさまのAIやPython学習の参考にしてみてください。 Axross:https://axross-recipe.com 公式Twitter:https://twitter.com/Axross_SBiv 基礎 スクレイピング 01 . JUMPの掲載順をスク

        AI・Python活用レシピ100選 - Qiita
      • 【2023年版】機械学習の日本語無料学習教材まとめ - Qiita

        言語&開発基礎編 PythonやSQLなどの言語と開発環境に関連することをまとめました。 機械学習に関する教材はこの次のセクションにまとめてあります。 学習環境 インストール及び使い方チュートリアルのサイトと、ある程度使い慣れた後に役立つtips集を各エディタでまとめました。 Google Colaboratory Python初学者にとって最もわかりやすいPython実行環境です。プログラミングは初めて!という方はまずこのGoogle Colaboratory(通称: Colab)から始めてみて、使い方がある程度わかったら、そのまま次のセクションのPython編に移りましょう。 Pythonプログラミング入門 難易度: ★☆☆ 東京大学の公開しているPython講座ですが、冒頭でColabの使い方を解説しています。使ったことのない方はこちらから! Google Colabの知っておくべき

          【2023年版】機械学習の日本語無料学習教材まとめ - Qiita
        • Preferred Networks、深層学習の研究開発基盤をPyTorchに移行 - 株式会社Preferred Networks

          PyTorch開発チームおよびオープンソースコミュニティと連携し、フレームワーク開発、MN-CoreプロセッサのPyTorchサポートなどを推進 株式会社Preferred Networks(本社:東京都千代田区、代表取締役社長:西川徹、プリファードネットワークス、以下、PFN)は、研究開発の基盤技術である深層学習フレームワークを、自社開発のChainer™から、PyTorchに順次移行します。同時に、PyTorchを開発する米FacebookおよびPyTorchの開発者コミュニティと連携し、PyTorchの開発に参加します。なお、Chainerは、本日公開されたメジャーバージョンアップとなる最新版v7をもってメンテナンスフェーズに移行します。Chainerユーザー向けには、PyTorchへの移行を支援するドキュメントおよびライブラリを提供します。 PFN 代表取締役社長 西川徹は、今回の

            Preferred Networks、深層学習の研究開発基盤をPyTorchに移行 - 株式会社Preferred Networks
          • 2024年版:独断と偏見で選ぶ、データ分析職の方々にお薦めしたいホットトピックス&定番の書籍リスト - 渋谷駅前で働くデータサイエンティストのブログ

            毎年四の五の言いながら書いている推薦書籍リスト記事ですが、何だかんだで今年も書くことにしました。なお昨年度版の記事を上にリンクしておきましたので、以前のバージョンを読まれたい方はそちらをお読みください。 今回のバージョンでは、趣向をちょっと変えて「定番」と「注目分野」というように分けました。何故こうしたかというと、平たく言って 「初級&中級向け」推薦書籍リストは定番化していて毎年あまり変更点がない 逆に直近のホットトピックスに関するテキストは毎年入れ替わりが激し過ぎて網羅しづらい という課題があり、特に2点目についてはあまりにもデータサイエンス関連書籍の新規刊行が多過ぎる&僕自身がその流れについていけておらず完全に浦島太郎状態ですので、万人向けに等しくウケるようなリストを作るのは今回をもって完全に諦めたというのが実態です。 その上で、前回まで踏襲されていた定番書籍リストはバルクで提示すると

              2024年版:独断と偏見で選ぶ、データ分析職の方々にお薦めしたいホットトピックス&定番の書籍リスト - 渋谷駅前で働くデータサイエンティストのブログ
            • 機械学習エンジニアに爆速でなるための教材集 - Qiita

              0. はじめに 昨今のAI、DXブームの影響で、機械学習、深層学習(ディープラーニング, Deep Learning) への注目は増すばかりですが、初学者の方にとって機械学習を学ぶハードルは依然高い状態かと思います。 機械学習、特にディープラーニングを習得するには学ぶべきことが多く、また分野によっては難易度が高いということもあり、学んでいる途中で挫折してしまうという人も多いという印象があります。 そこで本記事では、これから機械学習を学びたい方が自学自習する際の助けになるようにと、有用な自習コンテンツをまとめました。 本記事では、機械学習エンジニアとして実務に参画できるレベルを目指して、コンテンツを収集しました。よって機械学習の理論やライブラリに加え、社会実装する上で付随して必要となるソフトウェアエンジニアリングのスキルも含めています。 コンテンツについては、適宜追記していく予定です。 対象

                機械学習エンジニアに爆速でなるための教材集 - Qiita
              • 初心者が言語モデルを勉強するための本(2023年6月版) - ぱたへね

                流行のLLMを勉強したくて沢山本を読みました。 この後もしばらくLLM(GPT)関係の出版が続きそうなので、現状の本でまとめてみました。 参考: nowokay.hatenablog.com まとめ。 Transformerの仕組みを知りたい人で、画像のDeep Learningなら分かるって人はVision Transformer入門 言語モデルをデータセットを作る所からやってみたい人には、作ってわかる! 自然言語処理AI とにかくすぐに動かしたい人には、機械学習エンジニアのためのTransformers ビジネス的に何ができるのかを知りたい人はBERT入門 Vision Transformer入門 Vison Transformerになっていますが、Transformerの説明がとても詳しくお勧めです。実際に写経してパーツパーツで動かせるのはこの本だけ。Transformer一点突破な

                  初心者が言語モデルを勉強するための本(2023年6月版) - ぱたへね
                • 【Kubernetes】1週間かかる処理を1.5時間で終わらせた【並列処理】 - ニートの言葉

                  こんにちはあんどう(@t_andou)です。 今回はKubernetesを使って並列処理させた記録です。 まだ「とりあえずそれっぽく動くまで試してみた」という段階で、kubernetesを理解できてはいないので自分用のメモを公開しているという認識でご覧ください。 間違っている部分や、よりスマートなやり方がありましたらご指摘いただけると幸いです。 この記事の概要 機械学習に使う特徴量の作成で1週間かかりそうな処理を10分くらいで終わらせられないかと考え、GKE(=GoogleのKubernetes環境)を使い試行錯誤した記録です。 今回は一部失敗して完了時間が1.5時間になったものの、設定を上手く出来れば15分程度で終わる見込みです。 対象読者 ・Kubernetesの概要は知っているくらいのレベルの人 ・KubernetesのJobを使った並列処理をしたい人 目次 この記事の概要 対象読者

                    【Kubernetes】1週間かかる処理を1.5時間で終わらせた【並列処理】 - ニートの言葉
                  • 小さく始めて大きく育てるMLOps2020 | | AI tech studio

                    AI Labの岩崎(@chck)です、こんにちは。今日は実験管理、広義ではMLOpsの話をしたいと思います。 MLOpsはもともとDevOpsの派生として生まれた言葉ですが、本稿では本番運用を見据えた機械学習ライフサイクル(実験ログやワークフロー)の管理を指します。 https://www.slideshare.net/databricks/mlflow-infrastructure-for-a-complete-machine-learning-life-cycle 参考記事のJan Teichmann氏の言葉を借りると、 エンジニアがDevOpsによって健全で継続的な開発・運用を実現している一方、 多くのデータサイエンティストは、ローカルでの作業と本番環境に大きなギャップを抱えている クラウド含む本番環境でのモデルのホスティングが考慮されないローカルでの作業 本番のデータボリュームやス

                      小さく始めて大きく育てるMLOps2020 | | AI tech studio
                    • 明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎

                      2019年6月28日の明治大学での講義資料です。 できるだけ数式を使わずに『機械学習のおさらい』『自動ハイパーパラメタ最適化』『Optuna の使い方』『ベイズ最適化の応用事例』について説明しています。 ●Optuna : https://github.com/pfnet/optunaRead less

                        明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
                      • 「Kaggle Grandmaster」PFN秋葉氏は、スキ...

                        世界有数の研究者やITエンジニアが集うAI企業Preferred Networks(PFN)。秋葉拓哉さんは、同社で機械学習基盤の執行役員を務めている。前職は国立情報学研究所の特任助教で、世界最高峰の国際会議で多数の論文が採択される研究者だった。さらに競技プログラミングのコンテスト「TopCoder」では、世界で数十人しかいない「ターゲット」というレベルに達し、データ分析コンペティション「Kaggle」では、世界で200人ほどの「Kaggle Grandmaster」の称号を得ている。 競技プログラミングとKaggleでその道を究めた秋葉さんは、習得したスキルや知識をどのように業務に生かしているのか。挫折を味わいながらも、それを乗り越えてきた秋葉さんのキャリアをひもとく。【松本香織、羽田顕人、斎藤公也】 〈Profile〉 秋葉 拓哉(あきば・たくや) 株式会社Preferred Netw

                          「Kaggle Grandmaster」PFN秋葉氏は、スキ...
                        • ダジャレを判定する - Stimulator

                          - はじめに - 近年、IT業界のダジャレは熾烈の一途を辿っている(ITだけに) 。 類義語を巧みに取り入れたダジャレ、難読化されたダジャレなどが増加し、一体どれで「初笑い」すれば良いのか悩む若者も少なくない。 そのような背景があり、ダジャレを判定するアルゴリズムの開発も盛んである。 ルールベースによる判定では、@kurehajimeが提案、開発したdajarep *1 や、@fujit33によるShareka *2が存在する。特にSharekaは、ルールベースのロジックにも関わらず、反復型とされる種類のダジャレに対して高い精度での判定を可能にしている。また、機械学習モデルを用いた判定手法として、谷津(@tuu_yaa)らが開発したDajaRecognizer *3がある。DajaRecognizerは、多くのルールベースによって子音音韻類似度をPMIとして定義、Bag-of-Words、

                            ダジャレを判定する - Stimulator
                          • ハイパーパラメーター最適化フレームワークOptunaの実装解説 | | AI tech studio

                            AI Lab AutoMLチームの芝田です (GitHub: @c-bata)。 ハイパーパラメーター最適化は、機械学習モデルがその性能を発揮するために重要なプロセスの1つです。Pythonのハイパーパラメーター最適化ライブラリとして有名な Optuna [1] は、様々な最適化アルゴリズムに対応しつつも、使いやすく設計的にも優れたソフトウェアです。本記事ではOptunaの内部実装についてソフトウェア的な側面を中心に解説します。 Optunaの内部実装を理解するためには、主要コンポーネントの役割と全体の動作の流れを押さえる必要があります。しかしOptunaの開発は活発で、コード量も多くなり、全体の流れをコードから読み取ることは難しくなってきました。そこで今回Minitunaという小さなプログラムを用意しました。Minitunaには全部で3つのversionがあり、それぞれ100行、200行

                              ハイパーパラメーター最適化フレームワークOptunaの実装解説 | | AI tech studio
                            • ノーコードAI開発ツールNode-AIの紹介 - NTT Communications Engineers' Blog

                              はじめに 初めまして!イノベーションセンターでノーコードAI開発ツール「Node-AI」のプロダクトオーナーやXAI・因果分析の研究をしております、切通恵介(@kirikei)です。 Node-AIは2021年10月11日にリリースされたNTT Communicationsの内製開発サービスで、その名の通りブラウザ上からノーコードでAIモデルを開発できるサービスで、製造業のお客様を中心に異常検知やプラント運転支援などの様々な領域で活用されています。(ニュースリリースはこちらやこちらやこちら) いつもはサービスの営業的な紹介をすることが多いのですが、今回はEngineer's Blogでの執筆ということで、エンジニアの方向けの技術、プロダクトマネジメント、チームビルディング、スクラムなどの様々な観点でお伝えできればと考えています。とはいえ、Node-AIに関しては詳細に書きたいことが山ほどあ

                                ノーコードAI開発ツールNode-AIの紹介 - NTT Communications Engineers' Blog
                              • 「Kaggleで勝つデータ分析の技術」から見る実用的な機械学習の知見

                                はじめに 機械学習に関する実用的な知見を知るために、「Kaggleで勝つデータ分析の技術」を読んだので、Kaggle以外の場面でも活用できる話題をまとめてみた。本書は機械学習の基本的な内容も含んでいるが、この記事では機会学習に関する一通りの知識を持ち、実問題に利用している読者を想定してまとめた。従って、勾配ブースティング木の仕組みや、回帰タスクの評価方法等、基本的な内容については解説しない。本記事では、評価の落とし穴や、モデルを改善するための特徴量の工夫、チューニングのTipsについて紹介する。 特徴量 Tips 1: 欠損値の扱い データにはしばしば欠損値が含まれている。欠損値は、そもそも値が存在していない場合の他に、ユーザが意図して入力していない場合や、観測器のエラーによって取得できていない場合等、様々な理由によって生じる。欠損がランダムに発生していない限り、欠損しているという事実が何

                                  「Kaggleで勝つデータ分析の技術」から見る実用的な機械学習の知見
                                • nerman: AllenNLP と Optuna で作る固有表現抽出システム - クックパッド開発者ブログ

                                  事業開発部の @himkt です.好きなニューラルネットは BiLSTM-CRF です. 普段はクックパッドアプリのつくれぽ検索機能の開発チームで自然言語処理をしています. 本稿では,レシピテキストからの料理用語抽出システム nerman について紹介します. nerman の由来は ner (固有表現抽出 = Named Entity Recognition) + man (する太郎) です. クックパッドに投稿されたレシピから料理に関する用語を自動抽出するシステムであり,AllenNLP と Optuna を組み合わせて作られています. (コードについてすべてを説明するのは難しいため,実際のコードを簡略化している箇所があります) 料理用語の自動抽出 料理レシピには様々な料理用語が出現します. 食材や調理器具はもちろん,調理動作や食材の分量なども料理用語とみなせます. 「切る」という調理

                                    nerman: AllenNLP と Optuna で作る固有表現抽出システム - クックパッド開発者ブログ
                                  • PyCon JP 2019で見たセッションの聴講記録20個分 / 資料・動画・関連リンクなど - フリーランチ食べたい

                                    2019年9月16日/17日に開催されたPyCon JP 2019で自分が直接/YouTubeで聴講したセッションについてのまとめです。主に下記の内容を書いています。 スピーカーURL 配信動画 スライド 発表内で出てきたライブラリなどのURL 自分の感想 「あのセッションで話していたライブラリなんだっけ」と思い出したい方やざっくり内容が知りたい方に読んでいただければ幸いです。PyCon JPに自分も発表者としても参加し、スタッフとして参加し、Webサイトの開発もしたので、それについては改めて書きたいと思います。 pycon.jp PythonとAutoML / 芝田 将 スピーカー: https://twitter.com/c_bata_ 動画: https://www.youtube.com/watch?v=Whkwu46DgBs スライド: https://www.slideshar

                                      PyCon JP 2019で見たセッションの聴講記録20個分 / 資料・動画・関連リンクなど - フリーランチ食べたい
                                    • Rye メモ

                                      $ rye install optuna Collecting optuna Downloading optuna-3.1.1-py3-none-any.whl (365 kB) ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 365.7/365.7 kB 1.7 MB/s eta 0:00:00 Collecting alembic>=1.5.0 (from optuna) Downloading alembic-1.11.1-py3-none-any.whl (224 kB) ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 224.5/224.5 kB 2.3 MB/s eta 0:00:00 Collecting cmaes>=0.9.1 (from optuna) Downloading cmaes-0.9.1-py3

                                        Rye メモ
                                      • ベイズ最適化で最高のコークハイを作る - わたぼこり美味しそう

                                        はじめに コークハイとか酎ハイをお店で飲むと、割り方とかレモンが効いていたりとかでお店によって結構違いが出ますよね 自分好みの最高のコークハイの作り方を知ることは全人類の夢だと思います。 本記事は一足先にそんな夢に挑戦したという記事です。 手法としてはベイズ最適化を使用します。 実データで実験計画と絡めながらベイズ最適化を実際に行う記事はあまり見かけなかったので今回は、 最適化パラメータ 1. コーラとウイスキーの比 2. レモン汁の量 目的変数 コークハイの美味しさ という2次元入力、1次元出力で実際に実験とチューニングを並行しながら行ってみたいと思います。 目次 はじめに ベイズ最適化とは 実験系の説明 実験条件 実験で考慮しないこと(パラメータ) 実験材料 実験方法 スコアの付け方 実験をやりました(本題) 実装コード 実験開始 ARDありver. 反省点 さいごに ベイズ最適化とは

                                          ベイズ最適化で最高のコークハイを作る - わたぼこり美味しそう
                                        • PFNが提供する教育コンテンツについて - Preferred Networks Research & Development

                                          PFNフェローの丸山(宏)です。2月にプログラミング教育についてのブログを書きました。またそれに合わせて制作した教材を利用して、6月に弊社カフェテリアで、小学生を対象にした体験教室を開催しました。この体験教室については、丸山(史郎)がロボットカーの体験教室について、西澤が火星語翻訳を題材にした教材について書いています。今回、山梨大学と共同で、高専・大学学部向けの教材 ロボットカーで学ぶ深層学習の基礎 を開発しました。このブログでは、これら一連の教育関連の活動について、その意義と全体像をもう一度整理してみたいと思います。 また、付録に、現在PFNが提供する教育用コンテンツのリストがありますので、そちらもご利用ください。 古典的プログラミング 2016年に文部科学省が主宰する「小学校段階における論理的思考力や創造性、問題解決能力等の育成とプログラミング教育に関する有識者会議」は、議論の取りまと

                                            PFNが提供する教育コンテンツについて - Preferred Networks Research & Development
                                          • 機械学習の煩雑なパラメーター管理の決定版 「Hydra」「MLflow」「Optuna」の組み合わせで手軽にはじめる一元管理

                                            Optuna™は、オープンソースのハイパーパラメーター自動最適化フレームワークです。 「Optuna Meetup #1」では、Optunaのユーザー、導入を検討している方、また開発者を中心に、Optunaの様々な活用方法が共有されました。中村氏は、Hydra・MLflow・Optunaを組み合わせたハイパーパラメーター管理について発表しました。 ふだんは音声合成と声質変換技術などの音声を用いる技術を研究 中村泰貴氏(以下、中村):「HydraとMLflowとOptunaの組み合わせで手軽に始めるハイパーパラメータ管理」というタイトルで、東京大学大学院情報理工学系研究科の修士課程2年の中村が発表します。 軽く自己紹介ですが、先ほど述べたように情報理工学系研究科の、猿渡・小山研究室の修士課程2年です。音声合成に関する技術をふだん研究しています。「Twitter」をやっているので、ぜひフォロー

                                              機械学習の煩雑なパラメーター管理の決定版 「Hydra」「MLflow」「Optuna」の組み合わせで手軽にはじめる一元管理
                                            • Pure Pythonで書かれた“Optuna”の仕組み ハイパーパラメーター自動最適化のフレームワーク

                                              Optuna™は、オープンソースのハイパーパラメーター自動最適化フレームワークです。 「Optuna Meetup #1」では、Optunaのユーザー、導入を検討している方、また開発者を中心に、Optunaの様々な活用方法が共有されました。Yamazaki氏は、Optunaの開発のきっかけ、歴史、そして概要について発表をしました。全2回。後半は、コードの書き方とリリースや互換性に対する考えについて。前回はこちら。 「Optuna」ではどのようなコードを書くのか Hiroyuki Vincent Yamazaki氏:では、コードをちょっと見てみましょう。 まず、Optunaのインストールですが、pipもしくはcondaでサクッと入るのがいいかなと思います。Optunaはpure Pythonなので、難しいコンパイラーのセットアップは一切必要ありません。簡単にインストールできると思います。 O

                                                Pure Pythonで書かれた“Optuna”の仕組み ハイパーパラメーター自動最適化のフレームワーク
                                              • LightGBMを使って競馬予想で回収率100%を超えるコードを書いた(その2) - Qiita

                                                つまりモデルでは穴馬の当選も予測できているが、卍氏の賭け方では予算の金額によって賭けられる最大オッズが下がってしまい、穴馬に賭けることができなくなります。その影響によりオッズの低い人気馬しか賭けることができず、回収率が下がる要因ともなっているようです。しかしその反対に荒れなかったレースについては卍氏の賭け方のように傾斜をつける方が回収率を上げる要因になっています。 なお今考えている予算が10万円の場合、複勝のようにオッズが低い場合(せいぜい5倍前後で)はあまり影響しません。しかし単勝ではオッズが約10倍以上の場合は、最小賭け金が100円のため、特に影響が出るようです。 このあたりは賭け金の計算式の定数(今の場合0.01)と自身の予算、モデルの予測値との検討が必要となります。 コードの公開 noteにて公開します。またコードの詳細な説明は公開するnote及びnotebook内のコメントにて記

                                                  LightGBMを使って競馬予想で回収率100%を超えるコードを書いた(その2) - Qiita
                                                • MLOpsに必要な情報全部BigQueryに置いたら想像以上に捗った話 - Qiita

                                                  本記事はMLOps Advent Calendar 2020の13日目の記事です。 こんにちは。昨年本番環境のComposerでやらかしちゃった人です。今年は比較的平穏に機械学習を使用したサービス開発・運用に携われています。 携わっているサービスの1つで「MLOpsに必要な情報BigQueryに全部おいてみた」ところ想像以上に便利だったので、その方法について共有させてい頂ければと思います。 なお本記事でのMLOpsは 予測モデル/ハイパーパラメータのバージョン管理・デプロイ履歴管理 推論結果の精度監視 + 入力データの傾向監視 を指しています。 特に今年はコロナでビジネス環境が日々絶えず変化しているため、これらの施策がサービス品質担保に大きく貢献してくれました。 背景 毎日一回24時間先までバッチで未来予測し、結果をAPIサーバーにキャッシュする単純なMLサービスに携わっています。なお、予

                                                    MLOpsに必要な情報全部BigQueryに置いたら想像以上に捗った話 - Qiita
                                                  • 機械学習プロジェクト向けPipelineライブラリgokartを用いた開発と運用 - エムスリーテックブログ

                                                    こんにちは。前回書いた突撃!隣のキーボード M3 2019という記事が、HHKBの公式Twitterアカウントにツイートされ、舞い上がっているエムスリーエンジニアリングGの河合 (@vaaaaanquish) です。 今回はエムスリー AIチームが開発、運用している機械学習プロジェクト向けのPythonライブラリである「gokart」の説明と、その周辺ライブラリとなる「cookiecutter-gokart」「thunderbolt」「redshells」について紹介したいと思います。よろしくお願いします。 はじめに Pipeline化のメリット・デメリット Pipeline化のメリット Pipeline化のデメリット gokart 共通化のための出力ファイル形式の制約と拡張 強力かつ簡易な再現性のためのデータ保持 クラウドサービスやSlack通知のサポート gokartのメリット、デメリ

                                                      機械学習プロジェクト向けPipelineライブラリgokartを用いた開発と運用 - エムスリーテックブログ
                                                    • Kaggle初コンペの振り返り〜Riiidコンペで銀メダル獲得〜 - Fire Engine

                                                      Kaggleで開催されていたRiiid! Answer Correctness Predictionに参加しました.結果を簡単にまとめると以下の通りです. 順位:139位(3406チーム中) メダル:銀メダル(上位5%以内) 解法:LightGBMとSAKTのアンサンブル チーム:1人で参加 自身初となるデータ解析コンペでしたが,なんとか銀メダルを獲得することができました.今回はその振り返りを時系列で書いていきたいと思います. 先に感想を述べると,Kaggleは本や論文ではなかなか得られない学びに溢れている上に,世界中の人々と順位を競い合うゲームのような感じでとにかく楽しいので最高すぎました. この記事がこれからKaggleを始める方々の参考になれば嬉しいです. 目次 Kaggleとの出会い コンペ参戦準備 コンペに登録 初Submit 特徴量エンジニアリング モデルの構築 アンサンブル学

                                                        Kaggle初コンペの振り返り〜Riiidコンペで銀メダル獲得〜 - Fire Engine
                                                      • 機械学習におけるハイパーパラメータ最適化の理論と実践 Part.1

                                                        2019年9月16、17日、日本最大のPythonの祭典である「PyCon JP 2019」が開催されました。「Python New Era」をキャッチコピーに、日本だけでなく世界各地からPythonエンジニアたちが一堂に会し、さまざまな知見を共有します。プレゼンテーション「機械学習におけるハイパーパラメータ最適化の理論と実践」に登壇したのは、株式会社サイバーエージェント/産総研特定集中研究専門員の野村将寛氏。講演資料はこちら ハイパーパラメータ最適化問題 野村将寛 氏(以下、野村):簡単に自己紹介をさせていただきます。僕は今、サイバーエージェントのAI Labという研究組織に所属していまして、ハイパーパラメータ最適化の研究をしています。先ほどの午前中のセッションで、AutoMLのセッションがあったと思うんですけど、そちらで発表していた芝田のチームメンバーになります。 産総研でもハイパーパ

                                                          機械学習におけるハイパーパラメータ最適化の理論と実践 Part.1
                                                        • Optuna の拡張機能 LightGBM Tuner によるハイパーパラメータ自動最適化 - Preferred Networks Research & Development

                                                          Optuna 開発メンバの小嵜 (@smly) です。この記事では Optuna の拡張機能として開発している LightGBM Tuner について紹介します。 LightGBM Tuner は LightGBM に特化したハイパーパラメータ自動最適化のためのモジュールです。Pyhton コードの import 文を 1 行変更するだけで簡単に利用できます。LightGBM Tuner はエキスパートの経験則を自動化しコードに落とし込むことで、従来より短い時間で最適なハイパーパラメータを探索できます。また記事の後半では従来手法と比較したベンチマーク結果についても紹介します。ベンチマークをとることで、従来の方法と比較して効率的に探索できることを確認しました。 ナイーブな LightGBM のハイパーパラメータチューニング LightGBM は勾配ブースティング法の高速な実装を提供する人気の

                                                            Optuna の拡張機能 LightGBM Tuner によるハイパーパラメータ自動最適化 - Preferred Networks Research & Development
                                                          • 特徴量エンジニアリングのライブラリ xfeat を使ってみて便利だったこと - Taste of Tech Topics

                                                            こんにちは。機械学習エンジニアをしている古賀です。 最近は愉快な上司@tereka114 のもと、精度の上がらないモデルに四苦八苦しています。 そんな私が普段データ分析をする際に難しいことの一つとして、特徴量エンジニアリングがあります。 特徴量エンジニアリングとは、元のデータに新たな特徴量を追加することでモデルの精度を向上させるプロセスのことです。 この結果によってモデルの精度が大きく変わりますが、正しく実行するにはデータへの深い理解やデータ分析力が必要になります。 私もあまり得意ではないのですが、これを簡単にする xfeat という便利なライブラリがあると上司が教えてくれたので、実際に使ってみて便利だったことをまとめました。 ※本記事は、Pythonその3 Advent Calendar 2020 の15日目の内容になります。 目次は以下です。 xfeat とは 準備 実行環境 xfea

                                                              特徴量エンジニアリングのライブラリ xfeat を使ってみて便利だったこと - Taste of Tech Topics
                                                            • 最新の深層学習技術による古典くずし字認識の現状と今後の展望 - May the Neural Networks be with you

                                                              こんにちは。@shunk031 です。 普段は最先端の技術が大好きなパソコンのオタクですが、京都へ旅行して古き良き日本の文化に感化されました。 この記事は 法政大応情 Advent Calendar 2020 21 日目の記事です。 From http://codh.rois.ac.jp/ 今回は日本古典籍の分類タスクについて取り組んでみようと考え、近年の日本古典籍における「くずし字認識」に着目して調査をしました *1。 日本古典籍といった古文書に対して、OCR 等の文字認識技術によって文字情報をデジタル化し、それらの情報をもとに解析を行う流れは現代では自然だと考えています。 しかしながら、一般的に OCR は難しく、また古文書を機械に解析させることはさらなる困難があるのは容易に想像できます。 くずし字認識に対して、近年の取り組みでは ROIS-DS 人文学オープンデータ協働センターが K

                                                                最新の深層学習技術による古典くずし字認識の現状と今後の展望 - May the Neural Networks be with you
                                                              • なぜn_estimatorsやepochsをパラメータサーチしてはいけないのか - 天色グラフィティ

                                                                ハイパーパラメータを探索するため、グリッドサーチやOptunaなどを利用することがあると思います。 しかし、「ハイパーパラメータ探索してみた」のようなQiita記事などでは間違って書かれていることも多いのですが、XGBoostやLightGBMの n_estimators ( num_boosting_rounds )やKerasの epochs をパラメータサーチの対象にしてはいけません。 いけません、というか、すごく無駄なことをしています。 なぜ、n_estimatorsやepochsを探索すると無駄なのか 理由はシンプルで、これらのパラメータは「大きい値で精度確認する過程で小さい値の結果も分かる」からです。 LightGBMのn_estimatorsは構築する決定木の数を表しています。 例として、n_estimators=5 (こんな小さい値で学習することはないですが、簡単のため)で

                                                                  なぜn_estimatorsやepochsをパラメータサーチしてはいけないのか - 天色グラフィティ
                                                                • 表形式データに対する深層学習ライブラリの開発と実験 - Preferred Networks Research & Development

                                                                  本記事は、2021年度PFN夏季インターンシップで勤務した平川雅人さんと畠山智之さんによる寄稿です。 はじめに 2021年度PFN夏季インターン生の平川雅人と畠山智之です。 今回のインターンでは、表形式データに対して様々な深層学習モデルを試すことができるライブラリを共同で開発しました。開発したライブラリは https://github.com/pfnet-research/deep-table で公開しています。 背景 近年、深層学習は画像や自然言語、音声の分野で目覚ましい成功を収めてきました。しかし表形式データに対しては、深層学習はそのような成功を遂げることは少なく、いまだにXGBoostやLightGBMのような決定木ベースのモデルが主流となっています。 深層学習の有望な手法として、決定木のアンサンブルを模倣して勾配ベースの学習を可能にしたNODE [1] や、スパースなattenti

                                                                    表形式データに対する深層学習ライブラリの開発と実験 - Preferred Networks Research & Development
                                                                  • 数量を機械学習で当てる モデル作成時の工夫と性能説明手法 - エムスリーテックブログ

                                                                    こんにちは。エムスリーエンジニアリンググループAI・機械学習チームの池嶋です。これは エムスリー Advent Calendar 2021 の16日目の記事です。 AIチームでは機械学習を使ったプロダクトを開発し、自社サービスの改善や医療の臨床領域における研究開発など、社内外で多くのビジネス課題解決を目指しています。 このブログでは、機械学習で数量を当てるという問題に対して、AIチームにおける「予測モデル作成時の工夫」と「モデル性能説明手法」について紹介します。 予測モデル作成時の工夫編 回帰ではなく分類モデルを使用 複数のモデルをアンサンブル 特徴抽出からモデル学習・推論までパイプライン化 モデル性能説明手法編 PR曲線やROC-AUC:直感的でない ローレンツ曲線:ユースケースが限定される パーセンタイルごとの実ラベル割合グラフ:セグメントが多いとわかりにくい 混同行列を多クラスに拡張

                                                                      数量を機械学習で当てる モデル作成時の工夫と性能説明手法 - エムスリーテックブログ
                                                                    • LLM開発のための環境構築

                                                                      はじめに 株式会社Elithの大森一祥です。AIテックカンパニーの一員として、お客様の課題をAIを駆使して解決しています。 大規模言語モデル(LLM)が人間と匹敵する性能を発揮することもあり、弊社には多岐にわたるプロジェクトの依頼が寄せられています。最近は、情報漏洩のリスクを回避するため、独自のLLMの開発を希望されることが多いです。このような案件では、一般に公開されたモデル(ローカルLLM)を利用します。 ローカルLLMを活用して課題を解決する方法として、以下の4つが挙げられます。 プロンプトエンジニアリング:LLMに特定の出力を生成させるための入力文の工夫する手法 RAG:外部の文章データベースから、質問に類似した文章を取り出しLLMの入力として用いる手法 インストラクションチューニング:ユーザの指示に沿った出力を生成することを目的としたチューニング手法 継続事前学習:LLMモデルに対

                                                                        LLM開発のための環境構築
                                                                      • Text Classification: All Tips and Tricks from 5 Kaggle Competitions

                                                                        In this article, I will discuss some great tips and tricks to improve the performance of your text classification model. These tricks are obtained from solutions of some of Kaggle’s top NLP competitions. Namely, I’ve gone through: Jigsaw Unintended Bias in Toxicity Classification – $65,000 Toxic Comment Classification Challenge – $35,000 Quora Insincere Questions Classification – $25,000 Google QU

                                                                          Text Classification: All Tips and Tricks from 5 Kaggle Competitions
                                                                        • 深層学習の数理:カーネル法, スパース推定との接点

                                                                          Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Preferred Networks

                                                                            深層学習の数理:カーネル法, スパース推定との接点
                                                                          • PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健

                                                                            2019年9月27日のPyData.Tokyo Meetup #21での発表資料です。 Optuna (https://github.com/pfnet/optuna) の使い方やソフトウェアデザイン、LightGBM向けの新機能について紹介しています。Read less

                                                                              PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
                                                                            • Jupyter Notebook Viewer

                                                                              このモデルは、林祐輔氏(@hayashiyus)がTwitterで公開されたSEIRモデル[1]を参考に、ダイアモンド・プリンセスにおけるCOVID-19発症日別報告数[2]を観測データとして、最適化ツールOptuna[3]を用いてパラメターフィッティングを行ったものである。 https://twitter.com/hayashiyus/status/1231154537030774785 国立感染症研究所, 現場からの概況:ダイアモンドプリンセス号におけるCOVID-19症例(2020年2月19日掲載)https://www.niid.go.jp/niid/ja/diseases/ka/corona-virus/2019-ncov/2484-idsc/9410-covid-dp-01.html https://optuna.org/ ダイアモンド・プリンセスは乗客2,666人、乗員1,0

                                                                              • Goptunaを使ったGo言語におけるベイズ最適化の活用 | Research Blog

                                                                                はじめに 形状のわからない関数(ブラックボックス関数)の最大値あるいは最小値を求める手法として、ベイズ最適化が広く利用されています。機械学習モデルのハイパーパラメーター最適化を中心に活用が進んでいますが、入力とそれに対する評価値さえ設計できればあらゆる問題に適用できます。 例えばFacebookでは、MLモデルのチューニングはもちろん、映像コーデックのエンコードパラメーター 1、AR/VRハードウェア設計、HHVM JITコンパイラのパラメーターチューニングにベイズ最適化を適用するため BoTorch や Axの開発を進めています (F8 2019の発表 Product Optimization with Adaptive Experimentation を参照)。 弊社では多くのサーバーシステムでGo言語が採用されていますが、サーバーのgoroutine数やキャッシュシステムのメモリーバ

                                                                                • 「量子アニーリングの基礎」を読む 第5日 https://qiita.com/kaizen_nagoya/items/116a5a6add72a5bf1630

                                                                                  「量子アニーリングの基礎」西森秀稔, 大関真之, 共立出版, 2018 を読む https://qiita.com/kaizen_nagoya/items/29580dc526e142cb64e9 『量子アニーリングの基礎』正誤表 (西森秀稔・大関真之 著) 2019年6月20日更新 https://www.kyoritsu-pub.co.jp/app/file/goods_contents/3037.pdf 量子アニーリングの数理 東京工業大学 大学院理工学研究科 物性物理学専攻 西森 秀稔 https://repository.kulib.kyoto-u.ac.jp/dspace/bitstream/2433/189516/1/bussei_el_033203.pdf 本は、 1 量子力学 2 熱力学、統計力学 がわかっている人にとっての丁寧 ここでは、どちらもわかっていないことを前提

                                                                                    「量子アニーリングの基礎」を読む 第5日 https://qiita.com/kaizen_nagoya/items/116a5a6add72a5bf1630