並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 370件

新着順 人気順

*機械学習の検索結果41 - 80 件 / 370件

  • 大学間コンソーシアム | 東京大学 数理・情報教育研究センター

    数理・データサイエンス・AI教育強化拠点コンソーシアム MIセンターは、2022年度政府予算に盛り込まれた「数理・データサイエンス・AI教育の全国展開の推進」事業の東京大学における実施主体です。 同事業で選定された29大学(拠点校11大学、特定分野校18大学)のコンソーシアムの幹事校として、大学、産業界、研究機関等と幅広くネットワークを形成し、地域や分野における先進的教育モデルの拠点として、数理・データサイエンス・AIの実践的教育の全国普及に努めます。 同時に、この分野を牽引できる国際競争力のある人材および産学で活躍できるトップクラスのエキスパート人材の育成を目指します。 [コンソーシアムホームページ] 数理・データサイエンス・AIの活用事例動画 本動画集は数理・データサイエンス・AIリテラシーレベル教材の導入となるような活用事例を収集したものです。数理・データサイエンス・AIリテラシーレ

    • 機械学習なdockerfileを書くときに気をつけとくと良いこと - nykergoto’s blog

      みなさん機械学習系の環境構築はどうやってますか? 僕は最近は Docker を使った管理を行っています。 特に師匠も居なかったので、ぐぐったり人のイメージを見たり手探りで docker をつかいつかいしている中で、最初からやっとけばよかったなーということがいくつかあるのでメモとして残しておきます。 大きく2つです。 キャッシュは消す テストを書く キャッシュは消す ライブラリをいろいろと install すると大抵の場合ダウンロードしたファイルを保存されている場合が多いです。何かのタイミングで再びそのライブラリをインストールする際にはダウンロードしたファイルを使って、素早くインストールすることができます (この仕組みがキャッシュです)。 キャッシュがあると容量が重くなるという欠点があります。重たいイメージは pull に単に時間がかかりますから、システムとしてデプロイする時にトラフィックが

        機械学習なdockerfileを書くときに気をつけとくと良いこと - nykergoto’s blog
      • Mathematical Optimization in 60 minutes

        本講演では,数理最適化の基本的な枠組みを概観することで,数理最適化を本格的に学習するきっかけを与えることを目的にしています. このスライドでは,双対問題をはじめとする多くの重要な概念の説明を省略しています.もし,このスライドを読み終えて数理最適化を深く理解できたと感じたなら,それはたぶん気のせいです. (追記2020/9/5)本スライドの元ネタとなる「しっかり学ぶ数理最適化」が10月下旬に講談社より出版されます.

          Mathematical Optimization in 60 minutes
        • なぜ「AIによる株式投資」は普及していないのか?

          AIは囲碁などのボードゲーム、自動運転車、タンパク質構造の解析などさまざまな分野で実用化されています。しかし、一見するとAIとの相性がよさそうな「株式市場への投資」においては、機械学習やAIによる意思決定があまり普及していないとのこと。そこで、ケンブリッジ大学やオックスフォード大学の研究チームが、2000年~2018年に発表された複数の研究から「AIを使った株式投資は実用化できるのか?」を分析した研究結果を発表しました。 A review of machine learning experiments in equity investment decision-making: why most published research findings do not live up to their promise in real life | SpringerLink https://lin

            なぜ「AIによる株式投資」は普及していないのか?
          • OpenCV をビジュアルプログラミングできるアプリを Electron + Vue.js で作成 - Qiita

            要約 Electron + Vue.js で、OpenCVをビジュアルプログラミング的に実行できるアプリ(仮称: OpenCVFlow)を自分の勉強がてら作ってみました。 上の動画のように、画像処理を定義したブロックを並べ、それをリンクでつなげることで、処理を順次実行して結果を確認、保存することができます。機能としてはそれほど多くなく、実用まではいかないかもしれませんが、なにか参考になれば幸いです。(個人的には、ElectronやVue.jsを本格的に使用するのは初めてでしたが、それなりに動くものが作れて満足しています。) 採用技術 アプリケーションエンジン: Electron フロントエンドフレームワーク: Vue.js UIフレームワーク: Photon OpenCVライブラリ: opencv4nodejs デザインパターン: アトミックデザイン アトミックデザインについて 今回は、U

              OpenCV をビジュアルプログラミングできるアプリを Electron + Vue.js で作成 - Qiita
            • 【終了しました】 『ゼロから作る Deep Learning ❸』公開レビューのお知らせ|斎藤 康毅(さいとう こうき)

              こんにちは、斎藤 康毅(さいとう こうき)といいます。ここ1年間はずっと本を書いていました。『ゼロから作る Deep Learning ❸ — フレームワーク編』という本です。最近ようやく、原稿を書き終わろうとしています。 この本は「ディープラーニングのフレームワークを作ろう」という本です(野心的にも、オリジナルの「フレームワーク」をゼロから作ります)。世界中を見回しても、ほとんど類書がないような本になっていると思います。これから先、できるかぎり良い本になるよう、最後の最後までブラッシュアップしていく予定です。 さて、今回も前作同様に「公開レビュー」を行います。興味のある方は、オンラインで原稿を読めるページを用意していますので、チェックしてみてください(無料です!)。問題に感じた箇所や改善すべきと思った点など、コメントいただけますと幸いです。どんなに小さな指摘や疑問でも構いませんので、気軽

                【終了しました】 『ゼロから作る Deep Learning ❸』公開レビューのお知らせ|斎藤 康毅(さいとう こうき)
              • 時系列モデル(ARIMA/Prophet/NNなど)を統一的なAPIで扱えるPythonライブラリ「Darts」がかなり便利 - フリーランチ食べたい

                時系列モデルを扱う上でデファクトスタンダードになりそうなPythonライブラリが出てきました。 時系列モデルを扱うPythonライブラリは、 scikit-learn のようなデファクトスタンダードなものがありません。そのため時系列モデルを用いて実装を行うためには、様々なライブラリのAPIなどの仕様を理解しつつ、それに合わせてデータ整形を行い、評価する必要があり、これはなかなか辛い作業でした。 スイスの企業 Unit8 が今年(2020年)6月末に公開した Darts はまさにこういった課題を解決するライブラリです。時系列に関する様々なモデルを scikit-learn ベースのAPIで統一的に扱うことができます。 github.com Darts は現在、下記のモデルに対応しています。内側では statsmodels 、 Prophet(stan) 、 Pytorch などを使っていて、

                  時系列モデル(ARIMA/Prophet/NNなど)を統一的なAPIで扱えるPythonライブラリ「Darts」がかなり便利 - フリーランチ食べたい
                • 【まとめ】ディープラーニングを使った異常検知 - Qiita

                  ディープラーニングを使った異常検知が進歩していますが、最新情報を追うのが大変です。 ここでは、最新情報をまとめておきます(随時更新)。 本稿では、以下の内容を記します。 ディープラーニングを使った異常検知について、簡単に歴史をまとめます。 最新の手法(2019年当時)について、ベンチマークを行います。 歴史 完全に独断と偏見で作った歴史です。 全ての論文は読めていないので、ご了承ください。 【~2017年】オートエンコーダによる異常検知 オートエンコーダによる異常検知 2、3年前はオートエンコーダによる異常検知が主流でした。オートエンコーダでは、元画像と再構築画像との差をとって、その和が大きいとき異常と認識させています。Qiitaの記事でも、オートエンコーダによる異常検知はたくさんありますので、気になる人は探してみてください。 Variational AutoEocoder(VAE)による

                    【まとめ】ディープラーニングを使った異常検知 - Qiita
                  • 機械学習を記事配信に採用したママリ - 0から構築したレコメンドエンジンのアーキテクチャ設計 - エンジニアHub|Webエンジニアのキャリアを考える!

                    機械学習を記事配信に採用したママリ - 0から構築したレコメンドエンジンのアーキテクチャ設計 コネヒト株式会社が運営する女性向け情報サービス「ママリ」では、2019年12月に記事配信で機械学習によるレコメンドエンジンを構築、2020年初頭にテストが完了しました。 機械学習を採用した背景、設計したアーキテクチャとテストの結果について伺いました。 コネヒト株式会社が運営する、女性を対象とした情報サービス「 ママリ」は、2014年のリリース以降、着実にユーザーを増やし、2020年3月現在、アプリ会員数は240万人(日本で2019年に出産した中で3人に1人が利用)、ママたちが集まるオンラインコミュニティとして定着しています。 ママリでは2019年12月、サービス内に掲載する記事の配信について機械学習を採用したレコメンドエンジンへ変更し、2020年初頭にテストが完了、いよいよ正式リリースとなりました

                      機械学習を記事配信に採用したママリ - 0から構築したレコメンドエンジンのアーキテクチャ設計 - エンジニアHub|Webエンジニアのキャリアを考える!
                    • [論文紹介]グラフニューラルネットワークによる推薦アルゴリズム - Qiita

                      はじめに 昨今、サービスに推薦システムを導入することでUXを向上させることが多くなり、様々な推薦アルゴリズムが取り入れられております。学術界でも推薦は大きなテーマであり、様々なアルゴリズムが提案されております。 本記事では、推薦をする際に、「メディア上で、どんな人とと繋がっているか、どのアイテムにライクをしたか、どんなページを閲覧しがちか」など、人やアイテムとのつながりを重視して推薦するSocial Recommendationの最新論文であるGraphRec[1]を紹介します。GraphRecは2019年にWeb系のTop Coferenceの一つであるWWWで採択された論文です。 GraphRecは、近年グラフ界隈を盛り上げているグラフニューラルネットワーク(以下GNNs)を用いております。GNNsでは、あるノードiの特徴量に近傍ノードの特徴量を足し合わせること(aggregation

                        [論文紹介]グラフニューラルネットワークによる推薦アルゴリズム - Qiita
                      • GitHub - openai/openai-cookbook: Examples and guides for using the OpenAI API

                        ✨ Navigate at cookbook.openai.com Example code and guides for accomplishing common tasks with the OpenAI API. To run these examples, you'll need an OpenAI account and associated API key (create a free account here). Set an environment variable called OPENAI_API_KEY with your API key. Alternatively, in most IDEs such as Visual Studio Code, you can create an .env file at the root of your repo contai

                          GitHub - openai/openai-cookbook: Examples and guides for using the OpenAI API
                        • Introducing ChatGPT

                          ChatGPT is a sibling model to InstructGPT, which is trained to follow an instruction in a prompt and provide a detailed response. We are excited to introduce ChatGPT to get users’ feedback and learn about its strengths and weaknesses. During the research preview, usage of ChatGPT is free. Try it now at chat.openai.com. In the following sample, ChatGPT asks the clarifying questions to debug code. I

                            Introducing ChatGPT
                          • Go vs Rust : 特徴量DBに適するのはどっち!? (2020-04-14 実験追記) - ABEJA Tech Blog

                            ABEJA で Research Engineer をやっている中川です.普段は論文読んだり,機械学習モデルを実装したり,インフラを構築したりしています.今回のブログでは,Insight for Retail の一機能として提供しているリピータ分析に用いる特徴量DBの改善に向けた言語選定について紹介します. ※ たくさんの方々からのコメントありがとうございます.いただいた観点をベースに「2020-04-14 追記」以下に実験を追加しました. モチベーション リピート分析では,任意の特徴量をクエリに最も類似した特徴量を数100msec以内に検索する必要があり,一般的なデータベースでは実現することが難しいという課題がありました.そこで,われわれは python で独自のインメモリデータベースを実装し運用してきました.このデータベースがサービスの成長に合わせて限界を迎えつつあるので,アルゴリズム

                              Go vs Rust : 特徴量DBに適するのはどっち!? (2020-04-14 実験追記) - ABEJA Tech Blog
                            • ChatPDF - Chat with any PDF!

                              Realistic voice calls for Characters, PDFs & more! Check out CallStar.ai, CallPDF.ai, CallTube.ai.

                              • 機械学習のための環境構築とその管理 - nykergoto’s blog

                                機械学習プロジェクトでは python を始めとした言語 + それに付随したライブラリを使います。 僕も python 触りたての頃はローカルマシン上にひとつ python 環境を作り、必要なライブラリをインストールして使っていました。環境の分離ということはあまり意識しておらず、やったとしてもプロジェクトごとに anaconda や pyenv, venv などで個別環境を作って切り分けるレベルでした。 しかし上記の方法だと困ったことが起ることがあります。例えば… global な環境が壊れてしまってすべて壊れる。 これは各環境が global な環境に依存しているために起こります。 python 以外の変更で環境は突如として壊れます。例えば brew install hoge したら Mecab が使えなくなっちゃったとかはあるあるだと思います >_< linux / Mac / Win

                                  機械学習のための環境構築とその管理 - nykergoto’s blog
                                • 【翻訳】機械学習の技術的負債の重箱の隅をつつく (前編) - 株式会社ホクソエムのブログ

                                  ホクソエムサポーターの白井です。 今回は Matthew McAteer氏によるブログ記事Nitpicking Machine Learning Technical Debtの和訳を紹介します。 原著者の許可取得済みです。 Thank you! アメリカの国内ネタも含んでいて、日本語だと理解しにくい箇所もありますが、機械学習の技術的負債をどう対処していくかについて、とても役に立つ記事だと思います。 Nitpicking Machine Learning Technical Debt (機械学習の技術的負債の重箱の隅をつつく) イントロダクション Part1 技術的負債はあなたの予想以上に悪い Part2 機械学習の漠然とした性質 Part3 (通常の依存関係の頂上にある) データ依存関係 Part4 イライラさせるほど未定義なフィードバックループ 後編に続きます Nitpicking Ma

                                    【翻訳】機械学習の技術的負債の重箱の隅をつつく (前編) - 株式会社ホクソエムのブログ
                                  • DALL·E: Creating images from text

                                    We’ve trained a neural network called DALL·E that creates images from text captions for a wide range of concepts expressible in natural language. DALL·E is a 12-billion parameter version of GPT-3 trained to generate images from text descriptions, using a dataset of text–image pairs. We’ve found that it has a diverse set of capabilities, including creating anthropomorphized versions of animals and

                                      DALL·E: Creating images from text
                                    • 使える統計モデル10選(前編) | AIdrops

                                      使える統計モデル10選(前編) 統計モデリング(statistical modelling)はデータ解析の方法論の1つです。データ解析の目的は、通常はただの数値や記号の羅列であるデータから、人間が何かしらの判断を行うために有益な情報を引き出すことにあります。データ分析者は、そのままでは意味をなさないデータに対して、折れ線グラフやヒストグラムなどを用いて、人間が判断を行いやすいようにデータの可視化を行います。一方で、時にはニューラルネットワークのような複雑な計算モデルを使ってデータを解析し、まだ観測されていない将来の値を予測させたりします。このように、データから有益な情報を引き出すために、データに対して人為的な視点や事前知識、数学的な仮定などを設計する作業をモデリング(modeling)と呼びます。 統計モデリングによるデータ解析では、データ自体や解析の目的に合わせて分析者が適切なモデルを設

                                        使える統計モデル10選(前編) | AIdrops
                                      • 機械学習をゼロから学ぶための勉強法 (2020年3月版) - Qiita

                                        はじめに データサイエンスや機械学習っておもしろそう!と思いつつも、どうやって勉強をしたら良いかわからない......と感じた経験はありませんか? ちなみに自分もその一人です。 この記事では、機械学習ってそもそも何? AIという言葉は知ってるけど詳しいことはわからないというような初学者でも、知識・経験を積んで機械学習に取り組めるようにするために必要な基礎の基礎から学ぶための勉強法を自分の経験をもとに紹介します!(ここで紹介するものは機械学習の中級者以上の方でも基礎知識の復習として活用できるものかなとも思っています) この記事の続編(データサイエンスはじめて1か月以内で参加したコンペで銀メダル(上位3%)とるまで!)はこちら 概要 (基本的にはこの3stepです) 基礎知識をつける(単語・用語の理解) ライブラリの使い方を理解 実際にコンペに挑戦(Kaggle) 1.機械学習&ディープラーニ

                                          機械学習をゼロから学ぶための勉強法 (2020年3月版) - Qiita
                                        • DeepL Write: AI-powered writing companion

                                          DeepL Write is leaving beta soon. You’ll be able to purchase a paid version for unlimited usage and maximum data security.

                                            DeepL Write: AI-powered writing companion
                                          • Practical Data Science with R and Python: 実践的データサイエンス

                                            実践的データサイエンス はじめに データ分析のためにコンピュータを利用する際、RおよびPython言語のいずれかを使うことが多いと思います(Julia言語は高レベル・高パフォーマンスな技術計算のための言語で今後期待が膨らみます)。これらの2つの言語では、データ操作や可視化、データ分析、モデリングに使われるライブラリが豊富にあり、 どれを使うのが良いのか迷うような状況が続いていました。しかしその状態は落ち着きを見せ、成熟期を迎えつつあります。 R言語ではパイプ演算子の登場によりデータフレームに対する操作に大きな変化が生じ、tidyverseによるデータ読み込みからデータ整形、可視化までが可能になりました。またtidyverseのような、機械や人間の双方が扱いやすいパッケージが増えてきました。特にR言語の強力な一面でもあったデータ分析の操作はtidymodelsに代表されるパッケージがユーザの

                                            • 世界初、分析ツールnehanにPythonコード出力機能登場。プログラミング不要でプログラムを作れる!?

                                              株式会社nehanは、プログラミング不要の分析ツールnehan上にて、作成した分析プロセスをPythonコードとして出力できる機能の提供を開始いたしました。 分系ツールnehanは「"データ分析は前処理の時間が8割"の常識を覆す」をテーマに、プログラミング不要で様々な分析業務を可能にするサービスです。 2019年5月の提供開始以降、50社以上の企業様よりお問い合わせを頂戴し、また、導入企業様より業務効率化実感の声を多くいただいております。 Pythonコード出力機能は、プログラミング不要で作成した分析プロセスを、Pythonコードに変換し出力する機能です。これにより、プログラムを書くより早くプログラムを作成することが可能になり、業務効率化を実現できます。 この機能の最大の魅力は、データ活用における「分析ロジックやアルゴリズムのシステム組み込み」をプログラミング不要で実現できることです。 例

                                                世界初、分析ツールnehanにPythonコード出力機能登場。プログラミング不要でプログラムを作れる!?
                                              • 一般的な時系列のモデリング&予測に、機械学習系の手法よりも古典的な計量時系列分析の方が向いている理由を考えてみた(追記あり) - 渋谷駅前で働くデータサイエンティストのブログ

                                                この記事は、以下の@icoxfog417さんによる問題提起に合わせたちょっとした実験をまとめたものです。 時系列予測の問題において、機械学習のモデルより既存の統計モデル(ARMAモデルなど)の方が予測精度において優良な結果が出るという研究。データへの適合=予測精度の向上ではないことも実験で示している。機械学習の研究では統計モデルとの比較も入れるべきという提言をしている。 https://t.co/jboGhYSX6E— piqcy (@icoxfog417) September 16, 2019 この点について僕はこんなコメントをしたのですが。 だいぶ以前から「一般的な時系列データ予測の問題は単位根過程や季節調整など非定常過程との戦いなので、本質的に定常過程を想定する機械学習手法での予測は計量時系列分析など非定常過程も考慮した古典的なモデルによる予測には及ばない」と言い続けてきたけど、やっ

                                                  一般的な時系列のモデリング&予測に、機械学習系の手法よりも古典的な計量時系列分析の方が向いている理由を考えてみた(追記あり) - 渋谷駅前で働くデータサイエンティストのブログ
                                                • Netflixの「Metaflow」 Pythonライブラリーがオープンソースに

                                                  Liam Tung (Special to ZDNET.com) 翻訳校正: 村上雅章 野崎裕子 2019-12-12 10:00 Netflixのデータサイエンティストチームが、「Metaflow Python」ライブラリーをオープンソース化している。このライブラリーはデータサイエンス分野におけるワークローの構築やデプロイに用いる「人間中心の機械学習(ML)インフラ」における重要なパーツだ。 大手ビデオストリーミング企業であるNetflixは脚本の分析から、制作スケジュールの最適化、顧客によるサービス解約の予測、価格設定、翻訳、同社の大規模なコンテンツ配信ネットワークの最適化に至るまで、業務のあらゆる側面でMLを活用している。 同社のブログ投稿によるとMetaflowは、ビジネスロジックをPythonのコードで表現したいが、オブジェクト階層や、パッケージ関連の問題、自らの仕事と直接関連し

                                                    Netflixの「Metaflow」 Pythonライブラリーがオープンソースに
                                                  • Python関係の「○○100本ノック」のまとめ - Qiita

                                                    「○○100本ノックとは」? プログラミング関係のエクササイズ集・Tips集的なものです。ちょっとしたテクニックや、基礎がまとまっているので解いてみると練習になります。 最初にやるのは退屈かもしれませんが、学習の停滞期にやってみると、思わぬ発見があるのではないかなと思います。 この記事では、Python関係の100本ノックを簡単にまとめてみました。自分が知っているのは、以下くらいですが、他にも良いもの(絶対ある気がします)知っている人はぜひコメントなどで教えてください。 画像処理100本ノック 画像処理100本ノック!! 追記:本家が惜しくも無くなってしまっていたので、fork(?)されていたものにリンク張り替えました。 解説・Google Colaboratoryで実行するときは以下記事参考にしてみてください。 ディープラーニング ∞本ノック 注:元サイトが消えてしまったので、私がfor

                                                      Python関係の「○○100本ノック」のまとめ - Qiita
                                                    • 深層学習の原理を明らかにする理論の試み - Google ドライブ

                                                      ログイン

                                                        深層学習の原理を明らかにする理論の試み - Google ドライブ
                                                      • 近似最近傍探索Indexを作るワークフロー - ZOZO TECH BLOG

                                                        はじめに こんにちは。ZOZO研究所のshikajiroです。主に研究所のバックエンド全般を担当しています。ZOZOでは2019年夏にAI技術を活用した「類似アイテム検索機能」をリリースしました。商品画像に似た別の商品を検索する機能で、 画像検索 と言った方が分かりやすいかもしれません。MLの開発にはChainer, CuPy, TensorFlow, GPU, TPU, Annoy、バックエンドの開発にはGCP, Kubernetes, Docker, Flask, Terraform, Airflowなど様々な技術を活用しています。今回は私が担当した「近似最近傍探索Indexを作るワークフロー」のお話です。 corp.zozo.com 目次 はじめに 目次 画像検索の全体像説明 Workflow Develop Application 推論APIの流れ 近似最近傍探索とAnnoy 近似

                                                          近似最近傍探索Indexを作るワークフロー - ZOZO TECH BLOG
                                                        • GMOペパボ、エンジニアの研修資料を無料公開 合計14時間の機械学習研修ほか | Ledge.ai

                                                          画像は公式ブログ(該当ページ)より GMOペパボ株式会社は9月21日、公式ブログにおいて、株式会社ミクシィやサイボウズ株式会社、株式会社リクルートなどに続き、エンジニア研修2021の研修資料を無料公開した。研修資料は「モバイルアプリ研修」「機械学習研修」などで構成される。目次は以下のとおり。 Rails Tutorialコンテナ研修Web セキュリティ研修フロントエンド研修モバイルアプリ研修機械学習研修「モバイルアプリ研修」は、宣言的UIプログラミングの利点を学びつつ、Flutterを用いてモバイルアプリケーションを開発できることに目的としている。 「機械学習研修」は、機械学習の初学者が手法のコンセプトを学び、手法を用いる際の設計や手順が研修前と比較して具体化できることをゴールに設定した。機械学習の前提としてのデータの重要性と、その扱い方を習得することにもフォーカスしている。日程は5日間・

                                                            GMOペパボ、エンジニアの研修資料を無料公開 合計14時間の機械学習研修ほか | Ledge.ai
                                                          • An important next step on our AI journey

                                                              An important next step on our AI journey
                                                            • カルマンフィルターについて - Qiita

                                                              はじめに 千葉大学/Nospareの米倉です.今回はカルマンフィルターについて解説していきたいと思います. カルマンフィルターで何が出来るの? フィルターとあるように,カルマンフィルターが出来る基本的なことは線形ガウス状態空間モデルのフィルタリング密度を逐次的に求めることです.ここで2つのキーワード,「線形ガウス状態空間モデル」と「フィルタリング密度」という単語が出てきましたので,まずはそれらについて解説します. 線形ガウス状態空間モデルとは 状態空間モデルとは2つの確率過程からなります.1つは潜在変数・状態変数・隠れ変数といわれるもので,これは直接観測できないがマルコフ連鎖に従う変数だとモデリングされます.例えば景気の良し・悪し等,概念として存在するけれど直接は観測できないものを想像してください.2つめは観測値で,これは直接観測できるもの,つまりデータです.ただし変数に依存して観測される

                                                                カルマンフィルターについて - Qiita
                                                              • PythonでApache beam 入門

                                                                2020-12-26 TensorFlowの勉強をしていたら、Apache beam を前処理に採用していたケースがあり、興味を持ったので深堀りしてみます。 興味が湧いたモチベーションとしては、 データ量が増加しても前処理部分を難なくスケールできそう(前処理部分をスケールさせて高速に実験を回したい、並列化などはすべて良い感じにbeamに任せれそうバッチとストリーミングの両者に対応可能なので、柔軟な機械学習の推論サービスが提供できるのでは? (GCPの参考資料 Data preprocessing for machine learning: options and recommendations)Apache beam を触りつつ分散データ処理を学びたいhttps://github.com/jhuangtw/xg2xg#services を見てみるとGoogle 内部のFlume という並列

                                                                  PythonでApache beam 入門
                                                                • 「生成Deep Learning」は久しぶりにワクワクするAI関係の本だった - karaage. [からあげ]

                                                                  「生成Deep Learning」を読みました 生成に特化したAIの本「生成Deep Learning」を読みました。 生成 Deep Learning ―絵を描き、物語や音楽を作り、ゲームをプレイする 作者:David Foster発売日: 2020/10/05メディア: 単行本(ソフトカバー) 独創力とは、思慮深い模倣以外の何ものでもない とは18世紀フランスの哲学者ヴォルテールの言葉とのことですが、AIによる模倣と創造の境界に関して考えさせられるような本でした。 本の内容は、オートエンコーダからはじまりGANでの画像生成、文章生成、音楽生成。アテンション、強化学習の世界モデルまでとタイトル通り生成系のAI技術を幅広くカバーしています。 結構骨太で、AIの本は1冊目という人が読む本ではなくて、何冊かAI関係の書籍を読んで、ある程度自分で実践して、生成系のAI(Auto Encoderと

                                                                    「生成Deep Learning」は久しぶりにワクワクするAI関係の本だった - karaage. [からあげ]
                                                                  • PyTorch/TensorFlow/Keras/scikit-learnライブラリ内蔵のデータセット一覧

                                                                    PyTorch/TensorFlow/Keras/scikit-learnライブラリ内蔵のデータセット一覧:AI・機械学習のデータセット辞典 機械学習やディープラーニング用の主要ライブラリが提供する「画像/音声/テキストなどのデータセット」の名前とリンクを表にまとめ、典型的な使い方を簡単に紹介する。 連載目次 本連載「AI・機械学習のデータセット辞典」では、ここまで主に、scikit-learnやKeras/TensorFlow(tf.keras)、TensorFlow Datasets、PyTorchといった主要なPythonライブラリに共通的に含まれる代表的なデータセットを紹介し、各ライブラリでの典型的な実装コード例を示してきた。しかし、これらの全ライブラリに共通的に含まれているデータセットはまれで非常に少ない。よってこれからは、個々のライブラリに1つしか含まれていないようなこまごまと

                                                                      PyTorch/TensorFlow/Keras/scikit-learnライブラリ内蔵のデータセット一覧
                                                                    • たった数行でpandasを高速化する2つのライブラリ(pandarallel/swifter) - フリーランチ食べたい

                                                                      pandas はデータ解析やデータ加工に非常に便利なPythonライブラリですが、並列化されている処理とされていない処理があり、注意が必要です。例えば pd.Sereis.__add__ のようなAPI(つまり df['a'] + df['b'] のような処理です)は処理が numpy に移譲されているためPythonのGILの影響を受けずに並列化されますが、 padas.DataFrame.apply などのメソッドはPythonのみで実装されているので並列化されません。 処理によってはそこがボトルネックになるケースもあります。今回は「ほぼimportするだけ」で pandas の並列化されていない処理を並列化し高速化できる2つのライブラリを紹介します。同時に2つのライブラリのベンチマークをしてみて性能を確かめました。 pandarallel pandaralell はPythonの m

                                                                        たった数行でpandasを高速化する2つのライブラリ(pandarallel/swifter) - フリーランチ食べたい
                                                                      • kaggle本で参考になった点のなぐり書き - ML_BearのKaggleな日常

                                                                        これはなに? kaggle本を読んで血肉になった/したい点をなぐり書きにしたただの個人用メモです。ちゃんとした書評を書こうと思い続けてはや半月以上経過したので一旦書きました。 この箇条書きの記事だけ読んでも多分内容わからないと思うので、気になった点があればぜひ購入しましょう!読後すぐに書いた推薦ツイートは以下のとおりです。 kaggle本読み終わりました。初心者にも良い本だと思いますが、ExpertやMasterなりたての人が最も恩恵を得られそうだなと感じました。自分の今までのコンペ経験を思い返しつつ、その中では経験できなかった内容を学ぶことができ「賢者は歴史に学ぶ」が可能になった感があります。著者の方々に感謝です!— ML_Bear (@MLBear2) October 23, 2019 リンク Chap. 2 - タスクと評価指標 「しきい値の最適化」という概念 正例か負例のラベルを提

                                                                          kaggle本で参考になった点のなぐり書き - ML_BearのKaggleな日常
                                                                        • Mozillaが「秘密にまみれた大企業のAI」を打破するべくオープンなAI開発企業「Mozilla.ai」を設立

                                                                          Firefoxなどの開発で知られるMozillaが、オープンソースでのAIエコシステム構築を目指すスタートアップ「Mozilla.ai」の設立を発表しました。Mozillaからの投資額は3000万ドル(約39億円)に上る見込みです。 Mozilla.ai https://mozilla.ai/ Introducing Mozilla.ai: Investing in trustworthy AI https://blog.mozilla.org/en/mozilla/introducing-mozilla-ai-investing-in-trustworthy-ai/ AIに関する研究は長年にわたって続いてきましたが、2022年には「Stable Diffusion」「Midjourney」「DALL・E」などの画像生成AIやチャットAI「ChatGPT」、文字起こしAI「Whisper」

                                                                            Mozillaが「秘密にまみれた大企業のAI」を打破するべくオープンなAI開発企業「Mozilla.ai」を設立
                                                                          • 成功した機械学習モデル150個を分析してわかったことまとめ、Booking.comの場合

                                                                            by stem.T4L 宿泊予約サイトのBooking.comはプラットフォームに機械学習を取り入れており、毎日いくつものA/Bテストを実施して最適なオプションや表示方法を模索しています。機械学習を取り入れるなかで失敗と成功の両方を何度も経験してきたBooking.comが、150の成功モデルから学んだことについて論文を発表しました。「機械学習が現実の企業やプラットフォームのパフォーマンスにどう影響するのか」を述べたこの論文を、VMwareのCTOを務めたのちにAccelのベンチャーパートナーとなったAdrian Colyer氏がかみ砕いて解説しています。 150 Successful Machine Learning Models: 6 Lessons Learned at Booking.com (PDFファイル)http://delivery.acm.org/10.1145/3340

                                                                              成功した機械学習モデル150個を分析してわかったことまとめ、Booking.comの場合
                                                                            • パラメータ数10億!最新の巨大画像認識モデル「BiT」爆誕 & 解説 - Qiita

                                                                              オミータです。ツイッターで人工知能のことや他媒体で書いている記事など を紹介していますので、人工知能のことをもっと知りたい方などは気軽に@omiita_atiimoをフォローしてください! 2019年12月24日のクリスマスイブにarxiv上でGoogle Brainから新たな画像認識モデルが発表されました。その名も BiT(=Big Transfer)。その性能は2019年にGoogleが出したEfficientNet(拙著解説記事)を様々なデータセットで超えるほどで現在のState-of-The-Art になっています。驚くべきはそれだけでなく、なんとこのモデル、パラメータ数が10億にもおよぶ巨大なモンスターモデル になっています。そんなBiTについて早速この記事で解説していきたいと思います。バッチノームやドロップアウト、Weight Decayなどを使用していないという、 今までの画

                                                                                パラメータ数10億!最新の巨大画像認識モデル「BiT」爆誕 & 解説 - Qiita
                                                                              • XGBoost論文を丁寧に解説する(1) - Qiita

                                                                                はじめに 勾配ブーストを用いた決定木(GBDT)によるクラス分類や回帰はデータ分析コンペでも非常によく使われています。 その中でも2016年に出されたXGBoostはLightGBMと並びよく使われている手法です。 性能が良いことで有名なXGBoost, LightGBMですが、モデル内部でどのような処理が行われているかよくわかっていなかったので論文を読んでみました。 式変形の省略が多く、またイメージしづらい箇所もあり、読みづらかったのですが 一度イメージできれば割とあっさり理解できます。 その体験を踏まえて、イメージ図を多く取り入れながらXGBoostの論文を(途中まで)丁寧に解説します。 XGBoost: A Scalable Tree Boosting System 論文 この記事で述べること データの入出力 XGBoostの木構造 損失関数とboosting 木構造の学習(spli

                                                                                  XGBoost論文を丁寧に解説する(1) - Qiita
                                                                                • ナイーブベイズを使って1日で100万件の投稿をジャンル分けした話 - AppBrew Tech Blog

                                                                                  こんにちは、AppBrewでアルバイトをしている@Leoです。 自然言語処理の研究室に最近入った大学生で、趣味はKaggleと競技プログラミングです。 AppBrewでは、LIPSの投稿を使ったデータ分析をしています。 今日の記事では、弊社のアプリLIPSにて投稿ジャンルを機械学習を使って自動推定した方法を紹介します。 自然言語処理・確率関係全然わからない!という人でも読みやすい内容になっていると思うので、最後まで読んでいただけると幸いです! LIPSにおけるジャンル 教師データの作成 ナイーブベイズ 単語分割 モデルの実装 分類結果 おわりに LIPSにおけるジャンル 最近、LIPSにジャンル機能が追加されました。 これは投稿されたクチコミにジャンルを設定できる機能です。 適切にジャンルを設定すると、投稿を検索するときにジャンルを使って絞り込めるなどの利点があります。 ジャンルは7種類(

                                                                                    ナイーブベイズを使って1日で100万件の投稿をジャンル分けした話 - AppBrew Tech Blog