MLSE 夏合宿 2022 3 日目基調講演の資料です。 リンクをそれぞれのスライドのフッターにつけていますので、引用元は PDF をダウンロードすると確認できます。
機械学習システムのアーキテクチャを検討する上で考慮すべき課題について調査しまとめた資料です。Money Forward 社内で開かれた MLOps についての勉強会のために作成しました。 ## Reference 澁井 雄介 著 AIエンジニアのための機械学習システムデザインパターン 翔泳社 2021年 https://www.shoeisha.co.jp/book/detail/9784798169453 有賀 康顕 中山 心太 西林 孝 著 仕事ではじめる機械学習 第2版 オライリー・ジャパン 2021年 https://www.shoeisha.co.jp/book/detail/9784798169453 Katrina Clokie 著 風間 裕也, 河原田 政典 訳 A Practical Guide to Testing in DevOps Japanese Edition
機械学習システムのアーキテクチャを検討する上で考慮すべき課題について調査しまとめた資料です。Money Forward 社内で開かれた MLOps についての勉強会のために作成しました。 ## Reference ### 大規模なデータを扱う難しさ - Architecture Evolution in Repro https://speakerdeck.com/joker1007/architecture-evolution-in-repro - Sidekiq to Kafka ストリームベースのmicro services https://speakerdeck.com/joker1007/sidekiq-to-kafka-sutorimubesufalsemicro-services - ReproのImport/Exportを支えるサーバーレスアーキテクチャhttps://spe
X-LoRA: Mixture of Low-Rank Adapter Experts, a Flexible Framework for Large Language Models with Applications in Protein Mechanics and Molecular Design ericlbuehler/mistral.rs • 11 Feb 2024 Starting with a set of pre-trained LoRA adapters, our gating strategy uses the hidden states to dynamically mix adapted layers, allowing the resulting X-LoRA model to draw upon different capabilities and create
CIFAR-10 (Canadian Institute for Advanced Research, 10 classes) The CIFAR-10 dataset (Canadian Institute for Advanced Research, 10 classes) is a subset of the Tiny Images dataset and consists of 60000 32x32 color images. The images are labelled with one of 10 mutually exclusive classes: airplane, automobile (but not truck or pickup truck), bird, cat, deer, dog, frog, horse, ship, and truck (but no
(Not Just) Data Version ControlOpen-source, Git-based data science. Apply version control to machine learning development, make your repo the backbone of your project, and instill best practices across your team. Connect storage to repoKeep large data and model files alongside code and share via your cloud storage. Configure steps as you goDeclare dependencies and outputs at each step to build rep
表1(翻訳者により追加) MLOpsにおいて、DevOpsから追加された項目 以下では,予測サービスとして機能するMLモデルのトレーニングと評価の代表的な手順を説明します. MLのためのデータサイエンスの手順 どのMLプロジェクトでも、ビジネスユースケースを定義して成功基準を確立した後、 MLモデルを本番環境にデリバリする過程には次の手順が含まれます。 これらの手順は手動で完了することも、自動パイプラインで完了することもできます。 データ抽出: MLタスクのさまざまなデータソースから関連データを選択して統合します。 データ分析: 探索的データ分析 (EDA) を 実行して、MLモデルの構築に使用可能なデータを把握します。 このプロセスにより、次のことが起こります。 モデルが期待するデータスキーマと特性を理解します。 モデルに必要なデータの準備と特徴量エンジニアリングを特定します。 データの
(Image by Pixabay) 気が付けば、日本における第一次データサイエンティストブームから6年、人工知能ブーム開始から3年が経ったようです。意外と言っては何ですが、これまでのところ人工知能ブームも、そしてそれにブーストされた形で起こった第二次データサイエンティストブームも、まだまだ続くどころかどんどん加速していきそうな状況です。 なのですが、これだけ統計学や機械学習のような高度なデータ分析技術がビジネスの現場に浸透するようになった現在でも、なぜかあまり多く見かけないものがあります。それは「機械学習(もしくは自動化された統計分析)によるビジネス上の成果を数値として示したもの」。意外かもしれませんが、個人的な観測範囲では例えば「Deep Learningを導入したら〇〇がXX%向上した」みたいなリリースや記事を見かけることは、正直なところ思った以上に少ないように思われます。それでも第
はじめに 空前のAIブームだった2017年、Yahooニュースでは毎日のように『〇〇が△△のAIを開発』のような見出しが目立ちました。2018年は『AIの運用』の時代になるとも言われています。 しかし、AI(機械学習)を載せたシステムの開発・テスト・運用の方法は2018年4月現在、まだ確立されていない分野です。 今回は、技術的負債という観点から、機械学習システム特有の課題点とその回避策のヒントまとめたGoogleの論文 Machine Learning: The High Interest Credit Card of Technical Debt (2014) を翻訳します。Google翻訳+軽い手作業ですのでご留意を。 ちなみにタイトル『機械学習:技術的負債の高金利クレジットカード』の意味は、機械学習システムがまるで高金利のクレジットカードのように、気づかないうちに技術的負債を蓄積して
(Image by Pixabay) この記事は、以前の同様のスキル要件記事のアップデートです。 正直言って内容的には大差ないと思いますが、今回は2つ新たな軸を加えることにしました。一つは「ジュニアレベル(駆け出し)」と「シニアレベル(熟練職人)」とで分けるということ、もう一つは「データ分析以外の業界知識(ドメイン知識)」にも重きを置く、ということです。 というのも、空前の人工知能ブームが予想よりも長く続いていることで、人材マーケットを観察する限りではデータサイエンティスト・機械学習エンジニアとも求人数が高止まりしているように見えるのですが、その結果としてこのブログの過去のスキル要件記事で挙げたような「完成されたデータ分析人材(熟練職人)」に限らず「駆け出し」でも良いからデータ分析人材が欲しいという企業が増えているように感じられるからです。 その一方で、かつては主にwebマーケティング業界
こんにちは!機械学習エンジニアの桶原です。 業務では主に機械学習処理を用いた広告効果予測と改善をテーマとしています。 今回は機械学習処理におけるカテゴリ変数の扱い方の中でもあまり触れられることのない、Feature hashingを利用した方法についてお話できればと思っています。 カテゴリ変数の取り扱い Feature hashingとは Feature hashingの種類 hashing functionの比較 概要 注意事項 実装 1. Shi's hash function 2. Weinberger's hash function 結果 次元圧縮手法としてのFeature hashing 1. Shi's hash function 2. Weinberger's hash function まとめ カテゴリ変数の取り扱い カテゴリ変数の扱う方法として多くの教科書ではOne ho
--- 【お知らせ】 第4版の紙の本は、「とらのあな」にて通信・店頭販売しております。 希望の方は、とらのあなで購入ください。 はじめまして。カレーちゃんと申します。▶︎Twitterアカウント @currypurin ▶︎ブログ 概要説明技術書典4という技術同人誌の即売会で「kaggleのチュートリアル」を販売し、300冊完売という結果を達成することができました。 その後、私は専業のKagglerになり日々kaggleに取り組んでいます。 2019年9月に開催される、技術書典7において更新版のkaggleのチュートリアル第4版を販売します。このnoteではそのkaggleのチュートリアル第4版を販売いてします。 第4版は次のサポート ページで、コードとyoutubeでの説明動画への集約を行なっています。 サポートページからリンクが貼ってあるkernelのコードと、youtube動画のみで
最近、仕事のちゃんとした登壇が多かったので、趣味でやっているWebサービスにおける機械学習関連の工夫について発表してきました。基本的に昔ブログで紹介したエントリのまとめバージョンです。 趣味の余暇時間で開発しているサービスなので、いかに手間をかけずに済むかというのが大事です。テーマは怠惰!! 機械学習を使った趣味サービスにおける工夫紹介 from syou6162 効率的なアノテーション方法 精度の継続的なモニタリング 多様性を持たせた簡単な推薦方法 パイプラインジャングルと戦う 効率的なアノテーション方法 機械学習、データ数が多くないとなかなか精度が出ないですが、教師データをたくさん作るのも手間がかかります。そこで能動学習を使って効率的にアノテーションしていくツールを作ったので、それの紹介をしました。 精度の継続的なモニタリング 機械学習のコードでは、テストは通ってたけど実は本番では精度
こんにちは、CET チームの田村です。データ基盤を構築・運用したり、チャットボット(スマホ用です)を開発したりしているエンジニアです。 皆さん、実サービスで機械学習、活用できていますか? 正直、難しいですよね。高精度なモデルを作ること自体も難しいですが、実際のサービスにそれを組み込むには、そこからさらに数々の難所が待ち構えているからです。 でも、そのほとんどはエンジニアリングで解消できます。 私たちのチームでは、数年にわたる経験をもとに難所とその対処法を整理し、すばやく成果をあげられる機械学習基盤を開発しはじめました。 本記事では、この基盤の設計とその背後にあるアイデアをご紹介します(機械学習工学研究会の勉強会での発表資料がベースです)。 イテレーションを何度も回せ 基盤そのものの前に、まず機械学習を成果につなげるためのポイントを説明させてください。 私たちは、機械学習の活用において必要な
このエントリについて 2種類の要件 性能要件のテスト offline と online offline 性能テストの自動化 A/B テストはすぐにほしい 機能要件のテスト 性能テストのみで十分なのでは? テストデータ生成 機能テストをいつ作るか まとめ このエントリについて ポエムです。 11/8(火) に開催された Cloudera World Tokyo 2016 に参加しました。 大規模データに対するデータサイエンスの進め方 #CWT2016 (以下、発表 1) データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016 (以下、発表 2) その中で上記の2つの発表がとてもいい話でした。 多少絡みのある内容として機械学習を利用するプロダクトのテストについて述べたいとちょっと前から考えていたので、いい機会なので
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く