「Data Engineering Study #23 Data orchestration 特集」の発表資料です イベントページ: https://forkwell.connpass.com/event/310011/
はじめに こんにちは、ML・データ部MLOpsブロックの岡本です。 MLOpsブロックでは日々複数のGoogle Cloudプロジェクトを管理しています。これらのプロジェクトでは、データサイエンティストやプロジェクトマネージャーなど別チームのメンバーが作業することもあり、必要に応じてメンバーのGoogleアカウントへ権限を付与しています。 権限の付与はプロジェクトの管理者であるMLOpsブロックメンバーが行いますが、これは頻繁に発生する作業でありトイルとなっていました。 また権限付与後はこれらを継続的に管理し、定期的に棚卸しすることで不要になった権限を削除する必要があります。しかし当初の運用だと権限の棚卸しの対応コストが大きく、これが実施されずに不要な権限が残り続けるという課題もありました。 本記事ではMLOpsブロックで抱えていたGoogle Cloudプロジェクト内での権限管理における
はじめにこんにちは、SAIG/MLOpsチームでアルバイトをしている板野・平野です。 今回は、昨今注目されている大規模言語モデル(LLM)の開発においてMLOpsチームがやるべきことを考えるため、まずはLLM開発の流れを調査・整理しました。 本記事はその内容を「LLM開発のフロー」という題目でまとめたものです。LLMを本番運用するときに考慮すべきこと、LLM開発・運用を支援するサービスやツール・LLMシステムの構成例などについては、「LLM開発でMLOpsチームがやるべきこと」と題して別記事でご紹介していますので、ぜひ併せてご覧ください。 ここでのLLM開発とは、「LLM自体の開発」および「LLMを活用したシステム開発」の両方を含みます。また、「LLM自体の開発」は学習フェーズ、「LLMを活用したシステム開発」は推論フェーズ、として記載しています。 本記事ではLLM開発における各フェーズの
こんにちは。ファンと共に時代を進める、Web3スタートアップ Gaudiy の seya (@sekikazu01)と申します。 弊社では今 LLM をプロダクトに活用しているのですが、実際にユーザに提供するクオリティのものを作る・運用しようとすると様々な課題が立ちはだかってきました。 そんな数々の課題を解くために LangSmith というツールが活躍してくれた、また今後の活用・発展にもかなり期待ができるため、本記事ではそんな LangSmith について解説していきます。 LLM を使ったプロダクト開発において課題を感じている方々の参考になれば幸いです。 出てきた課題 まず LangSmith 自体の解説に入る前に、我々が直面した・ほぼ間違いなく今後するであろう課題たちをサラッとご紹介しようと思います。 大まかには次のような課題がありました。 プロンプトがアプリケーションコード内に書か
はじめにこんにちは、SAIG/MLOpsチームでアルバイトをしている板野・平野です。 今回は「LLM開発のためにMLOpsチームがやるべきこと」というテーマで、従来のMLOpsとの違い・ツール・構成例等について調査・整理しました。 LLMとはLarge Launguage Model(大規模言語モデル)の略であり、ここでのLLM開発とは、「LLM自体の開発」および「LLMを活用したシステム開発」の両方を含むものとします。LLM開発のフローについては以前にLLM開発のフローで詳細を説明しているので、ぜひ併せてご覧ください。 まず、MLOpsとは「機械学習モデルの実装から運用までを円滑に推進するための手法や考え方」のことです。AIの社会実装が増えるに伴い、MLOpsチームを設ける企業も増えてきました。また、最近ではLLMやその関連技術が急速に発達してきており、今後LLMを用いたアプリケーション
こんにちは,コミューンで一人目の機械学習(ML)エンジニアとして働いている柏木(@asteriam_fp)です. 入社して5ヶ月ほど経ちましたが,今回漸く最近の取り組みを紹介できそうです.ML エンジニアは僕一人なので,専らの相談相手は ChatGPT 君の今日この頃です笑 はじめに コミューンでは,企業とユーザーが融け合うコミュニティサクセスプラットフォームである commmune を提供しています.今回のブログは先日のプレスリリースでも発表された投稿レコメンド機能を commmune に導入したので,その機能を裏側で支えている機械学習基盤に関する内容を紹介します. エンドユーザーに対して提供される機械学習システムを導入するのは初めての試みになり,まさにゼロからの出発なので,これから徐々に大きく育てて行く予定です! はじめに コミュニティプラットフォームにおける機械学習の可能性 投稿レコ
登壇者の自己紹介とアジェンダの紹介 sugasuga氏:こんにちは。今日は、ピクシブの機械学習基盤に関する発表をいたします。 まずは自己紹介から始めさせてください。自分は、機械学習チームでエンジニアをしているsugasugaといいます。サブで採用・広報活動にも関わっています。最近の趣味は、トレーニングです。 今日お話しすることは、(スライドを示して)こちらを予定しています。機械学習基盤について。そして、基盤で使われている技術について。運用してみて感じたメリットとデメリットについてお話しします。 大規模なデータの効率的な処理、機械学習サービスの展開のしやすさ、効率的な開発などに課題があった 本題に移る前に、導入として、どういったところで機械学習が活用されていて、なぜ機械学習基盤が必要かについてお話しします。 活用されている場面としては、違反検知、レコメンド、広告、3Dなど多岐にわたります。こ
AI事業本部MLOps研修とは はじめまして、AI Labでリサーチエンジニアをしている岩崎(@chck)と、AI事業本部 Dynalystでデータサイエンティストをしている長江(@nsakki55)と干飯(@hosimesi)です。 今回は、AI事業本部研修で行われた講義のMLOps回の資料を公開します。 🔳 AI事業本部の事業を担う一員として、「AI事業本部で必要なドメイン知識を身につける・関係を構築する(縦・横・ななめまで)」が研修の目標 サイバーエージェントでは、入社後3週間ほどのエンジニア全体研修を行った後、各事業部に配属されます。AI事業本部では、事業部配属直後に2週間ほどエンジニア研修を行います。この研修では、全社研修とは異なり、AI事業本部に特化したアドテクや機械学習に関連する内容が取り扱われています。 ▼事業部研修全体スケジュール AI事業本部の研修は、以下の3つのパー
みなさんどうもこんにちは、AI事業本部の「極予測TD」というプロダクトで2023年2月から2ヶ月間、機械学習エンジニアとしてインターンシップ「CA Tech JOB」に参加させていただいた、高橋駿一と申します。本記事では、インターンシップで行った、MLOps基盤の開発についてご紹介します。 極予測TDとは 極予測TDとは、レスポンシブ検索広告(RSA)を自動生成する「広告テキスト自動生成AI」と、広告配信効果を事前に予測する「効果予測AI」を掛け合わせることで、効果的なRSAを制作するプロダクトです。 本インターンシップでは、効果予測AIのMLOpsに取り組みました。 背景 チームに参加した際、以下のような状況にありました。 複数の予測モデルが運用されているうち、一部、MLパイプラインが未実装のものがあった 上記モデルはリリース当初からモデルが更新されていなかったが、時間が経過したことでデ
概要 はじめに Qlibの試用 動作条件 使用したrequirements.txt データの取得 予測の実施 出力 図示 ソースコード バックテストでのポートフォリオ分析 リスク分析、分析モデル おわりに 概要 本記事では、Qlibを使用して、機械学習パイプライン環境を構築する第一歩について述べる。 はじめに このブログの趣旨としては、当初は「戦略作成」→「戦略検証」→「戦略稼働」→「成果の評価」→「戦略へフィードバック」といったサイクルを管理できるような自動トレーディングシステムを作ることを考えていた。 最近、すこし株取引から離れていたのだが、最近になってまたやり始めようかなと思い、色々と現在の状況を調べはじめた。 その中で、MicrosoftのリポジトリにQlibというものがあるのを見つけた。これが2020年の8月から作られたもので、現在でもメンテされており、もしかするとこれがやりたい
こんにちは。AIプラットフォーム部でMLOpsエンジニアやプロダクトオーナーを担当している古川新です。 この記事では、AIプラットフォームで提供しているデータ品質管理システム「ACP Data Quality」と、その中核機能であるデータ品質モデル言語「DQML」によるデータ品質管理の取り組みについてご紹介します。 データ品質管理システム「ACP Data Quality」 AIプラットフォームでは、「ACP Data Quality」というデータ品質管理システムを提供しています。「ACP」と呼ばれるAIに特化したKubernetes環境で提供されており、利用者はWeb UIまたはKubernetesカスタムリソースを通じて、データ品質管理プロセスを実行できます。 データ品質管理とは データ品質とは、「データが目的にどのくらい適しているかの度合い」のことです。 国際標準の規格では、以下のよ
この記事は CyberAgent Developers Advent Calendar 2023 12日目の記事です。 はじめに CIU (CyberAgent group Infrastructure Unit) の西北(@nishi_network)です。 普段はプライベートクラウド (Cycloud) や機械学習基盤の運用、それに伴う開発業務に従事しています。 今回は、サイバーエージェントの生成AI開発を支える裏側にフォーカスを当て、機械学習基盤の設計や運用、また最新のNVIDIA H100 機械学習基盤構築プロジェクトの裏側について紹介していきます。 サイバーエージェントの機械学習基盤 サイバーエージェントでは、社内向けにAI用途向け機械学習基盤をパブリッククラウド環境だけではなくオンプレミス環境でも運用しています。これらは全社組織であるCIUが運用しており、データセンターの運用か
BigQuery Studio を発表 - データから AI へのワークフローを加速するコラボレーション指向の分析ワークスペース ※この投稿は米国時間 2023 年 8 月 31 日に、Google Cloud blog に投稿されたものの抄訳です。 最近の調査によると、データと AI を効果的に活用している組織は、競合他社よりも収益性が高く、さまざまなビジネス指標においてパフォーマンスが向上していることが報告されています。過去 2 年間にデータと分析への投資を増やした組織は 81% にも上ります。しかし、多くの組織が依然としてデータのビジネス価値を最大限に引き出すことに苦慮しており、40% 以上の組織が、分析ツールやデータソースが異なることや、データ品質が低いことを最大の課題として挙げています。 統合された、インテリジェントでオープンな Google Cloud は、セキュアなデータおよ
Amazon Web Services ブログ FMOps/LLMOps:生成系 AI の運用と MLOps との違い 最近、多くのお客様は大規模言語モデル (Large Language Model: LLM) に高い期待を示しており、生成系 AI がビジネスをどのように変革できるか考えています。しかし、そのようなソリューションやモデルをビジネスの日常業務に持ち込むことは簡単な作業ではありません。この投稿では、MLOps の原則を利用して生成系 AI アプリケーションを運用化する方法について説明します。これにより、基盤モデル運用 (FMOps) の基盤が築かれます。さらに、Text to Text のアプリケーションや LLM 運用 (LLMOps) について深掘りします。LLMOps は FMOps のサブセットです。以下の図は、議論するトピックを示しています。 具体的には、MLOps
はじめに こんにちは、ティアキンで寄り道し過ぎて永遠にストーリークリア出来ない坂元です。データサイエンスチームに所属しています。LLMの一大ブームの中でLLMの記事を書かないのは若干憚られますが、高速に実験を回す用途で気軽に使える機械学習パイプラインライブラリって実はあまりない…?と思ったので、今回は機械学習パイプラインライブラリを個人で開発してみている話をします。なお、本記事では機械学習パイプラインを「データの加工・モデルの学習・推論を一連のワークフローとして実行出来るツール」とし、データ収集やデプロイ、分布シフトの監視などの工程については言及しないものとします。また、比較的小規模なプロジェクトの検証段階で利用することを前提とします。 開発したパイプラインのライブラリは以下のリポジトリでバージョン0.0.1として公開しましたので、実装の詳細はリポジトリをご参照ください。ドキュメントとかも
この記事はエムスリーAdvent Calendar 2023とMLOps Advent Calendar 2023の12日目の記事です。 AI・機械学習チームの北川です。 最近は猫のかまってアピールがすごすぎて、よく仕事の邪魔されます。 かまって欲しがる猫 現在AI・機械学習チームではMLのバッチをGoogle Kubernetes Engine(GKE)上で運用しています。 現在数えてみたところ240個以上のバッチがGKE上で動いているようです。 AI・機械学習チームでは2019年頃から約4年ほどGKE上でMLバッチを運用しています。 その間にコストの最適化や安定したバッチの運用などに力を入れてきました。 この記事では、主にスケールインとコスト最適化について説明しようと思います。 チームのMLについて全体を把握したい場合は以下の記事が詳しいです。 www.m3tech.blog GKEの
ML監視は従来のソフトウェア開発の監視要素に加え、モデルや予測値、データに関する監視が必要とされています。 監視の優先順位 上述のようにML監視項目は数多くあり、いきなり全ての監視項目を導入するのは難しいです。 クラウドベンダー各社のMLOpsの成熟度モデル [3]のように、ML監視も段階的に取り組んでいくことが望ましいと言えます。 A Comprehensive Guide on How to Monitor Your Models in Productionの記事ではGoogleのMLOps成熟度モデルに合わせた監視項目を取り上げています。 引用: A Comprehensive Guide on How to Monitor Your Models in Production [4] EVIDENTLY AIが公開してるMonitoring ML systems in product
はじめに 背景 タスクランナーを導入するモチベーション パラメータ管理ツールを導入するモチベーション 実現したいこと モデルや環境に依存しないタスクによるパイプラインの操作 共通部分と環境特有部分を分離したパラメータ定義 パラメータ定義の構造化 実装方法 利用するツール パラメータファイル 構造化パラメータのマージ処理の実装 おわりに はじめに enechain データサイエンスデスク エンジニアの藤村です。 enechainでは市場活性化を目的として、機械学習や最適化アルゴリズムを用いて電力や燃料などの商品に関する指標を算出し、社内外に提供しています。本稿では、これらを算出するモデルの構築・運用を効率化するために作成した、タスクランナーinvokeとパラメータ管理ツールhydraを一体化したシステムを紹介します。 背景 タスクランナーを導入するモチベーション 機械学習モデルの構築・運用に
Weights & BiasesがLLMの開発手法にフォーカスしたホワイトペーパーの第2弾をリリースW&B Fully Connected 2023カンファレンスとAI Expo2023秋にて配布予定 Weights & Biases Japan株式会社(以下、W&B Japan)は本日、大規模言語モデル(LLM)の開発手法にフォーカスするホワイトペーパーの第2弾となる「LLMファインチューニングとプロンプトエンジニアリングのベストプラクティス」を公開しました。LLM導入を検討している企業向けに、自社の保持するリソースやビジネスモデルに合わせたLLM開発手法を選択するための実践的ガイドとなっており、第1弾の「LLMをゼロからトレーニングするためのベストプラクティス」を補完する形で、既存のLLMモデルを拡張する形で自社用途に適応する手法について解説しています。本ホワイトペーパーの印刷済み冊子
ML-Agents:ハチドリ Unityには、強化学習を構築するためのフレームワークであるML-Agentsがあります。また、Unityの公式なチュートリアル&コースウェアを提供するUnity Learnにおいて、このML-Agentsのチュートリアルを提供する「ML-Agents:ハチドリ」があります。 「ML-Agents:ハチドリ」は、Humming bird (ハチドリ)が蜜を吸うゲームの中で、ハチドリが効率的に蜜を吸うことをゴールとして、強化学習を用いてハチドリをトレーニングするための学習コンテンツです。 この記事は、私が「ML-Agents:ハチドリ」を学習した際に、重要だと考えた事項を備忘用にメモするためのものです。 プロジェクト:①Flower.cs 本プロジェクトでは、個々の花の機能のスクリプトを作成します。ハチドリはこの花と直接やりとりをするので、適切な反応をする必要が
How do companies like Netflix, Airbnb, and Doordash apply machine learning to improve their products and processes? We put together a database of 300 case studies from 80+ companies that share practical ML use cases and learnings from designing ML systems. Navigation tips. You can play around with the database by filtering case studies by industry or ML use case. We added tags based on recurring t
エムスリー Advent Calendar 2023 五日目担当、AI・機械学習チームの横本(yokomotod)です。前日は同じくAIチーム大垣さん(id:Hi_king)からの「画像を理解するGPT-4 Visionで、既存の画像認識モデルを説明可能にする」でした。 たまたま並んでしまいましたが、昨日のAIチームのMLエンジニアリングな話に続けて、今日はMLOpsやインフラについてのお話です。 (さらに本日はmabl Advent Calendar 2023としてQAチームの城本さん(@yuki_shiro_823)から「mabl Experience'23で「複数チームでmablを活用する際の課題と対応」について話しました 」も公開されています!) どうやらエムスリーAIチームも2017年の発足からもう6年が経過しているようです。 私がチームに参加したのは2019年ごろですが、見てき
Phoenix provides MLOps and LLMOps insights at lightning speed with zero-config observability. Phoenix provides a notebook-first experience for monitoring your models and LLM Applications by providing: LLM Traces - Trace through the execution of your LLM Application to understand the internals of your LLM Application and to troubleshoot problems related to things like retrieval and tool execution.
CI/CD for Machine Learning in 2024: Best Practices to Build, Train, and Deploy Explore best practices for CI/CD in Machine Learning in 2024. Learn to build, train, and deploy ML models efficiently with expert strategies. Building and deploying code to production environments is a fundamental aspect of software development. This process is equally pivotal in the realm of production-grade Machine Le
Googleが公開した、MLOps実践のためのホワイトペーパー GoogleがMLOps実践のためのホワイトペーパーを公開しています。 Practitioners Guide to Machine Learning Operations (MLOps) 2021年5月に公開されたものですが、2024年現在に読んでも色褪せない内容だったので、各章の要点をまとめました。 TL;DR Googleが2021年5月に公開したMLOpsの実践のためのホワイトペーパー MLOpsライフサイクルの全体像・コア機能を解説 コア機能: 実験、データ処理、モデル学習、モデル評価、モデルサービング、オンライン実験、モデル監視、MLパイプライン、モデルレジストリ、データセット・特徴量レポジトリ、MLメタデータ・アーティファクトトラッキング MLOpsのコアプロセスの詳細を解説 コアプロセス: ML開発、学習の運用
Weights & Biases のnoteをフォローしてください大規模言語モデル(LLM)の可能性を引き出し、その機能を拡張してアプリケーションを開発・提供するためのワークフローは、どのようなものなのでしょうか。私たちはここ数ヶ月、様々な場所でこの課題を耳にしてきました。 これまで機械学習モデルの開発と運用を統合するMLOps(Machine Learning Operations)のワークフローの構築において最も信頼されてきたWeights & Biasesは、OpenAIやStability AIなど、生成AIの開発で最先端をいく企業に活用されてきました。 この経験をもとに、本稿ではMLOpsのベストプラクティスをレビューし、この概念がどのようにLLMOpsに適用されていくのか、現時点のベストプラクティスを示していきます。 特にLLMOpsにおいては、多くの場合社外で開発された基盤モ
アンドパッドのデータ部でデータ基盤や機械学習基盤の開発・運用をしている須貝です。冷やし中華が美味しい季節になりましたね。 先日、アンドパッドで初めて機械学習をプロダクトに組み込むことができました。プレスリリース も出すことができましたので、この記事ではこちらについて紹介します。 豆図AIキャプチャーとは 工事の際に、証拠資料としての工事写真を残す際に、工事状況を明記した黒板というものを使っています。この黒板の中に挿入する、補足情報となる図を豆図と呼びます。下図は黒板と豆図のサンプルです。 黒板と豆図 今回の開発した背景 配筋検査において、検査箇所の黒板に配筋リストの豆図を記載する必要があります。従来では設計図から豆図に該当する箇所を1つずつ手作業で保存していました。マンションやオフィスビルなど大型建築物の施工においてはとても手間がかかるため、 ANDPAD 黒板 の機能として、設計図から該
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く