並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 200件

新着順 人気順

workflowの検索結果1 - 40 件 / 200件

  • Dataformでコンパイル変数を使ってみた | DevelopersIO

    WorkflowsからDataformの起動方法を検証してみました。Dataformタグ指定、コンパイル変数のWorkflowsからの上書きができるか、もあわせて検証してみました。 データアナリティクス事業本部の根本です。Dataformを使っていて、呼び出しもと(Workflowsとか)から動的に値を変えてDataformを呼び出すことができたらいいなと思い調べてみたらコンパイル変数を用いたらできたので記事にしてみました。 この記事の対象者 Dataformでコンパイル変数を使ってみたいひと 前提条件 Dataformのワークスペースやリポジトリが存在する、使えること 検証の全体像 コンパイル変数をdataform.jsonで指定して動作するか確認 APIでDataformを実行するときにコンパイル変数の値を上書きして動作するか確認 上記2つの検証をしていきます。 やってみる それでは早

      Dataformでコンパイル変数を使ってみた | DevelopersIO
    • Arize Phoenixで始めるお手軽RAG実験管理 - Re:ゼロから始めるML生活

      最近RAGアプリケーションの評価やその管理ツールについて調べることがありました。 今回はRAGアプリケーションでの実験管理に使用できるPhoenixを使ってみたのでそのメモです。 RAGアプリケーションと評価 RAGアプリケーションの評価 Arize Phoenix 類似ツール 使ってみる Tutorial ローカルでの管理 参考文献 感想 RAGアプリケーションと評価 Retrieval-Augmented Generation (RAG)は、LLMに外部の知識ソースからの追加情報を提供することで、LLM自体が知らない知識を補い、より正確で文脈に沿った答えを生成するアプリケーションです。 大まかには下記のような流れで動作します。 ユーザーからのクエリをもとに関連するドキュメントを検索 (retrieve) ユーザーのクエリ、関連するドキュメントを含めた形でプロンプトを動的に作成 (Aug

        Arize Phoenixで始めるお手軽RAG実験管理 - Re:ゼロから始めるML生活
      • 競技としてのKaggle、役に立つKaggle

        Kaggle Masterが語るMachineLearning - TechLovers #1 https://sony.connpass.com/event/315090/ での登壇資料です。 コンペの流れとtips的な情報を主観強めで紹介しています。

          競技としてのKaggle、役に立つKaggle
        • 実験の再現性を高めるデータバージョン管理(DVC)の紹介 - techtekt

          データバージョンの管理とは? データバージョンの管理とは、バイナリデータのバージョンを管理することを指します。データバージョンの管理は、Git 等でのコードのバージョン管理をバイナリデータに拡張しています。実験の再現性を高められるメリットがあります。 DVC とは? データのバージョンを管理する機能をもつオープンソースソフトウェアです。データのハッシュをテキストファイルで保持し git でバージョン管理します。また、yaml ファイルで実行パイプラインを定義して監視対象データが更新された際にハッシュを更新することで、新しいハッシュ値を含んだデータをバージョン管理します。更新されたデータファイルはキャッシュディレクトリに保存され、必要なタイミングで自動的に復元されます。 データのリモートリポジトリを定義することで、データ一式を簡単なコマンド操作で S3 等へ push / pull すること

            実験の再現性を高めるデータバージョン管理(DVC)の紹介 - techtekt
          • Google Cloud Next’24で発表されたBigQueryのアップデート情報をまとめました | DevelopersIO

            Google CLoudデータエンジニアのはんざわです。 Google Cloud Next'24において、各サービスで多数のアップデート情報が紹介されました。 この記事では、BigQueryのアップデート情報、特にデータエンジニア向けの情報をまとめて紹介したいと思います! 新機能が発表されたセッションとその内容を簡単に紹介していきます! 気になる内容があった方は是非、YouTubeの動画を確認してみてください。 注意点 本記事の内容にBigQuery ML関連のサービスは含まれていません。 不足している情報があれば随時更新します... 2024年4月13日時点では、Google Cloud Next'24で発表された機能のほとんどがリリースノートやドキュメントに反映されていません。そのため今後変更される可能性がありますので注意してください。 Build a unified, open,

              Google Cloud Next’24で発表されたBigQueryのアップデート情報をまとめました | DevelopersIO
            • OOMしたCronJobのメモリ制限を「いい感じ」に増やし、不必要な課金・障害対応を減らす - エムスリーテックブログ

              初めまして、2024年3月後半にエムスリーのAI・機械学習チームで10日間インターンに参加させていただいた東(@azuma_alvin)です。 もしタイトルが何かに似ていると感じた方がいれば、只者ではないと思われます。 洗練されたデザインでかっこいいと思ったエムスリーオフィスの受付の写真 この記事では、KubernetesのCronJobでOOM(Out Of Memory)が発生した時に「いい感じ」にメモリ制限を増加させてくれるbroomの開発経緯とその実装についてお話しします。 また、インターン期間で感じたエムスリーという「ギーク集団」の中で開発する楽しさについてもお伝えできればと思います。 2週間でゼロ(nil)から開発したbroomは、OSSとしてGitHubで公開しているのでコントリビュートお待ちしております! github.com CronJobのOOMとは CronJobのO

                OOMしたCronJobのメモリ制限を「いい感じ」に増やし、不必要な課金・障害対応を減らす - エムスリーテックブログ
              • Google Cloud の Workflows を運用してみて - Assured Tech Blog

                こんにちは、Assured のオリバーです。 最近、Google Platform の Workflows を業務に導入し、非同期で動作していたプロセスやバッチをパイプライン化して自動化することで、管理コストと運用コストを削減することができました。この記事では、私たちが取り入れた構成例や、参考になりそうなポイントをいくつか紹介します。これらの情報が、これから Workflows を試してみたい方や、既に使用を開始している方にとってお役に立てれば嬉しいです。 すでに Workflows をご利用の方は、「Workflowsとは」のセクションを飛ばして、「Assured のユースケース」からご覧ください。 Assured の事例は以下の二つについて話をします。 データ解析のパイプライン化 長時間のキューイングプロセスの自動化 Workflowsとは Workflows は Google Clo

                  Google Cloud の Workflows を運用してみて - Assured Tech Blog
                • [レポート] データウェアハウスを製品として捉える〜設計から実現までの一貫した流れ #dbtCoalesce #Coalesce23 | DevelopersIO

                  [レポート] データウェアハウスを製品として捉える〜設計から実現までの一貫した流れ #dbtCoalesce #Coalesce23 大阪オフィスの玉井です。 米国時間2023年10月16日〜19日、イベント『Coalesce 2023』が開催されました。主催はdbt labs社です。 本記事は、その中で発表されたData warehouse as a product: Design to delivery(データウェアハウスを製品として捉える:設計から実現までの一貫した流れ)というセッションについて、レポートをお届け致します。 セッション概要 登壇者 Lance Witheridge, Data Modernisation Lead, Trade Me 超概要 社内のデータ分析基盤をクラウド化しようとしたが、うまくいかず、抜本的な再設計を行った話です。その際、DWH(のデータ)を製品・プ

                    [レポート] データウェアハウスを製品として捉える〜設計から実現までの一貫した流れ #dbtCoalesce #Coalesce23 | DevelopersIO
                  • Cloud RunとCloud PubSubでサーバレスなデータ基盤2024 with Terraform / Cloud Run and PubSub with Terraform

                    Google Cloudのサーバレスなサービスでデータ基盤を作った話.

                      Cloud RunとCloud PubSubでサーバレスなデータ基盤2024 with Terraform / Cloud Run and PubSub with Terraform
                    • ワークフローオーケストレーション入門

                      「Data Engineering Study #23 Data orchestration 特集」の発表資料です イベントページ: https://forkwell.connpass.com/event/310011/

                        ワークフローオーケストレーション入門
                      • dbtをDagster Cloudでオーケストレーションする

                        2024-03-05 @Data Engineering Study #23 Data orchestration 特集

                          dbtをDagster Cloudでオーケストレーションする
                        • GitHub - harshadmanglani/polaris: Polaris: High performance workflow orchestrator for Golang

                          You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                            GitHub - harshadmanglani/polaris: Polaris: High performance workflow orchestrator for Golang
                          • Reduce, recycle, reuse

                            To enable a fast and reliable continuous integration process, McDonald’s turns to reusable workflows and GitHub Actions. By Michael Gorelik, Senior Solution Architect and Achintya Pillai, Software Engineer III McDonald’s Engineering teams are at the forefront of digital innovation, creating seamless and engaging e-commerce applications that allow customers to conveniently order their favorite meal

                              Reduce, recycle, reuse
                            • 定期的に休憩する従業員は生産性が高い Slackが働き方調査

                                定期的に休憩する従業員は生産性が高い Slackが働き方調査
                              • Cloud Runで開発用環境を沢山作る - 一休.com Developers Blog

                                概要 この記事は 一休.com Advent Calendar 2023 16日目の記事です。 RESZAIKO開発チームの松村です。 一休では各サービス毎に、開発中のサービスの動作を社内で確認できる環境があります。 それぞれmain(master)ブランチと自動的に同期している環境と、特定のブランチを指定して利用できる環境の2種類があります。 今回、RESZAIKOの新規サービス(予約画面)に対してブランチを指定してデプロイできる環境を作成したので、その方針と反省点と今後について記述していきます。 現在運用中の予約画面 開発環境を作る理由 一休では長らく、EKS上に複数の環境を用意して、ブランチを指定すると開発環境にデプロイするシステムが利用されてきました。 一般的にこのような環境を構築するのは以下のような理由が挙げられます。 動作確認 マイクロサービスで、異なるブランチ同士の組み合わせ

                                  Cloud Runで開発用環境を沢山作る - 一休.com Developers Blog
                                • Argo Workflowsを使った機械学習環境の構築手順 - アダコテック技術ブログ

                                  はじめに テックリードの柿崎です。私たちは、機械学習のパラメータチューニングを効率よく行うため、KubernetesネイティブのワークフローエンジンであるArgo Workflowsを採用しています。この記事では、その導入手順の要点を紹介いたします。 導入の目的 Argo Workflows導入以前は機械学習のパラメータチューニングを行うにあたり以下の機能を独自に実装しており、属人化していました。 パラメータ探索のアルゴリズム インスタンスのスケーリング インスタンスの稼働状況の可視化 ジョブの進行状況の可視化 これらをより柔軟に活用できるようにして、開発、更新サイクルを早めていくことが導入の目的です。 前提条件 Kubernetes(EKS)はすでに構築済みであること Kubernetes、Helmについての基本的な知識があること Argo Workflowsの基本的な知識があること K

                                    Argo Workflowsを使った機械学習環境の構築手順 - アダコテック技術ブログ
                                  • Dataformを使ってデータ分析基盤を構築した話 - Leverages データ戦略ブログ

                                    はじめに こんにちは。レバレジーズ データ戦略室の辰野です。 前回の投稿からいつの間にか1年以上経過していました。引き続きデータマネジメントやデータガバナンスに関連する仕事をしていたのですが、今回は私が昨年度末に取り組んだ、Dataformを利用したデータ分析基盤の構築についてお話させていただきます。 Dataformとは Dataformとは、現在Google Cloudで利用できるデータモデリングツールの一つです。ELT(抽出、読み込み、変換)処理における、T(変換)の部分を管理できます。主な機能として、下記があります。 SQLワークフローを開発、実行できる テーブル同士の依存関係を管理できる テーブルの品質テストができる これらの機能を利用することで、すべてのデータプロセスを管理することが可能です。 (参考:Google Cloud,Dataform の概要) Dataformを導入

                                      Dataformを使ってデータ分析基盤を構築した話 - Leverages データ戦略ブログ
                                    • dbtからSnowflake Dynamic Tablesを作成してリアルタイムデータパイプラインを構築してみる

                                      これは何? こんにちは。 dely株式会社でデータエンジニアをしておりますharry(@gappy50)です。 この記事は、昨年書いた以下の記事の続きの記事になります。 SnowflakeではDynamic TablesのPuPrが開始されており、宣言的なデータパイプラインの全貌徐々に見え隠れしております。 また、これに追従する形でdbt1.6でもMaterialized View(SnowflakeではDynamic Table)をサポートしはじめました。 このDynamic Tablesのメリットとして一番わかりやすいのは、ニアリアルタイムなストリーミングパイプラインをクエリを書くだけで実現が可能になる面だと思います。 これまではモデルを作成したあとのワークロードの実行は dbt build を実行するタイミングとなってしまうため、リアルタイムなデータパイプラインの構築が難しい側面があ

                                        dbtからSnowflake Dynamic Tablesを作成してリアルタイムデータパイプラインを構築してみる
                                      • ワークフロー管理プラットフォームのCI環境をクラウドネイティブへ - Pepabo Tech Portal

                                        こんにちは。あなただけの彦星になりたい、鹿児島が生んだ三大Hikoの一人、和彦こと、P山 です。 今日はデータ基盤チームで利用しているワークフロー管理プラットフォームのApache Airflow(以降Airflow) で利用しているDAGのCI環境をクラウドネイティブな技術を利用して、リニューアルした実装を紹介します。 DAGというのは Directed Acyclic Graph の略で有向非巡回グラフと訳されます。Airflowではそれぞれのタスクをまとめたものを1つのDAGとして定義します。 多くの方になじみのない言葉でしょうから、この記事内においては「プログラムコード」と脳内変換していただければ読みやすいです。 リニューアル前 データ基盤チームではAirflowの実行基盤としてGCPのCloud Composer を利用しています。 自動テストを行うために、GitHub Acti

                                          ワークフロー管理プラットフォームのCI環境をクラウドネイティブへ - Pepabo Tech Portal
                                        • GitHub - activepieces/activepieces: Your friendliest open source all-in-one automation tool ✨ Workflow automation tool 100+ integration / Enterprise automation tool / Zapier Alternative

                                          You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                            GitHub - activepieces/activepieces: Your friendliest open source all-in-one automation tool ✨ Workflow automation tool 100+ integration / Enterprise automation tool / Zapier Alternative
                                          • Prometheus Metricsを使ってArgo WorkflowsのWorkflowの成否をDatadogで監視する - yasuhisa's blog

                                            背景 具体的な設定 コントローラーに設定を生やす workflowを監視するためのカスタムメトリクスを定義する 各workflowに同様のカスタムメトリクスを定義する デバッグ方法 所感 背景 前職に引き続き、現職でもArgo Workflowsを使ってデータエンジニアリング系のバッチ処理を行なっている 以前にCloud Workflowsを調査したことがあったが、まだちょっと厳しい感があった 前職ではCloud Monitoringで監視していたが、現職ではDatadogで監視しているので、全社の体制に合わせてDatadogで監視していきたい Argo WorkflowsはPrometheus Metricsに対応しており、Datadogはagent経由でPrometheus Metricsの収集を容易に行なえることが分かった 同僚のSREであるtapihさんから教えていただいてました、

                                              Prometheus Metricsを使ってArgo WorkflowsのWorkflowの成否をDatadogで監視する - yasuhisa's blog
                                            • データオーケストレーションツールDagsterの紹介

                                              データオーケストレーションとは データオーケストレーションという言葉をご存知でしょうか?日本ではまだ耳慣れない言葉ですが、data orchestrationでgoogle検索すると実に3000万件以上ヒットし、世界的には十分に市民権を得ている言葉です。Databricksではデータオーケストレーションを以下のように説明しています。 データオーケストレーションとは データオーケストレーションとは、複数のストレージからサイロ化したデータを取り出し、組み合わせて整理し、分析に利用できるようにするための自動化されたプロセスです。 このプロセスでは、レガシーシステム、クラウドベースのツール、データレイクといったあらゆるデータセンターが接続されます。データは標準形式に変換されるため、理解しやすく、容易に意思決定に利用できます。 オーケストレーションとは、コンピュータシステム、アプリケーション、および

                                                データオーケストレーションツールDagsterの紹介
                                              • DynalystにおけるMLワークフローへのPrefect導入事例

                                                第30回 MLOps 勉強会の資料 https://mlops.connpass.com/event/276894/

                                                  DynalystにおけるMLワークフローへのPrefect導入事例
                                                • モノレポでの GitHub Actions CI の泥臭い高速化

                                                  はじめに みなさんこんにちは、物流業界の価値最大化をミッションに掲げ運送会社のDXに寄り添うアセンド株式会社でCTOを務めている丹羽です。 1日5.2回のリリースを実現するプロダクトチームの開発体験を支えるCIの高速化についてご紹介します(先週3/20週の平均値)。1日に数回デプロイというレベルでの素早く開発するにおいて、 push 時の CI Check の速さは地味ですが開発体験にとって見逃せない存在になります。特にモノレポ環境ではジョブが複数ある中でいかに省略ができるかが鍵となり、泥臭くも数十秒でも高速化のため戦ったポイントを紹介します。 アセンドでは顧客課題を中心にプロダクト開発をするためにフルサイクルエンジニアという開発スタイルを取り、1エンジニアがフロント・バックエンドだけでなく設計からリリース・サポートまでのソフトウェアのライフサイクル全体にオーナーシップを持って開発していま

                                                    モノレポでの GitHub Actions CI の泥臭い高速化
                                                  • [レポート] dbtウェビナー『What is dbt?データ基盤にdbtが必要な3つの理由』を開催しました! #dbt_classmethod | DevelopersIO

                                                    [レポート] dbtウェビナー『What is dbt?データ基盤にdbtが必要な3つの理由』を開催しました! #dbt_classmethod 2023年03月14日(火)、モダンデータスタック(MDS)を構成するサービスの1つであるdbtにちなんだイベント『What is dbt?データ基盤にdbtが必要な3つの理由』を開催しました。モダンデータスタック及びdbtに関しては下記ページをご参照ください。 このイベントはオンライン(Livestormによる配信)及びオフライン(弊社クラスメソッド岩本町オフィス)でのハイブリッド開催となりました。オフライン開催分については諸々状況を鑑みて少数招待に留める形となりましたが、オンライン開催分に関しては定員数250人を超える参加申し込みがありました。これは嬉しい状況でした。 当日のTwitterつぶやきまとめはこちらです。 当エントリでは会場の模様

                                                      [レポート] dbtウェビナー『What is dbt?データ基盤にdbtが必要な3つの理由』を開催しました! #dbt_classmethod | DevelopersIO
                                                    • gokartのMLパイプラインをKubernetesで並列分散実行できるライブラリkannonを作った話 - エムスリーテックブログ

                                                      初めまして!2023年3月前半にエムスリーのAIチームで10日間インターンに参加していた小栗 (@irungo_ic )です。 インターンでは、エムスリー発の機械学習パイプラインOSSであるgokart をKubernetes上で高速にかつ簡単に実行できるようになるライブラリであるkannon('cannon'と同じ発音!)をゼロから実装し、OSSとして公開しました。 github.com この記事ではkannonの技術的な解説、インターンに参加した感想をお伝えします! gokartの概要 gokartの抱えていた課題 シングルスレッドでの逐次実行により実行時間が長くなってしまう GKEのリソースを効率的に使えない kannonの概要 kannonの使い方 gokart kannon gokart kannon 補足 kannonのアーキテクチャ kannonの実装 1. Task Que

                                                        gokartのMLパイプラインをKubernetesで並列分散実行できるライブラリkannonを作った話 - エムスリーテックブログ
                                                      • FlowGPT - The Ultimate Library of ChatGPT Prompts | Discover, Share, and Discuss with a Vibrant Community

                                                        The best ChatGPT prompts & Bots StoreFIND & USE THE BEST PROMPT

                                                          FlowGPT - The Ultimate Library of ChatGPT Prompts | Discover, Share, and Discuss with a Vibrant Community
                                                        • 分析の再現性を担保する工夫 - Sansan Tech Blog

                                                          はじめに 技術本部 R&D の小松です。先日、一橋大学の手島健介教授より『経済セミナー』2023年2・3月号をご恵贈いただきました。 www.nippyo.co.jp 手島教授はその中で「米国経済学会データエディター制度の取り組み 再現性向上のためのreplicationチェック」を書かれています。私たちが『経済セミナー』にて「実証研究マネジメントのためのツールキット」の連載時に、手島教授を始めとした研究者の皆さんに草稿を確認いただいたのですが、このトピックはその際に出た議論をまとめられたものです。 そこでは手島教授が体験した、採択された研究論文の再現性チェックのプロセスが事細かに書かれており、興味深いです。現在 AEA P&P のために replication code を準備している私たちにとっても、大変参考になっています。 その中で論文の筆者として行うべきこととして、以下の4点が挙げ

                                                            分析の再現性を担保する工夫 - Sansan Tech Blog
                                                          • マーケター自身がデータを管理するために、広告運用にdbtを導入した経緯と効果 - MonotaRO Tech Blog

                                                            こんにちは、マーケティング部門広告グループの小林です。この記事ではオンライン広告運用に使っているデータ変換処理をdbtに移行した過程と得られた効果についてご紹介します。 モノタロウでは、全社的なデータ活用研修などにより、マーケティングのようなビジネス系の部署でも、SQLを自身で書いてデータ抽出を行い、数字に基づいた意思決定を行っています。その一方で、集計後の数値のズレやドメイン固有のデータの品質管理など、活用が進んだ企業ならではの課題というのも表面化してくるようになってきました。 オンライン広告運用においては、投下した費用など配信実績のレポーティング、広告媒体へのデータ送信などのいわゆるELTを安定的に回す仕組みが必要になりますが、処理の自動化やデータの品質まで求められるようになると、「データが抽出できる」だけでは限界が見えてきていました。そこで今回、マーケター自身がデータを管理する立場に

                                                              マーケター自身がデータを管理するために、広告運用にdbtを導入した経緯と効果 - MonotaRO Tech Blog
                                                            • Cloud Composerにデータマート集計基盤を移行しました - ZOZO TECH BLOG

                                                              こんにちは、MLデータ部データ基盤ブロックの奥山(@pokoyakazan)です。趣味の範疇ですが、「ぽこやかざん」という名前でラジオ投稿や大喜利の大会に出たり、「下町モルモット」というコンビで週末に漫才をしたりしています。私は普段、全社データ基盤の開発・運用を担当しており、このデータ基盤はGCPのBigQuery上に構築されています。そして、データ基盤内の各テーブルは、大きく分けて以下の2種類に分類されます。 システムDBのデータやログデータなどが、特に加工されることなく連携されている一次テーブル 一次テーブルから必要なデータを使いやすい形に集計したデータマート 本記事では、後者のデータマートを集計するジョブを制御するワークフローエンジンを、DigdagからCloud Composerに移行した事例について紹介します。Cloud Composerとは、GCPにてApache Airflo

                                                                Cloud Composerにデータマート集計基盤を移行しました - ZOZO TECH BLOG
                                                              • ArgoCD の Config Management Plugin (CMP)を理解し、Plugin でマニフェストの変数置換を行う - kencharosの日記

                                                                概要 前職の同僚がずっと、PullRequest ごとにプレビュー環境でアプリケーションをデプロイしたいと言っていた。 確かにそれができれば便利ではあるけど、たとえ k8s の力を借りても実現するまでの手順は多く、遠い夢かと思っていた。 でも ArgoCD で頑張ればその夢は近くなるかもしれない。 これは、ArgoCDの Config Management Plugin (CMP) と呼ばれる機能を使って、動的なマニフェスト生成を行い、さらにPullRequestごとの固有の情報をマニフェストに柔軟に埋め込むための仕組みを考えてみたという話。 想定読者 k8s にある程度詳しい ArgoCD にもある程度詳しい ArgoCD の ApplicationSet や Generator の機能を知っている、あるいは調べればわかる方 参考資料 GitブランチやPullRequestごとにプレビュ

                                                                  ArgoCD の Config Management Plugin (CMP)を理解し、Plugin でマニフェストの変数置換を行う - kencharosの日記
                                                                • ヤフーの全社共通レコメンドプラットフォームでのMLOpsの取り組み #mlopsコミュニティ | ドクセル

                                                                  スライド概要 「第27回 MLOps 勉強会」で発表した内容になります。 https://mlops.connpass.com/event/270245/ 社内で利用されている全社共通レコメンドプラットフォームでのモデル開発の効率化や品質向上に関するMLOpsの取り組みの紹介

                                                                    ヤフーの全社共通レコメンドプラットフォームでのMLOpsの取り組み #mlopsコミュニティ | ドクセル
                                                                  • gokart で言語処理100本ノックをやってみる - Qiita

                                                                    gokart とは gokart はエムスリーが開発している機械学習パイプラインツール。 Spotify により開発されている luigi のラッパーになっていてより簡単に書くことができる。 NLP の機械学習モデルを開発していると前処理、事前学習、ファインチューニング、可視化などなど工程が多く、管理が大変になる。パイプラインツールを使って楽になりたいということで、言語処理100本ノック2020 Rev2の機械学習パートで試してみる (56, 57, 59は gokart 的に新しい操作がないため飛ばす)。 公式情報として gokart は redshells などと組み合わせて使われることが多いようだが、この記事では gokart 自体の動作の理解のため、他のツールは使わずに実装する。 前準備 gokart がどんなものかまずは公式ドキュメントで動作を確かめてみると良い。 Intro T

                                                                      gokart で言語処理100本ノックをやってみる - Qiita
                                                                    • リリースの自動化

                                                                      最近は下記のようにライブラリ等のリリースを自動化している。 バージョンを入力するとPull Requestを生成 Mergeするとリリース ラベルの管理 前回のリリース以降にMergeされたPull Requestからリリースノートが自動生成されてほしい。このとき、Keep a Changelogの形式を参考に、変更点が以下の7種類に分類されてほしい。 add change deprecate fix remove security other そこで、Pull Requestに予めラベルを付けておくことで、どの節に分類するかを決定させる。またこのようなラベリングの習慣を設けることで、各Pull Requestの粒度の是正もねらう。ラベルを利用したリリースノート自動生成機能自体はGitHubが備えているので、.github/release.ymlでそのラベルを使う旨を指定すれば良い。 この

                                                                      • GitHub Actions Workflow 作成 Tips - NTT Communications Engineers' Blog

                                                                        はじめに こんにちは、クラウド&ネットワークサービス部で SDPF のベアメタルサーバー・ハイパーバイザーの開発をしている山中です。 先日 GitHub Actions self-hosted runners のオートスケーリング構成の紹介(クラウドサービス開発を支える CI の裏側) の記事で、自作の runner controller と Docker を用いた、オンプレミスでの CI 環境構成についてご紹介しました。 今回の記事では、構築した CI 環境上で動かしている workflow の紹介をしながら、workflow 作成についての Tips をいくつかご紹介したいと思います。 engineers.ntt.com 記事を書いたモチベーション 実際の業務で GitHub Actions を使用するにあたって、ありがちな悩みを解決するための workflow の作成事例や工夫などの

                                                                          GitHub Actions Workflow 作成 Tips - NTT Communications Engineers' Blog
                                                                        • フロントエンド刷新プロジェクトの開発サイクルを加速するデプロイパイプラインの改善 - Cybozu Inside Out | サイボウズエンジニアのブログ

                                                                          フロントエンド刷新プロジェクトの開発サイクルを加速するデプロイパイプラインの改善 この記事は Cybozu Advent Calendar 2022 の 19 日目の記事です。 18 日目はこちら → チームメトリクスと感情データを活用した「ふりかえり」の手引き 20 日目はこちら → エンジニアとの距離が近くなっていいことたくさんだったQAの話 こんにちは!! kintone フロントエンドリアーキテクチャプロジェクト (フロリア)のAppShell チームでプロダクトオーナーをしている tasshi です。 kintone フロントエンドリアーキテクチャプロジェクト (フロリア)、およびAppShellチームについてはこちらの記事をご覧ください。 今回はフロリアの開発で利用しているテスト環境へのデプロイパイプラインを紹介します。 目次 フロントエンド刷新プロジェクトの開発サイクルを加速

                                                                            フロントエンド刷新プロジェクトの開発サイクルを加速するデプロイパイプラインの改善 - Cybozu Inside Out | サイボウズエンジニアのブログ
                                                                          • R のパッケージ {targets} にコントリビュートした話 - Sansan Tech Blog

                                                                            はじめに 研究開発部の小松です。 本記事は Sansan Advent Calendar 2022 の17日目の記事になります。 adventar.org 普段こちらのブログではネットワーク経済学をテーマに細々と書いています。今回は少し話題を変えて、日頃の分析でお世話になっている R のパッケージ {targets} に (半年ぐらい前になりますけれど) OSSコントリビュートした話をします。 普段の業務では Python と R 両方使っていますが、素早い対応が求められる分析業務では私は R を使っています。{tidyverse} によるデータハンドリングに慣れた身からすると、pandas での処理はまどろっこしく感じられて未だに慣れません。*1 その R を用いた分析の生産性を向上に大きく寄与しているのが、1年程前に使い始めた {targets} です。以下の記事にも、研究開発部の R

                                                                              R のパッケージ {targets} にコントリビュートした話 - Sansan Tech Blog
                                                                            • Airflow入門

                                                                              DeNA / MoT共同のAI技術共有会で発表した、Airflow入門資料です。

                                                                                Airflow入門
                                                                              • dbt の導入、毎日30分の輪読会でチームに浸透させる - Techtouch Developers Blog

                                                                                テックタッチアドベントカレンダー15 日目担当の teru です。今年の個人的ベスト家電はスマートフォンで見れるネットワークカメラでした。子ども達が寝室で寝ている様子を確認しながら家事ができるのでとても便利です。 きっかけ 輪読会の準備 輪読会の実施 やってみてどうだったか 良かった点 気になった点 終わりに きっかけ 13 日目の記事 でも触れているように、弊社でデータ分析基盤のモデリング用途に dbt の利用が始まりました。私の所属する分析運用チームでもこの流れに乗って、dbt を使って分析業務に関わる範囲のデータテーブル構築を自分たち自身で行えるように取り組むことにしました。 分析運用チームには、この記事を書いている時点で私を含む 2 名が在籍していました。二人とも BI ツールを用いて SQL クエリを書いたりレポートを作成したりといったデータアナリストの業務経験はありましたが、d

                                                                                  dbt の導入、毎日30分の輪読会でチームに浸透させる - Techtouch Developers Blog
                                                                                • Dataformのチーム開発環境を考える

                                                                                  この記事はdatatech-jp Advent Calendar 2022の12日目の記事となります。 はじめに DataformがGCPIntegratedPreviewとして公開されました。 チーム開発を考えた時、dbtのSaaS版では$50/Monthかかりますが、Dataformは無料*のため非常にリーズナブルです。 *ただし、当然BigQueryのクエリコストなどはかかってきます しかし、このGCP版ですがPreview版のためチームで運用するにはまだ少し課題があると感じています。この記事ではその課題感と、それに対して暫定的にどういう対応をとっているのかを共有したいと思います。 Dataformとは ELT[1]を実現してくれるツールです。元々はSaaS版が公開されていましたが、2020年にGoogleに買収されGCPへのインテグレーションが進められており[2]、現在SaaS版は

                                                                                    Dataformのチーム開発環境を考える