「digdag」を検索 - はてなブックマーク

1 - 40 件 / 209件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

digdagの検索結果1 - 40 件 / 209件

VSCodeの拡張機能、なに使ってますか？はてなエンジニア世論調査 #2 - Hatena Developer Blog
- 643 users
- developer.hatenastaff.com
- テクノロジー
- 2020/08/14
こんにちは、Webアプリケーションエンジニアのid:hogashiです。半年ほど前に公開した「開発環境のフォントなに使ってますか？」に続く、はてなエンジニア世論調査の第2回「VSCodeの拡張機能、なに使ってますか？」です。ソースコードエディタであるVisual Studio Code（以下、VSCode）は多くのエンジニアに利用されています。VSCodeにはソースコードのシンタックスハイライトやデバッグなど、さまざまな拡張機能をインストールして使うことができますが、公開されている拡張機能は膨大にあります。その中から、はてなのエンジニアはどんな拡張機能をインストールして、日頃の開発に使っているのでしょうか？前回と同様にアンケート調査してみました。アンケート方法アンケート結果から見える人気の機能拡張 6割の拡張機能は1人だけが使用人によってかなり異なるインストール数興味深いコ
- vscode
- あとで読む
- エンジニア
- developer
- プログラミング
- github
- hatena
- ruby
- はてな
- programming
初めての技術選定を頼まれた時に大事だったのは俯瞰的・相対的な考え方だった - MonotaRO Tech Blog
- 467 users
- tech-blog.monotaro.com
- テクノロジー
- 2021/06/03
背景お題技術の差別化差別化から分かること情報資産からToBeを考える俯瞰的・相対的な技術選定これまでの話から学んだこと最後にはじめまして、MonotaROでデータエンジニアをやっています、芝本です。エンジニアのみなさん、技術を使って何か作ってみるのって楽しいですよね。私は、公私ともに日々物作りに励んでいます。プライベートだと、最近はマイクロフロントエンドについて学んでいます。技術を使うためには、技術を学ばなければいけません。プライベートにおいては、好奇心に従って自由に学びますよね。とりあえずgit cloneして動かしてみたり、書籍を購入して読んでみたりします。というようにプライベートでは主に次のような選択肢があると思います。書籍を読んで好きなものを選ぶ実際に手を動かしてみて好きなものを選ぶ人に教えてもらって好きなものを選ぶ基本的にプライベートの場合は何
S3のコストを大幅に削減した話 - Gunosy Tech Blog
- 432 users
- tech.gunosy.io
- テクノロジー
- 2022/04/13
広告技術部のUTです。最近はカービィディスカバリーをゆっくりやってます概要過去の失敗どうやったか仕組み結果まとめ概要昨今ではデータドリブンな意思決定を重視する企業がどんどん増えており、データを活用することにより事業成長へのインパクトを出そうとしています。データを事業へと活用するためには、蓄積されるデータを分析するために保管しておく必要があります。弊社も創業時からデータを蓄積し事業に活用することに力を入れてきた企業の一つであり、日々大量のログが収集されています。またAWSアカウントを複数運用していますが、一番データ量の多い広告アカウントのS3にはペタバイトレベルのデータが保管されています。普段何気なく使っているデータレイクとしてのS3ですが、少量であれば無視できるくらい小さいので、コストを気にせず使っておられる方も多いのではないでしょうか？そのようなS3でも巨大な
- aws
- s3
- あとで読む
- ストレージ
- storage
- データ
- Glacier
- ログ
- digdag
- tech
Treasure Data を退職しました - k0kubun's blog
- 346 users
- k0kubun.hatenablog.com
- テクノロジー
- 2022/07/25
約5年5か月働いたTreasure Dataを7/22に退職した。7/25からShopifyに入社し、RustでJITコンパイラを開発してRubyを高速化する仕事をする。仕事としてやりたい分野が変わってきて自分は今回転職したけど、とても良い会社なので、この記事がTreasure Data (以下TD) で働くことに興味がある人の参考になれば良いと思っている。*1 5年勤続記念にいただいたトロフィーやっていたこと APIチーム元々TDにはJavaで分散システムを書きたくて入社したのだが、TD入社前に特にそういう経験があるわけでもなく主にRailsをやっていたこともあり、Railsでプラットフォームを開発するチームに入った。基盤開発をやりたいと思いながらサービス開発者として最初働き、後に基盤開発チームにジョインするみたいな過去の経験があったので、今回もそういう感じでいけると考えていた。実
- キャリア
- あとで読む
- 退職
- career
- 仕事
- 開発
- 会社
- ruby
- エンジニア
- rails
エムスリーのデータ基盤を支える設計パターン - エムスリーテックブログ
- 318 users
- www.m3tech.blog
- テクノロジー
- 2021/10/01
こんにちは、エムスリーエンジニアリンググループの鳥山 (@to_lz1)です。ソフトウェアエンジニアとして製薬企業向けプラットフォームチーム / 電子カルテチームを兼任しています。ソフトウェアエンジニアという肩書きではありますが、私は製薬企業向けプラットフォームチームで長らくデータ基盤の整備・改善といったいわゆる "データエンジニア" が行う業務にも取り組んできました。本日はその設計時に考えていること / 考えてきたことをデータ基盤の設計パターンという形でご紹介しようかと思います。多くの企業で必要性が認識されるようになって久しい "データ基盤" ですが、まだまだ確立された知見の少ない領域かと思います。少しでもデータエンジニアリングを行う方の業務の参考になれば幸いです。データ基盤の全体像収集部分の構成 RDBデータログデータ活用部分の構成データマートの実例「データ基
- 設計
- あとで読む
- データ
- architecture
- データ基盤
- aws
- bigquery
- 分析
- db
- チーム
【保存版】データサイエンティスト転職を決めるポートフォリオのガイドライン【書籍化決定】 - Qiita
- 297 users
- qiita.com/masso
- テクノロジー
- 2020/11/25
書籍化されました本記事をベースに監修者の村上さんが１冊の本にまとめてくれました（感謝）データサイエンティストのキャリア面やポートフォリオの細かい部分をさらに追加・ブラッシュアップした内容になっています。まえがきはじめに皆さん、「データサイエンティスト」という職種をご存知でしょうか？この数年間で、AIやディープラーニングといったバズワードと共にデータサイエンティストというワードも、よく耳にするようになりました。最新の技術を扱えて、年収も高い非常に魅力的な職業なため、データサイエンティストへの転職を検討されている方もいらっしゃるのではないでしょうか？実際、データサイエンティスト職への就職・転職希望者は年々増加しています。しかし、未経験の人材を育成できる会社はまだまだ少なく、未経験からの転職は転職希望者の増加に伴い高まっています。データサイエンティストは求められるスキルの幅が広く
データ分析基盤まとめ（随時更新）
- 295 users
- zenn.dev/yuichi_dev
- テクノロジー
- 2024/03/15
はじめにデータ分析基盤の資料を力尽きるまで追記していきます。構成図にあるアイコンや記事の内容から技術要素を調べて記載していますが、不明分は未記載にしています。修正のコメント頂ければ助かります。あと、この記事追加してっていう要望も歓迎いたします。テンプレート記事公開日 : 会社名（サービス名）データソース : データ処理 : アウトプット : 画像 URL 2025年 2024/03/14 : 株式会社エス・エム・エス（カイポケ）データソース : Amazon Aurora データ処理 : Datastream、BigQuery、dbt アウトプット : Looker Studio 2024/03/12 : 株式会社マイナビデータソース : SQL Server、Amazon S3 データ処理 : Embulk、Amazon MWAA、Apache Airflow、Snowf
- データ分析
- あとで読む
- データ
- 分析
- データ基盤
- 基盤
- まとめ
- 統計
- BigQuery
- AWS
【Elasticsearch】1900万点に及ぶ商品データ作成の時間を約67%短縮できた構成と工夫 - MonotaRO Tech Blog
- 231 users
- tech-blog.monotaro.com
- テクノロジー
- 2022/10/18
初めまして、EC基盤グループサーチチームの壷井です。モノタロウでは2019年10月頃より新規検索システムの設計・開発を進め、今年の4月頃にECサイト(monotaro.com) 検索ページの裏側の検索システムを従来のSolrからElasticsearchに100%移行*1しました。この移行は将来の商品点数やリクエスト数の増加を見据えたバックエンドの大規模な改修で、ここまで約2年半ほどプロジェクトを進めてきました。今後もECサイトのすべてのページの完全移行に向け引き続き開発・運用を行っていきます。今回はこのプロジェクトのなかで私が担当してきたElasticsearchへの日々のデータの洗い替え（日次更新と呼んでいます）ワークフローのシステム構成と工夫などについてお話します。モノタロウの検索システムの紹介日次更新のシステム構成処理の流れ ① リアルタイムデータ同期 ② 日次商品デー
- elasticsearch
- あとで読む
- データ
- BigQuery
- 検索
- IT
"壊れにくい"データ基盤を構築するためにMackerelチームで実践していること - Hatena Developer Blog
- 158 users
- developer.hatenastaff.com
- テクノロジー
- 2020/08/04
こんにちは。MackerelチームにおいてCRE（Customer Reliability Engineer）をしているid:syou6162です。主にカスタマーサクセスを支えるデータ基盤の構築や、データ分析を担当しています。今回は、壊れにくいデータ基盤を構築するため、Mackerelチームで実践していることを紹介します。なぜ壊れにくいデータ基盤を構築するのかデータ基盤が“壊れている”とはどういうことか壊れてないだけでなく、壊れたら気付ける前提とするシステム構成壊れたことに気付けるよう監視する 1. バッチジョブが失敗したことに気付く 2. 投入されたデータの性質を監視する 3. ビューが壊れてないかを監視する 4. 利用状況を監視するそもそも壊れてない状態を保つ 1. データリネージを元に修正できるようにする 2. 使われていないテーブルやビューは定期的に掃除おわりに参
- bigquery
- あとで読む
- Mackerel
- データ
- データ分析
- 監視
- データ基盤
- sql
- monitoring
- チーム
2019年のワークフローエンジンまとめ - Qiita
- 127 users
- qiita.com/elyunim26
- テクノロジー
- 2019/05/31
概要データパイプラインの管理にワークフローエンジンを導入したいのですが、今の要件に対してどれが合っているのか判断しきれない部分があるので整理してみました最近の導入事例や発表をみるかぎりAirflow, Argo, Digdagあたりが人気なのかなと思いますワークフローエンジンとはワークフローエンジンとは定期的なバッチ処理をうまく処理できるように、バッチ実行を管理してくれるソフトウェアのことです古典的な実現方法としては適当なlinuxサーバーの上でcron実行させることが考えられますが、以下のような問題がありますジョブごとの依存関係を表現できない。cronの時間指定で実現させようとすると、タスクAを１時に開始してそれが完了するとみなして依存するタスクBを２時に開始するというような書き方をすることになるが、実際にタスクAが２時までに終わらなかった場合に処理が上手く実行できないタス
- digdag
- あとで読む
- airflow
- oss
- batch
- ワークフロー
- tool
ZOZOTOWNを支えるリアルタイムデータ連携基盤 - ZOZO TECH BLOG
- 108 users
- techblog.zozo.com
- テクノロジー
- 2020/08/27
こんにちは、SRE部MA基盤チームの谷口（case-k）です。私達のチームでは、データ連携基盤の開発・運用をしています。データ基盤には大きく分けて2種類あり、日次でデータ連携してるものとリアルタイムにデータ連携しているものがあります。本記事ではリアルタイムデータ連携基盤についてご紹介します。既存のデータ連携基盤の紹介リアルタイムデータ連携基盤の紹介なぜ必要なのか活用事例の紹介データ連携の仕組みと課題リプレイス後のリアルタイムデータ連携基盤 SQL Serverの差分データの取り方を検討アーキテクチャ概要と処理の流れ Fluentdのプラグインを使った差分データの取得 Dataflowでメッセージの重複を排除 Dataflowで動的にBigQueryの各テーブルに出力 Pub/Subのメッセージ管理イベントログ収集基盤個人情報の取り扱いビルド・デプロイ戦略監視データ
- fluentd
- BigQuery
- あとで読む
- データ
- cloud
- クラウド
- ZOZO
- google
- GCP
- data
タベリーを支えるアーキテクチャ - Koichi Ishida blog
- 102 users
- wapa5pow.com
- テクノロジー
- 2019/05/20
目次アーキテクチャフロントエンド・バックエンドアーキテクチャ分析アーキテクチャレコメンデーションアーキテクチャ最後に「タベリー」は株式会社10Xが提供するパーソナルな献立を推薦するアプリです。iOSとAndroidとWebで提供しています。先日、プレスリリースで「オンライン注文機能リリース」と「2.5億円の第三者割当増資を実施したこと」をお知らせしました。献立作成、献立からの買い物リスト作成、買い物リストをネットスーパーで注文、料理を作るということがタベリー１つでできます。特にこの「オンライン注文機能」はいままでネットスーパーの商品を１つ１つ選択して注文していたものを、自動でカートに追加し注文できるのでとても便利です。 10Xではよりよいチームを目指しメンバーを募っています。エンジニアも募集しています。チームがどのように開発しているかは社長の矢本さんが書いた「10Xなプロダクト
- gcp
- kubernetes
- アーキテクチャ
- あとで読む
- architecture
- grpc
- k8s
- golang
- cloud
近似最近傍探索Indexを作るワークフロー - ZOZO TECH BLOG
- 97 users
- techblog.zozo.com
- テクノロジー
- 2020/06/11
はじめにこんにちは。ZOZO研究所のshikajiroです。主に研究所のバックエンド全般を担当しています。ZOZOでは2019年夏にAI技術を活用した「類似アイテム検索機能」をリリースしました。商品画像に似た別の商品を検索する機能で、画像検索と言った方が分かりやすいかもしれません。MLの開発にはChainer, CuPy, TensorFlow, GPU, TPU, Annoy、バックエンドの開発にはGCP, Kubernetes, Docker, Flask, Terraform, Airflowなど様々な技術を活用しています。今回は私が担当した「近似最近傍探索Indexを作るワークフロー」のお話です。 corp.zozo.com 目次はじめに目次画像検索の全体像説明 Workflow Develop Application 推論APIの流れ近似最近傍探索とAnnoy 近似
- ZOZO
- あとで読む
- 検索
- 機械学習
- API
- アルゴリズム
- 開発
- index
- machine learning
- machineLearning
データ基盤を支える技術 - ETLフレームワークの実践的な選び方・組み合わせ方 - JX通信社エンジニアブログ
- 86 users
- tech.jxpress.net
- テクノロジー
- 2020/07/29
JX通信社シニア・エンジニア兼データ基盤担当大臣の@shinyorke（しんよーく）です. 最近やった「ちょっとした贅沢」は「休日, 自宅で🍺片手に野球を見ながらUberEatsで注文したランチを楽しむ」です. ⚾と飲食を提供してくださる皆さまに心から感謝しております🙏 JX通信社では, 機械学習を用いたプロダクト開発・施策プロダクト・サービスの改善に関する分析日々のイベントをメトリクス化して可視化（いわゆるBI的なもの）を円滑かつ効率よく行うため, 昨年からデータ基盤を整備・運用しており, 現在では社員のみならず（スーパー優秀な）インターンの皆さまと一緒に活用し, 成果を出し始めています. ainow.ai なぜデータ基盤が必要か?どういった事をしているのか?...は上記のインタビューに譲るとして, このエントリーでは「データ基盤を支える技術 - ETL編」と称しまして, Py
- ETL
- データ基盤
- python
- workflow
- コンテナ
- データ
- あとで読む
- 運用
- docker
全社共通データ基盤を廃止して新しいデータ基盤に引越した話 - ZOZO TECH BLOG
- 79 users
- techblog.zozo.com
- テクノロジー
- 2022/09/15
こんにちは、データ基盤の開発、運用をしていた谷口（case-k）です。最近は配信基盤の開発と運用をしています。 ZOZOではオンプレやクラウドにあるデータをBigQueryへ連携し、分析やシステムで活用しています。BigQueryに連携されたテーブルは共通データ基盤として全社的に利用されています。共通データ基盤は随分前に作られたこともあり、様々な負債を抱えていました。負債を解消しようにも利用者が約300人以上おり、影響範囲が大きく改善したくても改善できずにいました。本記事では旧データ基盤の課題や新データ基盤の紹介に加え、どのようにリプレイスを進めたかご紹介します。同じような課題を抱えている方や新しくデータ基盤を作ろうとしている方の参考になると嬉しいです。データ基盤の紹介旧データ基盤の紹介旧データ基盤の課題変更があっても更新されないデータ性質の異なるテーブルを同じ命名規則で管理
- BigQuery
- あとで読む
- データ
- gcp
- 分析
カナダで転職して、プロダクトマネージャーからソフトウェアエンジニアに戻った。
- 79 users
- takuti.me
- テクノロジー
- 2021/08/20
この記事に関連する話題: ソフトウェアエンジニア、カナダに渡る。修士課程修了から4年半の間働いたトレジャーデータ (Treasure Data; TD) を8月13日（金）に退職した。インターンから数えるとちょうど5年のお付き合いになる。ソフトウェアエンジニアとして入社 (2017-2019) 修士課程で機械学習が専門ではない指導教員の下で機械学習を学ぶために Hivemall, Digdag, 自然言語処理, 機械学習などについて話しましたプロダクトマネージャーに転身 (2020) 僕は「世界で闘うプロダクトマネージャー」にはなれない。機械学習エンジニアのキャリアパス。プロダクトマネージャーという選択肢が拓く可能性カナダ・バンクーバーオフィスに転籍 (2021)1 トレジャーデータ株式会社を退職して Treasure Data (Canada) に入社しましたそして今週から、
次世代のワークフロー管理ツールPrefectでMLワークフローを構築する CyberAgent Developers Blog | サイバーエージェントデベロッパーズブログ
- 78 users
- developers.cyberagent.co.jp
- テクノロジー
- 2022/11/02
※ DynalystではAWSを全面的に採用しているため、AirflowもManaged版を調査しています。導入後の状態 Prefect導入後は、以下の構成となりました。ポイントは以下の点です。ワークフローをDocker Image化することで、開発・本番環境の差を軽減 staging・productionはECS Taskとしてワークフローを実行、開発ではローカルPC上でコンテナ実行 ML基盤のGitHubレポジトリへのマージで、最新ワークフローが管理画面であるPrefect Cloudへデプロイ従来のyamlベースのdigdagから、DSに馴染み深いPythonベースのPrefectに移行したことで、コード量が減り開発負荷が軽減しました。 Prefect 入門 ~ 基礎 ~ 注意: 本記事ではPrefect 1系を扱います。Prefect 2系が2022年7月にリリースされてい
- MLOps
- workflow
- aws
- ツール
- あとで読む
BigQueryでのデータ追記処理における冪等化の取り組み - ZOZO TECH BLOG
- 76 users
- techblog.zozo.com
- テクノロジー
- 2022/08/16
こんにちは、MA基盤チームの田島です。私達のチームではMAIL、LINE、PUSH通知といったユーザへの配信をしています。その中でもマス・セグメント配信という一斉に行う配信では、配信対象者のセグメント抽出にBigQueryを利用しています。また、配信前に必要なデータをBigQueryに連携しデータマートの集計をしたり、配信後には配信実績の登録などの更新処理をしています。そのような処理を定期的に行っているため、ネットワークの問題やサーバーの不調などにより処理が途中で失敗することがあります。そこで、リトライを容易にするため、すべての処理を冪等にしました。今回その中でも、BigQueryの追記処理に絞ってどのように冪等化したのかについて紹介します。目次目次マス・セグメント配信基盤の紹介課題冪等化 BigQuery追記処理に関する冪等化の取り組み冪等にならないケース INSERT 初
- BigQuery
- あとで読む
- データ
- ZOZO
- クラウド
- 統計
- 技術
タスクランナーをmakeからcargo-makeへ移行
- 76 users
- www.tkat0.dev
- テクノロジー
- 2019/12/04
[tasks.BUILD] description = "Build hoge" script = [''' #!/usr/bin/env bash echo "build ${@}..." '''] [tasks.TEST] description = "Test hoge" script = [''' #!/usr/bin/env python3 print("test ...") '''] dependencies = ["BUILD"] $ makers TEST -- --option-a --option-b [cargo-make] INFO - makers 0.20.0 [cargo-make] INFO - Using Build File: Makefile.toml [cargo-make] INFO - Task: TEST [cargo-make] INFO -
- make
- Rust
- ShellScript
- コマンド
- あとで読む
- github
- oss
Goプログラム実行時間の短縮 - ZOZO TECH BLOG
- 71 users
- techblog.zozo.com
- テクノロジー
- 2022/05/25
こんにちは。生産プラットフォーム開発部の中嶋です。生産プラットフォーム開発部はアパレル生産のDXを進めている部門です。具体的には服作りのIT化を含めたアパレル生産の効率化の促進と「生産支援」のシステムを主にGoで開発しています。今回はその運用の中でGoプログラムの実行時間をどのように短縮したのかを紹介します。目次目次学べること・解決できること背景エラー発生調査・対応インスタンスの変更原因実装アプローチの見直しゴルーチンを使ったタイムアウト処理サンプルコードチャネルのクローズについて Goのメモリマネジメントについてスタックとヒープゴルーチンとメモリについてヒープについて問題の仮説どのように解決したか実装イメージ利用したパッケージサンプルコード結果まとめ最後に参考リンク学べること・解決できること Goのメモリエラーに対するアプローチ例 Go視
プログラミング言語 Ruby30 周年記念イベントレポート
- 69 users
- magazine.rubyist.net
- テクノロジー
- 2023/06/20
プログラミング言語 Ruby30 周年記念イベント 2023 年 2 月 25 日、Ruby 誕生 30 年を記念したイベントが開催されました。 2020 年から流行した新型コロナウィルス感染症の影響で、一時期のイベントはすべてオンラインでの開催が主流となっていました。本イベントも当初はオンライン形式で予定されていましたが、当日は松江オープンソースラボをメイン会場としてオフラインとオンラインのハイブリッドで開催されました。開催日 2023-02-25 (土) 13:40 - 17:30 開催場所松江オープンソースラボ / YouTube 配信主催一般財団法人 Ruby アソシエーション / 一般社団法人日本 Ruby の会公式ページプログラミング言語 Ruby30 周年記念イベント進行：前田修吾公式ハッシュタグ #ruby30th 動画アーカイブ動画オープニング
- Ruby
- あとで読む
- OSS
- 言語
- Rails
- event
- プログラミング
- programming
- 歴史
SQL パイプライン開発に便利な Dataform 7つのお気に入りポイント - FLINTERS Engineer's Blog
- 67 users
- labs.septeni.co.jp
- テクノロジー
- 2021/04/04
こんにちは。河内です。最近はデータ基盤の構築も取り組んでいたりします。社内では他の DWH が使われている事例がありますが、今回の基盤ではデータソースとの親和性や価格面などを考慮し BigQuery で行くことにしました。 BigQuery 上で多くのデータを順次変換してデータを生成するために何らかのワークフローエンジンが必要でした。社内の他のシステムではワークフローエンジンとして Digdag を採用している例が多いですが、このシステムでは Kubernetes 上でサービスを運用しているため、当初(2020年12月)は Argo Workflow 上でクエリを順次実行することを構想していました。構想中に Dataform が Google に買収され、無料で使えるようになったというニュースが飛び込んできたため、触って感触が良いことを確かめた後、Dataform を使っていくことに
- sql
- Dataform
- BigQuery
- あとで読む
- データ基盤
- データ
- 開発
Stailerを支えるアーキテクチャ - Koichi Ishida blog
- 63 users
- wapa5pow.com
- テクノロジー
- 2020/05/29
目次 tl;dr アーキテクチャサービスアーキテクチャまとめ「Stailer」は株式会社 10Xが提供する「開発不要でネットスーパーアプリを立ち上げられるシステム」です。バックエンドとそれにつなげるアプリ(iOSとAndroid)を提供しています。 10Xではよりよいチームを目指しエンジニアも含めメンバーを募っています。エンジニアが気になるどのような技術を使っているかに関して今回このブログで紹介しようと思います。少しでもチームに興味を持ってもらえたら採用ページがあるのでぜひぜひこちらからご応募ください。 tl;dr インフラはGCP クライアントはFlutter(Dart)でサーバもDart サービス間通信はgRPC 分析環境はBigQuery/Redash/Digdagの組み合わせ監視はCloud Monitoring アーキテクチャ Stailerは主なサービスはGCP上に構築
- flutter
- GCP
- dart
- grpc
- 監視
- アーキテクチャ
- cloud
dbtで始めるデータパイプライン構築〜入門から実践〜
- 60 users
- zenn.dev/dbt_tokyo
- テクノロジー
- 2021/12/02
事業会社においてBIやレポート用の分析を担当しているが以下のような状況に該当する人に向けたデータパイプライン構築の入門のための資料です 🧑🏻‍🦱「BigQuery等のView機能を活用しているが、データの流れを追うのが困難な状態になってしまっている、クエリの実行に時間がかかりBIツールが使いづらい」 👩🏻「専任のデータエンジニアがおらず、前処理をpython等で処理したりするのがリソース調整的に大変」 👱🏻‍♂️「ロードされたデータに重複があったり、過不足があったりしてデータの品質が担保できていない」 🧑🏻‍🦰「Digdagやluigiといったデータ変換ツールの独自の仕様を理解しきれておらず使いこなせていない」 ※現時点ではBigQueryを中心に記事を構成してあります、SnowflakeやAmazon Redshift等の様々な分析基盤でもdbtは対応可能です
- dbt
- BigQuery
- python
- GCP
- あとで読む
- sql
- data
- データ
WEARにおけるKubernetes導入と改善の歩み - ZOZO TECH BLOG
- 59 users
- techblog.zozo.com
- テクノロジー
- 2022/07/20
はじめにこんにちは。ブランドソリューション開発本部　WEAR部　SREの和田（@wadason）です。普段は「ファッションコーディネートアプリ WEAR」のSREとしてクラウドの運用やリプレイスをおこなっています。 WEARはサービス開始から10年が経ち、クラウドやオンプレミスを含む大小様々なシステムが稼働しています。アプリケーションを動かすための基盤にはAmazon ECSのようなコンテナを前提としたものから、オンプレミスのAPIやBatchを動かすIISまで幅広く扱っています。そうした中で、約1年前にSREチームが結成され、技術負債の脱却やクラウドを中心としたインフラの運用を行なってきました。当初取り組んでいた大規模なリプレイス案件も落ち着き、チームメンバーが増えてきたので、現在では分散した技術スタックをKubernetesへ統一するリプレイスプロジェクトを開始しています。本記事で
商品数の増加を見据えて商品情報作成処理をPythonからBigQueryに移行した話 | SQLによるバッチ処理で工夫した3つのポイント - MonotaRO Tech Blog
- 58 users
- tech-blog.monotaro.com
- テクノロジー
- 2023/01/24
こんにちは、EC基盤グループ商品情報基盤チームの江村です。今回は私が所属している商品情報基盤チームで構築、運用を行っているシステムについてお話します。モノタロウでは以前から記事になっていますが、検索システムの移行を行っており、現在商品検索ページの裏側の検索システムのSolrからElasticsearchへの切り替え*1が完了しました。私が所属している商品情報基盤チームではElasticsearch、Spannerに入れるための商品情報の作成とSpannerおよび、Spannerからデータを取得するAPIの運用を行っています。今回はその中でもElasticsearch、SpannerのためのBigQueryでの商品情報作成処理について取り上げます。（詳しい検索部分の構成については以前の記事を参照ください）システム移行の背景移行による設計ポイント「MySQL + Python」の処
カンムを支える技術 ~機械学習編~ - カンムテックブログ
- 55 users
- tech.kanmu.co.jp
- テクノロジー
- 2021/06/11
バックエンドエンジニアの吉田です。カンムでは機械学習を用いた機能開発を担当しています。バンドルカードでは後払い機能であるポチっとチャージで機械学習が使われています。去年のAdvent Calendarで石澤さんがカンムを支える技術2020 という記事を書いてくれていましたがそこではあまり触れられていなかった機械学習まわりの取り組みについて簡単にご紹介します。バンドルカードのサービスはAWSで構築されているので基本的にはAWSに寄せつつも機械学習ではGCPも活用しマルチクラウドで運用しています。 Data Preparation DWHとしてBigQueryを利用しています。BigQueryにはバンドルカードのトランザクションデータやFirebaseで取得したアプリのイベントログ、サーバのアプリケーションログ等が集約されておりデータ分析やA/Bテストの集計、障害調査等に使われています
Digdag + Embulkをクラウド転生させてデータ基盤運用を圧倒的に楽にした話 - エムスリーテックブログ
- 55 users
- www.m3tech.blog
- テクノロジー
- 2020/12/19
こんにちは、エムスリーエンジニアリンググループ / 製薬企業向けプラットフォームチームの鳥山 (@to_lz1)です。これはエムスリー Advent Calendar 2020 の19日目の記事です。エムスリーでは現在、各システムのオンプレ環境からクラウドへの移行を急ピッチで進めているところです（勉強会の配信アーカイブをYouTubeでもご覧いただけます。公式テックチャンネルのご登録、ぜひお願いします!） www.youtube.com これに関連して私のチームでも最近「データ基盤（Digdag + Embulk）のクラウド移行」を行ったため、そのときに考えたことや移行して良かったことを共有したいと思います。エムスリーのデータ基盤についてそれまでの構成クラウド環境でのアーキテクチャ DigdagとEmbulkの分離 Digdag on AWSからBigQueryを操作する併
ZOZOTOWNにおけるマーケティングメール配信基盤の構築 - ZOZO TECH BLOG
- 49 users
- techblog.zozo.com
- テクノロジー
- 2024/03/19
はじめにこんにちは、MA部の松岡（@pine0619）です。MA部ではマーケティングオートメーションシステムの開発・運用に従事しています。 ZOZOTOWNでは、マーケティングオートメーションシステム（以下、MAシステム）を使い、メールやLINE、アプリプッシュ通知といったチャネルへのキャンペーンを配信しています。 MA部では、複数のMAシステムが存在しており、MAシステムそれぞれに各チャネルへの配信ロジックが記述されていました。これにより、現状の運用保守ならびに今後の改修コストが高いかつ、使用している外部サービスのレートリミットの一元管理が出来ていないなどの問題を抱えていました。そのため、外部サービスへのリクエスト部分をチャネルごとにモジュールとして切り出し、複数のMAシステムから共通で使える配信基盤を作成しました。また、社内の他チームの持つシステムからのキャンペーン配信の要望があっ
heyの統合データ基盤と今後の展望 - STORES Product Blog
- 49 users
- product.st.inc
- テクノロジー
- 2021/07/30
はじめにはじめまして、4/1からデータチームでデータエンジニアとして働いている @shoso です。突然ですが、みなさんデータ基盤って開発したことありますか？私はheyに来るまでなかったのですが、チームの経験あるメンバーと毎日話しながら（助けてもらいながら）開発する中でようやく少し分かって来たような気がします。（覚えることが大量にあり大変とても楽しいです！）今回は、データ基盤開発経験のある方はもちろん、普段サービス開発など他の開発をメインでされている方にも伝わる形で、heyの統合データ基盤と今後やっていきたいことについてご紹介できればと思います。これまでにも、統合データ基盤のいくつかのトピックについて記事を公開していますが、この記事では統合データ基盤そのものについてより詳細が伝われば幸いです。統合データ基盤ってなに一言でいうと、社内に蓄積するあらゆるデータをスムーズ・横断的
- データ
- あとで読む
- BigQuery
- 分析
- DB
- architecture
- management
- data
DeNAがデータプラットフォームで直面した課題と克服の取り組み
- 45 users
- medium.com
- テクノロジー
- 2020/05/19
はじめにこんにちは。この記事はDeNAの小口（Rikiya Oguchi）と長谷川（Ryoji Hasegawa）がお届けします。小口はゲーム事業部の分析部データエンジニアリンググループの所属で、長谷川は全社共通部門である分析推進部の所属です。ゲーム事業部と全社部門で所属は違いますが、近しいミッションのもと、普段から密に連携して仕事をしています。 DeNAでは現在、データプラットフォームの刷新を進めています。この記事では、そのプロジェクトについて、以下の流れでご紹介します。現行データプラットフォームの背景と概要データプラットフォーム構築後の環境変化現行データプラットフォームが抱える課題現行組織が抱える課題データプラットフォームの刷新刷新後のシステム構成組織体制の刷新我々と同じようにデータプラットフォームの構築・運用に携わっている方々や、データプラットフォームを利用されている方々、特に、
家族ノートを支えるBigQuery+StepFunctionsで作るデータレイク - コネヒト開発者ブログ
- 45 users
- tech.connehito.com
- テクノロジー
- 2021/05/18
こんにちは。インフラエンジニアの永井(shnagai)です。最近、家族ノートという「ママリ」内の検索データとQ&Aデータ(現在開発中)を可視化したデータ分析サービスの立ち上げに携わっています。 info-kazokunote.mamari.jp 今回は、家族ノートで使っているデータ基盤の一部であるBigQuery+StepFunctionsで作ったデータレイクの仕組みについてご紹介します。内容は、ざっくりとこんな話を書こうと思います。データ基盤作りに至った経緯 AWS→BigQueryにデータ移送するアーキテクチャのpros&cons StepFunctions+Embulk(Fargate)を利用したデータレイクの仕組みデータ基盤作りに至った経緯コネヒトには大きく分けると2つのデータセットがあります。 DB(Aurora)にあるアプリケーションのデータ(業務データやマスターデー
- BigQuery
- embulk
- あとで読む
- ECS
- aws
Ruby on Lambdaを使ってRubyKaigi用のデモアプリを作った話 - ZOZO TECH BLOG
- 44 users
- techblog.zozo.com
- テクノロジー
- 2019/07/03
こんにちは、開発部の塩崎です。最近はCloudFormation・Embulk・Digdagを使った仕事をすることが多く、一番使う言語がYAMLになりました。今年福岡で開催されたRubyKaigi 2019ではZOZOテクノロジーズはRubyスポンサーとして協賛させていただきました。カンファレンス中のスポンサーブースの出し物として、DroidKaigi 2019と同様にファッションチェックアプリの展示を行いました。 DroidKaigiの展示と全く同じでは芸がないと考え、今回のRubyKaigiのためにRuby on Lambdaでランキング機能を作成しました。本記事では、そのランキング機能の説明をしたいと思います。ファッションチェックアプリのランキング機能とはまず、ファッションチェックアプリの説明をします。このアプリはDroidKaigi 2019のために作成されたデモアプ
- ruby
- あとで読む
- lambda
- aws
Scalaはバックエンドでもフロントエンドでも動く　Treasure Dataのエンジニアが語るScalaの応用力の高さ
- 44 users
- logmi.jp
- テクノロジー
- 2021/03/12
アジア最大級の国際Scalaカンファレンスである「ScalaMatsuri2020」がオンラインで開催されました。そこでTreasure DataのTaro L. Saito 氏がScalaに関するいろいろなテクノロジーを紹介しました。まずは、バックエンドとフロントエンドの両方で使えるScalaについて。趣味はオープンソースのプロジェクトを作ること Taro L. Saito氏：「Scala For Everything」というタイトルで発表します。簡単な自己紹介を。Treasure DataのSaitoといいます。Principal Software Engineerをしていて、今、カリフォルニア、アメリカの西海岸から発表しています。タイムゾーンの都合上、今こちらは夜の20時なんですけれども、ScalaMatsuriの運営の麻植さんが、タイムゾーンに配慮してくださったので、非常に感謝し
- scala
- scala.js
- gRPC
- あとで読む
DMMのデータ活用を支えるビッグデータ基盤・ML基盤のクラウド移行 (CUS-40) #AWSSummit | DevelopersIO
- 44 users
- dev.classmethod.jp
- テクノロジー
- 2021/05/28
本記事は、AWS Summit Japan 2021のセッション動画「CUS-40: AWS移行事例紹介 ~DMM のデータ活用を支えるビッグデータ基盤・ML基盤のクラウド移行 ~」のレポート記事です。概要 "50以上の事業を展開するDMM。年々増えるデータ、バッチ、業務。そんな状況をAWS上での基盤構築を通じて打開した事例紹介" 50以上のビジネスを展開するDMM.comでのデータ活用基盤（データレイク基盤と機械学習基盤）をAWS上に構築した事例を紹介します。データレイク基盤はオンプレ上で動いていた3000以上のJobの完全移行を実施し、よりスケーラブルな分析、データ処理、Single Source of Truth (SSoT)を実現しています。機械学習基盤はArgoなどエコシステムが豊富なAmazon EKS Kubernetesを採用し、機械学習モデルの継続的なデプロイを行う
ANDPADのデータ基盤の変遷 - ANDPAD Tech Blog
- 43 users
- tech.andpad.co.jp
- テクノロジー
- 2021/12/07
はじめにこんにちは！今回はANDPADの各種ログを分析するためのデータ基盤を担当しているエンジニアからデータ基盤の変遷について紹介させていただきます。ANDPADのデータ基盤に興味がある方はぜひ過去の記事も合わせてご覧ください。 tech.andpad.co.jp tech.andpad.co.jp 本記事では過去のデータ基盤が抱えていた課題と、チームがどうやってその課題を解決してきたか*1について紹介します。基盤の構成各種データソースからログを収集し BigQuery に投入する部分が本記事のスコープとなります。過去の基盤は Amazon EKS 上で Digdag+Embulk を使用していました。現在の基盤は Amazon ECS 上で Luigi を使用しています。過去のデータ基盤新しいデータ基盤 *2 課題データの量過去のデータ基盤には処理データ量に比例して処理
- データ
- あとで読む
マーケティングを加速させろ！ZOZO Marketing Platform(ZMP)の紹介 - ZOZO TECH BLOG
- 43 users
- techblog.zozo.com
- テクノロジー
- 2024/03/13
こんにちは、MA部の齋藤（@kyoppii13）です。 ZOZOTOWNでは、プッシュ通知やLINE、メールでのキャンペーン配信を実施しています。キャンペーン配信の例としては、お気に入り商品の在庫数が少なくなったときにプッシュ通知を送るといったものです。LINEやメールといった配信チャネル以外にも、キャンペーンごとにセグメントや実施タイミングも様々で、システムも配信キャンペーンの種類によって複数存在している状況でした。そのため運用保守のコストが大きくなっていました。また、キャンペーンの内容を変更するために開発側での工数が発生している状況でした。そこでキャンペーン配信を効率的に実施するため社内向けのマーケティングプラットフォーム「ZOZO Marketing Platform（ZMP）」を開発しました。本記事では、マーケティングプラットフォームの開発にあたって考慮した点とアーキテクチャに
Kubernetesネイティブなワークフローエンジンとは！FAANSでArgo Workflowsを導入した話 - ZOZO TECH BLOG
- 43 users
- techblog.zozo.com
- テクノロジー
- 2022/10/21
はじめにこんにちは。ブランドソリューション開発本部バックエンド部 SREの笹沢（@sasamuku）です。 ZOZOではショップスタッフの販売サポートツール「FAANS」を2022年8月に正式リリースしました。FAANSはアパレルのショップスタッフ様を支援する様々な機能を提供しています。例えば、ZOZOTOWN上で実店舗の在庫取り置きができる機能や、コーディネート投稿の機能などがあります。投稿されたコーディネートはZOZOTOWNやWEAR、Yahoo!ショッピングに連携が可能で、今後はブランド様のECサイトとも連携できる予定です。これによりお客様のコーディネート選びをサポートし購買体験をより充実したものにします。機能の詳細に関しましては下記プレスリリースをご覧ください。 corp.zozo.com 今回はFAANSで採用しているワークフローエンジン「Argo Workflows」につ
- kubernetes
- gitops
- k8s
- あとで読む
機械学習プロジェクト向けPipelineライブラリgokartを用いた開発と運用 - エムスリーテックブログ
- 43 users
- www.m3tech.blog
- テクノロジー
- 2019/09/30
こんにちは。前回書いた突撃！隣のキーボード M3 2019という記事が、HHKBの公式Twitterアカウントにツイートされ、舞い上がっているエムスリーエンジニアリングGの河合 (@vaaaaanquish) です。今回はエムスリー AIチームが開発、運用している機械学習プロジェクト向けのPythonライブラリである「gokart」の説明と、その周辺ライブラリとなる「cookiecutter-gokart」「thunderbolt」「redshells」について紹介したいと思います。よろしくお願いします。はじめに Pipeline化のメリット・デメリット Pipeline化のメリット Pipeline化のデメリット gokart 共通化のための出力ファイル形式の制約と拡張強力かつ簡易な再現性のためのデータ保持クラウドサービスやSlack通知のサポート gokartのメリット、デメリ
オンラインサービスをECS on Spot Instanceで構築＆運用した - Gunosy Tech Blog
- 42 users
- tech.gunosy.io
- テクノロジー
- 2019/09/09
広告技術部のUT(@mocyuto)です。最近またポケモンGOをちょっとやり始めてしまいました。今回はオンラインの広告サービスをSpotInstanceを利用したECSで構築し、2ヶ月ほど運用した話を紹介したいと思います。はじめにアーキテクチャ設計広告配信ログ設計 EBSのログ運用デプロイ設計 canaryデプロイまとめはじめに今まで広告の部署では、コンテナの本番運用はバッチのみでした。 tech.gunosy.io ECS上でdigdagを運用しているものを以前紹介しましたが、オンラインでの大きなトラフィックが流入するものをECSに構築するのは初めてです。今回、新しいサービスを作成するタイミングだったのでECS*1上にサービスを構築することにしました。アーキテクチャ設計今回は単一のECS Clusterに管理画面のサービスと配信系のサービスを同居させ、コスト効率
- envoy
- あとで読む
- ecs
- fluentd
- aws
- 設計
- エンジニア