etlの人気記事 90件 - はてなブックマーク

1 - 40 件 / 90件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

etlの検索結果1 - 40 件 / 90件

etlに関するエントリは90件あります。データ、 BigQuery、 aws などが関連タグです。人気エントリには『1000万件オーバーのレコードのデータをカジュアルに扱うための心構え - joker1007’s diary』などがあります。

1000万件オーバーのレコードのデータをカジュアルに扱うための心構え - joker1007’s diary
- 1281 users
- joker1007.hatenablog.com
- テクノロジー
- 2020/11/04
自分が所属している会社のメンバーの教育用資料として、それなりの規模のデータを扱う時に前提として意識しておかなければいけないことをざっくりまとめたので、弊社特有の話は除外して公開用に整理してみました。大規模データ処理、分散処理に慣れている人にとっては今更改めて言うことじゃないだろ、みたいな話ばかりだと思いますが、急激にデータスケールが増大してしまったりすると環境に開発者の意識が追い付かないこともあるかと思います。そういったケースで参考にできるかもしれません。弊社は基本的にAWSによって運用されているので、AWSを前提にした様なキーワードやサービス名が出てきます。後、句読点があったり無かったりしますが、ご容赦ください。追記: 社内用の資料の編集なのでかなりハイコンテキストな内容だから誤解するかもしれませんが、これらはそもそもRDBの話ではありません。(関係無くは無いけど) 1000万オ
- db
- あとで読む
- 設計
- performance
- データ
- database
- 開発
- aws
- プログラミング
- architecture
なぜETLではなくELTが流行ってきたのか - Qiita
- 225 users
- qiita.com/hiro_koba_jp
- テクノロジー
- 2022/12/05
概要 troccoの生みの親で、現プロダクト責任者をしている @hiro_koba_jp です。 troccoアドベントカレンダー2022の1記事目書いていきます！（みんなも参加してね）データ分析やデータエンジニアリングにおいてETL(Extract Transform Load)という言葉を耳にしたことがある方は多いのではないでしょうか？一方、「ETLではなくELT（音楽グループではない）が主流になりつつある」といったような論調も増えてきました。この記事では、ETLとELTの違いや、なぜELTにシフトしつつあるのか、この先どうなるのか（予想）について、私なりの見解を書いてみようと思います。一昔前まではETLパターンが多かった Redshiftが登場した2013年頃、人々はデータレイク層はS3上で構築し、データウェアハウス層〜データマート層はRedshift上に組む人が多かったよう
- BigQuery
- あとで読む
- データ
- データ分析
- etl
- ELT
- architecture
- SQL
- CPU
データ基盤チーム0人で運用は回るのか？！前人未踏チャレンジ・クックパッドデータ基盤のすべて2020 - クックパッド開発者ブログ
- 220 users
- techlife.cookpad.com
- テクノロジー
- 2020/12/29
技術部データ基盤グループの青木です。ここ1、2年はなぜか成り行きでBFFをでっちあげたり、成り行きでiOSアプリリニューアルのPMをしたりしていたのであまりデータ基盤の仕事をしていなかったのですが、今年は久しぶりに本業に戻れたのでその話をします。突然の1人チーム、そして0人へ…… 今年のデータ基盤チームは消滅の危機から始まりました。間違いなく去年末は5人のチームだったと思うのですが、メンバーがイギリスへグローバルのデータ基盤チームを作りに行ったり、山へ検索システムを直しに行ったり、川へレシピ事業の分析業務をやりに行ったり、海へ広告のエンジニアリングをしに行ったりするのをホイホイと気前よく全部聞いていたら、なんと4月から1人だけのチームになってしまいました。事はそれで終わりません。恐ろしいことに10月にはわたし自身も育休に入ることになったので、 10月はデータ基盤が0
Pythonでいい感じにバッチを作ってみる - prefectをはじめよう - JX通信社エンジニアブログ
- 215 users
- tech.jxpress.net
- テクノロジー
- 2020/12/18
JX通信社シニア・エンジニアで, プロダクトチームのデータ活用とデータサイエンスのあれこれ頑張ってるマン, @shinyorke（しんよーく）です. 最近ハマってるかつ毎朝の日課は「リングフィットアドベンチャー*1で汗を流してからの朝食」です. 35日連続続いています. 話は遡ること今年の7月末になりますが, JX通信社のデータ基盤の紹介&「ETLとかバッチってどのFW/ライブラリ使えばいいのさ🤔」というクエスチョンに応えるため, このようなエントリーを公開しました. tech.jxpress.net このエントリー, 多くの方から反響をいただき執筆してよかったです, 読んでくださった方ありがとうございます！まだお読みでない方はこのエントリーを読み進める前に流して読んでもらえると良いかも知れません. 上記のエントリーの最後で, 次はprefect編で会いましょう. という挨拶で締めさせ

GCPで構築する、これからの変化に対応出来るデータ分析基盤の作り方
- 199 users
- speakerdeck.com/rtechkouhou
- テクノロジー
- 2021/03/04
2020/3/31 Google Cloud Data Platform Dayでの、山田、佐伯、白鳥の講演資料になります
- GCP
- あとで読む
- BigQuery
- データ分析
- Kubernetes
- データ
- cloud
- DB
- クラウド
冪等なデータ処理ジョブを書く - クックパッド開発者ブログ
- 171 users
- techlife.cookpad.com
- テクノロジー
- 2019/07/13
こんにちは、マーケティングサポート事業部データインテリジェンスグループの井上寛之（@inohiro）です。普段はマーケティングに使われるプライベートDMP（データマネジメントプラットフォーム）の開発を行っています。本稿では、その過程で得られた冪等なデータ処理ジョブの書き方に関する工夫を紹介したいと思います。今回は、RDBMS上で SQL によるデータ処理を前提に紹介しますが、この考え方は他の言語や環境におけるデータ処理についても応用できるはずです。まずクックパッドのDMPと、冪等なジョブについて簡単に説明し、ジョブを冪等にするポイントを挙げます。また、SQL バッチジョブフレームワークである bricolage を使った、冪等なジョブの実装例を示します。クックパッドのDMPと冪等なジョブクックパッドのプライベートDMPは、データウェアハウス（社内の巨大な分析用データベースで、クックパ
- バッチ処理
- あとで読む
- cookpad
- 設計
- データ
- SQL
AWSが提唱するゼロETLとは何か？概念と登場の背景の推察 - NRIネットコムBlog
- 163 users
- tech.nri-net.com
- テクノロジー
- 2023/02/27
こんにちは、佐々木です。年末に書こうと思って、すっかり忘れていた宿題です。 2022年末のre:InventのキーノートでAWSのCEOであるAdam Selipskyが、『A Zero ETL future』という概念が提唱しました。言わんとすることは解るのですが、これは一体どういう文脈で、なんのためなのだろうと疑問に思う方は多いと思います。そこで、自分なりにデータ分析を取り巻く現状と課題、ゼロETLの概念が出てきた理由をまとめてみます。これは私自身の思考なので、全然違う可能性が高いですので、悪しからず。データ分析とETLの現状と課題ゼロETLの話をする前に、データ分析とETLの現状の話をしましょう。データ分析をする際には、必ずデータが必要です。では、そのデータはどこからやってくるのか？単一のシステム内で分析する場合もありますが、多くの場合はいろいろなシステムから必要なデータを集めて
- aws
- etl
- あとで読む
- Aurora
- redshift
- データ
- sql
- data
- bigquery
- データ分析
次世代データ基盤：データレイクハウスを Google Cloud で実現する
- 150 users
- zenn.dev/cloud_ace
- テクノロジー
- 2024/02/22
はじめにこんにちは、クラウドエースデータソリューション部の松本です。普段はデータ基盤や MLOps の構築をしたり、Google Cloud 認定トレーナーとしてトレーニングを提供しております。また、昨年は Google Cloud Partner Top Engineer 2024 に選出されました。今年も Goodle Cloud 界隈を盛り上げていけるよう頑張っていきたいと思います。クラウドエースデータソリューション部についてクラウドエースのITエンジニアリングを担うシステム開発統括部の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのがデータソリューション部です。弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があればエントリーをお待ちしております！今回は、次世代データ基盤であるデ
- BigQuery
- あとで読む
- gcp
- データ
- cloud
- Google Cloud
- google
- 分析
- クラウド
- アーキテクチャ
高性能分散SQLエンジン「Trino」最速ガイド - NTT Communications Engineers' Blog
- 124 users
- engineers.ntt.com
- テクノロジー
- 2021/12/22
こんにちは。なんの因果かNTTコミュニケーションズのエバンジェリストをやっている西塚です。この記事は、NTT Communications Advent Calendar 2021 22日目の記事です。 5分でわかる「Trino」「Trino」は、異なるデータソースに対しても高速でインタラクティブに分析ができる高性能分散SQLエンジンです。以下の特徴を持っており、ビッグデータ分析を支える重要なOSS(オープンソースソフトウェア)の1つです。 SQL-on-Anything: Hadoopだけでなく従来のRDBMS(リレーショナルデータベース)やNoSQLまで、標準SQL(ANSI SQL)に準拠したアクセスをワンストップに提供並列処理でビッグデータに対して容易にスケールアップしかも高速(hiveの数十倍) Netflix, LinkedIn, Salesforce, Shopif
- trino
- sql
- OSS
- database
- あとで読む
- presto
- データ
- hadoop
- 開発
- NTT
メルペイにおける大規模バッチ処理 | メルカリエンジニアリング
- 101 users
- engineering.mercari.com
- テクノロジー
- 2019/06/05
この記事は MERPAY TECH OPENNESS MONTH の 13日目の記事です。こんにちは、メルペイソフトウェアエンジニアの laughngman7743 です。メルペイではマイクロサービスにおけるデータストアのデータや、アプリケーションのログを有効活用できるような基盤づくりをデータプラットフォームチームとして行っています。データプラットフォームではラムダアーキテクチャに基づき、スピードレイヤとして Cloud PubSub と Cloud Dataflow を利用した仕組みに加え、バッチレイヤとして Cloud Composer と Cloud Dataflow を利用した仕組みを構築しています。この記事ではバッチレイヤのアーキテクチャについてご紹介します。スピードレイヤのアーキテクチャについては「GCPでStreamなデータパイプライン始めました」を参照くださ
AWS Data Wranglerを使って、簡単にETL処理を実現する | Amazon Web Services
- 95 users
- aws.amazon.com
- テクノロジー
- 2019/09/25
Amazon Web Services ブログ AWS Data Wranglerを使って、簡単にETL処理を実現する 2019年9月、Github上にAWS Data Wrangler(以下、Data Wrangler)が公開されました。Data Wranglerは、各種AWSサービスからデータを取得して、コーディングをサポートしてくれるPythonのモジュールです。現在、Pythonを用いて、Amazon Athena(以下、Athena)やAmazon Redshift(以下、Redshift)からデータを取得して、ETL処理を行う際、PyAthenaやboto3、Pandasなどを利用して行うことが多いかと思います。その際、本来実施したいETLのコーディングまでに、接続設定を書いたり、各種コーディングが必要でした。Data Wraglerを利用することで、AthenaやAmazo
- aws
- athena
- etl
- あとで読む
- python
- data
- pandas
- CSV
PythonでApache beam 入門
- 86 users
- shunyaueta.com
- テクノロジー
- 2020/12/26
2020-12-26 TensorFlowの勉強をしていたら、Apache beam を前処理に採用していたケースがあり、興味を持ったので深堀りしてみます。興味が湧いたモチベーションとしては、データ量が増加しても前処理部分を難なくスケールできそう(前処理部分をスケールさせて高速に実験を回したい、並列化などはすべて良い感じにbeamに任せれそうバッチとストリーミングの両者に対応可能なので、柔軟な機械学習の推論サービスが提供できるのでは? (GCPの参考資料 Data preprocessing for machine learning: options and recommendations)Apache beam を触りつつ分散データ処理を学びたいhttps://github.com/jhuangtw/xg2xg#services を見てみるとGoogle 内部のFlume という並列
- beam
- apache
- あとで読む
- Dataflow
- Python
データ基盤を支える技術 - ETLフレームワークの実践的な選び方・組み合わせ方 - JX通信社エンジニアブログ
- 86 users
- tech.jxpress.net
- テクノロジー
- 2020/07/29
JX通信社シニア・エンジニア兼データ基盤担当大臣の@shinyorke（しんよーく）です. 最近やった「ちょっとした贅沢」は「休日, 自宅で🍺片手に野球を見ながらUberEatsで注文したランチを楽しむ」です. ⚾と飲食を提供してくださる皆さまに心から感謝しております🙏 JX通信社では, 機械学習を用いたプロダクト開発・施策プロダクト・サービスの改善に関する分析日々のイベントをメトリクス化して可視化（いわゆるBI的なもの）を円滑かつ効率よく行うため, 昨年からデータ基盤を整備・運用しており, 現在では社員のみならず（スーパー優秀な）インターンの皆さまと一緒に活用し, 成果を出し始めています. ainow.ai なぜデータ基盤が必要か?どういった事をしているのか?...は上記のインタビューに譲るとして, このエントリーでは「データ基盤を支える技術 - ETL編」と称しまして, Py
- ETL
- データ基盤
- python
- workflow
- コンテナ
- データ
- あとで読む
- 運用
- docker
次世代のワークフロー管理ツールPrefectでMLワークフローを構築する CyberAgent Developers Blog | サイバーエージェントデベロッパーズブログ
- 78 users
- developers.cyberagent.co.jp
- テクノロジー
- 2022/11/02
※ DynalystではAWSを全面的に採用しているため、AirflowもManaged版を調査しています。導入後の状態 Prefect導入後は、以下の構成となりました。ポイントは以下の点です。ワークフローをDocker Image化することで、開発・本番環境の差を軽減 staging・productionはECS Taskとしてワークフローを実行、開発ではローカルPC上でコンテナ実行 ML基盤のGitHubレポジトリへのマージで、最新ワークフローが管理画面であるPrefect Cloudへデプロイ従来のyamlベースのdigdagから、DSに馴染み深いPythonベースのPrefectに移行したことで、コード量が減り開発負荷が軽減しました。 Prefect 入門 ~ 基礎 ~ 注意: 本記事ではPrefect 1系を扱います。Prefect 2系が2022年7月にリリースされてい
- MLOps
- workflow
- aws
- ツール
- あとで読む
データレイク構築後の四方山話 #DPM / 20190905
- 76 users
- speakerdeck.com/yuzutas0
- テクノロジー
- 2019/09/06
Data Platform Meetup の登壇資料です。 https://data-platform-meetup.connpass.com/event/142822/
BigQueryでのデータ追記処理における冪等化の取り組み - ZOZO TECH BLOG
- 74 users
- techblog.zozo.com
- テクノロジー
- 2022/08/16
こんにちは、MA基盤チームの田島です。私達のチームではMAIL、LINE、PUSH通知といったユーザへの配信をしています。その中でもマス・セグメント配信という一斉に行う配信では、配信対象者のセグメント抽出にBigQueryを利用しています。また、配信前に必要なデータをBigQueryに連携しデータマートの集計をしたり、配信後には配信実績の登録などの更新処理をしています。そのような処理を定期的に行っているため、ネットワークの問題やサーバーの不調などにより処理が途中で失敗することがあります。そこで、リトライを容易にするため、すべての処理を冪等にしました。今回その中でも、BigQueryの追記処理に絞ってどのように冪等化したのかについて紹介します。目次目次マス・セグメント配信基盤の紹介課題冪等化 BigQuery追記処理に関する冪等化の取り組み冪等にならないケース INSERT 初
- BigQuery
- あとで読む
- データ
- ZOZO
- クラウド
- 統計
- 技術
メルカリ社が運用する trocco & BigQuery のデータ分析基盤と経済性 #GoogleCloudDay / 20210526
- 70 users
- speakerdeck.com/yuzutas0
- テクノロジー
- 2021/05/26
Google Cloud Day: Digital ’21 の発表資料です。 https://cloudonair.withgoogle.com/events/platinum_primenumber?talk=sessionvideo ---------------------------------------------------------------------------------------------------- データドリブンに事業を推進するメルカリグループのデータ分析基盤を紹介します。 BigQuery とマネージド ETL & ワークフローサービス trocco® の活用で、Google Cloud 領域外の新規データ連携毎に発生するフルスクラッチ開発から脱却し、希少なデータエンジニア工数を創出。決済データと紐づけた営業活動分析にも成功しています。分析基盤構成
- BigQuery
- DWH
- あとで読む
- DataPlatform
- etl
- データ
- Mercari
- メルカリ
- 運用
リバースETLはデータパイプラインの何を変えるのか - satoshihirose.log
- 66 users
- satoshihirose.hateblo.jp
- テクノロジー
- 2021/06/16
はじめにリバース ETL という概念が提起されて、そのための SaaS も生まれており、面白いと思うので所感をまとめる。 Reverse ETL ? 自分が最初に Reverse ETL という言葉に触れたのは、Redpoint Ventures の Astasia Myers が 2021-02-23 に書いたこの記事だった。 Reverse ETL — A Primer. Data infrastructure has gone through an… | by Astasia Myers | Memory Leak | Medium 彼女はどんなものをリバース ETL と呼んでいるかというと Now teams are adopting yet another new approach, called “reverse ETL,” the process of moving dat
- ETL
- データ
- あとで読む
- data
- サービス
累計参加者8,500名！ #DataEngineeringStudy の43スライドから学ぶ、データエンジニアリングの羅針盤 / 20220224
- 55 users
- speakerdeck.com/yuzutas0
- テクノロジー
- 2022/02/24
primeNumber主催イベント「01(zeroONE)」兼「DataEngineeringStudy番外編」の登壇資料です。掲載内容は収録時点の情報にもとづきます。 https://01.primenumber.co.jp/ https://forkwell.connpass.com/event/237704/
- データ基盤
- あとで読む
dbtを使ったELTデータパイプライン構築と運用事例 - DataEngineeringStudy #13
- 54 users
- speakerdeck.com/10xinc
- テクノロジー
- 2022/04/07
DataEngineeringStudy #13に10Xの瀧本が登壇した際の資料です。
- dbt
- データ
- あとで読む
- sql
- ツール
[アップデート] 1行たりともコードは書かない！AWS GlueでストリーミングETLが可能になりました | DevelopersIO
- 47 users
- dev.classmethod.jp
- テクノロジー
- 2020/04/30
先日のアップデートで AWS Glue がストリーミング ETL をサポートするようになりました！ AWS Glue now supports serverless streaming ETL New – Serverless Streaming ETL with AWS Glue なにが嬉しいのかまず、AWS Glue？ナニソレ？という方は、是非、以下の再入門ブログをお読みください。 AWS Glue はフルマネージドでサーバーレスな ETL（抽出/変換/ロード）サービスですが、これまでデータソースとしては S3、RDS、Redshift・・・etc といったデータストレージのみが対象でした。そのため、Kinesis Data Streams や Apache Kafka といったストリーミングデータに対して Glue を組み込んだ ETL 処理は出来ませんでした。従来であれば、例え
- AWS
- Glue
- aws_Glue
- ETL
- あとで読む
- techfeed
PythonのPipelineパッケージ比較：Airflow, Luigi, Gokart, Metaflow, Kedro, PipelineX - Qiita
- 46 users
- qiita.com/Minyus86
- テクノロジー
- 2020/02/04
PythonのPipelineパッケージ比較：Airflow, Luigi, Gokart, Metaflow, Kedro, PipelineXPythonワークフローデータサイエンスPipelineETL この記事では、Open-sourceのPipeline/Workflow開発用PythonパッケージのAirflow, Luigi, Gokart, Metaflow, Kedro, PipelineXを比較します。この記事では、"Pipeline"、"Workflow"、"DAG"の単語はほぼ同じ意味で使用しています。要約 👍: 良い 👍👍: より良い 2015年にAirbnb社からリリースされました。 Airflowは、Pythonコード（独立したPythonモジュール）でDAGを定義します。（オプションとして、非公式の dag-factory 等を使用して、YAML
- workflow
- Airflow
- python
- MLOps
- あとで読む
GitHub - PRQL/prql: PRQL is a modern language for transforming data — a simple, powerful, pipelined SQL replacement
- 43 users
- github.com/PRQL
- テクノロジー
- 2022/01/25
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- SQL
- Rust
- PostgreSQL
- GitHub
- あとで読む
AWS Glueを使った Serverless ETL の実装パターン
- 42 users
- speakerdeck.com/seiichi1101
- テクノロジー
- 2021/07/30
本セッションでは、「AWSを使ってサーバーレスなETL処理をしたいけど、どうやっていいか分からない？」といった方に向けて、AWS Glueと周辺サービスを利用した実装方法（コーディング、テスト、デプロイ、モニタリングなど）を紹介します。
Terraformとdbtを活用してデータ基盤整備の生産性が向上した話
- 42 users
- zenn.dev/shinoki
- テクノロジー
- 2024/03/01
はじめに私が所属しているライフイズテックのデータ基盤グループで、ここ2年ほどでdbtとterraformを活用してDataOpsを進め、データ基盤の整備の生産性が向上した話をまとめます。導入前の状況と課題弊社のデータ基盤ではデータ基盤が綺麗に整備されていることよりも、プロダクトや事業に貢献できているかを重要と考え、まずデータを使える状態にすることを目指したサービスの導入や基盤構築を行いました。考え方としてはこちらの DWHにおけるデータモデリングで大事にしている考え方に書かれている内容に近い考え方になります。そのため、データモデリングの前にRedashやCRM AnalyticsというBIツール向けにデータレイクからデータマートを先に構築していました。 terraformとdbt導入前は、図のような流れで SQLでSnowflake上にDBやスキーマなどを作成 ELTサービスとし
AI-OCRを支える非同期処理アーキテクチャ - LayerX エンジニアブログ
- 40 users
- tech.layerx.co.jp
- テクノロジー
- 2021/05/17
こんにちは！LayerXエンジニアの高際 @shun_tak です！この記事では、LayerX インボイスの請求書AI-OCRを支える非同期処理の仕組みについて解説したいと思います。いきなりサマリーですが、今回お伝えしたいのは以下の2点です。請求書は突然大量にアップロードされるので（大歓迎です！）、Amazon SQSとGoの machinery を活用して非同期処理しているよ！ AI-OCRの処理は重たいけど、AWS Lambdaを活用してシステム全体の負荷を分散し、スケーラビリティと可用性を確保し、コストも抑えることができたよ！では早速ですが、前回のブログ LayerX インボイスにおける請求書AI-OCRの概要の復習です。LayerX インボイスの請求書AI-OCRは、以下の図のように複数の処理によって構成されています。図にするとあっさりしてますが、前処理も後処理も複数の
Dataformでデータ分析基盤を整備した話 - Adwaysエンジニアブログ
- 39 users
- blog.engineer.adways.net
- テクノロジー
- 2022/07/22
こんにちは佐藤です。今回はサービスのデータ分析基盤を作成する際に使用したDataformについて紹介させていただきます。背景 Dataformについて導入して良かったこと依存関係がわかりやすいクエリのテスト工夫した点フォルダの構成についてデータセット名、テーブル名についてシャーディングテーブルの定義について最後に背景現在、広告部署に所属する私たちのチームは自社のサービスデータと外部データを分析してユーザーの利用率向上につながる仮説検証をおこなうプロジェクトを進めています。その中で様々なデータをTableauを用いて分析しており、データソースとして主にBigQueryを使用しているのですが、現状、分析データの加工、集計処理についてBigQueryのスケジュールされたクエリで作成したりtableau側のカスタムクエリで作成したりと対応方法がバラバラで管理自体ができてい
Cloud Composer & Dataflow によるバッチETLの再構築 #data_ml_engineering / 20190719
- 32 users
- speakerdeck.com/yuzutas0
- テクノロジー
- 2019/07/19
データとML周辺エンジニアリングを考える会#2の発表資料です。 https://data-engineering.connpass.com/event/136756/
レガシー化したData Pipelineの廃止 ― メルカリのData Architectのお仕事例｜Mercari Analytics Blog
- 30 users
- note.com/mercari_data
- テクノロジー
- 2021/08/31
Analytics Infra チームの@hizaです。この記事ではメルカリの分析環境を改善した事例を紹介します。今回は「運用に課題があってリプレースしたいが、業務への影響が大きすぎてリプレースできない」そんな板挟みな状況を解決した事例です。また、その紹介を通じてメルカリのData Architectがどんな仕事をしているのかその一部を感じてもらえる記事をめざしました。メルカリのデータ活用の現状メルカリには様々な職種でデータを活用する文化があります。 AnalystやML Engineerの他にも、PdMやCustomer Supportなども業務にデータを活用しています。結果として社内のBigQueryユーザー数は月間800名を超えるほどになりました。こういった環境ではデータが良く整備されている事が事業の成果に大きく影響しえます。例えば、使いやすいDWHがあれば多数の社員の業
- architecture
(翻訳) データエンジニアリングの未来 - satoshihirose.log
- 28 users
- satoshihirose.hateblo.jp
- テクノロジー
- 2019/09/16
訳者まえがき原著者の Chris Riccomini の許可を得て以下の記事を翻訳・公開しました。 riccomini.name 下記より記事翻訳本文です。データエンジニアリングの未来私は最近、近頃のデータエンジニアリングがこれまで来た道について、また、この分野の仕事の将来について考えてきました。考えのほとんどは、私たちのチームが WePay で実践していることを背景にしています。その一方、以下に述べる考えは普遍的で、共有する価値があるものと思っています。データエンジニアリングの仕事は、組織におけるデータの移動と処理を支援することです。これには、一般的に、データパイプラインとデータウェアハウスという2つの異なるシステムが必要です。データパイプラインはデータの移動を担当し、データウェアハウスはデータの処理を担当します。これは、やや過度に単純化しています。バッチ処理とストリーム処理では
ML Pipeline for Kaggleのススメ - 重み元帥によるねこにっき
- 26 users
- mocobt.hatenablog.com
- テクノロジー
- 2020/03/18
はじめに Bengali.AI Handwritten Grapheme ClassificationというKaggleの画像コンペに参加しました．ベンガル語の書記素(grapheme)が1つ描かれた画像から，その書記素がどのようなクラスに属するかを分類する問題設定で，簡単に言えば少し難しいmnistです．順位が察し*1だったので解法については差し控えますが，円滑にモデルを生成するためにPipelineを組みました．「せっかくだから次回以降のコンペでも使えるように抽象的に書こう！！」というモチベーションのもと生まれたスパゲッティ🍝は以下の通りです． github.com この記事では，自戒を込めて，Kaggle用途にPipelineを作成して得られた知見をまとめます．また使用FrameworkがPyTorchなので，一部PyTorchにしか当てはまらないことがあります．あくまで
TechCrunch | Startup and Technology News
- 26 users
- jp.techcrunch.com
- テクノロジー
- 2019/08/16
Hello, friends, and welcome to Week in Review, TechCrunch’s regular digest of the top tech news over the past several days. Sign up here to get it in your inbox every Saturday. It’s where
- あとで読む
AWS_ETL_services_tips_202107.pdf
- 25 users
- pages.awscloud.com
- テクノロジー
- 2021/11/15
Airbyte | Open-Source Data Integration Platform | ELT tool
- 24 users
- airbyte.com
- テクノロジー
- 2021/01/28
15,000+(data) practitioners use Airbyte to sync from the largest catalog of structured and unstructured data sources to data warehouses and databases.
- ETL
- startup
- OSS
- API
- data
- GitHub
- あとで読む
- airbyte
Embulkのcoreのソースコードから紐解くデータ転送のしくみ
- 22 users
- zenn.dev/gtnao
- テクノロジー
- 2023/12/06
この記事は trocco Advent Calendar 2023 の6日目の記事となります。はじめに今回はtroccoの内部でも利用されているETLのためのOSSであるEmbulkについて、core部分のソースコードリーディングを通して、そのしくみを紐解いていきたいと思います。おことわり Embulkの基本的な使い方などについては解説しません。筆者はembulk-coreにコントリビュートしているわけではないので、間違いなどがあればお気軽にご指摘ください。今回見ていくcoreの実装自体は、比較的変更が少ないとされる各種プラグインが従うべきインターフェース部分(embulk-spi)から隠蔽されているため、今後この記事の内容が正しくなくなる可能性は容易にあります。 Embulkにはguessやpreviewやresumeといった機能も含まれていますが、今回は単純なembulk r
- embulk
- ETL
- あとで読む
- データ
- 統計
GCPのデータ処理・ETL系サービスの使い分け - Qiita
- 22 users
- qiita.com/tomoyanamekawa
- テクノロジー
- 2020/12/15
本記事は Classi Advent Calendar 2020 15日目の記事です。こんにちは。データAI部でデータエンジニアをしている@tomoyanamekawaです。 GCPにはデータ処理関連のサービスが複数あり、「Aにあるデータを加工してBに置きたい」といった処理（ETL処理）の実現方法がGCP内のサービスに限っても様々な選択肢があります。また、data*といった似た名前のサービスが多く、初見だとわかりづらい部分があります。そこでそれらサービスの使い分けの参考になればと思ってまとめます。 GCPにあるETL処理関連のサービス紹介 ETL処理に関連するサービスだけでも下記のように複数あります。 Cloud Composer Apache Airflowをベースにしたワークフロー管理サービス。裏でGKEが立っていてユーザーからクラスターやインスタンスも見えて、少し管理が必要な
- GCP
- BigQuery
- cloud
- data
- サービス
- あとで読む
- qiita
Step FunctionsとPandasを使ってサーバーレスETL入門 | DevelopersIO
- 21 users
- dev.classmethod.jp
- テクノロジー
- 2021/03/24
こんにちは、クラスメソッドの岡です。今回Step Functionsを使って簡単なETL処理を試す機会があったので実際に作ったものを公開します。サーバーレスでETL処理、といえばAWS Glueが浮かぶかと思いますが、今回はGlueは使わず、LambdaのPythonランタイムでPandasを使ってS3のデータとDynamoDBのデータを結合するような処理を行ってみたいと思います。ちなみに私はデータ分析に関する知識はほぼ皆無ですが、PythonライブラリPandasを使う事で簡単にデータ処理を行えました。シナリオ今回はIoTデバイスから送られてくる時系列データがS3に出力されている前提として、そのファイルとDynamoDBにあるデバイスのマスタデータと結合して分析データとして別のS3バケットに出力する、といったシナリオを想定しています。構成サンプルコード今回はServerl
- ETL
- aws
- pandas
- lambda
- Python
BigQueryにおけるdbtの増分更新についてまとめてみた - Timee Product Team Blog
- 21 users
- tech.timee.co.jp
- テクノロジー
- 2023/12/08
はじめに ※Timeeのカレンダー | Advent Calendar 2023 - Qiitaの12月8日分の記事です。 okodooooooonです BigQueryの料金爆発。怖いですよね。 dbtでの開発が進んでたくさんのモデルを作るようになると、デイリーのビルドだけでも凄まじいお金が消えていったりします（僕はもう現職で数え切れないくらいやらかしてます）。コストの対策として「パーティショニング」「クラスタリング」などが挙げられますが、今回は「増分更新」の観点で話せたらと思います。「dbtのmaterialized=’incremental’って増分更新できておしゃれでかっこよくてコストもなんとなく軽くなりそう！」くらいの認識でさまざまな失敗を経てきた僕が、BigQueryにおけるincrementalの挙動を説明した上で、タイミーデータ基盤における増分更新の使い方についてまとめ
AWS Glue ETLワークロードをGUIでオーケストレーションする『Workflows』を実際に試してみました | DevelopersIO
- 19 users
- dev.classmethod.jp
- テクノロジー
- 2019/06/21
AWS Glueは、ワークフローを用いて、クローラ、ジョブ（及びトリガ）の有向非循環グラフ（DAG）を作成して、ETLワークロードをオーケストレーションできるようになりました。AWS Glueが利用可能なすべての地域で利用できるようになりましたので早速試してみます。 Workflowsとは Workflowsの作成 Workflowのシナリオ新規Workflowの追加 Workflowにエンティティを追加 Workflowの実行実行結果の管理制限事項まとめ AWS Glue now provides workflows to orchestrate your ETL workloads Workflowsとは Workflowsは、既存のクローラ、ジョブ（及びトリガ）をGlueコンソール上のGUIを用いて有向非循環グラフ（DAG）を作成、実行、管理できる新機能です。これからは、クロ
- AWS Glue
- workflow
- AWS
- あとで読む
社内勉強会「Modern Data Stack入門」の内容をブログ化しました - PLAID engineer blog
- 19 users
- tech.plaid.co.jp
- テクノロジー
- 2024/01/26
プレイドの社内向けに行ったModern Data Stack勉強会の内容が好評だったので、データ基盤に携わる方に向けてModern Data Stackの概要、主要サービス、重要だと思うトレンドをまとめました。
- database