dataflowの人気記事 26件 - はてなブックマーク

1 - 26 件 / 26件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

dataflowの検索結果1 - 26 件 / 26件

PythonでApache beam 入門
- 87 users
- shunyaueta.com
- テクノロジー
- 2020/12/26
2020-12-26 TensorFlowの勉強をしていたら、Apache beam を前処理に採用していたケースがあり、興味を持ったので深堀りしてみます。興味が湧いたモチベーションとしては、データ量が増加しても前処理部分を難なくスケールできそう(前処理部分をスケールさせて高速に実験を回したい、並列化などはすべて良い感じにbeamに任せれそうバッチとストリーミングの両者に対応可能なので、柔軟な機械学習の推論サービスが提供できるのでは? (GCPの参考資料 Data preprocessing for machine learning: options and recommendations)Apache beam を触りつつ分散データ処理を学びたいhttps://github.com/jhuangtw/xg2xg#services を見てみるとGoogle 内部のFlume という並列
- beam
- apache
- あとで読む
- Dataflow
- Python
AWSエンジニアから見たGCP(データ分析編)
- 49 users
- techblog.gmo-ap.jp
- テクノロジー
- 2023/05/30
こんにちは、GMOアドマーケティングインフラ開発部のhakumaiです。前回の記事「AWS SAPを取得したら視野が広がった話」を読んでいただいた方々、ありがとうございます。今回のテーマは「AWSエンジニアから見たGCP」第2弾として、代表的なGCPのコンピューティング系サービスについてAWSと比較し感じた点についてお話いたします。 (第1弾の記事はこちら↓)IaaSCompute EngineAWSではEC2に相当するサービス。各種インスタンスタイプや提供OSイメージ、インスタンス向けのストレージ機能、オートスケール機能など、インスタンスのアーキテ... DWH BigQuery BigQueryはフルマネージドなサーバレスDWHサービスで、Googleが開発した大規模データ向けの分散システムであるDremelを基にしておりSQLクエリを使用して大規模データの分析を行うことができる。さ
- GCP
- aws
- あとで読む
- 分析
- データ
Cloud Composer & Dataflow によるバッチETLの再構築 #data_ml_engineering / 20190719
- 33 users
- speakerdeck.com/yuzutas0
- テクノロジー
- 2019/07/19
データとML周辺エンジニアリングを考える会#2の発表資料です。 https://data-engineering.connpass.com/event/136756/
GO TechTalk #19 タクシーアプリ『GO』事業成長を支えるデータ分析基盤の継続的改善！
- 22 users
- speakerdeck.com/mot_techtalk
- テクノロジー
- 2023/06/05
■ 内容・タクシーアプリ『GO』のデータ基盤の全体像（鈴木） p. 3~ ・車両位置情報データの圧縮によるCloud Pub/Subのコスト削減（牧瀬） p. 8~ ・AWS Aurora S3 Export を利用した、負荷をかけない GCP BigQuery へのデータ連携 (伊田) p. 23~ ・到着予想時間（ETA）サービスの特徴量のニアリアルタイム化（鈴木） p. 39~ ■ YouTube https://www.youtube.com/live/sD8IpwoIkaw?feature=share&t=170 ■ connpass https://jtx.connpass.com/event/282134/
Get Started with TensorFlow Transform | TFX
- 18 users
- www.tensorflow.org
- テクノロジー
- 2019/10/08
This guide introduces the basic concepts of tf.Transform and how to use them. It will: Define a preprocessing function, a logical description of the pipeline that transforms the raw data into the data used to train a machine learning model. Show the Apache Beam implementation used to transform data by converting the preprocessing function into a Beam pipeline. Show additional usage examples. Setup
- 前処理
- 機械学習
TechCrunch | Startup and Technology News
- 17 users
- jp.techcrunch.com
- テクノロジー
- 2020/02/22
European Union enforcers of the bloc’s online governance regime, the Digital Services Act (DSA), said Thursday they’re closely monitoring disinformation campaigns on the Elon Musk-owned social network X (formerly Twitter)…
Dataflow の Day 2 Operation ベタープラクティス
- 13 users
- zenn.dev/google_cloud_jp
- テクノロジー
- 2023/08/03
Google Cloud Japan の RyuSA です。👋 最近「 Pub/Sub からイベントとデータを引っ張って BigQuery に投げ込みたい」「 Cloud Spanner の変更ストリームを BigQuery に配置し、データを分析に使いたい」など、様々な用途で大量なデータの処理のために Dataflow を利用いただいているのを観測しています。👀 さて、巨大な分散処理をマネージドで実行してくれる便利な Dataflow ですが、運用する上でいくつか気を付けないといけないことがあります。そしてそれらの多くは「問題が発生してから」発覚することが多いです。この記事では「 Dataflowジョブの運用に関しての FAQ やよくある問題」に対する回答をまとめておきました。監視 / 可観測性 Q: ジョブのログベースの監視のベストプラクティスをおしえて！ A. ログベース監視を
Dataflowが解決するストリーミング処理の課題と基盤構築で考慮すること - case-kの備忘録
- 9 users
- www.case-k.jp
- テクノロジー
- 2019/11/09
Dataflowが解決するストリーミング処理の課題と基盤を作る上で考慮すべき点をいくつか資料を参考に備忘録もかねて整理してみました。ストリーミング処理の概要ストリーミング処理とはバッチ処理との違いストリーミング処理の課題データ量と変動性遅延データの扱い異なるプログラミングモデル Dataflowでどのように解決すのかオートスケール遅延データの制御プログラミングモデルの統一遅延データの制御　(機能詳細) ウィンドウとは固定ウィンドウスライディングウィンドウセッションウィンドウウォーターマークとはトリガーとはアキュミュレーションとは破棄モード累積モード累積＆後退モード Dataflowでストリーミング処理の基盤作成で考慮すること何を計算するか？(ETL) イベント時間のどこを対象にするか？(ウィンドウ) 処理時間のどの時点を対象にするか？(ウォータ
- dataflow
- cloud
Cloud DataflowのテンプレートにPythonの外部パッケージを利用する - YOMON8.NET
- 9 users
- yomon.hatenablog.com
- テクノロジー
- 2019/12/17
Cloud Dataflow + Python で作るテンプレートを登録する際に、pipでインストール可能なPyPiなどの外部パッケージをどうやって組み込むか調べました。 requirements.txtでpypi等の外部パッケージ使う方法設定例テンプレート作成 setup.pyでローカルパッケージも使う方法設定例関連 requirements.txtでpypi等の外部パッケージ使う方法結局ドキュメントは見つからなかったのですが、ソースコード読んでいたら以下のオプションを見つけました。 class SetupOptions(PipelineOptions): @classmethod def _add_argparse_args(cls, parser): # Options for installing dependencies in the worker. parser.ad
- あとで読む
社内データパイプラインツールを Mercari Dataflow Template としてOSS化しました | メルカリエンジニアリング
- 8 users
- engineering.mercari.com
- テクノロジー
- 2020/12/11
Merpay Advent Calendar 2020 の10日目の記事です。こんにちは。Merpay Solutions Teamの @orfeon です。３ヶ月ほど前のブログ記事でメルペイでのFlexTemplateの活用例を紹介しましたが、ここで使われていたソフトウェアを先日、OSSとして公開しました。この記事ではこのOSSとして公開したMercari Dataflow Templateについて紹介します。 BigQueryから取得したデータを別のDatabaseサービスに保存したり、異なるデータソースからのデータをSQLで結合・加工したり、AWSのS3にデータを出力したりなどなど、GCP上での何らかのデータの処理に関わられている方は役立つケースがあるかもしれないのでぜひご一読頂ければ幸いです。 Mercari Dataflow Templateとは何か Mercari Dat
- GCP
- dataflow
Cloud Dataflow と Apache Beam に入門した - public note
- 6 users
- ts223.hatenablog.com
- テクノロジー
- 2021/07/18
BigQuery にストリーミングインサートしたい気持ちが高まってきて Cloud Dataflow と Apache Beam に入門しました。Cloud Pub/Sub -> Cloud Dataflow -> BigQuery のルートで取り込むにあたり、事前知識を得ることが目的です。 Apache Beam 特徴 Tour of Beam Transform Map FlatMap Filter Partition ParDo setup() start_bundle() process() finish_bundle() teardown() Custom Transform Windowing Fixed windows Sliding windows Session windows Beam パイプラインの設計 Cloud Dataflow 特徴 Pub/Sub to Big
DataflowでPython3系を使って良いのか検討してみた - case-kの備忘録
- 6 users
- www.case-k.jp
- テクノロジー
- 2019/11/02
DataflowでPython3系を使って良さそうか調べてみました。 Python3系を使いたい理由 DataflowのPython3系のサポート状況について Apach Beamのissueについて動作確認ストリーミング処理は？結論(個人的な) Python3系を使いたい理由 DataflowはETLツールなのでデータ加工が主な役割です。Dataflowのサポートする言語としてJavaやGoも扱えますが、Pythonと比較すると機械学習系のライブラリが不足していたり、学習コストも高いです。またバッチ処理を作る前に行う分析作業はJupyterで行うため、Pythonで作ったコードも使えません。また、Python2系は以前よりDataflowでサポートされてますが、2020年目処にPython2系は非推奨となります。なので3系でDataflowを使いたいと考えてます。 Dataflow
- python
- あとで読む
Dataflowのテンプレートを作ってみる
- 6 users
- techblog.gmo-ap.jp
- テクノロジー
- 2020/11/16
GMOアドマーケティングのT.Kです。既存のバッチ処理をDataprocからDataflowへ移植する際にDataflowのテンプレートが気になったので、入門ガイドのクラシックテンプレートの作成を参考にして、WordCountのコードを改修してテンプレートを作ってみます。テンプレート作成コマンド gradle clean execute -DmainClass=org.apache.beam.examples.WordCount \ -Dexec.args="--project=<YOUR_PROJECT_ID> \ --runner=DataflowRunner \ --region=us-central1 --stagingLocation=gs://<YOUR_BUCKET_NAME>/staging \ --templateLocation=gs://<YOUR_BUCKE
Dataflow と Pub/Sub を使用して、ストリーミングパイプラインの重複データを処理する | Google Cloud 公式ブログ
- 5 users
- cloud.google.com
- テクノロジー
- 2021/09/14
※この投稿は米国時間 2021 年 8 月 24 日に、Google Cloud blog に投稿されたものの抄訳です。目的ストリーミングデータを処理して分析情報を抽出し、リアルタイムアプリケーションを強化することはますます重要になっています。Google Cloud Dataflow と Pub/Sub には、ミッションクリティカルなパイプラインを実行するための、スケーラビリティと信頼性に優れた、完成されたストリーミング分析プラットフォームが用意されています。このようなパイプラインの設計に際して、デベロッパーは、重複データの処理をどのように行うかという課題に頻繁に直面します。このブログでは、ストリーミングパイプラインで重複データがよく発生する場所や、その処理に利用できるいくつかの方法について説明します。また、同じトピックについて説明しているこちらの技術解説もぜひご覧ください。
Cloud Dataflow for Java 雑多なノウハウ集 - 実装編 - Qiita
- 5 users
- qiita.com/yoshizow
- テクノロジー
- 2019/10/17
Google Cloud Dataflow に触る機会があったのですが、いまいちドキュメントが薄く、また自分が分散処理フレームワーク未経験だった事もあり、いろいろハマったので、得られた知見を書いておきます。本記事は実装編ということで、Dataflow パイプラインのコードを書くに当たっての知見をまとめます。なお Cloud Dataflow は Apache Beam の実行環境の1つという位置付けです。以下の内容は特に明記していない限り Apache Beam にも当てはまります。確認した環境は Apache Beam SDK for Java 2.13.0 です。想定読者は、Beam 関連のドキュメント、特に Beam Programming Guide を読んだことのある方、です。 Window FixedWindows や SlidingWindows の期間はキリが良い時
- Beam
- dataflow
新しい高速アーキテクチャにより、多言語 Dataflow パイプラインが利用可能に | Google Cloud 公式ブログ
- 5 users
- cloud.google.com
- テクノロジー
- 2020/09/04
※この投稿は米国時間 2020 年 8 月 22 日に、Google Cloud blog に投稿されたものの抄訳です。開発チームとデータサイエンスチームが異なる言語の SDK で作業している場合や、好みのプログラミング言語では利用できない機能がある場合はどうしていますか？従来は、さまざまな言語をブリッジする回避策を講じなければならず、それができない場合はコーディングし直すしかありませんでした。これは時間や費用がかかるだけでなく、チームのコラボレーション能力にとって大きな足かせになります。 Dataflow Runner v2 の概要この問題を克服するために、Runner v2（パイプラインを構築するすべてのユーザーが利用可能）という新しいサービスベースのアーキテクチャが Dataflow に追加されました。この機能には、すべての言語 SDK をサポートする多言語対応が含まれています
- data
- google
Pythonで書くDataflowテンプレートでサードパーティ製JDBCドライバを使う - YOMON8.NET
- 5 users
- yomon.hatenablog.com
- テクノロジー
- 2019/12/20
この記事の続きです。 yomon.hatenablog.com 以下にもある通り、今書いている時点ではApache BeamのPython SDKはビルトインでJDBC対応していません。 beam.apache.org PythonでJDBCドライバ使いたかったのはDataflowのPython SDK使ってもJDBC接続使いたかったからです。上記の記事でJDBCをPythonから使えるところは確認できているので、今度はDataflowにテンプレート登録してみます。 Pythonコード準備作業用GCSバケット作成 Dataflowテンプレート登録 Dataflowテンプレートの実行 ParDoで使う 2020/10/02追記 Pythonコード準備 requirements.txt を準備します。 ※ 記事書いている時点のJayDeBeApiのPyPi上のバージョンだとJPype1==
- python
DataflowのFlexテンプレートとScioで動的なパイプラインを実現する - エムスリーテックブログ
- 4 users
- www.m3tech.blog
- テクノロジー
- 2020/12/16
はじめに本記事はエムスリー Advent Calendar 2020の12日目の記事です。エンジニアリンググループの西名(@mikesorae)です。私のチームでは医療に関する様々なデータを集計して分析レポートの作成を行っています。クライアントの要望に応じて条件や分析軸を変更するために、これまではRubyで動的にSQLを組み立てて集計を行っていましたが、条件が複雑なため出力されるSQLが3000行近くになり、デバッグやテストも困難なためメンテナンス工数が多くかかっていました。また、データ数の増加に伴ってSQLの実行時間も次第に長くなり、このまま行くと継続的なサービス提供ができなくなるリスクがあったため、BigQuery + Google Cloud Dataflow + Scioによる作り直しを決断しました。 Google Cloud Dataflowの導入にあたって公式ドキュメ
- GCP
DataflowとBigQueryで始める大規模データ分析基盤実装入門 - TECH PLAY Magazine
- 4 users
- techplay.jp
- テクノロジー
- 2022/11/04
大量に蓄積されたデータを活用するためには、データ分析基盤の構築が必要になる。だが、専門知識を持つ人材やデータ分析にかける予算確保は容易くはない。そこで、電通国際情報サービス(ISID)の全社横断的な研究開発部門である、X（クロス）イノベーション本部ソフトウェアデザインセンターの佐藤太一氏が、自らの経験をもとにDataflowとBigQueryで大規模データ分析基盤を実装する方法を紹介。その際に重要となるコスト観も合わせて解説した。データ分析基盤構築における考え方とシステムアーキテクチャ佐藤太一氏株式会社電通国際情報サービス(ISID) Xイノベーション本部ソフトウェアデザインセンター今回登壇した佐藤太一氏が所属する電通国際情報サービス（以下、ISID）のXイノベーション本部は、全社横断的な研究開発部門。佐藤氏はGitHubやJIRAなどの現代的な構成管理ツールの利用促進や部門横
【GCP】GCSにあるZipfilesをBigqueryに~Dataflowによる実装 - Qiita
- 3 users
- qiita.com/SHA_AKA
- テクノロジー
- 2023/04/05
一、背景背景：AdobeAnalyticsのデータをBigqueryに蓄積して活用しようということで、1時間分のCSVデータをZipfiles形式で1時間ごとGoogleCloudStorageに転送されていて、その後Bigqueryにテーブルとして集約します。元々はDataproc上のSparkJobで処理しているですが、コスパを考えてDataflowへの移行を決まりました。実行するための権限周りについてはGoogleの公式ドキュメントまでご参照いただければ幸いです。二、アーキテクチャ今回のアーキテクチャは下記のようになります。 GCS上に格納されるZIPファイルをトリガーとして、CloudFuntionsを起動し、その後Dataflowに送信してflexTemplatesのJobを実行し、CSVデータをBigqueryのテーブルにアウトプットします。三、ApacheBeam
- 開発
GitHub - mercari/DataflowTemplate: Mercari Dataflow Template
- 3 users
- github.com/mercari
- テクノロジー
- 2021/04/16
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
あらゆる Dataflow パイプラインを再利用可能なテンプレートに変換 | Google Cloud 公式ブログ
- 3 users
- cloud.google.com
- テクノロジー
- 2020/10/12
※この投稿は米国時間 2020 年 10 月 2 日に、Google Cloud blog に投稿されたものの抄訳です。組織内におけるデータ分析の増大にともない、ビジネスチームには、バッチジョブとストリーミングジョブを実行し、エンジニアが作成したコードを活用できる機能が必要となります。しかし、既存のコードを再実行するには、多くの場合、開発環境を設定してコードを少し変更する必要がありますが、これはプログラミングのバックグラウンドがない人にとっては大きな課題となります。この課題を念頭に置き、Google はこのほど、 Dataflow フレックステンプレートを導入しました。これにより、あらゆる Dataflow パイプラインを、誰でも実行できる再利用可能なテンプレートにより簡単に変換できるようになります。既存のクラシックテンプレートでも、デベロッパーはテンプレートを介してバッチおよび
BigQuery にニアリアルタイム連携を導入しようとしている話 — HACK The Nikkei
- 3 users
- hack.nikkei.com
- テクノロジー
- 2023/08/08
そのためストリーミング処理をしてニアリアルタイム処理するといったものはそもそも要件として存在しないため、バッチで安定的にデータの取り込みを行い、クエリ時の負荷を下げるためにデータの取り込み時に重複排除をする仕組みを構築しました。その概要が以下の図です。ファイルからデータ連携されたデータを重複ありの状態で受付け、1 時間に 1 回重複排除したデータを行動ログテーブルにマージする、というのが大まかな手法の説明です。このコンポーネントは atlas-consumer-s3 と呼ばれます。 2. 旧来の仕組みの課題上記の仕組みで大きな障害も発生せずに運用できていましたが、以下のような課題を抱えていました。 2-1. 原因不明の不具合によりデプロイ時に Kinesis からの 1 日分の読み直し作業が発生する 2-2. 新規カラム追加の実装/作業が煩雑 2-3. データの整合性の検証が不十分 2
データ統合に欠かせないApache Airflow、どのような企業にマッチするのか
- 3 users
- xtech.nikkei.com
- テクノロジー
- 2022/05/24
DX（デジタルトランスフォーメーション）を推進するうえで、データを効率よく扱うためのデータ統合は欠かせません。統合のためのツール選びも重要です。そうした「統合ジョブ管理ツール」の領域はこれまでプロプライエタリー製品およびそれらをクラウドに対応させた製品が多く利用されてきましたが、現在この分野でもオープンソースソフトウエア（OSS）が使われるようになっています。タスクの依存関係をベースとしたフロー定義が可能で、主要なクラウドプラットフォームとも連係しやすい「Apache Airflow」が注目されています。今回は「Google Cloud」や「Amazon Web Services（AWS）」といった主要クラウドでマネージドサービスとして提供されているApache Airflowを解説します。なぜ統合ジョブ管理ツールが必要なのか多くの場合、全てのデータが単一のシステムに保存されている
Python 3 and Python streaming now available | Google Cloud Blog
- 3 users
- cloud.google.com
- テクノロジー
- 2019/11/07
Introducing Python 3, Python streaming support from Cloud Dataflow Streaming analytics is becoming an essential part of data platforms, helping businesses collect and analyze data in real time. At Cloud Dataflow, we’ve noticed a few trends in the data engineering industry. First, Python is emerging as one of the most popular choices for data analysts, and second, a growing number of apps are power
DataflowTemplates/v2/cdc-parent/README.md at main · GoogleCloudPlatform/DataflowTemplates
- 3 users
- github.com/GoogleCloudPlatform
- テクノロジー
- 2020/02/11
This directory contains components for a Change-data Capture (CDC) solution to capture data from an MySQL database, and sync it into BigQuery. The solution relies on Cloud Dataflow, and Debezium, an excellent open source project for change data capture. To implement the CDC solution in this repository: Deploy a Debezium embedded connector for MySQL Start a Dataflow pipeline that syncs MySQL and Bi
- mysql