並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 26 件 / 26件

新着順 人気順

dataflowの検索結果1 - 26 件 / 26件

  • PythonでApache beam 入門

    2020-12-26 TensorFlowの勉強をしていたら、Apache beam を前処理に採用していたケースがあり、興味を持ったので深堀りしてみます。 興味が湧いたモチベーションとしては、 データ量が増加しても前処理部分を難なくスケールできそう(前処理部分をスケールさせて高速に実験を回したい、並列化などはすべて良い感じにbeamに任せれそうバッチとストリーミングの両者に対応可能なので、柔軟な機械学習の推論サービスが提供できるのでは? (GCPの参考資料 Data preprocessing for machine learning: options and recommendations)Apache beam を触りつつ分散データ処理を学びたいhttps://github.com/jhuangtw/xg2xg#services を見てみるとGoogle 内部のFlume という並列

      PythonでApache beam 入門
    • AWSエンジニアから見たGCP(データ分析編)

      こんにちは、GMOアドマーケティング インフラ開発部のhakumaiです。前回の記事「AWS SAPを取得したら視野が広がった話」を読んでいただいた方々、ありがとうございます。今回のテーマは「AWSエンジニアから見たGCP」第2弾として、代表的なGCPのコンピューティング系サービスについてAWSと比較し感じた点についてお話いたします。 (第1弾の記事はこちら↓)IaaSCompute EngineAWSではEC2に相当するサービス。各種インスタンスタイプや提供OSイメージ、インスタンス向けのストレージ機能、オートスケール機能など、インスタンスのアーキテ... DWH BigQuery BigQueryはフルマネージドなサーバレスDWHサービスで、Googleが開発した大規模データ向けの分散システムであるDremelを基にしておりSQLクエリを使用して大規模データの分析を行うことができる。さ

        AWSエンジニアから見たGCP(データ分析編)
      • Cloud Composer & Dataflow によるバッチETLの再構築 #data_ml_engineering / 20190719

        データとML周辺エンジニアリングを考える会#2の発表資料です。 https://data-engineering.connpass.com/event/136756/

          Cloud Composer & Dataflow によるバッチETLの再構築 #data_ml_engineering / 20190719
        • GO TechTalk #19 タクシーアプリ『GO』事業成長を支えるデータ分析基盤の継続的改善!

          ■ 内容 ・タクシーアプリ『GO』のデータ基盤の全体像(鈴木) p. 3~ ・車両位置情報データの圧縮によるCloud Pub/Subのコスト削減(牧瀬) p. 8~ ・AWS Aurora S3 Export を利用した、負荷をかけない GCP BigQuery へのデータ連携 (伊田) p. 23~ ・到着予想時間(ETA)サービスの特徴量のニアリアルタイム化(鈴木) p. 39~ ■ YouTube https://www.youtube.com/live/sD8IpwoIkaw?feature=share&t=170 ■ connpass https://jtx.connpass.com/event/282134/

            GO TechTalk #19 タクシーアプリ『GO』事業成長を支えるデータ分析基盤の継続的改善!
          • Get Started with TensorFlow Transform  |  TFX

            This guide introduces the basic concepts of tf.Transform and how to use them. It will: Define a preprocessing function, a logical description of the pipeline that transforms the raw data into the data used to train a machine learning model. Show the Apache Beam implementation used to transform data by converting the preprocessing function into a Beam pipeline. Show additional usage examples. Setup

              Get Started with TensorFlow Transform  |  TFX
            • TechCrunch | Startup and Technology News

              European Union enforcers of the bloc’s online governance regime, the Digital Services Act (DSA), said Thursday they’re closely monitoring disinformation campaigns on the Elon Musk-owned social network X (formerly Twitter)…

                TechCrunch | Startup and Technology News
              • Dataflow の Day 2 Operation ベタープラクティス

                Google Cloud Japan の RyuSA です。👋 最近「 Pub/Sub からイベントとデータを引っ張って BigQuery に投げ込みたい」「 Cloud Spanner の変更ストリームを BigQuery に配置し、データを分析に使いたい」など、様々な用途で大量なデータの処理のために Dataflow を利用いただいているのを観測しています。👀 さて、巨大な分散処理をマネージドで実行してくれる便利な Dataflow ですが、運用する上でいくつか気を付けないといけないことがあります。そしてそれらの多くは「問題が発生してから」発覚することが多いです。この記事では「 Dataflowジョブの運用に関しての FAQ やよくある問題」に対する回答をまとめておきました。 監視 / 可観測性 Q: ジョブのログベースの監視のベストプラクティスをおしえて! A. ログベース監視を

                  Dataflow の Day 2 Operation ベタープラクティス
                • Dataflowが解決するストリーミング処理の課題と基盤構築で考慮すること - case-kの備忘録

                  Dataflowが解決するストリーミング処理の課題と基盤を作る上で考慮すべき点をいくつか資料を参考に備忘録もかねて整理してみました。 ストリーミング処理の概要 ストリーミング処理とは バッチ処理との違い ストリーミング処理の課題 データ量と変動性 遅延データの扱い 異なるプログラミングモデル Dataflowでどのように解決すのか オートスケール 遅延データの制御 プログラミングモデルの統一 遅延データの制御 (機能詳細) ウィンドウとは 固定ウィンドウ スライディングウィンドウ セッションウィンドウ ウォーターマークとは トリガーとは アキュミュレーションとは 破棄モード 累積モード 累積 & 後退モード Dataflowでストリーミング処理の基盤作成で考慮すること 何を計算するか?(ETL) イベント時間のどこを対象にするか?(ウィンドウ) 処理時間のどの時点を対象にするか?(ウォータ

                    Dataflowが解決するストリーミング処理の課題と基盤構築で考慮すること - case-kの備忘録
                  • Cloud DataflowのテンプレートにPythonの外部パッケージを利用する - YOMON8.NET

                    Cloud Dataflow + Python で作るテンプレートを登録する際に、pipでインストール可能なPyPiなどの外部パッケージをどうやって組み込むか調べました。 requirements.txtでpypi等の外部パッケージ使う方法 設定例 テンプレート作成 setup.pyでローカルパッケージも使う方法 設定例 関連 requirements.txtでpypi等の外部パッケージ使う方法 結局ドキュメントは見つからなかったのですが、ソースコード読んでいたら以下のオプションを見つけました。 class SetupOptions(PipelineOptions): @classmethod def _add_argparse_args(cls, parser): # Options for installing dependencies in the worker. parser.ad

                      Cloud DataflowのテンプレートにPythonの外部パッケージを利用する - YOMON8.NET
                    • 社内データパイプラインツールを Mercari Dataflow Template としてOSS化しました | メルカリエンジニアリング

                      Merpay Advent Calendar 2020 の10日目の記事です。 こんにちは。Merpay Solutions Teamの @orfeon です。 3ヶ月ほど前のブログ記事でメルペイでのFlexTemplateの活用例を紹介しましたが、ここで使われていたソフトウェアを先日、OSSとして公開しました。 この記事ではこのOSSとして公開したMercari Dataflow Templateについて紹介します。 BigQueryから取得したデータを別のDatabaseサービスに保存したり、異なるデータソースからのデータをSQLで結合・加工したり、AWSのS3にデータを出力したりなどなど、GCP上での何らかのデータの処理に関わられている方は役立つケースがあるかもしれないのでぜひご一読頂ければ幸いです。 Mercari Dataflow Templateとは何か Mercari Dat

                        社内データパイプラインツールを Mercari Dataflow Template としてOSS化しました | メルカリエンジニアリング
                      • Cloud Dataflow と Apache Beam に入門した - public note

                        BigQuery にストリーミングインサートしたい気持ちが高まってきて Cloud Dataflow と Apache Beam に入門しました。Cloud Pub/Sub -> Cloud Dataflow -> BigQuery のルートで取り込むにあたり、事前知識を得ることが目的です。 Apache Beam 特徴 Tour of Beam Transform Map FlatMap Filter Partition ParDo setup() start_bundle() process() finish_bundle() teardown() Custom Transform Windowing Fixed windows Sliding windows Session windows Beam パイプラインの設計 Cloud Dataflow 特徴 Pub/Sub to Big

                          Cloud Dataflow と Apache Beam に入門した - public note
                        • DataflowでPython3系を使って良いのか検討してみた - case-kの備忘録

                          DataflowでPython3系を使って良さそうか調べてみました。 Python3系を使いたい理由 DataflowのPython3系のサポート状況について Apach Beamのissueについて 動作確認 ストリーミング処理は? 結論(個人的な) Python3系を使いたい理由 DataflowはETLツールなのでデータ加工が主な役割です。Dataflowのサポートする言語としてJavaやGoも扱えますが、Pythonと比較すると機械学習系のライブラリが不足していたり、学習コストも高いです。またバッチ処理を作る前に行う分析作業はJupyterで行うため、Pythonで作ったコードも使えません。また、Python2系は以前よりDataflowでサポートされてますが、2020年目処にPython2系は非推奨となります。なので3系でDataflowを使いたいと考えてます。 Dataflow

                            DataflowでPython3系を使って良いのか検討してみた - case-kの備忘録
                          • Dataflowのテンプレートを作ってみる

                            GMOアドマーケティングのT.Kです。 既存のバッチ処理をDataprocからDataflowへ移植する際にDataflowのテンプレートが気になったので、 入門ガイドのクラシック テンプレートの作成を参考にして、WordCountのコードを改修してテンプレートを作ってみます。 テンプレート作成コマンド gradle clean execute -DmainClass=org.apache.beam.examples.WordCount \ -Dexec.args="--project=<YOUR_PROJECT_ID> \ --runner=DataflowRunner \ --region=us-central1 --stagingLocation=gs://<YOUR_BUCKET_NAME>/staging \ --templateLocation=gs://<YOUR_BUCKE

                              Dataflowのテンプレートを作ってみる
                            • Dataflow と Pub/Sub を使用して、ストリーミング パイプラインの重複データを処理する | Google Cloud 公式ブログ

                              ※この投稿は米国時間 2021 年 8 月 24 日に、Google Cloud blog に投稿されたものの抄訳です。 目的ストリーミング データを処理して分析情報を抽出し、リアルタイム アプリケーションを強化することはますます重要になっています。Google Cloud Dataflow と Pub/Sub には、ミッション クリティカルなパイプラインを実行するための、スケーラビリティと信頼性に優れた、完成されたストリーミング分析プラットフォームが用意されています。このようなパイプラインの設計に際して、デベロッパーは、重複データの処理をどのように行うかという課題に頻繁に直面します。 このブログでは、ストリーミング パイプラインで重複データがよく発生する場所や、その処理に利用できるいくつかの方法について説明します。また、同じトピックについて説明しているこちらの技術解説もぜひご覧ください。

                                Dataflow と Pub/Sub を使用して、ストリーミング パイプラインの重複データを処理する | Google Cloud 公式ブログ
                              • Cloud Dataflow for Java 雑多なノウハウ集 - 実装編 - Qiita

                                Google Cloud Dataflow に触る機会があったのですが、いまいちドキュメントが薄く、また自分が分散処理フレームワーク未経験だった事もあり、いろいろハマったので、得られた知見を書いておきます。 本記事は実装編ということで、Dataflow パイプラインのコードを書くに当たっての知見をまとめます。 なお Cloud Dataflow は Apache Beam の実行環境の1つという位置付けです。以下の内容は特に明記していない限り Apache Beam にも当てはまります。 確認した環境は Apache Beam SDK for Java 2.13.0 です。 想定読者は、Beam 関連のドキュメント、特に Beam Programming Guide を読んだことのある方、です。 Window FixedWindows や SlidingWindows の期間はキリが良い時

                                  Cloud Dataflow for Java 雑多なノウハウ集 - 実装編 - Qiita
                                • 新しい高速アーキテクチャにより、多言語 Dataflow パイプラインが利用可能に | Google Cloud 公式ブログ

                                  ※この投稿は米国時間 2020 年 8 月 22 日に、Google Cloud blog に投稿されたものの抄訳です。 開発チームとデータ サイエンス チームが異なる言語の SDK で作業している場合や、好みのプログラミング言語では利用できない機能がある場合はどうしていますか?従来は、さまざまな言語をブリッジする回避策を講じなければならず、それができない場合はコーディングし直すしかありませんでした。これは時間や費用がかかるだけでなく、チームのコラボレーション能力にとって大きな足かせになります。 Dataflow Runner v2 の概要この問題を克服するために、Runner v2(パイプラインを構築するすべてのユーザーが利用可能)という新しいサービスベースのアーキテクチャが Dataflow に追加されました。この機能には、すべての言語 SDK をサポートする多言語対応が含まれています

                                    新しい高速アーキテクチャにより、多言語 Dataflow パイプラインが利用可能に | Google Cloud 公式ブログ
                                  • Pythonで書くDataflowテンプレートでサードパーティ製JDBCドライバを使う - YOMON8.NET

                                    この記事の続きです。 yomon.hatenablog.com 以下にもある通り、今書いている時点ではApache BeamのPython SDKはビルトインでJDBC対応していません。 beam.apache.org PythonでJDBCドライバ使いたかったのはDataflowのPython SDK使ってもJDBC接続使いたかったからです。 上記の記事でJDBCをPythonから使えるところは確認できているので、今度はDataflowにテンプレート登録してみます。 Pythonコード準備 作業用GCSバケット作成 Dataflowテンプレート登録 Dataflowテンプレートの実行 ParDoで使う 2020/10/02追記 Pythonコード準備 requirements.txt を準備します。 ※ 記事書いている時点のJayDeBeApiのPyPi上のバージョンだとJPype1==

                                      Pythonで書くDataflowテンプレートでサードパーティ製JDBCドライバを使う - YOMON8.NET
                                    • DataflowのFlexテンプレートとScioで動的なパイプラインを実現する - エムスリーテックブログ

                                      はじめに 本記事はエムスリー Advent Calendar 2020の12日目の記事です。 エンジニアリンググループの西名(@mikesorae)です。 私のチームでは医療に関する様々なデータを集計して分析レポートの作成を行っています。 クライアントの要望に応じて条件や分析軸を変更するために、これまではRubyで動的にSQLを組み立てて集計を行っていましたが、条件が複雑なため出力されるSQLが3000行近くになり、デバッグやテストも困難なためメンテナンス工数が多くかかっていました。 また、データ数の増加に伴ってSQLの実行時間も次第に長くなり、このまま行くと継続的なサービス提供ができなくなるリスクがあったため、BigQuery + Google Cloud Dataflow + Scioによる作り直しを決断しました。 Google Cloud Dataflowの導入にあたって公式ドキュメ

                                        DataflowのFlexテンプレートとScioで動的なパイプラインを実現する - エムスリーテックブログ
                                      • DataflowとBigQueryで始める大規模データ分析基盤実装入門 - TECH PLAY Magazine

                                        大量に蓄積されたデータを活用するためには、データ分析基盤の構築が必要になる。だが、専門知識を持つ人材やデータ分析にかける予算確保は容易くはない。そこで、電通国際情報サービス(ISID)の全社横断的な研究開発部門である、X(クロス)イノベーション本部ソフトウェアデザインセンターの佐藤太一氏が、自らの経験をもとにDataflowとBigQueryで大規模データ分析基盤を実装する方法を紹介。その際に重要となるコスト観も合わせて解説した。 データ分析基盤構築における考え方とシステムアーキテクチャ 佐藤 太一氏 株式会社電通国際情報サービス(ISID) Xイノベーション本部 ソフトウェアデザインセンター 今回登壇した佐藤太一氏が所属する電通国際情報サービス(以下、ISID)のXイノベーション本部は、全社横断的な研究開発部門。佐藤氏はGitHubやJIRAなどの現代的な構成管理ツールの利用促進や部門横

                                          DataflowとBigQueryで始める大規模データ分析基盤実装入門 - TECH PLAY Magazine
                                        • 【GCP】GCSにあるZipfilesをBigqueryに~Dataflowによる実装 - Qiita

                                          一、背景 背景:AdobeAnalyticsのデータをBigqueryに蓄積して活用しようということで、1時間分のCSVデータをZipfiles形式で1時間ごとGoogleCloudStorageに転送されていて、その後Bigqueryにテーブルとして集約します。 元々はDataproc上のSparkJobで処理しているですが、コスパを考えてDataflowへの移行を決まりました。 実行するための権限周りについてはGoogleの公式ドキュメントまでご参照いただければ幸いです。 二、アーキテクチャ 今回のアーキテクチャは下記のようになります。 GCS上に格納されるZIPファイルをトリガーとして、CloudFuntionsを起動し、その後Dataflowに送信してflexTemplatesのJobを実行し、CSVデータをBigqueryのテーブルにアウトプットします。 三、ApacheBeam

                                            【GCP】GCSにあるZipfilesをBigqueryに~Dataflowによる実装 - Qiita
                                          • GitHub - mercari/DataflowTemplate: Mercari Dataflow Template

                                            You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                              GitHub - mercari/DataflowTemplate: Mercari Dataflow Template
                                            • あらゆる Dataflow パイプラインを再利用可能なテンプレートに変換 | Google Cloud 公式ブログ

                                              ※この投稿は米国時間 2020 年 10 月 2 日に、Google Cloud blog に投稿されたものの抄訳です。 組織内におけるデータ分析の増大にともない、ビジネスチームには、バッチジョブとストリーミング ジョブを実行し、エンジニアが作成したコードを活用できる機能が必要となります。しかし、既存のコードを再実行するには、多くの場合、開発環境を設定してコードを少し変更する必要がありますが、これはプログラミングのバックグラウンドがない人にとっては大きな課題となります。 この課題を念頭に置き、Google はこのほど、 Dataflow フレックス テンプレートを導入しました。これにより、あらゆる Dataflow パイプラインを、誰でも実行できる再利用可能なテンプレートにより簡単に変換できるようになります。 既存のクラシックテンプレートでも、デベロッパーはテンプレートを介してバッチおよび

                                                あらゆる Dataflow パイプラインを再利用可能なテンプレートに変換 | Google Cloud 公式ブログ
                                              • BigQuery にニアリアルタイム連携を導入しようとしている話 — HACK The Nikkei

                                                そのためストリーミング処理をしてニアリアルタイム処理するといったものはそもそも要件として存在しないため、バッチで安定的にデータの取り込みを行い、クエリ時の負荷を下げるためにデータの取り込み時に重複排除をする仕組みを構築しました。その概要が以下の図です。 ファイルからデータ連携されたデータを重複ありの状態で受付け、1 時間に 1 回重複排除したデータを行動ログテーブルにマージする、というのが大まかな手法の説明です。このコンポーネントは atlas-consumer-s3 と呼ばれます。 2. 旧来の仕組みの課題 上記の仕組みで大きな障害も発生せずに運用できていましたが、以下のような課題を抱えていました。 2-1. 原因不明の不具合によりデプロイ時に Kinesis からの 1 日分の読み直し作業が発生する 2-2. 新規カラム追加の実装/作業が煩雑 2-3. データの整合性の検証が不十分 2

                                                  BigQuery にニアリアルタイム連携を導入しようとしている話 — HACK The Nikkei
                                                • データ統合に欠かせないApache Airflow、どのような企業にマッチするのか

                                                  DX(デジタルトランスフォーメーション)を推進するうえで、データを効率よく扱うためのデータ統合は欠かせません。 統合のためのツール選びも重要です。そうした「統合ジョブ管理ツール」の領域はこれまでプロプライエタリー製品およびそれらをクラウドに対応させた製品が多く利用されてきましたが、現在この分野でもオープンソースソフトウエア(OSS)が使われるようになっています。 タスクの依存関係をベースとしたフロー定義が可能で、主要なクラウドプラットフォームとも連係しやすい「Apache Airflow」が注目されています。今回は「Google Cloud」や「Amazon Web Services(AWS)」といった主要クラウドでマネージドサービスとして提供されているApache Airflowを解説します。 なぜ統合ジョブ管理ツールが必要なのか 多くの場合、全てのデータが単一のシステムに保存されている

                                                    データ統合に欠かせないApache Airflow、どのような企業にマッチするのか
                                                  • Python 3 and Python streaming now available | Google Cloud Blog

                                                    Introducing Python 3, Python streaming support from Cloud Dataflow Streaming analytics is becoming an essential part of data platforms, helping businesses collect and analyze data in real time. At Cloud Dataflow, we’ve noticed a few trends in the data engineering industry. First, Python is emerging as one of the most popular choices for data analysts, and second, a growing number of apps are power

                                                      Python 3 and Python streaming now available | Google Cloud Blog
                                                    • DataflowTemplates/v2/cdc-parent/README.md at main · GoogleCloudPlatform/DataflowTemplates

                                                      This directory contains components for a Change-data Capture (CDC) solution to capture data from an MySQL database, and sync it into BigQuery. The solution relies on Cloud Dataflow, and Debezium, an excellent open source project for change data capture. To implement the CDC solution in this repository: Deploy a Debezium embedded connector for MySQL Start a Dataflow pipeline that syncs MySQL and Bi

                                                        DataflowTemplates/v2/cdc-parent/README.md at main · GoogleCloudPlatform/DataflowTemplates
                                                      1