並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 9 件 / 9件

新着順 人気順

BEAMの検索結果1 - 9 件 / 9件

  • PythonでApache beam 入門

    2020-12-26 TensorFlowの勉強をしていたら、Apache beam を前処理に採用していたケースがあり、興味を持ったので深堀りしてみます。 興味が湧いたモチベーションとしては、 データ量が増加しても前処理部分を難なくスケールできそう(前処理部分をスケールさせて高速に実験を回したい、並列化などはすべて良い感じにbeamに任せれそうバッチとストリーミングの両者に対応可能なので、柔軟な機械学習の推論サービスが提供できるのでは? (GCPの参考資料 Data preprocessing for machine learning: options and recommendations)Apache beam を触りつつ分散データ処理を学びたいhttps://github.com/jhuangtw/xg2xg#services を見てみるとGoogle 内部のFlume という並列

      PythonでApache beam 入門
    • RustによるElixirインターフェースを用いたパフォーマンス改善 - DIscordの事例

      「FinOps、アプリケーション単位の経済性、クラウドコストの最適化について、ロワ・ラヴホン氏語る」 このエピソードでは、Finoutの共同設立者兼CEOであるRoi Ravhon氏が、InfoQポッドキャストの共同ホストであるDaniel Bryant氏と対談し、FinOpsの出現と業界の採用について議論した。この対談では、FinOpsを採用するメリット、クラウド・コストについてもっと知りたいと考えている組織の典型的な道のり、実装を成功させるために必要な様々な文化やツールといったトピックが取り上...

        RustによるElixirインターフェースを用いたパフォーマンス改善 - DIscordの事例
      • GitHub - GetFirefly/firefly: An alternative BEAM implementation, designed for WebAssembly

        You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

          GitHub - GetFirefly/firefly: An alternative BEAM implementation, designed for WebAssembly
        • Dataflow の Day 2 Operation ベタープラクティス

          Google Cloud Japan の RyuSA です。👋 最近「 Pub/Sub からイベントとデータを引っ張って BigQuery に投げ込みたい」「 Cloud Spanner の変更ストリームを BigQuery に配置し、データを分析に使いたい」など、様々な用途で大量なデータの処理のために Dataflow を利用いただいているのを観測しています。👀 さて、巨大な分散処理をマネージドで実行してくれる便利な Dataflow ですが、運用する上でいくつか気を付けないといけないことがあります。そしてそれらの多くは「問題が発生してから」発覚することが多いです。この記事では「 Dataflowジョブの運用に関しての FAQ やよくある問題」に対する回答をまとめておきました。 監視 / 可観測性 Q: ジョブのログベースの監視のベストプラクティスをおしえて! A. ログベース監視を

            Dataflow の Day 2 Operation ベタープラクティス
          • Apache Beam (Dataflow) 実践入門【Python】 - Qiita

            はじめに この記事は、Apache Beam Documentation の内容をベースとしています。 Apache Beam Python SDK でバッチ処理が可能なプログラムを実装し、Cloud Dataflow で実行する手順や方法をまとめています。また、Apache Beam の基本概念、テストや設計などについても少し触れています。 Apache Beam SDK 入門 Apache Beam SDK は、Java, Python, Go の中から選択することができ、以下のような分散処理の仕組みを単純化する機能を提供しています。 Pipeline:処理タスク全体(パイプライン)をカプセル化します。処理タスクには、入力データの読み取り、変換処理、および出力データの書き込み等が含まれます。 PCollection:分散処理対象のデータセットを表すオブジェクトです。通常は、外部のデータ

              Apache Beam (Dataflow) 実践入門【Python】 - Qiita
            • Dataflow と Pub/Sub を使用して、ストリーミング パイプラインの重複データを処理する | Google Cloud 公式ブログ

              ※この投稿は米国時間 2021 年 8 月 24 日に、Google Cloud blog に投稿されたものの抄訳です。 目的ストリーミング データを処理して分析情報を抽出し、リアルタイム アプリケーションを強化することはますます重要になっています。Google Cloud Dataflow と Pub/Sub には、ミッション クリティカルなパイプラインを実行するための、スケーラビリティと信頼性に優れた、完成されたストリーミング分析プラットフォームが用意されています。このようなパイプラインの設計に際して、デベロッパーは、重複データの処理をどのように行うかという課題に頻繁に直面します。 このブログでは、ストリーミング パイプラインで重複データがよく発生する場所や、その処理に利用できるいくつかの方法について説明します。また、同じトピックについて説明しているこちらの技術解説もぜひご覧ください。

                Dataflow と Pub/Sub を使用して、ストリーミング パイプラインの重複データを処理する | Google Cloud 公式ブログ
              • apache-beam-pythonを用いてGCP dataflowでmecabを使い形態素解析をする話 - Qiita

                概要 BigQueryに保存されたtweetを形態素解析したい。BigQuery単体では形態素解析出来ないし、mecabの新語辞書を使ったりも出来ないのでdataflowを利用することで形態素解析を行う。 twitterでは、常に最新の言葉が使われる。そのためmecabの辞書は neologd を利用して最新の状態の言葉で形態素解析ができるようにする。 通常のdataflowのサンプルと異なるのはmecabで使う辞書ファイルをどのように配布するかという問題だ。今回は、パッケージ等は作らなず、インスタンスが生成された後、GCSにおいたmecabの辞書ファイルを読んでいる。 今回はtwitterで使われる人名は誰が多いのかをサンプルとして調べることにする。 shibacow@xxxx~$ mecab -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ip

                  apache-beam-pythonを用いてGCP dataflowでmecabを使い形態素解析をする話 - Qiita
                • Cloud Dataflow for Java 雑多なノウハウ集 - 実装編 - Qiita

                  Google Cloud Dataflow に触る機会があったのですが、いまいちドキュメントが薄く、また自分が分散処理フレームワーク未経験だった事もあり、いろいろハマったので、得られた知見を書いておきます。 本記事は実装編ということで、Dataflow パイプラインのコードを書くに当たっての知見をまとめます。 なお Cloud Dataflow は Apache Beam の実行環境の1つという位置付けです。以下の内容は特に明記していない限り Apache Beam にも当てはまります。 確認した環境は Apache Beam SDK for Java 2.13.0 です。 想定読者は、Beam 関連のドキュメント、特に Beam Programming Guide を読んだことのある方、です。 Window FixedWindows や SlidingWindows の期間はキリが良い時

                    Cloud Dataflow for Java 雑多なノウハウ集 - 実装編 - Qiita
                  • Apache Beam チートシート【Python】 - Qiita

                    はじめに この記事では、Apache Beam Python SDK で提供されている Transform についてまとめています。簡単に呼び出すことが可能な Transform を一通り知っておくことで、より迅速に実装の方針を立てることができるかと思います。 要素ごとの処理 | Element-wise ParDo - DoFn の実行 PCollection の各要素を考慮し、何らかの処理(DoFn)を実行します。 from unittest import TestCase import apache_beam as beam from apache_beam.testing.test_pipeline import TestPipeline from apache_beam.testing.util import assert_that, equal_to class Compute

                      Apache Beam チートシート【Python】 - Qiita
                    1