並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 10 件 / 10件

新着順 人気順

Hudiの検索結果1 - 10 件 / 10件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

Hudiに関するエントリは10件あります。 awsデータ基盤データ などが関連タグです。 人気エントリには 『Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話』などがあります。
  • Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。データ統括本部でYahoo!広告のデータエンジニアをしている江島です。 本記事では、Yahoo!広告のデータ分析環境であるデータレイク上のデータを、Apache Hudi を用いてレコード単位で削除可能にした事例を紹介します。 Yahoo!広告のデータ分析環境 Yahoo!広告における データマーケティングソリューション では、ヤフーの持つ圧倒的な量と質のデータを活用し、消費者理解や広告効果分析を目的としたさまざまな商品を提供しています。 これらの商品を提供するための裏側には広告に関する膨大なログや多種多様なサービスのログを使ってデータ分析や機械学習を行うためのデータ基盤が必要です。データマーケティングソリューションで

      Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話
    • 更新できるデータレイクを作る 〜Apache Hudiを用いたユーザデータ基盤の刷新〜 - Gunosy Tech Blog

      広告技術部のUT@mocyutoです。 こちらの記事はGunosy Advent Calendar 2021の4日目の記事です。 昨日は内田さんの その設定、pyproject.tomlに全部書けます - Gunosyデータ分析ブログ でした 今回はApache Hudiを用いたユーザデータ基盤の刷新を紹介します。 背景 仕組み 課題 対応策 データの持ち方を変える Apache Hudiとは 構成 Glue + PySpark Athenaによる抽出 移行し終えて 背景 Gunosyの広告システムではユーザに対して最適な広告を届けるために、接触済みのユーザに対して何度も同じ広告を出さないようにする仕組みを提供しています。 例えば、すでにある広告Aをクリックしたユーザには広告Aは再度配信しないのような設定です。 仕組み この仕組みを実現するためには以下のようなアーキテクチャになっていました

        更新できるデータレイクを作る 〜Apache Hudiを用いたユーザデータ基盤の刷新〜 - Gunosy Tech Blog
      • AWSにおけるHudi/Iceberg/DeltaLakeの使いどころと違いについて

        • Apache Hudiを触ってみた - Screaming Loud

          最近はデータレイクに保存しているデータに対し更新、削除ができるライブラリが増えてきました。 Kudu,deltalakeやHudiなどがありますが、今回はUberが作ったHudiを触ってみました。 セットアップ データの書き込み データ読み込み データ更新 特定の時点でのクエリ まとめ セットアップ Quick-Start Guide - Apache Hudi を参考にセットアップしていきましょう。 localで試すためにspark-shellをいれて実行します。 $ brew install spark-shell $ spark-shell --package org.apache.hudi:hudi-spark-bundle_2.11:0.5.1-incubating,org.apache.spark:spark-avro_2.11:2.4.4 \ --conf 'spark.se

            Apache Hudiを触ってみた - Screaming Loud
          • Introducing native support for Apache Hudi, Delta Lake, and Apache Iceberg on AWS Glue for Apache Spark, Part 1: Getting Started | Amazon Web Services

            AWS Big Data Blog Introducing native support for Apache Hudi, Delta Lake, and Apache Iceberg on AWS Glue for Apache Spark, Part 1: Getting Started AWS Glue is a serverless, scalable data integration service that makes it easier to discover, prepare, move, and integrate data from multiple sources. AWS Glue provides an extensible architecture that enables users with different data processing use cas

              Introducing native support for Apache Hudi, Delta Lake, and Apache Iceberg on AWS Glue for Apache Spark, Part 1: Getting Started | Amazon Web Services
            • Creating a source to Lakehouse data replication pipe using Apache Hudi, AWS Glue, AWS DMS, and Amazon Redshift | Amazon Web Services

              AWS Big Data Blog Creating a source to Lakehouse data replication pipe using Apache Hudi, AWS Glue, AWS DMS, and Amazon Redshift February 2021 update – Please refer to the post Writing to Apache Hudi tables using AWS Glue Custom Connector to learn about an easier mechanism to write to Hudi tables using AWS Glue Custom Connector. In this post, we include the modified Apache Hudi JARs as an external

                Creating a source to Lakehouse data replication pipe using Apache Hudi, AWS Glue, AWS DMS, and Amazon Redshift | Amazon Web Services
              • Introducing native support for Apache Hudi, Delta Lake, and Apache Iceberg on AWS Glue for Apache Spark, Part 2: AWS Glue Studio Visual Editor | Amazon Web Services

                AWS Big Data Blog Introducing native support for Apache Hudi, Delta Lake, and Apache Iceberg on AWS Glue for Apache Spark, Part 2: AWS Glue Studio Visual Editor In the first post of this series, we described how AWS Glue for Apache Spark works with Apache Hudi, Linux Foundation Delta Lake, and Apache Iceberg datasets tables using the native support of those data lake formats. This native support s

                  Introducing native support for Apache Hudi, Delta Lake, and Apache Iceberg on AWS Glue for Apache Spark, Part 2: AWS Glue Studio Visual Editor | Amazon Web Services
                • New – Insert, Update, Delete Data on S3 with Amazon EMR and Apache Hudi | Amazon Web Services

                  AWS News Blog New – Insert, Update, Delete Data on S3 with Amazon EMR and Apache Hudi Storing your data in Amazon S3 provides lots of benefits in terms of scale, reliability, and cost effectiveness. On top of that, you can leverage Amazon EMR to process and analyze your data using open source tools like Apache Spark, Hive, and Presto. As powerful as these tools are, it can still be challenging to

                    New – Insert, Update, Delete Data on S3 with Amazon EMR and Apache Hudi | Amazon Web Services
                  • データレイク関連の OSS - Delta Lake, Apache Hudi, Apache Kudu

                    はじめに#前回のポストではデータレイクとはどういうものかというのを調べた。 今回はデータレイクの文脈でどのような OSS が注目されているのかを見ていきたい。 以下は NTT データさんによる講演資料であり、その中で「近年登場してきた、リアルタイム分析に利用可能なOSSストレージレイヤソフト」というのが3つ挙げられている。 Delta LakeApache HudiApache Kuduこれらはすべて論理的なストレージレイヤーを担う。 こちらの講演資料に付け足すようなこともないかもしれないが、このポストではデータレイクという文脈から自分で調べて理解した内容をまとめるということを目的にする。 当然 Hadoop, Hive, Spark 等もデータレイクの文脈において超重要だが、「データレイク」という言葉がよく聞かれるようになる前から普及していたのでこのポストでは触れないことにする。 Del

                      データレイク関連の OSS - Delta Lake, Apache Hudi, Apache Kudu
                    • AWS上でApache Hudiを動かす | DevelopersIO

                      スクリプトを記述 Quick Startのサンプルを利用します。 今回はデータのimportとクエリを試してみます。 Quich Startの内容と、Glueジョブ設定を組み合わせた以下のスクリプトを設定します。 import sys from awsglue.utils import getResolvedOptions from pyspark.context import SparkContext from pyspark.sql.session import SparkSession from awsglue.context import GlueContext from awsglue.job import Job ## @params: [JOB_NAME] args = getResolvedOptions(sys.argv, ['JOB_NAME']) spark = Sp

                        AWS上でApache Hudiを動かす | DevelopersIO
                      1

                      新着記事