lont_inのブックマーク - はてなブックマーク

更新できるデータレイクを作る〜Apache Hudiを用いたユーザデータ基盤の刷新〜 - Gunosy Tech Blog
広告技術部のUT@mocyutoです。こちらの記事はGunosy Advent Calendar 2021の4日目の記事です。昨日は内田さんのその設定、pyproject.tomlに全部書けます - Gunosyデータ分析ブログでした今回はApache Hudiを用いたユーザデータ基盤の刷新を紹介します。背景仕組み課題対応策データの持ち方を変える Apache Hudiとは構成 Glue + PySpark Athenaによる抽出移行し終えて背景 Gunosyの広告システムではユーザに対して最適な広告を届けるために、接触済みのユーザに対して何度も同じ広告を出さないようにする仕組みを提供しています。例えば、すでにある広告Aをクリックしたユーザには広告Aは再度配信しないのような設定です。仕組みこの仕組みを実現するためには以下のようなアーキテクチャになっていました
lont_in 2022/04/23
データ基盤

hudi

spark

apache
リンク
S3のコストを大幅に削減した話 - Gunosy Tech Blog
広告技術部のUTです。最近はカービィディスカバリーをゆっくりやってます概要過去の失敗どうやったか仕組み結果まとめ概要昨今ではデータドリブンな意思決定を重視する企業がどんどん増えており、データを活用することにより事業成長へのインパクトを出そうとしています。データを事業へと活用するためには、蓄積されるデータを分析するために保管しておく必要があります。弊社も創業時からデータを蓄積し事業に活用することに力を入れてきた企業の一つであり、日々大量のログが収集されています。またAWSアカウントを複数運用していますが、一番データ量の多い広告アカウントのS3にはペタバイトレベルのデータが保管されています。普段何気なく使っているデータレイクとしてのS3ですが、少量であれば無視できるくらい小さいので、コストを気にせず使っておられる方も多いのではないでしょうか？そのようなS3でも巨大な
lont_in 2022/04/13
gzipの圧縮率で十分だけど、マシン性能が潤沢ならzstdおすすめ
リンク
1

はてなブックマーク

タグ

ブックマーク / tech.gunosy.io (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第4週）

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / tech.gunosy.io (2)

更新できるデータレイクを作る 〜Apache Hudiを用いたユーザデータ基盤の刷新〜 - Gunosy Tech Blog

S3のコストを大幅に削減した話 - Gunosy Tech Blog

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第4週）

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

更新できるデータレイクを作る〜Apache Hudiを用いたユーザデータ基盤の刷新〜 - Gunosy Tech Blog