Sparkで少サイズ大量データの課題にどう立ち向かう？｜Puuuii

テクノロジーカテゴリーの変更を依頼記事元:

note.com/puuuii

1 userがブックマークコメント

コメント

1

記事へのコメント1件

注目コメント
新着コメント

sh19910711 "ファイル: 開いて・読んで・閉じる必要がある + オーバーヘッドもファイル数に応じて大きくなっていきます / 細切れになってしまったファイルは`hdfs dfs -getmerge`などを用いてより大きいファイルに融合するとよい"

2024/04/28 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

Sparkで少サイズ大量データの課題にどう立ち向かう？｜Puuuii

日々ビッグデータと格闘しておられる私たちデータエンジニアにはなじみ深いSparkのの話です。小サイズ&... 日々ビッグデータと格闘しておられる私たちデータエンジニアにはなじみ深いSparkのの話です。小サイズ&大量ファイルのデータを扱うことがなぜ苦手なのか、どう対処すればよいかを見てみましょう。なぜ小サイズ&大量ファイルが苦手？Sparkは細切れのデータを扱うのがメモリ効率やパフォーマンスの面で苦手です。具体的なサイズをいうと数KB～数MBだと悪影響が出てきますね。なぜ細切れのファイルを扱いのが苦手なのかというと、ファイルを開いて・読んで・閉じる必要があるためです。極端な話、ファイルがひとつだけであれば一度だけの開け閉めと読み取りでいいですから。またタスクを平行で走らせるときのオーバーヘッドもファイル数に応じて大きくなっていきます。さらにSparkのメモリ管理は大規模で連続したメモリ領域に特化していて、細切れのファイルだとメモリが枯渇してしまうんですよね。どう対処する？第一に細切

performance

ブックマークしたユーザー

sh199107112024/04/28

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx