エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント1件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Sparkで少サイズ大量データの課題にどう立ち向かう?|Puuuii
日々ビッグデータと格闘しておられる私たちデータエンジニアにはなじみ深いSparkのの話です。 小サイズ&... 日々ビッグデータと格闘しておられる私たちデータエンジニアにはなじみ深いSparkのの話です。 小サイズ&大量ファイルのデータを扱うことがなぜ苦手なのか、どう対処すればよいかを見てみましょう。 なぜ小サイズ&大量ファイルが苦手?Sparkは細切れのデータを扱うのがメモリ効率やパフォーマンスの面で苦手です。 具体的なサイズをいうと数KB~数MBだと悪影響が出てきますね。 なぜ細切れのファイルを扱いのが苦手なのかというと、ファイルを開いて・読んで・閉じる必要があるためです。 極端な話、ファイルがひとつだけであれば一度だけの開け閉めと読み取りでいいですから。 またタスクを平行で走らせるときのオーバーヘッドもファイル数に応じて大きくなっていきます。 さらにSparkのメモリ管理は大規模で連続したメモリ領域に特化していて、細切れのファイルだとメモリが枯渇してしまうんですよね。 どう対処する?第一に細切
2024/04/28 リンク