エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント1件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
PySparkデータ操作 - Qiita
本記事は、PySparkの特徴とデータ操作をまとめた記事です。 PySparkについて PySpark(Spark)の特徴 ファ... 本記事は、PySparkの特徴とデータ操作をまとめた記事です。 PySparkについて PySpark(Spark)の特徴 ファイルの入出力 入力:単一ファイルでも可 出力:出力ファイル名は付与が不可(フォルダ名のみ指定可能)。指定したフォルダの直下に複数ファイルで出力。 遅延評価 ファイル出力時 or 結果出力時に処理が実行 通常は実行計画のみが計算 Partitioning と Bucketing PySparkの操作において重要なApache Hiveの概念について。 Partitioning: ファイルの出力先をフォルダごとに分けること。読み込むファイルの範囲を制限できる。 Bucketing: ファイル内にて、ハッシュ関数によりデータを再分割すること。効率的に読み込むことができる。 PartitioningとBucketingの詳細についてはこちら(英語)をご覧ください。 計算リ
2022/04/04 リンク