[B! python][spark] HHRのブックマーク

HHR id:HHR

pythonとsparkに関するHHRのブックマーク (1)

PySparkデータ操作 - Qiita
本記事は、PySparkの特徴とデータ操作をまとめた記事です。 PySparkについて PySpark(Spark)の特徴ファイルの入出力入力：単一ファイルでも可出力：出力ファイル名は付与が不可（フォルダ名のみ指定可能）。指定したフォルダの直下に複数ファイルで出力。遅延評価ファイル出力時 or 結果出力時に処理が実行通常は実行計画のみが計算 Partitioning と Bucketing PySparkの操作において重要なApache Hiveの概念について。 Partitioning: ファイルの出力先をフォルダごとに分けること。読み込むファイルの範囲を制限できる。 Bucketing: ファイル内にて、ハッシュ関数によりデータを再分割すること。効率的に読み込むことができる。 PartitioningとBucketingの詳細についてはこちら(英語)をご覧ください。計算リ
HHR 2022/04/04
*でワイルドカード読み込み。リストを渡して複数読み込み。unix_timestamp to_timestamp date_format etc...

spark

Python
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx