タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

pythonとsparkに関するHHRのブックマーク (1)

  • PySparkデータ操作 - Qiita

    記事は、PySparkの特徴とデータ操作をまとめた記事です。 PySparkについて PySpark(Spark)の特徴 ファイルの入出力 入力:単一ファイルでも可 出力:出力ファイル名は付与が不可(フォルダ名のみ指定可能)。指定したフォルダの直下に複数ファイルで出力。 遅延評価 ファイル出力時 or 結果出力時に処理が実行 通常は実行計画のみが計算 Partitioning と Bucketing PySparkの操作において重要なApache Hiveの概念について。 Partitioning: ファイルの出力先をフォルダごとに分けること。読み込むファイルの範囲を制限できる。 Bucketing: ファイル内にて、ハッシュ関数によりデータを再分割すること。効率的に読み込むことができる。 PartitioningとBucketingの詳細についてはこちら(英語)をご覧ください。 計算リ

    PySparkデータ操作 - Qiita
    HHR
    HHR 2022/04/04
    *でワイルドカード読み込み。リストを渡して複数読み込み。unix_timestamp to_timestamp date_format etc...
  • 1