使い始めて3年くらい経ちますが、改めて振り返ってみます。 こちらの記事を書いたりしていますが復習も大事なわけで。 2024/4/12に翔泳社よりApache Spark徹底入門を出版します! その他のDatabricksコアコンポーネントの記事はこちらです。 Apache Sparkプロジェクトの歴史 SparkはDatabricksの創始者たちがUC Berkeleyにいるときに誕生しました。Sparkプロジェクトは2009年にスタートし、2010年にオープンソース化され、2013年にApacheにコードが寄贈されApache Sparkになりました。Apache Sparkのコードの75%以上がDatabricksの従業員の手によって書かれており、他の企業に比べて10倍以上の貢献をし続けています。Apache Sparkは、多数のマシンにまたがって並列でコードを実行するための、洗練され
はじめに 環境情報 前提: Delta Lakeとは何か Delta Log とは何か _delta_logディレクトリの構成 1. JSONトランザクションログ: 2. Checkpoint ファイル: 3. Last Checkpoint ファイル: 4. CRC (Cyclic Redundancy Check) ファイル: JSONトランザクションログ JSONトランザクションログのスキーマ アトミックコミットを構成するアクション metaData: メタデータの更新 add: ファイルの追加 remove: ファイルの削除 txn: トランザクションの設定 protocol: プロトコルの変更 commitInfo: コミット情報 Checkpoint ファイル Last Checkpoint ファイル CRC (Cyclic Redundancy Check) ファイル CRC
はじめに 環境情報 Delta Lake (デルタレイク) とは Delta Lake の実体 Delta Lake の構造 Parquet と Delta の相違点 Parquetとは何か Parquetの構造 Parquet と Delta の違い Delta Lake が生まれた経緯: データレイクと Delta Lake の違い データレイクのメリット データレイクの課題 *Parquetで構築した場合 Delta Lake の特徴 ACIDトランザクションの担保 スケーラブルなメタデータ管理 バッチとストリーミングワークロードの統合 タイムトラベル (バージョン管理) CONSTRAINT句のサポート DML (データ操作言語) のフルサポート UPDATE DELETE MERGE 柔軟なスキーマ管理 1. スキーマ エンフォースメント 2. スキーマ エボリューション ストレ
TreasureData Tech Talk 2022で発表した内容の補足です。Hive Distributed Profiling Systemの実装方法について、プレゼンテーション中に説明しきれなかった部分を解説します。なお本記事は「Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2022」19日目の記事として執筆しました。 qiita.com 参考文献 HDPSを実装する上で工夫した点の補足 Query Simulator Hive on Tez + Java Flight Recorder Plazmaへのイベント格納 Hiveによるスタックトレースの集計 フレームグラフの描画 もっと頑張れるかもしれないポイント 事前に集計したテーブルを作っておく Async Profiler 終わり
PFN では HDFS から Apache Ozone への移行を進めています。Ozone クラスタは順調に社内のプロジェクトで採用が進んでデータが増加しており、これまでの 2 年間は数度にわたってクラスタを拡張しました。ところが、段階的にクラスタを拡張したことでデータノード間でのディスク使用量の不均衡が問題になってきました。例えば、全てのディスクが 8 割埋まっている Ozone クラスタにまったく空のデータノードを追加すると、データ使用量に大きな不均衡が生じます。新規追加した空のサーバにデータを移動することをリバランスといいますが、運用しやすいようにリバランスを実装する方法は自明ではありません。HDFS ではノード単位でディスク使用量を規定の範囲内に均すように移動する Balancer やデータノード内のディスクを同様に移動する Disk Balancer があります。一方で Ozon
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く