タグ

データと運用に関するyassan0627のブックマーク (5)

  • Data Contract について調べた

    データエンジニアリングの領域で少し前から目にするようになった “data contract” という言葉。 なんとなく今の業務で困っている課題の解決になりそうな気がしつつもよくわかっていなかったので調べてみた。 data contract について語られているいくつかのブログ記事などを参考にしている。 Data Contract とは#データの schema というのはナマモノで、いろいろな理由で変更されることがある。 schema を変更する場合、その schema のデータ (table や log) が所属する単一のビジネス機能や application のドメインで行われることになる。 そのドメインの閉じた世界で考える分にはこれで問題ないのだが、DWH や data lake など組織レベルのデータ基盤でデータを流通していた場合はその先のことも考えないといけなくなる。 このようにチ

    Data Contract について調べた
  • GitHub - projectnessie/iceberg-catalog-migrator: CLI tool to bulk migrate the tables from one catalog another without a data copy

    yassan0627
    yassan0627 2023/04/22
    Icebergのテーブルを、データをコピーすることなく、あるカタログから別のカタログへ一括移行できるコマンドラインツール
  • Apache Ozoneをやっていた一年 - Preferred Networks Research & Development

    Why Apache Ozone? これまでPFNでは増え続けるデータやユースケースに対応するために、スケールアウト可能なストレージシステムをずっと模索し続けてきました。シミュレーションを基軸とした戦略を採用した[1]ことによりデータ量はさらに増加し、データ保管システムの重要性は高まっています。 Preferred Networks におけるHadoop – Preferred Networks Research で解説した基的な要件は今でも変わっていませんが[2]、現在メインのシステムとして運用している Hadoop (HDFS) にはいくつかのシステム運用上の課題があります。たとえば、一番大きなHadoopクラスタは現時点で物理的に10PB近くのディスク容量を持っていますが、Ubuntu 16.04で動作しています。OSのバージョンアップを伴うクラスタのIn-placeなアップグレー

    Apache Ozoneをやっていた一年 - Preferred Networks Research & Development
  • 最短で理解して運用するGrafana Loki - Enjoy Architecting

    記事について Lokiについてまったく知識のない状態の人にとって、1からキャッチアップしていくのは とても大変なことです。 特にLokiはマイクロサービスで構成されているため、何を知るべきなのかの全体像が見えにくいと思っています。 そのため、Lokiをまったく知らない状態から実際に運用検証を開始するために必要なインプットを体系的にまとめました。 具体的には下記の項目で整理します。 Lokiの機能 Lokiを構成するアーキテクチャ Lokiを構成するプロセス Lokiのモニタリング Lokiでのログのリテンション管理 Lokiのデプロイ Lokiでのデータキャッシュ Lokiのベストプラクティス ※前提として、Prometheusについての基的な知識があれば記事についてもすぐに理解できるかと思います。 1. Lokiの機能 Grafana Lokiとは? Lokiは3大監視項目である、

    最短で理解して運用するGrafana Loki - Enjoy Architecting
  • Apache Hadoop のデータを BigQuery で分析するための移行手順

    この記事は Google Cloud Japan Customer Engineer Advent Calendar 2019 の 2 日目の記事です。 TL;DRApache Hadoop のデータを BigQuery で分析できるようにするための移行手順をご紹介します。Google Cloud が提供する、フルマネージドでサーバレスなデータ ウェアハウスである BigQuery を活用することで、インフラやミドルウェアの運用保守作業を行う必要がなく、データ分析作業に専念できるようになります。(個人的な意見ですが)オンプレミスで Apache Hadoop クラスタを運用している場合、サーバの調達や、ミドルウェアのインストール、各種リソースの使用率のモニタリング、パフォーマンス チューニングなどの運用保守作業が定期的に発生し、効率的にデータ分析環境を運用することができない、といった課題が

    Apache Hadoop のデータを BigQuery で分析するための移行手順
  • 1