タグ

HDFSに関するHHRのブックマーク (5)

  • HDFS block size Vs actual file size

    HHR
    HHR 2022/09/21
    設定のblock sizeはあくまでmax sizeで実際の消費sizeはfile size
  • How does Spark partition(ing) work on files in HDFS?

    HHR
    HHR 2021/06/02
    基本、HDFSのブロック数=パーティション数だが、色々複雑。
  • HBaseの概要とアーキテクチャ

    はじめに ネットワークに接続されたセンサ機器の普及により、IoT(Internet of Things)が注目を集めています。IoTでは様々なセンサ機器が膨大なデータを生成するため、システムが管理するデータ量は急激に増加しています。このような膨大なデータを管理するためのデータストアとして、RDBと比較して高い性能とスケーラビリティを持つNoSQLが注目を集めています。 「Apache HBase」(以降、HBase)はNoSQLの1つで、センサ機器が生成する時系列データを管理するための有力なデータストアとして注目されています。連載では、HBaseを用いたシステム設計のノウハウと、1,000万個のスマートメータから収集したデータによる性能検証の結果を紹介します。 今回は、まずNoSQLにおけるHBaseの位置付けを説明し、その後でHBaseの概要とアーキテクチャについて説明します。 NoS

    HBaseの概要とアーキテクチャ
    HHR
    HHR 2020/06/15
    入門。絵的で良い。
  • HDFSのメンテナンスステート

    原文: http://blog.cloudera.com/blog/2017/05/hdfs-maintenance-state/ はじめに:OSの更新、セキュリティパッチの適用、修正プログラムなどのシステムのメンテナンス作業は、どのデータセンターでも日常的な作業です。 このようなメンテナンス作業を行っている最中のDataNodeは、数分から数時間の間オフラインになる可能性があります。 設計上、Apache HadoopのHDFSはDataNodeのダウンに対応できますが、同時に複数のDataNodeで調整されていないメンテナンス操作があれば、一時的にデータ可用性の問題を引き起こす可能性があります。 HDFSは現在、計画された保守作業を実行するために次の機能をサポートしています: ローリングアップグレードデコミッションメンテナンスステート (CDH 5.11以降)ローリングアップグレードの

    HDFSのメンテナンスステート
    HHR
    HHR 2020/04/14
    decommission maintenance state
  • HDFS Erasure Codingの紹介とYahoo! JAPANにおける運用事例

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog はじめに こんにちは。Yahoo! JAPANでHadoopに携わっているエンジニアの浅沼です。Hadoopは大量のデータを分散処理するためのオープンソースソフトウエアです。この夏にリリース予定のバージョン3.0系には、HDFSの新機能であるErasure Codingが導入されます。Yahoo! JAPANではHadoopコミュニティーでErasure Codingの実装に参加してきました。記事ではErasure Codingの仕組みを詳しく解説し、弊社での運用事例を紹介します。 既存のHDFSの課題 Hadoopの中核をなす分散ファイルシステムのHDFS(Hadoop Distributed File System)は、マス

    HDFS Erasure Codingの紹介とYahoo! JAPANにおける運用事例
    HHR
    HHR 2018/04/27
  • 1