タグ

HDFSに関するkimutanskのブックマーク (23)

  • Dynamometer: Scale Testing HDFS on Minimal Hardware with Maximum Fidelity

    kimutansk
    kimutansk 2018/02/12
    HDFSのFSImageと、AuditLogを本番クラスタから読み込んで、アクセスパターンを再現、NameNodeの精度の高いパフォーマンステストを実行するというものですか。この考え方自体は色々応用できそうですね。
  • HDFSのメンテナンスステート

    原文: http://blog.cloudera.com/blog/2017/05/hdfs-maintenance-state/ はじめに:OSの更新、セキュリティパッチの適用、修正プログラムなどのシステムのメンテナンス作業は、どのデータセンターでも日常的な作業です。 このようなメンテナンス作業を行っている最中のDataNodeは、数分から数時間の間オフラインになる可能性があります。 設計上、Apache HadoopのHDFSはDataNodeのダウンに対応できますが、同時に複数のDataNodeで調整されていないメンテナンス操作があれば、一時的にデータ可用性の問題を引き起こす可能性があります。 HDFSは現在、計画された保守作業を実行するために次の機能をサポートしています: ローリングアップグレードデコミッションメンテナンスステート (CDH 5.11以降)ローリングアップグレードの

    HDFSのメンテナンスステート
    kimutansk
    kimutansk 2017/05/31
    これはうれしい機能。dfs.namenode.maintenance.replication.min=2でゆっくりやるのが実際の所安心な構成ですかね。
  • Apache HadoopのHDFS Erasure Codingの紹介

    原文: https://blog.cloudera.com/blog/2015/09/introduction-to-hdfs-erasure-coding-in-apache-hadoop/ 訳注:2015/9/23に公開されたブログの翻訳です。ブログ公開当時とは異なる点もありますので、最新情報はHDFS-7285、HDFS-8031などをご確認ください。 HDFSの新機能であるイレイジャーコーディング(Erasure Coding)は、レプリケーション(複製)と比較して、同等の永続性の保証を維持しながらストレージのオーバーヘッドを約50%削減することができます。 このブログでは、Erasure Codingがどのように動作するかを説明します。 デフォルトでHDFSは各ブロックを3回複製します。 レプリケーションは、ほとんどの障害シナリオを回避するための、シンプルで堅牢な冗長性の形式を提

    Apache HadoopのHDFS Erasure Codingの紹介
    kimutansk
    kimutansk 2017/05/19
    NameNodeのブロックマップは相応に増える、あとはラックも分散させる必要はある。ただスループットは向上し、当然ディスク使用量も減ると。きちんとはまるケースは相応にありそうです。
  • [HADOOP-1687] Name-node memory size estimates and optimization proposal. - ASF JIRA

    I've done some estimates on how much space our data structures take on the name-node per block, file and directory. Brief overview of the data structures: Directory tree (FSDirectory) is built of inodes. Each INode points either to an array of blocks if it corresponds to a file or to a TreeMap<String, INode> of children INodes if it is a directory. [Note: this estimates were made before Dhruba rep

    kimutansk
    kimutansk 2017/03/15
    NameNodeのメモリ上に存在するブロック情報がレプリケーションされても増えないことが疑問でしたが、実際は増えるがファイルやブロックのサイズに比べると影響が小さいと。
  • Data Store for Scalable Stream Processing - DataTorrent

    kimutansk
    kimutansk 2016/05/29
    HDHT・・見た感じ、クライアントサイドにキャッシュレイヤを設けてHDFSに遅延同期することでAPI的な速度を保つタイプ。お手軽な分、簡易でしかない感じですか。
  • Using CombineInputFormat to Combat Hadoop’s Small Files Problem | Amazon Web Services

    AWS Big Data Blog Using CombineInputFormat to Combat Hadoop’s Small Files Problem James Norvell is a Big Data Cloud Support Engineer for AWS Many Amazon EMR customers have architectures that track events and streams and store data in S3. This frequently leads to many small files. It’s now well known that Hadoop doesn’t deal well with small files. This issue can be amplified when migrating from Had

    Using CombineInputFormat to Combat Hadoop’s Small Files Problem | Amazon Web Services
    kimutansk
    kimutansk 2016/05/05
    細分化したファイルをマージして読み込む場合、パっと見た感じ、「HDFSのブロック情報上のサイズ」基準のマージですか。圧縮ファイルの場合は圧縮後のサイズが基準と。
  • 第19回 Impalaの設計と実装[3] | gihyo.jp

    はじめに 今回は、ImpalaにおけるI/Oの高速化技法について説明します。 前回説明したように、Impalaの実行エンジンは可能な限りメモリ上で処理をすることでアドホッククエリのレイテンシを下げ、スループットを向上させる、という設計方針で開発されています。 しかし、データはストレージ(二次記憶装置)に格納されているため、当然、ストレージへのI/Oを回避することはできません。また、Impalaは実行時に十分なメモリを確保するべく、データをメモリ上に保持(キャッシュ)しないため、クエリを実行するたびにデータをストレージから読み出すことを前提として設計されています[1]⁠。 今回は、このようなユースケースを考慮しつつ、高速・高効率なアドホッククエリを実行するためのI/O処理方式とデータレイアウトについて解説します。 Short-Circuit Local ReadsによるI/Oの高効率化 Sh

    第19回 Impalaの設計と実装[3] | gihyo.jp
    kimutansk
    kimutansk 2016/04/13
    Impala on HDFS/Parquetと、Impala on Kudu、どちらがスキャンかけて集計する用途で早くなりますかね。比較図ですとHDFS側でしたが、実際はどうなのか。
  • Asakusa 0.8 with M3BP - 急がば回れ、選ぶなら近道

    Asakusaが新規に高速実行エンジン(M3BP)をサポートした。M3BPはメニーコア特化型のC++で実装されたDAGの実行エンジンになる。ノーチラスとFixstarsの共同開発のOSSで、単ノード・メニーコアでの「処理の高速化」に振っている。いわゆるIn-memoryの実行エンジンで、ノードのCPUコアを使い切ることを目標しており、余計な機能はすべて削った。データがサーバ・メモリーに乗るクラスのバッチ処理であれば、ほぼ物理限界までパフォーマンスをたたき出す。 http://www.asakusafw.com/release/20160412.html 実際のベンチマークは以下のwhite paperにある。 http://www.asakusafw.com/wp/wp-content/uploads/2016/04/M3forBP_WP_JA_2016Apr12.pdf ベンチマーク対象

    Asakusa 0.8 with M3BP - 急がば回れ、選ぶなら近道
    kimutansk
    kimutansk 2016/04/12
    エッジサーバ上での性能を絞り切るという観点でも面白いですね。Beamよりも遥かに早い段階で同コンセプトを打ち出してるのでその点でも。
  • HDFS Snapshot + distcp と MapR-FS Volume Mirroring の違い - nagix

    MapR は HDFS の代わりに MapR-FS を使用している Hadoop ディストリビューションです。性能の向上、信頼性の向上、ランダムリードライト可能なNFS、NoSQL データベースとの統合、メッセージングキューとの統合、・・・と MapR-FS のメリットは挙げればきりがないのですが、HDFS API はそのまま利用できるため、すべての Hadoop アプリケーションやライブラリは違いを意識することなく動作します。 さて、Hadoop クラスタを運用する際に、データ更新を行う業務アプリケーションと、参照がメインの分析アプリケーション間で同じデータを共有したい、というケースはよくあると思います。ただし、分析アプリはデータセットの特定の時点の一貫性のあるスナップショットに対して処理を行うべきであるため、任意の時点で更新が発生する業務アプリのデータセットにそのままアクセスするわけに

    HDFS Snapshot + distcp と MapR-FS Volume Mirroring の違い - nagix
    kimutansk
    kimutansk 2016/04/11
    HDFSがNN上のメタデータ(EditLog)使用に対してMapR-FSの場合は実ファイルの照合になってる?正確ではありますが当然ながら負荷は高いような。素の性能で押し切ってる感じですかね。
  • A Guide to Checkpointing in Hadoop - Cloudera Blog

    Understanding how checkpointing works in HDFS can make the difference between a healthy cluster or a failing one. Checkpointing is an essential part of maintaining and persisting filesystem metadata in HDFS. It’s crucial for efficient NameNode recovery and restart, and is an important indicator of overall cluster health. However, checkpointing can also be a source of confusion for operators of Apa

    A Guide to Checkpointing in Hadoop - Cloudera Blog
    kimutansk
    kimutansk 2016/04/09
    CheckpointはEditLogのtxIdを用いて取得すると。Snapshotも同じようにやっているんでしょうね。そうすれば差分だけを算出することは可能になる。
  • HDFS SnapshotsとDistCpを利用したHDFSデータの差分更新 - Qiita

    Cloudera Engineering BlogにてCDH5.5にDistCpの高速化が実装されたと紹介されていたので、試してみました。 リンク先の説明を読んだ限り、2つのHDFS Snapshot間の差分情報を使って 削除・名前変更はDistCpを使わずに反映 新規作成・変更されたファイルだけをDistCpで同期 することで、高速化を図っているようです。 試した環境は、 CentOS: 7.2 (64bit) CDH 5.7.0 (擬似分散) です。 HDFSの準備 今回は、 同期元ディレクトリ:/user/hadoop/source 同期先ディレクトリ:/user/hadoop/target という状況とします。 [hadoop@localhost ~]$ hdfs dfs -mkdir source [hadoop@localhost ~]$ hdfs dfs -mkdir tar

    HDFS SnapshotsとDistCpを利用したHDFSデータの差分更新 - Qiita
    kimutansk
    kimutansk 2016/04/09
    こうやってできるのか!と思う前に「Snapshotをとるタイミング同期はどうやるんだろう」と思ってしまうあたり職業病。NNのEditLogから取られている、でいいんですかね
  • HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)

    HDFS新機能総まとめin 2015 (日Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)

    HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
    kimutansk
    kimutansk 2015/11/25
    ディスクの再起動なしの新品交換、HTrace対応、StorageType導入、INotify、ErasureCodingと。HDFSは現状一番長期に残りそうな感じです。
  • Hadoop filesystem at Twitter

    Twitter runs multiple large Hadoop clusters that are among the biggest in the world. Hadoop is at the core of our data platform and provides vast storage for analytics of user actions on Twitter. In this post, we will highlight our contributions to ViewFs, the client-side Hadoop filesystem view, and its versatile usage here. ViewFs makes the interaction with our HDFS infrastructure as simple as a

    Hadoop filesystem at Twitter
    kimutansk
    kimutansk 2015/10/05
    300PBのデータを万以上のホストに蓄積と。フェデレーションもこの規模だと必要と。ViewFSのTwitterカスタム版で複数のHDFSクラスタをラッピングして扱っているわけですか。
  • Hadoop 2 @ Twitter, Elephant Scale

    Hadoop in the Clouds, Virtualization and Virtual MachinesDataWorks Summit

    Hadoop 2 @ Twitter, Elephant Scale
    kimutansk
    kimutansk 2015/10/05
    1クラスタで3500ホストで50PBデータですか。CPU85%、メモリ96%まで使ってるのは効率いい。WebAPIを使用することでHadoop1/2を混在と。
  • Kuduリリース!

    オープンソースの新しいストレージエンジン、Kudu ついに日アナウンスされた Kudu (クドゥ)、次世代ハードウェアにも対応するオープンソースのストレージエンジンです。まだベータ版ですが、3年もの開発期間を経てついに公開されました! Super excited to finally talk about what I've been working on the last 3 years: Kudu! http://t.co/1W4sqFBcyH http://t.co/1mZCwgdOO5 — Todd Lipcon (@tlipcon) September 28, 2015 数日前にリークされた記事に「KuduはHDFSやHBaseを置き換えるものだ」と書かれていましたが、それは間違いです。詳細はFAQなどにも書かれていますが、HDFSとHBaseを補う新しいストレージエンジンです

    Kuduリリース!
    kimutansk
    kimutansk 2015/09/29
    端的に言うと、ハードを有効活用出来るよう最適化したParquetをデフォルトで搭載したストレージエンジン・・てとこなんですかね
  • 【セッションレポート】『Best Practices of Running Hadoop on EC2 vol.2』 #cmdevio2015E | DevelopersIO

    Eトラック最後のセッションは、Hortonworksの蒋逸峰様による「Best Practices of Running Hadoop on EC2 vol.2」です。 中国出身の蒋(ショウ)さんは、日に来て11年目とのこと。 日語で自然に話すことは勿論ですが、花粉症に悩まされるくらい日に順応されているようです。 今回のセッションでは、Hadoop関連と言うことで、先日のJaws Days 2015でのセッション(Hadoop Trends and Best Practices of Running Hadoop on EC2)で話さなかったコアな部分をお話いただきました。 Hadoopの最新状況 はじめに、Jaws Days 2015でのセッションと同様に、Hadoop界隈での動向などを軽く話していただきました。 最近のHadoop界隈の動向を一言で表すならば、『ここ1−2年はコミ

    【セッションレポート】『Best Practices of Running Hadoop on EC2 vol.2』 #cmdevio2015E | DevelopersIO
    kimutansk
    kimutansk 2015/04/08
    実際に聞いた時からマイルドな内容に。レプリケーションとErasureCodeは性能と容量との兼ね合いですか。同一クラスタ内での使い分けは調べてみますか
  • Runtime error - Meta Search

    Error message : Directory is not found or not writable (DATA_DIR) Directory is not found or not writable (DIFF_DIR) Directory is not found or not writable (BACKUP_DIR) Directory is not found or not writable (CACHE_DIR) Site admin: whitestar Copyright © 2006-2023 whitestar. All Rights Reserved. Icons powered by famfamfam. PukiWiki 1.5.0 Copyright © 2001-2006 PukiWiki Developers Team. License is GPL

    kimutansk
    kimutansk 2015/02/05
    「hadoop.job.ugi プロパティに任意のユーザを指定することによりそれらを変更することが可能」と。
  • Accessing files in HDFS using Java

    kimutansk
    kimutansk 2015/02/05
    「hadoop.job.ugi」プロパティを指定することで、WindowwからでもLinuxのHDFSクラスタに対して特定のユーザIDを指定してアクセスできる・・?
  • 今日からはじめるお手軽 Hive データ移行 - mixi engineer blog

    こんにちは. 昨年知人のオーケストラ演奏会で聴いたメンデルスゾーン交響曲第4番「イタリア」が大好きな,技術部の石川有です. そんな「イタリア」大好きな私ですが Hive のデータ移行も大好きという体で, 今回の記事ではオンプレミスで Hive を頑張って運用している方たちに向けて,どうしてもというときの Hive のデータ移行方法を紹介したいと思います. 弊社では最近,Cloudera's Distribution including Apache Hadoop 3 update 2 (CDH3u2) から CDH 4.1.2 にバージョンアップを行なっています. このようにオンプレミスで Hive を運用している方たちの中には,すでに持っているデータをうまく移行したいという方も多いかと思います. Hive には現状 MySQLmysqldump のような機能が提供されていないのでバ

    今日からはじめるお手軽 Hive データ移行 - mixi engineer blog
    kimutansk
    kimutansk 2014/10/23
    データ移行をべたでやるとこうなりますか。(お手軽?) とはいえ、こうやらないとできないのかも。外部テーブルだともっと楽に住むとは思いますが。
  • Hadoop のチューニングに関してまとめ - 毛無しさん@キレートレモン

    1効率の良い HiveQL を書くときに気をつけるべきことをまとめてみる。 以下に書いたことは、ほとんど全部自分なりの解釈なので、間違いが多々あると思います Hadoop一般のチューニングに関しては、ここを参考にした。 http://www.cloudera.co.jp/jpevents/cloudera-world-tokyo/pdf/A3_Hadoop%E3%81%AE%E3%82%B7%E3%82%B9%E3%83%86%E3%83%A0%E8%A8%AD%E8%A8%88_%E9%81%8B%E7%94%A8%E3%81%AE%E3%83%9D%E3%82%A4%E3%83%B3%E3%83%88.pdf Hadoop を参考に、この資料の補足してみた↓ ラック内ネットワークとラック間ネットワークは何が違うのか? (p.69 「ネットワークトポロジとHadoop」 / p.267

    kimutansk
    kimutansk 2014/10/16
    ディスクのマウントポイントやタスク数とディスク数の関係あたりはHadoopならでは、という感はありますね。