原文: http://blog.cloudera.com/blog/2017/05/hdfs-maintenance-state/ はじめに:OSの更新、セキュリティパッチの適用、修正プログラムなどのシステムのメンテナンス作業は、どのデータセンターでも日常的な作業です。 このようなメンテナンス作業を行っている最中のDataNodeは、数分から数時間の間オフラインになる可能性があります。 設計上、Apache HadoopのHDFSはDataNodeのダウンに対応できますが、同時に複数のDataNodeで調整されていないメンテナンス操作があれば、一時的にデータ可用性の問題を引き起こす可能性があります。 HDFSは現在、計画された保守作業を実行するために次の機能をサポートしています: ローリングアップグレードデコミッションメンテナンスステート (CDH 5.11以降)ローリングアップグレードの
原文: https://blog.cloudera.com/blog/2015/09/introduction-to-hdfs-erasure-coding-in-apache-hadoop/ 訳注:2015/9/23に公開されたブログの翻訳です。ブログ公開当時とは異なる点もありますので、最新情報はHDFS-7285、HDFS-8031などをご確認ください。 HDFSの新機能であるイレイジャーコーディング(Erasure Coding)は、レプリケーション(複製)と比較して、同等の永続性の保証を維持しながらストレージのオーバーヘッドを約50%削減することができます。 このブログでは、Erasure Codingがどのように動作するかを説明します。 デフォルトでHDFSは各ブロックを3回複製します。 レプリケーションは、ほとんどの障害シナリオを回避するための、シンプルで堅牢な冗長性の形式を提
I've done some estimates on how much space our data structures take on the name-node per block, file and directory. Brief overview of the data structures: Directory tree (FSDirectory) is built of inodes. Each INode points either to an array of blocks if it corresponds to a file or to a TreeMap<String, INode> of children INodes if it is a directory. [Note: this estimates were made before Dhruba rep
AWS Big Data Blog Using CombineInputFormat to Combat Hadoop’s Small Files Problem James Norvell is a Big Data Cloud Support Engineer for AWS Many Amazon EMR customers have architectures that track events and streams and store data in S3. This frequently leads to many small files. It’s now well known that Hadoop doesn’t deal well with small files. This issue can be amplified when migrating from Had
はじめに 今回は、ImpalaにおけるI/Oの高速化技法について説明します。 前回説明したように、Impalaの実行エンジンは可能な限りメモリ上で処理をすることでアドホッククエリのレイテンシを下げ、スループットを向上させる、という設計方針で開発されています。 しかし、データはストレージ(二次記憶装置)に格納されているため、当然、ストレージへのI/Oを回避することはできません。また、Impalaは実行時に十分なメモリを確保するべく、データをメモリ上に保持(キャッシュ)しないため、クエリを実行するたびにデータをストレージから読み出すことを前提として設計されています[1]。 今回は、このようなユースケースを考慮しつつ、高速・高効率なアドホッククエリを実行するためのI/O処理方式とデータレイアウトについて解説します。 Short-Circuit Local ReadsによるI/Oの高効率化 Sh
Asakusaが新規に高速実行エンジン(M3BP)をサポートした。M3BPはメニーコア特化型のC++で実装されたDAGの実行エンジンになる。ノーチラスとFixstarsの共同開発のOSSで、単ノード・メニーコアでの「処理の高速化」に振っている。いわゆるIn-memoryの実行エンジンで、ノードのCPUコアを使い切ることを目標しており、余計な機能はすべて削った。データがサーバ・メモリーに乗るクラスのバッチ処理であれば、ほぼ物理限界までパフォーマンスをたたき出す。 http://www.asakusafw.com/release/20160412.html 実際のベンチマークは以下のwhite paperにある。 http://www.asakusafw.com/wp/wp-content/uploads/2016/04/M3forBP_WP_JA_2016Apr12.pdf ベンチマーク対象
MapR は HDFS の代わりに MapR-FS を使用している Hadoop ディストリビューションです。性能の向上、信頼性の向上、ランダムリードライト可能なNFS、NoSQL データベースとの統合、メッセージングキューとの統合、・・・と MapR-FS のメリットは挙げればきりがないのですが、HDFS API はそのまま利用できるため、すべての Hadoop アプリケーションやライブラリは違いを意識することなく動作します。 さて、Hadoop クラスタを運用する際に、データ更新を行う業務アプリケーションと、参照がメインの分析アプリケーション間で同じデータを共有したい、というケースはよくあると思います。ただし、分析アプリはデータセットの特定の時点の一貫性のあるスナップショットに対して処理を行うべきであるため、任意の時点で更新が発生する業務アプリのデータセットにそのままアクセスするわけに
Understanding how checkpointing works in HDFS can make the difference between a healthy cluster or a failing one. Checkpointing is an essential part of maintaining and persisting filesystem metadata in HDFS. It’s crucial for efficient NameNode recovery and restart, and is an important indicator of overall cluster health. However, checkpointing can also be a source of confusion for operators of Apa
Cloudera Engineering BlogにてCDH5.5にDistCpの高速化が実装されたと紹介されていたので、試してみました。 リンク先の説明を読んだ限り、2つのHDFS Snapshot間の差分情報を使って 削除・名前変更はDistCpを使わずに反映 新規作成・変更されたファイルだけをDistCpで同期 することで、高速化を図っているようです。 試した環境は、 CentOS: 7.2 (64bit) CDH 5.7.0 (擬似分散) です。 HDFSの準備 今回は、 同期元ディレクトリ:/user/hadoop/source 同期先ディレクトリ:/user/hadoop/target という状況とします。 [hadoop@localhost ~]$ hdfs dfs -mkdir source [hadoop@localhost ~]$ hdfs dfs -mkdir tar
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
Twitter runs multiple large Hadoop clusters that are among the biggest in the world. Hadoop is at the core of our data platform and provides vast storage for analytics of user actions on Twitter. In this post, we will highlight our contributions to ViewFs, the client-side Hadoop filesystem view, and its versatile usage here. ViewFs makes the interaction with our HDFS infrastructure as simple as a
オープンソースの新しいストレージエンジン、Kudu ついに本日アナウンスされた Kudu (クドゥ)、次世代ハードウェアにも対応するオープンソースのストレージエンジンです。まだベータ版ですが、3年もの開発期間を経てついに公開されました! Super excited to finally talk about what I've been working on the last 3 years: Kudu! http://t.co/1W4sqFBcyH http://t.co/1mZCwgdOO5 — Todd Lipcon (@tlipcon) September 28, 2015 数日前にリークされた記事に「KuduはHDFSやHBaseを置き換えるものだ」と書かれていましたが、それは間違いです。詳細はFAQなどにも書かれていますが、HDFSとHBaseを補う新しいストレージエンジンです
Eトラック最後のセッションは、Hortonworksの蒋逸峰様による「Best Practices of Running Hadoop on EC2 vol.2」です。 中国出身の蒋(ショウ)さんは、日本に来て11年目とのこと。 日本語で自然に話すことは勿論ですが、花粉症に悩まされるくらい日本に順応されているようです。 今回のセッションでは、Hadoop関連と言うことで、先日のJaws Days 2015でのセッション(Hadoop Trends and Best Practices of Running Hadoop on EC2)で話さなかったコアな部分をお話いただきました。 Hadoopの最新状況 はじめに、Jaws Days 2015でのセッションと同様に、Hadoop界隈での動向などを軽く話していただきました。 最近のHadoop界隈の動向を一言で表すならば、『ここ1−2年はコミ
Error message : Directory is not found or not writable (DATA_DIR) Directory is not found or not writable (DIFF_DIR) Directory is not found or not writable (BACKUP_DIR) Directory is not found or not writable (CACHE_DIR) Site admin: whitestar Copyright © 2006-2023 whitestar. All Rights Reserved. Icons powered by famfamfam. PukiWiki 1.5.0 Copyright © 2001-2006 PukiWiki Developers Team. License is GPL
こんにちは. 昨年知人のオーケストラ演奏会で聴いたメンデルスゾーン交響曲第4番「イタリア」が大好きな,技術部の石川有です. そんな「イタリア」大好きな私ですが Hive のデータ移行も大好きという体で, 今回の記事ではオンプレミスで Hive を頑張って運用している方たちに向けて,どうしてもというときの Hive のデータ移行方法を紹介したいと思います. 弊社では最近,Cloudera's Distribution including Apache Hadoop 3 update 2 (CDH3u2) から CDH 4.1.2 にバージョンアップを行なっています. このようにオンプレミスで Hive を運用している方たちの中には,すでに持っているデータをうまく移行したいという方も多いかと思います. Hive には現状 MySQL の mysqldump のような機能が提供されていないのでバ
1効率の良い HiveQL を書くときに気をつけるべきことをまとめてみる。 以下に書いたことは、ほとんど全部自分なりの解釈なので、間違いが多々あると思います Hadoop一般のチューニングに関しては、ここを参考にした。 http://www.cloudera.co.jp/jpevents/cloudera-world-tokyo/pdf/A3_Hadoop%E3%81%AE%E3%82%B7%E3%82%B9%E3%83%86%E3%83%A0%E8%A8%AD%E8%A8%88_%E9%81%8B%E7%94%A8%E3%81%AE%E3%83%9D%E3%82%A4%E3%83%B3%E3%83%88.pdf Hadoop本 を参考に、この資料の補足してみた↓ ラック内ネットワークとラック間ネットワークは何が違うのか? (p.69 「ネットワークトポロジとHadoop」 / p.267
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く