[B! HDFS] kimutanskのブックマーク

Dynamometer: Scale Testing HDFS on Minimal Hardware with Maximum Fidelity

kimutansk 2018/02/12

HDFSのFSImageと、AuditLogを本番クラスタから読み込んで、アクセスパターンを再現、NameNodeの精度の高いパフォーマンステストを実行するというものですか。この考え方自体は色々応用できそうですね。

HDFS

リンク

HDFSのメンテナンスステート

原文: http://blog.cloudera.com/blog/2017/05/hdfs-maintenance-state/ はじめに:OSの更新、セキュリティパッチの適用、修正プログラムなどのシステムのメンテナンス作業は、どのデータセンターでも日常的な作業です。このようなメンテナンス作業を行っている最中のDataNodeは、数分から数時間の間オフラインになる可能性があります。設計上、Apache HadoopのHDFSはDataNodeのダウンに対応できますが、同時に複数のDataNodeで調整されていないメンテナンス操作があれば、一時的にデータ可用性の問題を引き起こす可能性があります。 HDFSは現在、計画された保守作業を実行するために次の機能をサポートしています: ローリングアップグレードデコミッションメンテナンスステート (CDH 5.11以降）ローリングアップグレードの

kimutansk 2017/05/31

これはうれしい機能。dfs.namenode.maintenance.replication.min=2でゆっくりやるのが実際の所安心な構成ですかね。

HDFS

リンク

Apache HadoopのHDFS Erasure Codingの紹介

原文: https://blog.cloudera.com/blog/2015/09/introduction-to-hdfs-erasure-coding-in-apache-hadoop/ 訳注：2015/9/23に公開されたブログの翻訳です。ブログ公開当時とは異なる点もありますので、最新情報はHDFS-7285、HDFS-8031などをご確認ください。 HDFSの新機能であるイレイジャーコーディング(Erasure Coding)は、レプリケーション（複製）と比較して、同等の永続性の保証を維持しながらストレージのオーバーヘッドを約50％削減することができます。このブログでは、Erasure Codingがどのように動作するかを説明します。デフォルトでHDFSは各ブロックを3回複製します。レプリケーションは、ほとんどの障害シナリオを回避するための、シンプルで堅牢な冗長性の形式を提

kimutansk 2017/05/19

NameNodeのブロックマップは相応に増える、あとはラックも分散させる必要はある。ただスループットは向上し、当然ディスク使用量も減ると。きちんとはまるケースは相応にありそうです。

hadoop
HDFS

リンク

[HADOOP-1687] Name-node memory size estimates and optimization proposal. - ASF JIRA

I've done some estimates on how much space our data structures take on the name-node per block, file and directory. Brief overview of the data structures: Directory tree (FSDirectory) is built of inodes. Each INode points either to an array of blocks if it corresponds to a file or to a TreeMap<String, INode> of children INodes if it is a directory. [Note: this estimates were made before Dhruba rep

kimutansk 2017/03/15

NameNodeのメモリ上に存在するブロック情報がレプリケーションされても増えないことが疑問でしたが、実際は増えるがファイルやブロックのサイズに比べると影響が小さいと。

Hadoop
HDFS

リンク

Data Store for Scalable Stream Processing - DataTorrent

kimutansk 2016/05/29

HDHT・・見た感じ、クライアントサイドにキャッシュレイヤを設けてHDFSに遅延同期することでAPI的な速度を保つタイプ。お手軽な分、簡易でしかない感じですか。

hdfs

リンク

Using CombineInputFormat to Combat Hadoop’s Small Files Problem | Amazon Web Services

AWS Big Data Blog Using CombineInputFormat to Combat Hadoop’s Small Files Probl em James Norvell is a Big Data Cloud Support Engineer for AWS Many Amazon EMR customers have architectures that track events and streams and store data in S3. This frequently leads to many small files. It’s now well known that Hadoop doesn’t deal well with small files. This issue can be amplified when migrating from Had

kimutansk 2016/05/05

細分化したファイルをマージして読み込む場合、パっと見た感じ、「HDFSのブロック情報上のサイズ」基準のマージですか。圧縮ファイルの場合は圧縮後のサイズが基準と。

hdfs
hadoop

リンク

第19回　Impalaの設計と実装［3］ | gihyo.jp

はじめに今回は、ImpalaにおけるI/Oの高速化技法について説明します。前回説明したように、Impalaの実行エンジンは可能な限りメモリ上で処理をすることでアドホッククエリのレイテンシを下げ、スループットを向上させる、という設計方針で開発されています。しかし、データはストレージ（二次記憶装置）に格納されているため、当然、ストレージへのI/Oを回避することはできません。また、Impalaは実行時に十分なメモリを確保するべく、データをメモリ上に保持（キャッシュ）しないため、クエリを実行するたびにデータをストレージから読み出すことを前提として設計されています[1]⁠。今回は、このようなユースケースを考慮しつつ、高速・高効率なアドホッククエリを実行するためのI/O処理方式とデータレイアウトについて解説します。 Short-Circ uit Local ReadsによるI/Oの高効率化 Sh

kimutansk 2016/04/13

Impala on HDFS/Parquetと、Impala on Kudu、どちらがスキャンかけて集計する用途で早くなりますかね。比較図ですとHDFS側でしたが、実際はどうなのか。

HDFS
Impala

リンク

Asakusa 0.8 with M3BP - 急がば回れ、選ぶなら近道

Asakusaが新規に高速実行エンジン（M3BP）をサポートした。M3BPはメニーコア特化型のC++で実装されたDAGの実行エンジンになる。ノーチラスとFixstarsの共同開発のOSSで、単ノード・メニーコアでの「処理の高速化」に振っている。いわゆるIn-memoryの実行エンジンで、ノードのCPUコアを使い切ることを目標しており、余計な機能はすべて削った。データがサーバ・メモリーに乗るクラスのバッチ処理であれば、ほぼ物理限界までパフォーマンスをたたき出す。 http://www.asakusafw.com/release/20160412.html 実際のベンチマークは以下のwhite paperにある。 http://www.asakusafw.com/wp/wp-content/uploads/2016/04/M3forBP_WP_JA_2016Apr12.pdf ベンチマーク対象

kimutansk 2016/04/12

エッジサーバ上での性能を絞り切るという観点でも面白いですね。Beamよりも遥かに早い段階で同コンセプトを打ち出してるのでその点でも。

リンク

HDFS Snapshot + distcp と MapR-FS Volume Mirroring の違い - nagix

MapR は HDFS の代わりに MapR-FS を使用している Hadoop ディストリビューションです。性能の向上、信頼性の向上、ランダムリードライト可能なNFS、NoSQL データベースとの統合、メッセージングキューとの統合、・・・と MapR-FS のメリットは挙げればきりがないのですが、HDFS API はそのまま利用できるため、すべての Hadoop アプリケーションやライブラリは違いを意識することなく動作します。さて、Hadoop クラスタを運用する際に、データ更新を行う業務アプリケーションと、参照がメインの分析アプリケーション間で同じデータを共有したい、というケースはよくあると思います。ただし、分析アプリはデータセットの特定の時点の一貫性のあるスナップショットに対して処理を行うべきであるため、任意の時点で更新が発生する業務アプリのデータセットにそのままアクセスするわけに

kimutansk 2016/04/11

HDFSがNN上のメタデータ(EditLog)使用に対してMapR-FSの場合は実ファイルの照合になってる？正確ではありますが当然ながら負荷は高いような。素の性能で押し切ってる感じですかね。

HDFS

リンク

A Guide to Checkpointing in Hadoop - Cloudera Blog

Understanding how checkpointing works in HDFS can make the difference between a healthy cluster or a failing one. Checkpointing is an essential part of maintaining and persisting filesystem metadata in HDFS. It’s crucial for efficient NameNode recovery and restart, and is an important indicator of overall cluster health. However, checkpointing can also be a source of confusion for operators of Apa

kimutansk 2016/04/09

CheckpointはEditLogのtxIdを用いて取得すると。Snapshotも同じようにやっているんでしょうね。そうすれば差分だけを算出することは可能になる。

HDFS

リンク

HDFS SnapshotsとDistCpを利用したHDFSデータの差分更新 - Qiita

Cloudera Engineering BlogにてCDH5.5にDistCpの高速化が実装されたと紹介されていたので、試してみました。リンク先の説明を読んだ限り、2つのHDFS Snapshot間の差分情報を使って削除・名前変更はDistCpを使わずに反映新規作成・変更されたファイルだけをDistCpで同期することで、高速化を図っているようです。試した環境は、 CentOS: 7.2 (64bit) CDH 5.7.0 (擬似分散) です。 HDFSの準備今回は、同期元ディレクトリ：/user/hadoop/source 同期先ディレクトリ：/user/hadoop/target という状況とします。 [hadoop@localhost ~]$ hdfs dfs -mkdir source [hadoop@localhost ~]$ hdfs dfs -mkdir tar

kimutansk 2016/04/09

こうやってできるのか！と思う前に「Snapshotをとるタイミング同期はどうやるんだろう」と思ってしまうあたり職業病。NNのEditLogから取られている、でいいんですかね

HDFS

リンク

HDFS新機能総まとめin 2015 （日本Hadoopユーザー会ライトニングトーク＠Cloudera World Tokyo 2015　講演資料）

kimutansk 2015/11/25

ディスクの再起動なしの新品交換、HTrace対応、StorageType導入、INotify、ErasureCodingと。HDFSは現状一番長期に残りそうな感じです。

HDFS
hadoop

リンク

Hadoop filesystem at Twitter

Twitter runs multiple large Hadoop clusters that are among the biggest in the world. Hadoop is at the core of our data platform and provides vast storage for analytics of user actions on Twitter. In this post, we will highlight our contributions to ViewFs, the client-side Hadoop filesystem view, and its versatile usage here. ViewFs makes the interaction with our HDFS infrastructure as simple as a

kimutansk 2015/10/05

300PBのデータを万以上のホストに蓄積と。フェデレーションもこの規模だと必要と。ViewFSのTwitterカスタム版で複数のHDFSクラスタをラッピングして扱っているわけですか。

リンク

Hadoop 2 @ Twitter, Elephant Scale

Hadoop in the Clouds, Virtualization and Virtual MachinesDataWorks Summit

kimutansk 2015/10/05

1クラスタで3500ホストで50PBデータですか。CPU85%、メモリ96%まで使ってるのは効率いい。WebAPIを使用することでHadoop1/2を混在と。

リンク

Kuduリリース！

オープンソースの新しいストレージエンジン、Kudu ついに本日アナウンスされた Kudu (クドゥ）、次世代ハードウェアにも対応するオープンソースのストレージエンジンです。まだベータ版ですが、3年もの開発期間を経てついに公開されました！ Super excited to finally talk about what I've been working on the last 3 years: Kudu! http://t.co/1W4sqFBcyH http://t.co/1mZCwgdOO5 — Todd Lipcon (@tlipcon) September 28, 2015 数日前にリークされた記事に「KuduはHDFSやHBaseを置き換えるものだ」と書かれていましたが、それは間違いです。詳細はFAQなどにも書かれていますが、HDFSとHBaseを補う新しいストレージエンジンです

kimutansk 2015/09/29

端的に言うと、ハードを有効活用出来るよう最適化したParquetをデフォルトで搭載したストレージエンジン・・てとこなんですかね

リンク

【セッションレポート】『Best Practices of Running Hadoop on EC2 vol.2』 #cmdevio2015E | DevelopersIO

Eトラック最後のセッションは、Hortonworksの蒋逸峰様による「Best Practices of Running Hadoop on EC2 vol.2」です。中国出身の蒋（ショウ）さんは、日本に来て11年目とのこと。日本語で自然に話すことは勿論ですが、花粉症に悩まされるくらい日本に順応されているようです。今回のセッションでは、Hadoop関連と言うことで、先日のJaws Days 2015でのセッション（Hadoop Trends and Best Practices of Running Hadoop on EC2）で話さなかったコアな部分をお話いただきました。 Hadoopの最新状況はじめに、Jaws Days 2015でのセッションと同様に、Hadoop界隈での動向などを軽く話していただきました。最近のHadoop界隈の動向を一言で表すならば、『ここ1−2年はコミ

kimutansk 2015/04/08

実際に聞いた時からマイルドな内容に。レプリケーションとErasureCodeは性能と容量との兼ね合いですか。同一クラスタ内での使い分けは調べてみますか

リンク

Runtime error - Meta Search

Error message : Directory is not found or not writable (DATA_DIR) Directory is not found or not writable (DIFF_DIR) Directory is not found or not writable (BACKUP_DIR) Directory is not found or not writable (CACHE_DIR) Site admin: whitestar Copyright © 2006-2023 whitestar. All Rights Reserved. Icons powered by famfa mfam. PukiWiki 1.5.0 Copyright © 2001-2006 PukiWiki Developers Team. License is GPL

kimutansk 2015/02/05

「hadoop.job.ugi プロパティに任意のユーザを指定することによりそれらを変更することが可能」と。

HDFS
hadoop

リンク

Accessing files in HDFS using Java

kimutansk 2015/02/05

「hadoop.job.ugi」プロパティを指定することで、WindowwからでもLinuxのHDFSクラスタに対して特定のユーザIDを指定してアクセスできる・・？

hadoop
HDFS

リンク

今日からはじめるお手軽 Hive データ移行 - mixi engineer blog

こんにちは．昨年知人のオーケストラ演奏会で聴いたメンデルスゾーン交響曲第４番「イタリア」が大好きな，技術部の石川有です．そんな「イタリア」大好きな私ですが Hive のデータ移行も大好きという体で，今回の記事ではオンプレミスで Hive を頑張って運用している方たちに向けて，どうしてもというときの Hive のデータ移行方法を紹介したいと思います．弊社では最近，Cloudera's Distribution including Apache Hadoop 3 update 2 (CDH3u2) から CDH 4.1.2 にバージョンアップを行なっています．このようにオンプレミスで Hive を運用している方たちの中には，すでに持っているデータをうまく移行したいという方も多いかと思います． Hive には現状 MySQL の mysqldump のような機能が提供されていないのでバ

kimutansk 2014/10/23

データ移行をべたでやるとこうなりますか。（お手軽？）　とはいえ、こうやらないとできないのかも。外部テーブルだともっと楽に住むとは思いますが。

リンク

Hadoop のチューニングに関してまとめ - 毛無しさん@キレートレモン

1効率の良い HiveQL を書くときに気をつけるべきことをまとめてみる。以下に書いたことは、ほとんど全部自分なりの解釈なので、間違いが多々あると思います Hadoop一般のチューニングに関しては、ここを参考にした。 http://www.cloudera.co.jp/jpevents/cloudera-world-tokyo/pdf/A3_Hadoop%E3%81%AE%E3%82%B7%E3%82%B9%E3%83%86%E3%83%A0%E8%A8%AD%E8%A8%88_%E9%81%8B%E7%94%A8%E3%81%AE%E3%83%9D%E3%82%A4%E3%83%B3%E3%83%88.pdf Hadoop本を参考に、この資料の補足してみた↓ ラック内ネットワークとラック間ネットワークは何が違うのか？ (p.69 「ネットワークトポロジとHadoop」 / p.267

kimutansk 2014/10/16

ディスクのマウントポイントやタスク数とディスク数の関係あたりはHadoopならでは、という感はありますね。

リンク

はてなブックマーク

タグ

関連タグで絞り込む (25)

HDFSに関するkimutanskのブックマーク (23)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス