[B! Hadoop] HHRのブックマーク

Ravi Prakash's Homepage: YARN and MapReduce State Machine Diagrams

HHR 2022/07/28

yarn 状態遷移図

Hadoop

リンク

Yahoo! JAPANでのHadoop利用について

Cloudera World Tokyo 2015 Oracleセッション資料　「ビッグデータ/IoTの最新事例とHadoop活用の勘所」オラクルエンジニア通信

HHR 2022/07/15

太古の資料。v0.20系（！）

Hadoop
yahoo

リンク

TPCが設定したビッグデータ向けベンチマークテストは、非構造化データや半構造化データの処理、機械学習まで性能測定の対象［PR］

TPCが設定したビッグデータ向けベンチマークテストは、非構造化データや半構造化データの処理、機械学習まで性能測定の対象［PR］「TPC」（Transaction Processing Performance Council：トランザクション処理性能評議会）といえば、データベースの性能を計測するさまざまなベンチマークテストを策定し発表しているベンダニュートラルな団体として、多くのIT エンジニアに知られているでしょう。そのベンチマークテストは事実上の標準として受け入れられ、多くのベンダやユーザーが製品の向上や選択のために参照し活用しています。 TPCが公開しているベンチマークには、オンライントランザクション処理（OLTP）性能を計測する「TPC-C」や「TPC-E」だけでなく、大規模データ分析によるデシジョンサポートのためのデータベース性能を計測する「TPC-H」「TPC-DS」「TPC

HHR 2022/04/15

TPC-DS

Hadoop

リンク

How do I print hadoop properties in command line?

HHR 2022/02/14

これは良い。hadoop org.apache.hadoop.conf.Configuration

Hadoop

リンク

Data Compression in Hadoop

HHR 2022/01/14

Splittable そも圧縮はCPUコストがかかるので万事解決とはならない。CPUバウンドかHDFSバウンドか次第。Bzip2が高圧縮かつSplittableだがCPUコスト高。LZOはindexを別途作成することでSplittableかつCPUコスト低

Hadoop
bzip2

リンク

[HADOOP-14919] BZip2 drops records when reading data in splits - ASF JIRA

HHR 2022/01/12

BZip2の扱いは大変。Commentsにconcatの場合の議論とかがある。

Hadoop
bzip2

リンク

bzip2 and MAPREDUCE-13270 | The First Cry of Atom

bzip2 and MAPREDUCE-13270 18 Mar 2017 少し前だけれど、HADOOP-13270について書こうと思う。 Hadoop MapReduceフレームワークはInputFormatというインターフェースを通じて様々なフォーマットのファイルを読むことができる。単純なテキストファイルを一行ずつ読んだり、Avroなどのシリアライゼーションフォーマットやgzipなどの圧縮フォーマットもサポートしている。 InputFormatはgetSplitsというメソッドで一つのファイルを複数のSplitという単位に分割することが要求される。 1つのMapperは1つのSplitを読んで処理を行うため、このSplitを作る方法をInputFormatが知らないと巨大なファイルを複数のMapperで分散して処理できないのでSplitの作り方はMapReduceを効率的に走らせるため

HHR 2022/01/12

Splittableの話題。続きがHADOOP-14919にあって、bzip2ファイルをconcatするケースのケアも必要らしい。

Hadoop
bzip2

リンク

Spark and YARN - Qiita

SparkとYARNについて書きます。テーマ的にインフラストラクチャについての話が多くなると思います。 SparkとHadoopの関係性 SparkはHadoopクラスタへの依存はしていない。(ただし、ややこしいのだがHDFSやYARNのクライアントライブラリへの依存はある)なのでHadoopなしでも動かすことができる。しかしそれでもHadoopと一緒に動作させることが多いのは以下の理由による。クラスタマネージャとしてのYARN Sparkはアプリケーション（厳密にはSparkアプリケーション）ごとに下記のようなクラスタが構築される。Driver Programと呼ばれる、SparkContextオブジェクトを持ち、アプリケーションコードの主要部分を実行するアプリケーションのマスタコンポーネントと、RDDに対するオペレーションを実行するExecutor群。そして、Driver Progr

HHR 2021/05/25

Dynamic Resource Allocation, External Shuffle Service, spark.shuffle.service.enabled

spark
Hadoop

リンク

Best splittable compression for Hadoop input = bz2?

We've realized a bit too late that archiving our files in GZip format for Hadoop processing isn't such a great idea. GZip isn't splittable, and for reference, here are the probl ems which I won't repeat: Very basic question about Hadoop and compressed input files Hadoop gzip compressed files Hadoop gzip input file using only one mapper Why can't hadoop split up a large text file and then compress t

HHR 2021/05/24

gzipでの様々な問題へのリンクとbz2,LZO,LZ4について。bz2はsplittableだがCPUリソースを喰う。LZO,LZ4はCPUリソース当たりの圧縮効率が良いがindex作成、専用ツールの使用などhadoop内ルールなガラパゴス要素がある。

Hadoop
bzip2

リンク

Big Data Articles - dummies

Big Data Beyond Boundaries: Unstructured Data Orchestration Article / Updated 12-01-2023 Getting the most out of your unstructured data is an essential task for any organization these days, especially when considering the disparate storage systems, applications, and user locations. So, it’s not an accident that data orchestration is the term that brings everything together. Bringing all your data

HHR 2021/05/21

Splittable compression そもそもだが圧縮はCPUコストがかかるのでこ全て解決とはならない。CPUバウンドかHDFSバウンドか次第。Bzip2が高圧縮かつSplittableだがCPUコスト高。LZOはindexを別途作成することでSplittableかつCPUコスト低

Hadoop

リンク

[HADOOP-3315] New binary file format - ASF JIRA

SequenceFile's block compression format is too complex and requires 4 codecs to compress or decompress. It would be good to have a file format that only needs

HHR 2020/12/18

tfile

Hadoop

リンク

HDFS basics from API perspective

2017年9月7日に開催されたdb tech showcase Tokyo 2017での講演資料です。

HHR 2020/09/22

HDFSのappendは想像よりちゃんとしていた。「S3にディレクトリ、renameという概念はない。ファイルを作成、削除した直後にlsすると見えなかったりまだあったりすることがある」等にも強い。（が、苦労話が多い印象）

Hadoop

リンク

Sign In

Support<\/strong> Portal","icon":"fal fa-life-ring","description":"Support Portal access is limited to select partners or customers with an enterprise subscription.","id":"exk1f6ok4xszxOKHo0x7","learnMoreUrl":"/content/support/my/en-us/support/subscription-value-center.html","contactSalesUrl":"https://www.cloudera.com/contact-sales.html","contactSalesTitle":null,"url":"https://my.cloudera.com/supp

HHR 2018/10/06

UserGroupInformation javaからpasswordでkinitする方法。Impersonation ugi.doAs()など。

リンク

Learning Kerberos and UGI

HHR 2018/10/06

loginUserFromKeytab()とloginUserFromKeytabAndReturnUGI()について。複数のhadoop confを扱うシステムでは後者を使う。さもないと別threadに上書きされてうまく動作しない可能性がある

リンク

Hadoop Delegation Tokens Explained - Cloudera Blog

Apache Hadoop’s security was designed and implemented around 2009, and has been stabilizing since then. However, due to a lack of documentation around this area, it’s hard to understand or debug when probl ems arise. Delegation tokens were designed and are widely used in the Hadoop ecosystem as an authentication method. This blog post introduces the concept of Hadoop Delegation Tokens in the contex

HHR 2018/09/27

Delegation Tokenの必読資料

Hadoop

リンク

UGI · Hadoop and Kerberos: The Madness Beyond the Gate

HHR 2018/09/25

UserGroupInformation isSecurityEnabled() getLoginUser() checkTGTAndReloginFromKeytab() getCurrentUser() debug proxy user doAs()

Hadoop

リンク

java - Should I call ugi.checkTGTAndReloginFromKeytab() before every action on hadoop? - Stack Overflow

HHR 2018/09/24

UserGroupInformationについて。committerが様々なケースで解説

リンク

Hadoopの概念と基本的知識

大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -（db tech showcase 2021 / ONLINE 発...NTT DATA Techno logy & Innovation

HHR 2017/08/06

Hadoop

リンク

「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮

Hadoopの時代は終わった、という言説をたまに見かけるようになりました。もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。本記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。以上をご了承の上、読み進めてください。要約データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが