TPCが設定したビッグデータ向けベンチマークテストは、非構造化データや半構造化データの処理、機械学習まで性能測定の対象 [PR] 「TPC」(Transaction Processing Performance Council:トランザクション処理性能評議会)といえば、データベースの性能を計測するさまざまなベンチマークテストを策定し発表しているベンダニュートラルな団体として、多くのITエンジニアに知られているでしょう。 そのベンチマークテストは事実上の標準として受け入れられ、多くのベンダやユーザーが製品の向上や選択のために参照し活用しています。 TPCが公開しているベンチマークには、オンライントランザクション処理(OLTP)性能を計測する「TPC-C」や「TPC-E」だけでなく、大規模データ分析によるデシジョンサポートのためのデータベース性能を計測する「TPC-H」「TPC-DS」「TPC
bzip2 and MAPREDUCE-13270 18 Mar 2017 少し前だけれど、HADOOP-13270について書こうと思う。 Hadoop MapReduceフレームワークはInputFormatというインターフェースを通じて様々なフォーマットのファイルを読むことができる。単純なテキストファイルを一行ずつ読んだり、Avroなどのシリアライゼーションフォーマットやgzipなどの圧縮フォーマットもサポートしている。 InputFormatはgetSplitsというメソッドで一つのファイルを複数のSplitという単位に分割することが要求される。 1つのMapperは1つのSplitを読んで処理を行うため、このSplitを作る方法をInputFormatが知らないと巨大なファイルを複数のMapperで分散して処理できないのでSplitの作り方はMapReduceを効率的に走らせるため
SparkとYARNについて書きます。テーマ的にインフラストラクチャについての話が多くなると思います。 SparkとHadoopの関係性 SparkはHadoopクラスタへの依存はしていない。(ただし、ややこしいのだがHDFSやYARNのクライアントライブラリへの依存はある)なのでHadoopなしでも動かすことができる。しかしそれでもHadoopと一緒に動作させることが多いのは以下の理由による。 クラスタマネージャとしてのYARN Sparkはアプリケーション(厳密にはSparkアプリケーション)ごとに下記のようなクラスタが構築される。Driver Programと呼ばれる、SparkContextオブジェクトを持ち、アプリケーションコードの主要部分を実行するアプリケーションのマスタコンポーネントと、RDDに対するオペレーションを実行するExecutor群。そして、Driver Progr
We've realized a bit too late that archiving our files in GZip format for Hadoop processing isn't such a great idea. GZip isn't splittable, and for reference, here are the problems which I won't repeat: Very basic question about Hadoop and compressed input files Hadoop gzip compressed files Hadoop gzip input file using only one mapper Why can't hadoop split up a large text file and then compress t
Big Data Beyond Boundaries: Unstructured Data Orchestration Article / Updated 12-01-2023 Getting the most out of your unstructured data is an essential task for any organization these days, especially when considering the disparate storage systems, applications, and user locations. So, it’s not an accident that data orchestration is the term that brings everything together. Bringing all your data
Support<\/strong> Portal","icon":"fal fa-life-ring","description":"Support Portal access is limited to select partners or customers with an enterprise subscription.","id":"exk1f6ok4xszxOKHo0x7","learnMoreUrl":"/content/support/my/en-us/support/subscription-value-center.html","contactSalesUrl":"https://www.cloudera.com/contact-sales.html","contactSalesTitle":null,"url":"https://my.cloudera.com/supp
Apache Hadoop’s security was designed and implemented around 2009, and has been stabilizing since then. However, due to a lack of documentation around this area, it’s hard to understand or debug when problems arise. Delegation tokens were designed and are widely used in the Hadoop ecosystem as an authentication method. This blog post introduces the concept of Hadoop Delegation Tokens in the contex
Hadoopの時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。 本記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。 中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。 以上をご了承の上、読み進めてください。 要約 データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く