並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 76 件 / 76件

新着順 人気順

hadoopの検索結果41 - 76 件 / 76件

  • 並列分散処理基盤のいま~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~ - セミナープログラム - オープンソースカンファレンス2020 Online/Kyoto

    並列分散処理基盤のいま~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~ 2020年8月28日(金) 17:15 〜 18:00 OSSベースの分散処理基盤としてApache Hadoopが誕生して10余年が経ち、大規模並列分散処理の領域において、これまでに多種多様なソフトウェアが開発されてきました。 本セッションでは、それらのソフトウェアがどのような経緯で誕生し、どのように使われるのかをお話ししつつ、近年注目を集めているデータ分析を指向したストレージレイヤSWであるDelta Lakeについてもご紹介します。

      並列分散処理基盤のいま~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~ - セミナープログラム - オープンソースカンファレンス2020 Online/Kyoto
    • 2020年のApache Hadoop振り返り - Memo

      Apache Hadoopについて、2020年にどんなことがあったのかざっくりと振り返りたいと思います。Advent Calendar枠です(大遅刻)。 Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2020 - Qiita Apache Ozoneが分離 オブジェクトストレージを担当するOzoneはすでにHadoop本体のソースコードからは分離されていましたが、新規のTLP(Top-Level Project)としてスピンオフしました。2019年にApache SubmarineがTLPになったのを見て、Ozoneもいずれそうなると思っていたので個人的には特に驚きはないです。プロジェクトが分離すると具体的に何が起こるかというと、committerやPMCなどが別々になります(他にもあるけど

        2020年のApache Hadoop振り返り - Memo
      • ZooKage: Hadoop on Kubernetes on Docker Desktop - おくみん公式ブログ

        Kubernetes上にHadoopサンドボックス環境をコマンド一発で構築するツール、ZooKageをリリースしました。本記事では開発に至った経緯と基本的な使い方を紹介します。 「Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2020」にエントリーするつもりでいましたが、開発中に枠が埋まってしまったので過去の日付を埋める形で参加させていただきます。遅くなってすみません…… モチベーション Hadoopエコシステムは大量のコンポーネントから成り立っており、その混沌はしばしば動物園に例えられます。手軽に起動する手段が用意されているプロジェクトもありますが、それでもローカルマシンで満足な検証をするには困難を伴います。公私ともに様々なバージョンのHive/Hadoopやそれらへのパッチを検証すること

          ZooKage: Hadoop on Kubernetes on Docker Desktop - おくみん公式ブログ
        • 並列分散処理基盤のいま 45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門(Open Source Conference 2020 Online/Kyoto 2020年8月28日 講演資料)

          並列分散処理基盤のいま 45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門 Open Source Conference 2020 Online/Kyoto 2020年8月28日 講演資料 https://event.ospn.jp/osc2020-online-kyoto/ 株式会社NTTデータ システム技術本部 利光 宏平Read less

            並列分散処理基盤のいま 45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門(Open Source Conference 2020 Online/Kyoto 2020年8月28日 講演資料)
          • LINEがApache Software FoundationのSilver Sponsorになりました

            LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog こんにちは。Open Source Program Office TF (タスクフォース)です。私たちはLINEのエンジニア組織とオープンソースエコシステムを融合し、より密接な関係を築いてコミュニティと共に成長できる文化を作るために様々な取り組みを行っています。今回は、この3月にLINEがApache Software FoundationのSilver Sponsorに加わることになった背景について紹介します。 Apache Software Foundationについて Apache Software Foundation (ASF)は、オープンソースプロジェクト開発に必要な資源を支援するために1999年に米国で設立された

              LINEがApache Software FoundationのSilver Sponsorになりました
            • Apache Hadoop Ozone: Apache Hadoop 用のオブジェクトストアの紹介

              著者: Arpit Agarwal 本ブログ記事は「Introducing Apache Hadoop Ozone: An Object Store for Apache Hadoop」(2018/10/08投稿)の日本語翻訳記事です。また、原文の投稿はClouderaとHortonworks合併前に記述されたものであり、いくつかのリンク、リソースにはアクセスできない場合があります。 *訳注: 元記事公開時点では 0.2.1-alpha 版が最新でしたが、日本語翻訳時(2020/3/9)は0.4.1-alpha版が公開されています。 1. はじめにApache Hadoop 分散ファイルシステム(HDFS)はビッグデータ用のデファクトファイルシステムになっています。現実世界では、HDFSがどれほどスケーラブルで堅牢であるのかを忘れがちです。私たちのお客様は数千ノードのクラスターを実行してい

              • HDFS Erasure Codingを大規模本番環境で運用するには LINEエンジニアによるトラブルシューティング

                LINEが定期的に開催する技術者向けミートアップ「LINE Developer Meetup」の68回目のテーマは「Big Data Platform」。LINEのサイトリライアビリティエンジニアである内田早俊氏が、Hadoop3にアップグレードした際に起きたErasure Codingのトラブルシューティングについて共有しました。 関連資料はこちら。 2019年にクラスタをHadoop 3にアップグレード 内田早俊氏(以下、内田):LINEのData Platform室の内田です。本日は忙しい中ご参加いただき、ありがとうございます。 LINEでは10年近く大規模なHadoopクラスタを運用していますが、昨年(2019年)クラスタをHadoop 3にアップグレードしました。ディスク使用量を削減するためにHadoop 3で新しく追加されたHDFSのErasure Coding(EC)を、約1

                  HDFS Erasure Codingを大規模本番環境で運用するには LINEエンジニアによるトラブルシューティング
                • HDFSをメジャーバージョンアップして新機能のRouter-based Federationを本番導入してみた

                  ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、「Hadoop」黒帯(ヤフー内のスキル任命制度)の鯵坂(@ajis_ka)です。 ヤフーでは、およそ2年間の調査・検証期間を経てヤフーで利用している本番環境のHDFS(Hadoop Distributed FileSystem)をHDP(Hortonworks Data Platform)2.6系(Apache Hadoop 2.7.x相当)からApache Hadoop 3.3.0にメジャーバージョンアップし、HDFSの新機能であるRouter-based Federation(RBF)を導入しました。 本記事では、これまでの2年間で何をしてきたのかについて振り返っていきます。 バージョンアップの経緯 ヤフーでは、提

                    HDFSをメジャーバージョンアップして新機能のRouter-based Federationを本番導入してみた
                  • 小さなファイルが大きな問題を引き起こす

                    原文: https://blog.cloudera.com/blog/2019/05/small-files-big-foils-addressing-the-associated-metadata-and-application-challenges/ 著者: Shashank Naik, Bhagya Gummalla 訳注: 本稿は2019/5/9に公開されたブログ記事の翻訳です。 「スモール・ファイル」はApache Hadoopの世界では一般的な課題であり、注意して扱わないと、いくつかの複雑な問題を引き起こす可能性があります。Apache Hadoop分散ファイルシステム(HDFS)は、テラバイトからペタバイトの範囲にわたる、大きなデータセットを格納して処理するために開発されました。しかしHDFSはスモール・ファイルを効率的に格納しないため、スモール・ファイルによってNameNo

                      小さなファイルが大きな問題を引き起こす
                    • HPE、MapRの資産買収--AIやML、アナリティクスのポートフォリオ拡充へ

                      印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます Hewlett Packard Enterprise(HPE)は、MapRの資産を買収したと発表した。同社の技術、知的財産、アナリティクスや人工知能(AI)、機械学習(ML)用ツールなどが含まれる。 HPEは、MapRが現在展開しているサービスや進行中の刷新を支援すると発表した。また、MapRのパートナーエコシステムも引き続き支援するという。 買収の条件は明らかにされていない。 HPEに対して、MapRはより多くのビッグデータのノウハウやAI展開とMLのワークフローを提供できる。HPEの最高経営責任者(CEO)Antonio Neri氏は、MapRのファイルシステム技術によってHPEはエッジからクラウドまで統合されたアナリティクスを実現

                        HPE、MapRの資産買収--AIやML、アナリティクスのポートフォリオ拡充へ
                      • Parquetはカラムナなのか?

                        20200623 AWS Black Belt Online Seminar Amazon Elasticsearch Service

                          Parquetはカラムナなのか?
                        • 続・Apache Ozone をやっていた一年 - Preferred Networks Research & Development

                          PFN では HDFS から Apache Ozone への移行を進めています。Ozone クラスタは順調に社内のプロジェクトで採用が進んでデータが増加しており、これまでの 2 年間は数度にわたってクラスタを拡張しました。ところが、段階的にクラスタを拡張したことでデータノード間でのディスク使用量の不均衡が問題になってきました。例えば、全てのディスクが 8 割埋まっている Ozone クラスタにまったく空のデータノードを追加すると、データ使用量に大きな不均衡が生じます。新規追加した空のサーバにデータを移動することをリバランスといいますが、運用しやすいようにリバランスを実装する方法は自明ではありません。HDFS ではノード単位でディスク使用量を規定の範囲内に均すように移動する Balancer やデータノード内のディスクを同様に移動する Disk Balancer があります。一方で Ozon

                            続・Apache Ozone をやっていた一年 - Preferred Networks Research & Development
                          • 2021年のApache Hadoop振り返り - Memo

                            Calendar for Distributed computing (Apache Spark, Hadoop, Kafka, ...) | Advent Calendar 2021 - Qiita の12月13日の記事です。 昨年の記事 aajisaka.hatenablog.com さて、今年もApache Hadoopを振り返ろうと思います。 リリース数の減少 今年もリリースが少ない年でした。本記事を執筆している時点では1月に3.2.2、6月に3.3.1がリリースされただけです。現在3.3.2のrelease voteが行われており、うまく行けば3.3.2がリリースされるような気がします。また、3.2.3についてもrelease branchが切られており、release voteが近いうちに始まると思われます。ところで、2020年には新しいminor versionの3.3.0が

                              2021年のApache Hadoop振り返り - Memo
                            • MapReduce入門:概要と使用開始

                              今日のデータ駆動の市場では、アルゴリズムやアプリケーションが人、プロセス、システム、組織に関するデータを24時間365日収集し、膨大な量のデータを生成しています。しかし、問題となるのは、この大量のデータを有意義な知見を犠牲にすることなく高速かつ効率的に処理する方法です。 そこで役立つのが、MapReduceプログラミングモデルです。MapReduceは、Googleが検索結果の分析のために最初に使用したものであり、テラバイト規模のデータを分割して並列処理し、より迅速に結果を得ることができます。 MapReduceとは?MapReduceは、Hadoopフレームワーク内のプログラミングモデル(パターン)であり、Hadoopファイルシステム(HDFS)に格納されたビッグデータにアクセスするために使用されます。これは、Hadoopフレームワークの機能に不可欠な主要コンポーネントです。 MapRe

                                MapReduce入門:概要と使用開始
                              • OpenCensus/OpenTelemetry meetup vol.2

                                これは元々Googleが主導していたOpenCensusに関するミートアップとして始まったのですが、第一回開催前にOpenTracingプロジェクトとのマージが発表されたため、現在ではOpenCensusとOpenTracing、そしてマージ後のプロジェクト名であるOpenTelemetryに関するミートアップとなっています。プロジェクトの進捗については@kawasyさんが紹介してくれました。

                                  OpenCensus/OpenTelemetry meetup vol.2
                                • Snowflakeプラットフォームが支える6ワークロード(5) データレイクの過去と現在、そして未来

                                  DXが声高に叫ばれる昨今、デジタル化された業務の結果、生成されるデータをいかにして活用するかが企業の命運を分けるようになってきた。ここ十数年を振り返ると、突如として量も形式も増えたデータに翻弄されることも少なくなかったが、その間にビッグデータを味方につけようと工夫がこらされた技術の一つがデータレイクである。今回は、Snowflakeのサービスパートナーであり、各種先端技術ブログでも有名なクラスメソッド株式会社でデータアナリティクス事業本部 プリセールスアーキテクトとして活躍しており、個人としてもこのテクノロジーの歴史をつぶさに見つめてきた甲木 洋介氏に、過去から紐解くデータレイクと、未来を担うSnowflakeの役割をご紹介いただこう。 解説者:クラスメソッド株式会社 データアナリティクス事業本部 プリセールスアーキテクト 甲木 洋介氏 Twitter:@yokatsuki はじめに デー

                                    Snowflakeプラットフォームが支える6ワークロード(5) データレイクの過去と現在、そして未来
                                  • Hive パフォーマンスを改善する設定の紹介 - MicroAd Developers Blog

                                    マイクロアドではデータ基盤に Hive が使われています。 データ基盤について、以下の記事をご確認ください。 MicroAdのデータ基盤 より使いやすいデータ分析基盤にするために この一年間、Hive を使う機会が増えましたのでクエリパフォーマンスを改善する為に Hive 設定を試行錯誤しましたので、その中からいくつか紹介します。 前提条件 1. Vectorization 2. Cost-based Optimization (CBO) 3. 並列実行 4. MapJoin 参考リンク 前提条件 Hive 1.1.0-cdh5.14.0 まず基本ですが SET; を実行すると、以下が表示されます。 システム変数 環境変数 Hadoop 設定(ユーザーが定義した・デフォルトプロパティ) Hive 設定(ユーザーが定義した・デフォルトプロパティ) set, define, hivevar で

                                      Hive パフォーマンスを改善する設定の紹介 - MicroAd Developers Blog
                                    • ダウンタイムなしでHadoopクラスタを移行した時の話

                                      こんにちは、Data Platform室の小野です。Data Platform室では、昨年のLINE DEVELOPER DAYでも発表があったように、大規模なHadoopクラスタを運用しています。 先日、分析基盤に特化したデータセンターのルームが構築され、ここへクラスタの移行作業を行いました。このクラスタは全社的に使われており、毎日10万個以上のジョブが走っています。そのため、クラスタを止めずに移行することが求められました。 この記事では、そのときどのようにHadoopクラスタを移行したのか、そしてどのような問題が起こったのかについて、ご紹介します。 今回は、以下の4つのコンポーネントに絞って、ご紹介します。 ResourceManager NameNode JournalNode Zookeeper 現在使用しているソースのバージョンについては、LINE独自でパッチをあてたり、いくつか

                                        ダウンタイムなしでHadoopクラスタを移行した時の話
                                      • ストリーム処理におけるApache Avroの活用について(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)

                                        ストリーム処理におけるApache Avroの活用について (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05) 株式会社NTTデータ 技術開発本部 関 堅吾(Apache Bigtopコミッタ, Apache Yetus PMC/コミッタ) https://oss.nttdata.com/techconf2019/Read less

                                          ストリーム処理におけるApache Avroの活用について(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
                                        • Containerizing Apache Hadoop Infrastructure at Uber

                                          You’re seeing information for Japan . To see local features and services for another location, select a different city. Show more Introduction As Uber’s business grew, we scaled our Apache Hadoop (referred to as ‘Hadoop’ in this article) deployment to 21000+ hosts in 5 years, to support the various analytical and machine learning use cases. We built a team with varied expertise to address the chal

                                            Containerizing Apache Hadoop Infrastructure at Uber
                                          • Apache Bigtop の概要と最新動向

                                            本記事は, Distributed computing (Apache Spark, Hadoop, Kafka, …) Advent Calendar 2020 18日目の記事です。 この記事では, Apache Bigtop (以下 Bigtop) という OSS プロジェクトの概要と、 2020年12月時点の最新動向について紹介します。 Bigtop の概要と歴史 Bigtop は, Apache Hadoop エコシステムの環境構築やテストを容易にするための Apache Software Foundation 傘下のプロジェクトで、以下のような機能を提供します。 Hadoop や Spark などのビッグデータ関連 OSS を, deb や rpm 形式にビルドしたバイナリパッケージ。 パッケージのインストールとその後の環境設定 (以下、併せてデプロイと呼びます) を自動化するた

                                            • Delta LakeのACIDトランザクションについて - Qiita

                                              この記事は、Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2021 の12/25のエントリです。 はじめに ビッグデータにおける分散型ストレージと聞いて、皆さんは何を思い浮かべますか。例として、Apache Hadoop HDFSがあげられるでしょう。HDFSなどの分散型ストレージの誕生によって、大量のデータを保存・活用ができるようになったわけです。これらの分散型ストレージはスケーラビリティや耐故障性の面で優れています。一方、データ処理や分析のデータストアとして比較に挙げられがちなのはRDBMSですが、RDBMSと比べると特徴が一部失われていることもあります。例えば、並列分散化に加えてある程度の塊で書き込む工夫のトレードオフとして読み込み・書き込みを低レイテンシで行うことが難しくなった、書き

                                                Delta LakeのACIDトランザクションについて - Qiita
                                              • Deep Dive: Delta Log について理解する - connecting the dots

                                                はじめに 環境情報 前提: Delta Lakeとは何か Delta Log とは何か _delta_logディレクトリの構成 1. JSONトランザクションログ: 2. Checkpoint ファイル: 3. Last Checkpoint ファイル: 4. CRC (Cyclic Redundancy Check) ファイル: JSONトランザクションログ JSONトランザクションログのスキーマ アトミックコミットを構成するアクション metaData: メタデータの更新 add: ファイルの追加 remove: ファイルの削除 txn: トランザクションの設定 protocol: プロトコルの変更 commitInfo: コミット情報 Checkpoint ファイル Last Checkpoint ファイル CRC (Cyclic Redundancy Check) ファイル CRC

                                                  Deep Dive: Delta Log について理解する - connecting the dots
                                                • hive.server2.enable.doAs がよく分からなかったので Apache Bigtop で調べてみた - memo486

                                                  hive.server2.enable.doAs の設定によって何がどう変わるかよく分からなかったので Apache Bigtop を使って調べてみました。 hive.server2.enable.doAs だと長くて煩雑なので以下では適宜 doAs と略しています。 まとめ バージョンなど 一応公式の説明 調査1: doAsの設定による違い 準備 接続 create databse doAs=true の場合 doAs=false の場合 create table + insert doAs=true の場合 doAs=false の場合 create external table + insert doAs=true の場合 doAs=false の場合 調査2: OSのユーザとproxy userの関係 OSユーザあり、proxy user 設定なし OSユーザなし、proxy us

                                                    hive.server2.enable.doAs がよく分からなかったので Apache Bigtop で調べてみた - memo486
                                                  • Apache HadoopとSparkの違いとは? 分散処理フレームワークを基礎からわかりやすく解説!

                                                    Apache HadoopとSparkの違いとは? 分散処理フレームワークを基礎からわかりやすく解説! Hadoopは処理能力の拡張性・安定性が高い Hadoopは米Yahoo!社に所属していたDoug Cutting氏を中心として2006年に開発された分散処理フレームワークです。2004年Googleが論文にて発表した独自の分散処理フレームワークMapReduceをもとに生み出されました。ちなみに名前の由来はDoug氏の息子が持っていたゾウの人形です。 Hadoopのメリットはまずサーバーの台数に比例して処理能力を高められる、いわゆるスケールアウトが可能だということ。Web上のビッグデータはどんどん増え続けます。そんなときHadoopを実装していればコストを押さえつつ対応し続けられるのです。 また、安定性が高いのも魅力のひとつ。どこか一つのサーバーで障害が起こってもほかのサーバーが対応す

                                                      Apache HadoopとSparkの違いとは? 分散処理フレームワークを基礎からわかりやすく解説!
                                                    • Bigtop が提供するパッケージを使って Hadoop クラスタを構築する

                                                      本記事は, Distributed computing (Apache Spark, Hadoop, Kafka, …) Advent Calendar 2020 19日目の記事です。 この記事では, Apache Bigtop (以下 Bigtop) が提供する deb や rpm 形式のパッケージを使って、 Hadoop クラスタを構築する方法を紹介します。 想定する環境 1台のマスターノードと複数台のワーカーノードが存在し、全台に CentOS 7 がインストールされていること ノード間で相互に名前解決が可能になっていること 説明を単純にするため, iptables や firewalld は無効化されていること Bigtop リポジトリの追加 まず最初に、パッケージマネージャ (今回は CentOS 7 なので yum) の設定に、Bigtop のリポジトリを追加します。 Bigt

                                                      • Presto (SQL query engine) - Wikipedia

                                                        Presto (including PrestoDB, and PrestoSQL which was re-branded to Trino) is a distributed query engine for big data using the SQL query language. Its architecture allows users to query data sources such as Hadoop, Cassandra, Kafka, AWS S3, Alluxio, MySQL, MongoDB and Teradata,[1] and allows use of multiple data sources within a query. Presto is community-driven open-source software released under

                                                        • Multi-Raft: Apache Hadoop Ozoneの書き込みパフォーマンスを加速する

                                                          2020/06/24 に公開された「Multi-Raft — Boost up write performance for Apache Hadoop-Ozone」の翻訳です。 関連リンク Apache Hadoop Ozone: Apache Hadoop 用のオブジェクトストアの紹介 Apache Hadoop Ozone: オブジェクトストアの概要 Apache Hadoop Ozone — オブジェクトストアのアーキテクチャー Ozoneのベンチマーク: CDP用Clouderaの次世代ストレージ Apache Hadoop Ozone セキュリティ — 認証 この記事は、Li Cheng, Software Engineer, Tencent Inc.による寄稿です 本番環境で Hadoop-Ozone を利用するApache Hadoop Ozone は、ビッグデータプラットフ

                                                            Multi-Raft: Apache Hadoop Ozoneの書き込みパフォーマンスを加速する
                                                          • Apache Hadoop のデータを BigQuery で分析するための移行手順

                                                            この記事は Google Cloud Japan Customer Engineer Advent Calendar 2019 の 2 日目の記事です。 TL;DRApache Hadoop のデータを BigQuery で分析できるようにするための移行手順をご紹介します。Google Cloud が提供する、フルマネージドでサーバレスなデータ ウェアハウスである BigQuery を活用することで、インフラやミドルウェアの運用保守作業を行う必要がなく、データ分析作業に専念できるようになります。(個人的な意見ですが)オンプレミスで Apache Hadoop クラスタを運用している場合、サーバの調達や、ミドルウェアのインストール、各種リソースの使用率のモニタリング、パフォーマンス チューニングなどの運用保守作業が定期的に発生し、効率的にデータ分析環境を運用することができない、といった課題が

                                                              Apache Hadoop のデータを BigQuery で分析するための移行手順
                                                            • 100+PB scale Unified Hadoop cluster Federation with 2k+ nodes

                                                              Tianyi Wang LINE Data Platform Department Engineer https://linedevday.linecorp.com/jp/2019/sessions/D1-5

                                                                100+PB scale Unified Hadoop cluster Federation with 2k+ nodes
                                                              • Presto で Parquet にクエリすると、参照するカラムのみ読んでいることを確認した - ablog

                                                                HDFS の Datanode の Flame Graph sun.nio.ch.FileChannelImpl:::transferTo から sendfile システムコールが呼ばれている。 一番左のスタックをドリルダウンしたもの。 Presto Server の Flame Graph 一番左のスタックをドリルダウンしたもの、com.facebook.presto.parquet.reader.BinaryColumnReader:::readValue で Columnar Read していると思われる。 確認ポイント Presto で Parquet にクエリする際、参照するカラムのデータのみ読む。 環境 リリースラベル: emr-5.28.0 Hadoop ディストリビューション: Amazon 2.8.5 Hive 2.3.6, Pig 0.17.0, Hue 4.4.0,

                                                                  Presto で Parquet にクエリすると、参照するカラムのみ読んでいることを確認した - ablog
                                                                • beelineでhiveのtableを作成してみて、meta情報を覗いてみた - Qiita

                                                                  前回の投稿で、hiveのdatabaseを作成しました。 本日はテーブルを作成して、meta情報を確認してみます。 1. beelineでhiveserver2に接続 # コンテナにdocker-xecで/bin/bashで入ってから、beelineと入力 $ docker exec -it dockercompose_hiveserver2_1 /bin/bash root@6a715b5d374e:/# beeline # hiveserver2に接続 beeline> !connect jdbc:hive2://localhost:10000 hive hive org.apache.hive.jdbc.HiveDriver 2. tableを作成する 以下のddlをクリップボードに貼り付けて、beelineで発行しました。 Points. テーブル、カラムに付与するコメントがOra

                                                                    beelineでhiveのtableを作成してみて、meta情報を覗いてみた - Qiita
                                                                  • KafkaとSpark Streamingの統合について|Engineers' Blog|SBクラウド株式会社 - SBクラウド株式会社

                                                                    こんにちは Kouです。 Webアクセス解析や、ログのリアルタイムモニタリングと不正検知、ソーシャルメディア分析などの時に、オープンソースの分散ストリーミングプラットフォームと呼ばれるApache KafkaとSparkにストリームデータを処理するSpark Streamingを組み合わせたストリームデータ処理システムはよく利用されると考えられます。今回の記事はTwitterのメッセージ分析を例として、Alibaba CloudのE-MapReduce上で、KafkaとSpark Streamingの統合方法について、皆さんにご紹介させて頂きたいと思います。 検証環境について Spark Streaming EMR-3.20.0 クラスタータイプは Hadoop ハードウェア構成(Header)はecs.sn2.largeを1台 ハードウェア構成(Worker)はecs.sn2.large

                                                                      KafkaとSpark Streamingの統合について|Engineers' Blog|SBクラウド株式会社 - SBクラウド株式会社
                                                                    • Hadoopのバージョン混用は可能? HDP 2.6.4 とコミュニティ版 Hadoop 3.2.1 におけるHDFSの互換性調査結果

                                                                      Home テクノロジー Blog Hadoopのバージョン混用は可能? HDP 2.6.4 とコミュニティ版 Hadoop 3.2.1 におけるHDFSの互換性調査結果 (English translation is available here) ヤフーで Hadoop の運用・開発をしている李 燮鳴です。私たちのチームでは Hadoop 3.2.1 に含まれる Router Based Federation (RBF) で Hadoop のスケーラビリティ問題の解決を試みています。この記事では RBF を導入する背景と Hadoop 3.2.1 と既存の実行系の互換性を紹介します。 背景および目的 Hadoopクラスタ@ヤフー ヤフーでは、自社が提供している多種多様なサービスのログを分析してサービスの改善に役立てるため、Hadoop クラスタを複数運用しています。ソフトウェアスタックで

                                                                        Hadoopのバージョン混用は可能? HDP 2.6.4 とコミュニティ版 Hadoop 3.2.1 におけるHDFSの互換性調査結果 
                                                                      • Partition Management in Hadoop - Cloudera Blog

                                                                        Guest blog post written by Adir Mashiach In this post I’ll talk about the problem of Hive tables with a lot of small partitions and files and describe my solution in details. A little background In my organization,  we keep a lot of our data in HDFS. Most of it is the raw data but a significant amount is the final product of many data enrichment processes. In order to manage all the data pipelines

                                                                          Partition Management in Hadoop - Cloudera Blog
                                                                        • Ozoneに10億ファイル

                                                                          Apache Hadoop Ozoneは分散型のキーバリューストアであり、小さなファイルから大きなファイルまでの両方を管理することができます。Ozoneは、小さなファイルに関するHDFSのスケールの制限に対処するために設計されました。HDFSは大きなファイルを格納するために設計されており、HDFSでの推奨ファイル数は NameNode で3億個で、この制限を超えてのスケールはできません。 スケーラビリティを達成するためのOzoneの主な特徴は以下の通りです。 Ozoneの名前空間はローカルのRocksDBインスタンスに書き込まれ、パフォーマンス(全てをメモリに保持する)とスケーラビリティ(あまり使われていないメタデータをディスクに永続化)の間のバランスを、簡単に調整することができます。名前空間とブロックスペースの管理は、2つの異なるデーモン、OzoneManager(OM)とStorage

                                                                            Ozoneに10億ファイル