並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 36 件 / 36件

新着順 人気順

hadoopの検索結果1 - 36 件 / 36件

  • Preferred Networks におけるHadoop - Preferred Networks Research & Development

    Preferred Networks (以下PFN)では、「現実世界を計算可能にする」「全てのひとにロボットを」という目標のもと、機械学習を始めとしたあらゆる計算技術を用いて研究開発に日々取り組んでいます。その過程では必ずといっていいほど、データの保存や読み出しが必要になります。ここでは、我々がどのようにデータ管理をしているか、また、その過程でどのようにHadoopを利用しているかについて紹介したいと思います。 写真: PFNカラーリングのストレージサーバー Hadoop導入の経緯 Hadoopが多く利用されているようなログ分析や、エンタープライズ向けのETL処理やデータサイエンスに比べると、深層学習の分野でよく利用されているような規模のデータは比較的小さいです。よく画像認識のベンチマークとされるImageNetの2012年のコンペで利用されたデータセットは200GB程度です。これはそもそ

      Preferred Networks におけるHadoop - Preferred Networks Research & Development
    • Hadoop is Dead. Long live Hadoop の所感

      数年前から「Hadoopは終わった」と言われることがあります。 厳密なHadoopの定義は Apache Hadoop プロジェクトを指しますが、現在では異なる意味で使われていることも多いです。では、Hadoopは時代と共に消えたソフトウェアなのでしょうか? @shiumachiの「Hadoopの時代は終わった」を正しく理解するの記事は、Hadoopを取り巻く環境の変化について書かれています。データ基盤の歴史に始まり、時代とともに変化し、現代におけるデータ基盤になっているという考察があり必見です。 Hadoop is Dead. Long live Hadoop. Arun C Murthy (Hortonworksの創業者であり、現在ClouderaのCPO)が本日公開したブログ、「Hadoop is Dead. Long live Hadoop」では、Hadoopは哲学(”Hadoop

        Hadoop is Dead. Long live Hadoop の所感
      • Java11へのマイグレーションガイド ~Apache Hadoopの事例~

        BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)NTT DATA Technology & Innovation852 views•48 slides Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)NTT DATA Technology & Innovation465 views•67 slides Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)NTT DATA Technology & Innovation1.2K views•64 slides

          Java11へのマイグレーションガイド ~Apache Hadoopの事例~
        • Hadoop環境のクラウド移行 | BLOG - DeNA Engineering

          IT基盤部の nodoka です。 私の業務はWebサービスの運用が中心でしたが、数年前からHadoopを中心とした分散基盤環境のインフラも見るようになりました。 当初は巨大なHadoop環境の管理を体系化して引き継ぐことと、運用における属人性を排除することが喫緊の課題でした。 それが落ち着くと、ご多分に漏れずクラウド化を検討・推進するようになったので、その流れをまとめてみようと思います。 DeNAのHadoop環境と改善策 Hadoopが抱える課題 GCPへの移行 embulk利用におけるTips DeNAのHadoop環境と改善策 DeNAにおけるHadoop環境の歴史は古く、DeNAのほとんどのサービスが利用しています。 各サービスでは分析したいログやDBのスナップショットをHadoopのファイルシステムであるHDFSに一旦置きます。 そのHDFSに置かれたファイル群をHadoopを

            Hadoop環境のクラウド移行 | BLOG - DeNA Engineering
          • Open sourcing Kube2Hadoop: Secure access to HDFS from Kubernetes

            Open Source Open sourcing Kube2Hadoop: Secure access to HDFS from Kubernetes Co-authors: Cong Gu, Abin Shahab, Chen Qiang, and Keqiu Hu Editor's note: This blog has been updated. LinkedIn AI has been traditionally Hadoop/YARN based, and we operate one of the world’s largest Hadoop data lakes, with over 4,500 users and 500PB of data. In the last few years, Kubernetes has also become very popular at

              Open sourcing Kube2Hadoop: Secure access to HDFS from Kubernetes
            • Java11対応ほか、Apache Hadoop 3.3.0の新機能を紹介

              こんにちは、「Hadoop」黒帯の鯵坂(@ajis_ka)です。本記事では、Apache Hadoopで次にリリースされるマイナーバージョンである3.3.0で追加される新機能について紹介します。本記事では、特にHadoop CommonとHDFS(Hadoop Distributed FileSystem)の新機能を重点的に紹介しつつ、それらの機能に対するヤフーの貢献についても触れていきます。 Hadoop 3.3.0 概要 Hadoop 3.3.0はおそらく2019年の年末までにリリースされる予定で、この記事を執筆している10月23日時点ですでに1500件以上の修正が入っています(Hadoop 3.2.0は1089件)。つまり、非常に多くの新機能が追加されています。また、ヤフーではHadoop 2系から3系へのバージョンアップをこれから予定しており、バージョンアップ後のバージョンは3.3

                Java11対応ほか、Apache Hadoop 3.3.0の新機能を紹介
              • CDH (Hadoop) 入門 - MicroAd Developers Blog

                はじめに 初めまして。マイクロアド21年新卒インフラ担当の森( id:bosq )と申します。 7月に新卒研修を終えてからは、基盤開発グループにて日々勉強しています。 配属後は新しいことのインプットが多いため、今回は学んだことの整理とアウトプットを兼ねて、マイクロアドのデータ基盤で利用しているHadoopについて紹介したいと思います。 はじめに 分散処理基盤 Hadoop / CDH とは Hadoop エコシステム データストレージ (HDFS) と リソース管理 (YARN) HDFS (Hadoop Distributed File System) YARN (Yet Another Resource Negotiator) ノードの役割 分散処理エンジン (MapReduce, Tez, Spark) MapReduce Apache Tez Apache Spark クエリエンジ

                  CDH (Hadoop) 入門 - MicroAd Developers Blog
                • Hadoop is Dead. Long live “Hadoop.”

                  There has been a resurgence of the “Hadoop is dead” narrative, and it seems like every so often this pops up in the form of a blog post or contributed article. For several years now, Cloudera has stopped marketing itself as a Hadoop company, but instead as an enterprise data company. And today, Cloudera is in the Enterprise Data Cloud market: hybrid/multi-cloud and multi-function analytics with co

                    Hadoop is Dead. Long live “Hadoop.”
                  • Distributed Deep Learning with Chainer and Hadoop

                    EM完全に理解した と思ったけど、 やっぱり何も分からなかった話 / EM Night Fukuoka #1

                      Distributed Deep Learning with Chainer and Hadoop
                    • Hadoop DistCp実践ガイド2020年版 - 科学と非科学の迷宮

                      Hadoop DistCp (distributed copy, でぃすとしーぴー、でぃすとこぴー) は、MapReduceを用いてHadoopクラスタ間でデータコピーするためのツールです。保守運用している場合を除き、おそらく2020年においても運用上の選択肢として残っている最後のMapReduceのツールです。この記事では、DistCpの紹介と実践的な使い方の基本について説明していきます。内容としては以下の通りです。 Distcpの概要と原理 実践DistCp DistCpにドライランはない コピーとアップデートの挙動の違いを押さえる スナップショットを取得する ソースと宛先、どちらのクラスタでDistCpを実行するか 異なるメジャーバージョン間でのデータ転送にwebhdfsを使う -p オプションの挙動 2つのコピー戦略: uniformizeとdynamic map数の調整 転送帯域

                        Hadoop DistCp実践ガイド2020年版 - 科学と非科学の迷宮
                      • Apache Hadoop 3.3.1がリリースされました - Memo

                        2021/6/15にApache Hadoop 3.3.1がリリースされたので、リリースしてからしばらく時間が経つけどまとめておきます。 Hadoop 3.3.1に対する個人的な所感 Hadoop 3.3.1はHadoop 3.3.0からおよそ1年後にリリースされました、1年も経っているので、普段のbug fix releaseでは考えられないほどの修正がされ、もはやHadoop 3.2.0とHadoop 3.3.0との差分よりもHadoop 3.3.0とHadoop 3.3.1との差分のほうが大きいのではないかと思っています。Hadoop CommonとHDFSを中心に、その大きな差分についてこれから紹介していこうと思います。 NameNodeLayoutVersionの更新 Hadoop 3.3.1では、なんとNameNodeLayoutVersionが上がっています。普通のbug f

                          Apache Hadoop 3.3.1がリリースされました - Memo
                        • よりセキュアなHadoopの作り方 〜 ApacheCon Asia 2021登壇報告

                          HDFSのブロックデータ転送の暗号化 HDFSの実データに相当するブロックデータの転送に対する暗号化はRPC暗号化とはさらに別のパラメータで管理されています。 hdfs-siteの dfs.encrypt.data.transfer を true に、 dfs.encrypt.data.transfer.cipher.suites を AES/CTR/NoPadding にそれぞれ指定することで有効化します。 この設定を無停止で反映するにあたっては、転送の暗号化設定の反映済/未反映を判別する dfs.trustedchannel.resolver.class によるノードの動的な管理、場合によっては拡張による独自実装が必要となります。 HDFSクライアントおよびNameNode・DataNode間で dfs.encrypt.data.transfer の真偽が一致していない場合はブロックデ

                            よりセキュアなHadoopの作り方 〜 ApacheCon Asia 2021登壇報告
                          • 並列分散処理基盤のいま~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~ - セミナープログラム - オープンソースカンファレンス2020 Online/Kyoto

                            並列分散処理基盤のいま~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~ 2020年8月28日(金) 17:15 〜 18:00 OSSベースの分散処理基盤としてApache Hadoopが誕生して10余年が経ち、大規模並列分散処理の領域において、これまでに多種多様なソフトウェアが開発されてきました。 本セッションでは、それらのソフトウェアがどのような経緯で誕生し、どのように使われるのかをお話ししつつ、近年注目を集めているデータ分析を指向したストレージレイヤSWであるDelta Lakeについてもご紹介します。

                              並列分散処理基盤のいま~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~ - セミナープログラム - オープンソースカンファレンス2020 Online/Kyoto
                            • 2020年のApache Hadoop振り返り - Memo

                              Apache Hadoopについて、2020年にどんなことがあったのかざっくりと振り返りたいと思います。Advent Calendar枠です(大遅刻)。 Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2020 - Qiita Apache Ozoneが分離 オブジェクトストレージを担当するOzoneはすでにHadoop本体のソースコードからは分離されていましたが、新規のTLP(Top-Level Project)としてスピンオフしました。2019年にApache SubmarineがTLPになったのを見て、Ozoneもいずれそうなると思っていたので個人的には特に驚きはないです。プロジェクトが分離すると具体的に何が起こるかというと、committerやPMCなどが別々になります(他にもあるけど

                                2020年のApache Hadoop振り返り - Memo
                              • ZooKage: Hadoop on Kubernetes on Docker Desktop - おくみん公式ブログ

                                Kubernetes上にHadoopサンドボックス環境をコマンド一発で構築するツール、ZooKageをリリースしました。本記事では開発に至った経緯と基本的な使い方を紹介します。 「Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2020」にエントリーするつもりでいましたが、開発中に枠が埋まってしまったので過去の日付を埋める形で参加させていただきます。遅くなってすみません…… モチベーション Hadoopエコシステムは大量のコンポーネントから成り立っており、その混沌はしばしば動物園に例えられます。手軽に起動する手段が用意されているプロジェクトもありますが、それでもローカルマシンで満足な検証をするには困難を伴います。公私ともに様々なバージョンのHive/Hadoopやそれらへのパッチを検証すること

                                  ZooKage: Hadoop on Kubernetes on Docker Desktop - おくみん公式ブログ
                                • 並列分散処理基盤のいま 45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門(Open Source Conference 2020 Online/Kyoto 2020年8月28日 講演資料)

                                  並列分散処理基盤のいま 45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門 Open Source Conference 2020 Online/Kyoto 2020年8月28日 講演資料 https://event.ospn.jp/osc2020-online-kyoto/ 株式会社NTTデータ システム技術本部 利光 宏平Read less

                                    並列分散処理基盤のいま 45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門(Open Source Conference 2020 Online/Kyoto 2020年8月28日 講演資料)
                                  • Apache Hadoop Ozone: Apache Hadoop 用のオブジェクトストアの紹介

                                    著者: Arpit Agarwal 本ブログ記事は「Introducing Apache Hadoop Ozone: An Object Store for Apache Hadoop」(2018/10/08投稿)の日本語翻訳記事です。また、原文の投稿はClouderaとHortonworks合併前に記述されたものであり、いくつかのリンク、リソースにはアクセスできない場合があります。 *訳注: 元記事公開時点では 0.2.1-alpha 版が最新でしたが、日本語翻訳時(2020/3/9)は0.4.1-alpha版が公開されています。 1. はじめにApache Hadoop 分散ファイルシステム(HDFS)はビッグデータ用のデファクトファイルシステムになっています。現実世界では、HDFSがどれほどスケーラブルで堅牢であるのかを忘れがちです。私たちのお客様は数千ノードのクラスターを実行してい

                                    • Apache Software Foundation retires slew of Hadoop-related projects

                                      Apache Software Foundation retires slew of Hadoop-related projects Retirements of 13 big data-related Apache projects -- including Sentry, Tajo and Falcon -- have been announced in 11 days. It looks like the idealistic days of Hadoop and big data are officially over. It's been no secret lately that Apache Hadoop, once the poster child of big data, is past its prime. But since April 1st, the Apache

                                        Apache Software Foundation retires slew of Hadoop-related projects
                                      • 数千rpsを処理する大規模システムの配信ログをHadoopで分析できるようにする 〜 ショッピングのレコメンドシステム改修

                                        ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。サイエンス統括本部でYahoo!ショッピングのレコメンドシステムを開発している山口です。 本記事では、システムの配信ログを大規模データの分散処理が可能な社内のApache Hadoop環境(以下Hadoop)に保存できるように、システム改修した取り組みについて紹介します。 今回改修したレコメンドシステムは、毎秒数千のリクエストを処理する大規模なシステムです。レコメンドシステムから直接Hadoop環境に大量のログを送れるようになったことで、配信情報を素早く、そして簡単にログとして保存できるようになり、日々レコメンドの機械学習モデル改善に役立っています。 Yahoo!ショッピングのレコメンドとは Yahoo!ショッピングで

                                          数千rpsを処理する大規模システムの配信ログをHadoopで分析できるようにする 〜 ショッピングのレコメンドシステム改修
                                        • Apache HadoopとSparkの違いとは? 分散処理フレームワークを基礎からわかりやすく解説!

                                          Apache HadoopとSparkの違いとは? 分散処理フレームワークを基礎からわかりやすく解説! 以前は一部の凄腕エンジニアしか実現できなかったビッグデータの分散処理。それを誰でも可能にしたのがApache Hadoop、Apache Sparkに代表される分散処理フレームワークです。ビッグデータ活用に取り組むなら、それらについて概要だけでも知っておくべきでしょう。 この記事では、そもそもの役割からHadoopとSparkの違いまで、分散処理フレームワークについて初心者でも簡単に理解できるよう解説します! “分散処理”が大量のデータ処理を可能にする データを管理・活用するためのシステムとして代表的なのがMySQL、OracleなどのRDBMS(リレーショナルデータベース管理システム)です。RDBMSは複雑なデータをリアルタイムで取り扱える半面、大量のデータ処理に際して能力が低下してし

                                            Apache HadoopとSparkの違いとは? 分散処理フレームワークを基礎からわかりやすく解説!
                                          • 2021年のApache Hadoop振り返り - Memo

                                            Calendar for Distributed computing (Apache Spark, Hadoop, Kafka, ...) | Advent Calendar 2021 - Qiita の12月13日の記事です。 昨年の記事 aajisaka.hatenablog.com さて、今年もApache Hadoopを振り返ろうと思います。 リリース数の減少 今年もリリースが少ない年でした。本記事を執筆している時点では1月に3.2.2、6月に3.3.1がリリースされただけです。現在3.3.2のrelease voteが行われており、うまく行けば3.3.2がリリースされるような気がします。また、3.2.3についてもrelease branchが切られており、release voteが近いうちに始まると思われます。ところで、2020年には新しいminor versionの3.3.0が

                                              2021年のApache Hadoop振り返り - Memo
                                            • ダウンタイムなしでHadoopクラスタを移行した時の話

                                              こんにちは、Data Platform室の小野です。Data Platform室では、昨年のLINE DEVELOPER DAYでも発表があったように、大規模なHadoopクラスタを運用しています。 先日、分析基盤に特化したデータセンターのルームが構築され、ここへクラスタの移行作業を行いました。このクラスタは全社的に使われており、毎日10万個以上のジョブが走っています。そのため、クラスタを止めずに移行することが求められました。 この記事では、そのときどのようにHadoopクラスタを移行したのか、そしてどのような問題が起こったのかについて、ご紹介します。 今回は、以下の4つのコンポーネントに絞って、ご紹介します。 ResourceManager NameNode JournalNode Zookeeper 現在使用しているソースのバージョンについては、LINE独自でパッチをあてたり、いくつか

                                                ダウンタイムなしでHadoopクラスタを移行した時の話
                                              • Containerizing Apache Hadoop Infrastructure at Uber

                                                You’re seeing information for Japan . To see local features and services for another location, select a different city. Show more Introduction As Uber’s business grew, we scaled our Apache Hadoop (referred to as ‘Hadoop’ in this article) deployment to 21000+ hosts in 5 years, to support the various analytical and machine learning use cases. We built a team with varied expertise to address the chal

                                                  Containerizing Apache Hadoop Infrastructure at Uber
                                                • Hadoop (Hive, Ambari など) が使う DB を Percona XtraDB Cluster & ProxySQL で冗長化してみた - GMOインターネットグループ グループ研究開発本部

                                                  2018.04.10 Hadoop (Hive, Ambari など) が使う DB を Percona XtraDB Cluster & ProxySQL で冗長化してみた こんにちは。次世代システム研究室のデータベース と Hadoop を担当している M.K. です。 最近 MySQL 系のデータベース (Percona Server / PXC) に関するブログを立て続けに書いていましたが、今回は Hadoop と MySQL 両方に関する内容について書きました。 前々回のブログ:InnoDB だけじゃない!MyRocks (MySQL + RocksDB) ストレージエンジンを試してみた 前回のブログ:MySQLの冗長化を試す!~Percona XtraDB Cluster & ProxySQL & Replication~ Hadoop を構築すると毎回頭を悩ますこととして、H

                                                  • 並列分散処理基盤のいま ~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~(Open Source Conference 2021 Online/Hokkaido 発表資料)

                                                    並列分散処理基盤のいま ~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~ (Open Source Conference 2021 Online/Hokkaido 発表資料) 2021年6月26日 NTTデータ 技術革新統括本部 システム技術本部 デジタル技術部 インテグレーション技術担当 吉田 貴哉Read less

                                                      並列分散処理基盤のいま ~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~(Open Source Conference 2021 Online/Hokkaido 発表資料)
                                                    • 【社内勉強会】はじめてのHadoop/Spark - Speaker Deck

                                                      Transcript ~社内勉強会~ はじめてのHadoop/Spark 2020/06 Data Scienceチーム Yoshiyuki Ishida 公開用 はじめに  あくまで社内勉強会用の資料になります。 • 筆者の理解に基づき作成していますが、社内勉強会用に作成したクオリ ティの資料ですので、ご容赦ください。 • 一部誤りがある場合がありますが、フィードバックいただければ参考にさせ ていただきたいと思います。  一部公開できない部分は白塗りにしています。 • 社外に公開できない情報や、ハンズオンの資料は割愛しております。 2 本勉強会で目指すところ  本勉強会を通じて、DS協会が定めるHadoop関連スキル★1つ を満たすことを目指します。 3 ★: Hadoop・Sparkの分散技術の基 本的な仕組みと構成を理解している。 ★★: Hadoopの得意な点、苦手な点を理

                                                        【社内勉強会】はじめてのHadoop/Spark - Speaker Deck
                                                      • Apache HadoopとSparkの違いとは? 分散処理フレームワークを基礎からわかりやすく解説!

                                                        Apache HadoopとSparkの違いとは? 分散処理フレームワークを基礎からわかりやすく解説! Hadoopは処理能力の拡張性・安定性が高い Hadoopは米Yahoo!社に所属していたDoug Cutting氏を中心として2006年に開発された分散処理フレームワークです。2004年Googleが論文にて発表した独自の分散処理フレームワークMapReduceをもとに生み出されました。ちなみに名前の由来はDoug氏の息子が持っていたゾウの人形です。 Hadoopのメリットはまずサーバーの台数に比例して処理能力を高められる、いわゆるスケールアウトが可能だということ。Web上のビッグデータはどんどん増え続けます。そんなときHadoopを実装していればコストを押さえつつ対応し続けられるのです。 また、安定性が高いのも魅力のひとつ。どこか一つのサーバーで障害が起こってもほかのサーバーが対応す

                                                          Apache HadoopとSparkの違いとは? 分散処理フレームワークを基礎からわかりやすく解説!
                                                        • Bigtop が提供するパッケージを使って Hadoop クラスタを構築する

                                                          本記事は, Distributed computing (Apache Spark, Hadoop, Kafka, …) Advent Calendar 2020 19日目の記事です。 この記事では, Apache Bigtop (以下 Bigtop) が提供する deb や rpm 形式のパッケージを使って、 Hadoop クラスタを構築する方法を紹介します。 想定する環境 1台のマスターノードと複数台のワーカーノードが存在し、全台に CentOS 7 がインストールされていること ノード間で相互に名前解決が可能になっていること 説明を単純にするため, iptables や firewalld は無効化されていること Bigtop リポジトリの追加 まず最初に、パッケージマネージャ (今回は CentOS 7 なので yum) の設定に、Bigtop のリポジトリを追加します。 Bigt

                                                          • Multi-Raft: Apache Hadoop Ozoneの書き込みパフォーマンスを加速する

                                                            2020/06/24 に公開された「Multi-Raft — Boost up write performance for Apache Hadoop-Ozone」の翻訳です。 関連リンク Apache Hadoop Ozone: Apache Hadoop 用のオブジェクトストアの紹介 Apache Hadoop Ozone: オブジェクトストアの概要 Apache Hadoop Ozone — オブジェクトストアのアーキテクチャー Ozoneのベンチマーク: CDP用Clouderaの次世代ストレージ Apache Hadoop Ozone セキュリティ — 認証 この記事は、Li Cheng, Software Engineer, Tencent Inc.による寄稿です 本番環境で Hadoop-Ozone を利用するApache Hadoop Ozone は、ビッグデータプラットフ

                                                              Multi-Raft: Apache Hadoop Ozoneの書き込みパフォーマンスを加速する
                                                            • Apache Hadoop のデータを BigQuery で分析するための移行手順

                                                              この記事は Google Cloud Japan Customer Engineer Advent Calendar 2019 の 2 日目の記事です。 TL;DRApache Hadoop のデータを BigQuery で分析できるようにするための移行手順をご紹介します。Google Cloud が提供する、フルマネージドでサーバレスなデータ ウェアハウスである BigQuery を活用することで、インフラやミドルウェアの運用保守作業を行う必要がなく、データ分析作業に専念できるようになります。(個人的な意見ですが)オンプレミスで Apache Hadoop クラスタを運用している場合、サーバの調達や、ミドルウェアのインストール、各種リソースの使用率のモニタリング、パフォーマンス チューニングなどの運用保守作業が定期的に発生し、効率的にデータ分析環境を運用することができない、といった課題が

                                                                Apache Hadoop のデータを BigQuery で分析するための移行手順
                                                              • Amazon EMR で Dr. Elephant と Sparklens を使って、Hadoop と Spark のパフォーマンスを調整する | Amazon Web Services

                                                                Amazon Web Services ブログ Amazon EMR で Dr. Elephant と Sparklens を使って、Hadoop と Spark のパフォーマンスを調整する  データエンジニアや ETL 開発者はさまざまなパラメータを使用しながら、かなりの時間を費やして Apache Spark ジョブを実行および調整し、パフォーマンスの評価を行うことがよくありますが、これは簡単ではなく、時間のかかる作業です。Dr.Elephant と Sparklens はワークロードをモニタリングしたり、推奨する変更を提案することで、Spark や Hive のアプリケーションの調整を支援し、必要とされるエグゼキューターノード、コアノード、ドライバーメモリおよび Hive (Tez または MapReduce) ジョブといったパフォーマンスパラメータをマッパー、レデューサー、メモリ

                                                                  Amazon EMR で Dr. Elephant と Sparklens を使って、Hadoop と Spark のパフォーマンスを調整する | Amazon Web Services
                                                                • 100+PB scale Unified Hadoop cluster Federation with 2k+ nodes

                                                                  Tianyi Wang LINE Data Platform Department Engineer https://linedevday.linecorp.com/jp/2019/sessions/D1-5

                                                                    100+PB scale Unified Hadoop cluster Federation with 2k+ nodes
                                                                  • Hadoopのバージョン混用は可能? HDP 2.6.4 とコミュニティ版 Hadoop 3.2.1 におけるHDFSの互換性調査結果

                                                                    Home テクノロジー Blog Hadoopのバージョン混用は可能? HDP 2.6.4 とコミュニティ版 Hadoop 3.2.1 におけるHDFSの互換性調査結果 (English translation is available here) ヤフーで Hadoop の運用・開発をしている李 燮鳴です。私たちのチームでは Hadoop 3.2.1 に含まれる Router Based Federation (RBF) で Hadoop のスケーラビリティ問題の解決を試みています。この記事では RBF を導入する背景と Hadoop 3.2.1 と既存の実行系の互換性を紹介します。 背景および目的 Hadoopクラスタ@ヤフー ヤフーでは、自社が提供している多種多様なサービスのログを分析してサービスの改善に役立てるため、Hadoop クラスタを複数運用しています。ソフトウェアスタックで

                                                                      Hadoopのバージョン混用は可能? HDP 2.6.4 とコミュニティ版 Hadoop 3.2.1 におけるHDFSの互換性調査結果 
                                                                    • Partition Management in Hadoop - Cloudera Blog

                                                                      Guest blog post written by Adir Mashiach In this post I’ll talk about the problem of Hive tables with a lot of small partitions and files and describe my solution in details. A little background In my organization,  we keep a lot of our data in HDFS. Most of it is the raw data but a significant amount is the final product of many data enrichment processes. In order to manage all the data pipelines

                                                                        Partition Management in Hadoop - Cloudera Blog
                                                                      • Scaling LinkedIn's Hadoop YARN cluster beyond 10,000 nodes

                                                                        Co-authors: Keqiu Hu, Jonathan Hung, Haibo Chen, and Sriram Rao At LinkedIn, we use Hadoop as our backbone for big data analytics and machine learning. With an exponentially growing data volume, and the company heavily investing in machine learning and data science, we have been doubling our cluster size year over year to match the compute workload growth. Our largest cluster now has ~10,000 nodes

                                                                          Scaling LinkedIn's Hadoop YARN cluster beyond 10,000 nodes
                                                                        • NTTデータのHadoopソリューション:新着情報

                                                                          NTTデータ テクノロジーカンファレンス2019 ~ 未来を創る NTT DATA の 確かな技術力 ~ 2019年9月5日(木)東京コンファレンスセンター・品川 NTTデータは、2019年9月5日に 「NTTデータ テクノロジーカンファレンス 2019 ~ 未来を創る NTT DATA の 確かな技術力 ~」 を開催します。 技術革新が目覚ましく予測困難なこの時代において未来を創っていくためには、先進的な知見と確かな技術力が必要です。 本イベントでは、コネクティッドカーをはじめとした先進的な事例や、Hadoop / Spark / Kafka を利用したビッグデータ活用やブロックチェーンなど NTTデータならではの先鋭的な技術トピックを、一緒に取り組んだお客様やNTTデータの高度な技術者などからご紹介いたします。 皆様のご来場をお待ちしております。

                                                                          1