[2ページ] hadoopの人気記事 76件 - はてなブックマーク

41 - 76 件 / 76件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

hadoopの検索結果41 - 76 件 / 76件

並列分散処理基盤のいま～45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門～ - セミナープログラム - オープンソースカンファレンス2020 Online/Kyoto
- 7 users
- event.ospn.jp
- テクノロジー
- 2020/08/29
並列分散処理基盤のいま～45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門～ 2020年8月28日(金) 17:15 〜 18:00 OSSベースの分散処理基盤としてApache Hadoopが誕生して10余年が経ち、大規模並列分散処理の領域において、これまでに多種多様なソフトウェアが開発されてきました。本セッションでは、それらのソフトウェアがどのような経緯で誕生し、どのように使われるのかをお話ししつつ、近年注目を集めているデータ分析を指向したストレージレイヤSWであるDelta Lakeについてもご紹介します。
- spark
- hadoop
- kafka
- ソフトウェア
2020年のApache Hadoop振り返り - Memo
- 7 users
- aajisaka.hatenablog.com
- テクノロジー
- 2020/12/30
Apache Hadoopについて、2020年にどんなことがあったのかざっくりと振り返りたいと思います。Advent Calendar枠です(大遅刻)。 Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2020 - Qiita Apache Ozoneが分離オブジェクトストレージを担当するOzoneはすでにHadoop本体のソースコードからは分離されていましたが、新規のTLP(Top-Level Project)としてスピンオフしました。2019年にApache SubmarineがTLPになったのを見て、Ozoneもいずれそうなると思っていたので個人的には特に驚きはないです。プロジェクトが分離すると具体的に何が起こるかというと、committerやPMCなどが別々になります(他にもあるけど
- Hadoop
ZooKage: Hadoop on Kubernetes on Docker Desktop - おくみん公式ブログ
- 6 users
- blog.okumin.com
- テクノロジー
- 2020/12/25
Kubernetes上にHadoopサンドボックス環境をコマンド一発で構築するツール、ZooKageをリリースしました。本記事では開発に至った経緯と基本的な使い方を紹介します。「Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2020」にエントリーするつもりでいましたが、開発中に枠が埋まってしまったので過去の日付を埋める形で参加させていただきます。遅くなってすみません…… モチベーション Hadoopエコシステムは大量のコンポーネントから成り立っており、その混沌はしばしば動物園に例えられます。手軽に起動する手段が用意されているプロジェクトもありますが、それでもローカルマシンで満足な検証をするには困難を伴います。公私ともに様々なバージョンのHive/Hadoopやそれらへのパッチを検証すること
並列分散処理基盤のいま 45分で学ぶHadoop／Spark／Kafka／ストレージレイヤSW入門（Open Source Conference 2020 Online/Kyoto 2020年8月28日講演資料）
- 6 users
- www.slideshare.net/nttdata-tech
- テクノロジー
- 2020/08/29
並列分散処理基盤のいま 45分で学ぶHadoop／Spark／Kafka／ストレージレイヤSW入門 Open Source Conference 2020 Online/Kyoto 2020年8月28日講演資料 https://event.ospn.jp/osc2020-online-kyoto/ 株式会社NTTデータシステム技術本部利光宏平Read less
- architecture
LINEがApache Software FoundationのSilver Sponsorになりました
- 6 users
- engineering.linecorp.com
- テクノロジー
- 2022/03/29
LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog こんにちは。Open Source Program Office TF (タスクフォース)です。私たちはLINEのエンジニア組織とオープンソースエコシステムを融合し、より密接な関係を築いてコミュニティと共に成長できる文化を作るために様々な取り組みを行っています。今回は、この3月にLINEがApache Software FoundationのSilver Sponsorに加わることになった背景について紹介します。 Apache Software Foundationについて Apache Software Foundation (ASF)は、オープンソースプロジェクト開発に必要な資源を支援するために1999年に米国で設立された
- LINE
- OSS
- Apache
- Java
- Security
- あとで読む
Apache Hadoop Ozone: Apache Hadoop 用のオブジェクトストアの紹介
- 5 users
- blog.cloudera.co.jp
- テクノロジー
- 2020/04/07
著者: Arpit Agarwal 本ブログ記事は「Introducing Apache Hadoop Ozone: An Object Store for Apache Hadoop」(2018/10/08投稿)の日本語翻訳記事です。また、原文の投稿はClouderaとHortonworks合併前に記述されたものであり、いくつかのリンク、リソースにはアクセスできない場合があります。 *訳注: 元記事公開時点では 0.2.1-alpha 版が最新でしたが、日本語翻訳時(2020/3/9)は0.4.1-alpha版が公開されています。 1. はじめにApache Hadoop 分散ファイルシステム(HDFS)はビッグデータ用のデファクトファイルシステムになっています。現実世界では、HDFSがどれほどスケーラブルで堅牢であるのかを忘れがちです。私たちのお客様は数千ノードのクラスターを実行してい
- hadoop
HDFS Erasure Codingを大規模本番環境で運用するには　LINEエンジニアによるトラブルシューティング
- 5 users
- logmi.jp
- テクノロジー
- 2020/12/14
LINEが定期的に開催する技術者向けミートアップ「LINE Developer Meetup」の68回目のテーマは「Big Data Platform」。LINEのサイトリライアビリティエンジニアである内田早俊氏が、Hadoop3にアップグレードした際に起きたErasure Codingのトラブルシューティングについて共有しました。関連資料はこちら。 2019年にクラスタをHadoop 3にアップグレード内田早俊氏（以下、内田）：LINEのData Platform室の内田です。本日は忙しい中ご参加いただき、ありがとうございます。 LINEでは10年近く大規模なHadoopクラスタを運用していますが、昨年（2019年）クラスタをHadoop 3にアップグレードしました。ディスク使用量を削減するためにHadoop 3で新しく追加されたHDFSのErasure Coding（EC）を、約1
HDFSをメジャーバージョンアップして新機能のRouter-based Federationを本番導入してみた
- 5 users
- techblog.yahoo.co.jp
- テクノロジー
- 2020/12/14
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、「Hadoop」黒帯（ヤフー内のスキル任命制度）の鯵坂（@ajis_ka）です。ヤフーでは、およそ2年間の調査・検証期間を経てヤフーで利用している本番環境のHDFS（Hadoop Distributed FileSystem）をHDP（Hortonworks Data Platform）2.6系（Apache Hadoop 2.7.x相当）からApache Hadoop 3.3.0にメジャーバージョンアップし、HDFSの新機能であるRouter-based Federation（RBF）を導入しました。本記事では、これまでの2年間で何をしてきたのかについて振り返っていきます。バージョンアップの経緯ヤフーでは、提
- Hadoop
小さなファイルが大きな問題を引き起こす
- 5 users
- blog.cloudera.co.jp
- テクノロジー
- 2019/06/22
原文: https://blog.cloudera.com/blog/2019/05/small-files-big-foils-addressing-the-associated-metadata-and-application-challenges/ 著者: Shashank Naik, Bhagya Gummalla 訳注: 本稿は2019/5/9に公開されたブログ記事の翻訳です。「スモール・ファイル」はApache Hadoopの世界では一般的な課題であり、注意して扱わないと、いくつかの複雑な問題を引き起こす可能性があります。Apache Hadoop分散ファイルシステム（HDFS）は、テラバイトからペタバイトの範囲にわたる、大きなデータセットを格納して処理するために開発されました。しかしHDFSはスモール・ファイルを効率的に格納しないため、スモール・ファイルによってNameNo
- HDFS
- impala
- hive
- hadoop
- データ
HPE、MapRの資産買収--AIやML、アナリティクスのポートフォリオ拡充へ
- 4 users
- japan.zdnet.com
- テクノロジー
- 2019/08/06
印刷するメールで送るテキスト HTML 電子書籍 PDF ダウンロードテキスト電子書籍 PDF クリップした記事をMyページから読むことができます Hewlett Packard Enterprise（HPE）は、MapRの資産を買収したと発表した。同社の技術、知的財産、アナリティクスや人工知能（AI）、機械学習（ML）用ツールなどが含まれる。 HPEは、MapRが現在展開しているサービスや進行中の刷新を支援すると発表した。また、MapRのパートナーエコシステムも引き続き支援するという。買収の条件は明らかにされていない。 HPEに対して、MapRはより多くのビッグデータのノウハウやAI展開とMLのワークフローを提供できる。HPEの最高経営責任者（CEO）Antonio Neri氏は、MapRのファイルシステム技術によってHPEはエッジからクラウドまで統合されたアナリティクスを実現
Parquetはカラムナなのか？
- 4 users
- www.slideshare.net/yoheiazekatsu
- テクノロジー
- 2019/12/18
20200623 AWS Black Belt Online Seminar Amazon Elasticsearch Service
- hadoop
続・Apache Ozone をやっていた一年 - Preferred Networks Research & Development
- 4 users
- tech.preferred.jp
- テクノロジー
- 2022/11/11
PFN では HDFS から Apache Ozone への移行を進めています。Ozone クラスタは順調に社内のプロジェクトで採用が進んでデータが増加しており、これまでの 2 年間は数度にわたってクラスタを拡張しました。ところが、段階的にクラスタを拡張したことでデータノード間でのディスク使用量の不均衡が問題になってきました。例えば、全てのディスクが 8 割埋まっている Ozone クラスタにまったく空のデータノードを追加すると、データ使用量に大きな不均衡が生じます。新規追加した空のサーバにデータを移動することをリバランスといいますが、運用しやすいようにリバランスを実装する方法は自明ではありません。HDFS ではノード単位でディスク使用量を規定の範囲内に均すように移動する Balancer やデータノード内のディスクを同様に移動する Disk Balancer があります。一方で Ozon
- データ
2021年のApache Hadoop振り返り - Memo
- 4 users
- aajisaka.hatenablog.com
- テクノロジー
- 2021/12/14
Calendar for Distributed computing (Apache Spark, Hadoop, Kafka, ...) | Advent Calendar 2021 - Qiita の12月13日の記事です。昨年の記事 aajisaka.hatenablog.com さて、今年もApache Hadoopを振り返ろうと思います。リリース数の減少今年もリリースが少ない年でした。本記事を執筆している時点では1月に3.2.2、6月に3.3.1がリリースされただけです。現在3.3.2のrelease voteが行われており、うまく行けば3.3.2がリリースされるような気がします。また、3.2.3についてもrelease branchが切られており、release voteが近いうちに始まると思われます。ところで、2020年には新しいminor versionの3.3.0が
MapReduce入門：概要と使用開始
- 4 users
- www.talend.com
- テクノロジー
- 2020/05/06
今日のデータ駆動の市場では、アルゴリズムやアプリケーションが人、プロセス、システム、組織に関するデータを24時間365日収集し、膨大な量のデータを生成しています。しかし、問題となるのは、この大量のデータを有意義な知見を犠牲にすることなく高速かつ効率的に処理する方法です。そこで役立つのが、MapReduceプログラミングモデルです。MapReduceは、Googleが検索結果の分析のために最初に使用したものであり、テラバイト規模のデータを分割して並列処理し、より迅速に結果を得ることができます。 MapReduceとは？MapReduceは、Hadoopフレームワーク内のプログラミングモデル（パターン）であり、Hadoopファイルシステム（HDFS）に格納されたビッグデータにアクセスするために使用されます。これは、Hadoopフレームワークの機能に不可欠な主要コンポーネントです。 MapRe
OpenCensus/OpenTelemetry meetup vol.2
- 4 users
- medium.com/@d1ce
- テクノロジー
- 2019/06/30
これは元々Googleが主導していたOpenCensusに関するミートアップとして始まったのですが、第一回開催前にOpenTracingプロジェクトとのマージが発表されたため、現在ではOpenCensusとOpenTracing、そしてマージ後のプロジェクト名であるOpenTelemetryに関するミートアップとなっています。プロジェクトの進捗については@kawasyさんが紹介してくれました。
- OpenCensus
Snowflakeプラットフォームが支える６ワークロード(5) データレイクの過去と現在、そして未来
- 4 users
- news.mynavi.jp
- テクノロジー
- 2021/09/17
DXが声高に叫ばれる昨今、デジタル化された業務の結果、生成されるデータをいかにして活用するかが企業の命運を分けるようになってきた。ここ十数年を振り返ると、突如として量も形式も増えたデータに翻弄されることも少なくなかったが、その間にビッグデータを味方につけようと工夫がこらされた技術の一つがデータレイクである。今回は、Snowflakeのサービスパートナーであり、各種先端技術ブログでも有名なクラスメソッド株式会社でデータアナリティクス事業本部プリセールスアーキテクトとして活躍しており、個人としてもこのテクノロジーの歴史をつぶさに見つめてきた甲木洋介氏に、過去から紐解くデータレイクと、未来を担うSnowflakeの役割をご紹介いただこう。解説者：クラスメソッド株式会社データアナリティクス事業本部プリセールスアーキテクト甲木洋介氏 Twitter：@yokatsuki はじめにデー
- データ
- あとで読む
Hive パフォーマンスを改善する設定の紹介 - MicroAd Developers Blog
- 4 users
- developers.microad.co.jp
- テクノロジー
- 2020/04/13
マイクロアドではデータ基盤に Hive が使われています。データ基盤について、以下の記事をご確認ください。 MicroAdのデータ基盤より使いやすいデータ分析基盤にするためにこの一年間、Hive を使う機会が増えましたのでクエリパフォーマンスを改善する為に Hive 設定を試行錯誤しましたので、その中からいくつか紹介します。前提条件 1. Vectorization 2. Cost-based Optimization (CBO) 3. 並列実行 4. MapJoin 参考リンク前提条件 Hive 1.1.0-cdh5.14.0 まず基本ですが SET; を実行すると、以下が表示されます。システム変数環境変数 Hadoop 設定（ユーザーが定義した・デフォルトプロパティ） Hive 設定（ユーザーが定義した・デフォルトプロパティ） set, define, hivevar で
ダウンタイムなしでHadoopクラスタを移行した時の話
- 4 users
- engineering.linecorp.com
- テクノロジー
- 2020/08/25
こんにちは、Data Platform室の小野です。Data Platform室では、昨年のLINE DEVELOPER DAYでも発表があったように、大規模なHadoopクラスタを運用しています。先日、分析基盤に特化したデータセンターのルームが構築され、ここへクラスタの移行作業を行いました。このクラスタは全社的に使われており、毎日10万個以上のジョブが走っています。そのため、クラスタを止めずに移行することが求められました。この記事では、そのときどのようにHadoopクラスタを移行したのか、そしてどのような問題が起こったのかについて、ご紹介します。今回は、以下の4つのコンポーネントに絞って、ご紹介します。 ResourceManager NameNode JournalNode Zookeeper 現在使用しているソースのバージョンについては、LINE独自でパッチをあてたり、いくつか
ストリーム処理におけるApache Avroの活用について（NTTデータテクノロジーカンファレンス 2019 講演資料、2019/09/05）
- 4 users
- www.slideshare.net/nttdata-tech
- テクノロジー
- 2020/07/06
ストリーム処理におけるApache Avroの活用について（NTTデータテクノロジーカンファレンス 2019 講演資料、2019/09/05）株式会社NTTデータ技術開発本部関堅吾（Apache Bigtopコミッタ, Apache Yetus PMC/コミッタ） https://oss.nttdata.com/techconf2019/Read less
- tutorial
- Apache Avro
Containerizing Apache Hadoop Infrastructure at Uber
- 3 users
- eng.uber.com
- テクノロジー
- 2021/07/23
You’re seeing information for Japan . To see local features and services for another location, select a different city. Show more Introduction As Uber’s business grew, we scaled our Apache Hadoop (referred to as ‘Hadoop’ in this article) deployment to 21000+ hosts in 5 years, to support the various analytical and machine learning use cases. We built a team with varied expertise to address the chal
- hadoop
- apache
- docker
Apache Bigtop の概要と最新動向
- 3 users
- sekikn.github.io
- テクノロジー
- 2020/12/19
本記事は, Distributed computing (Apache Spark, Hadoop, Kafka, …) Advent Calendar 2020 18日目の記事です。この記事では, Apache Bigtop (以下 Bigtop) という OSS プロジェクトの概要と、 2020年12月時点の最新動向について紹介します。 Bigtop の概要と歴史 Bigtop は, Apache Hadoop エコシステムの環境構築やテストを容易にするための Apache Software Foundation 傘下のプロジェクトで、以下のような機能を提供します。 Hadoop や Spark などのビッグデータ関連 OSS を, deb や rpm 形式にビルドしたバイナリパッケージ。パッケージのインストールとその後の環境設定 (以下、併せてデプロイと呼びます) を自動化するた
- aws
Delta LakeのACIDトランザクションについて - Qiita
- 3 users
- qiita.com/toshimitsuk
- テクノロジー
- 2021/12/25
この記事は、Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2021 の12/25のエントリです。はじめにビッグデータにおける分散型ストレージと聞いて、皆さんは何を思い浮かべますか。例として、Apache Hadoop HDFSがあげられるでしょう。HDFSなどの分散型ストレージの誕生によって、大量のデータを保存・活用ができるようになったわけです。これらの分散型ストレージはスケーラビリティや耐故障性の面で優れています。一方、データ処理や分析のデータストアとして比較に挙げられがちなのはRDBMSですが、RDBMSと比べると特徴が一部失われていることもあります。例えば、並列分散化に加えてある程度の塊で書き込む工夫のトレードオフとして読み込み・書き込みを低レイテンシで行うことが難しくなった、書き
Deep Dive: Delta Log について理解する - connecting the dots
- 3 users
- ktksq.hatenablog.com
- テクノロジー
- 2022/09/04
はじめに環境情報前提: Delta Lakeとは何か Delta Log とは何か _delta_logディレクトリの構成 1. JSONトランザクションログ: 2. Checkpoint ファイル: 3. Last Checkpoint ファイル: 4. CRC (Cyclic Redundancy Check) ファイル: JSONトランザクションログ JSONトランザクションログのスキーマアトミックコミットを構成するアクション metaData: メタデータの更新 add: ファイルの追加 remove: ファイルの削除 txn: トランザクションの設定 protocol: プロトコルの変更 commitInfo: コミット情報 Checkpoint ファイル Last Checkpoint ファイル CRC (Cyclic Redundancy Check) ファイル CRC
- データ
hive.server2.enable.doAs がよく分からなかったので Apache Bigtop で調べてみた - memo486
- 3 users
- memo88.hatenablog.com
- テクノロジー
- 2020/06/30
hive.server2.enable.doAs の設定によって何がどう変わるかよく分からなかったので Apache Bigtop を使って調べてみました。 hive.server2.enable.doAs だと長くて煩雑なので以下では適宜 doAs と略しています。まとめバージョンなど一応公式の説明調査1: doAsの設定による違い準備接続 create databse doAs=true の場合 doAs=false の場合 create table + insert doAs=true の場合 doAs=false の場合 create external table + insert doAs=true の場合 doAs=false の場合調査2: OSのユーザとproxy userの関係 OSユーザあり、proxy user 設定なし OSユーザなし、proxy us
- Hive
Apache HadoopとSparkの違いとは？分散処理フレームワークを基礎からわかりやすく解説！
- 3 users
- data.wingarc.com
- テクノロジー
- 2019/10/16
Apache HadoopとSparkの違いとは？分散処理フレームワークを基礎からわかりやすく解説！ Hadoopは処理能力の拡張性・安定性が高い Hadoopは米Yahoo!社に所属していたDoug Cutting氏を中心として2006年に開発された分散処理フレームワークです。2004年Googleが論文にて発表した独自の分散処理フレームワークMapReduceをもとに生み出されました。ちなみに名前の由来はDoug氏の息子が持っていたゾウの人形です。 Hadoopのメリットはまずサーバーの台数に比例して処理能力を高められる、いわゆるスケールアウトが可能だということ。Web上のビッグデータはどんどん増え続けます。そんなときHadoopを実装していればコストを押さえつつ対応し続けられるのです。また、安定性が高いのも魅力のひとつ。どこか一つのサーバーで障害が起こってもほかのサーバーが対応す
Bigtop が提供するパッケージを使って Hadoop クラスタを構築する
- 3 users
- sekikn.github.io
- テクノロジー
- 2020/12/22
本記事は, Distributed computing (Apache Spark, Hadoop, Kafka, …) Advent Calendar 2020 19日目の記事です。この記事では, Apache Bigtop (以下 Bigtop) が提供する deb や rpm 形式のパッケージを使って、 Hadoop クラスタを構築する方法を紹介します。想定する環境 1台のマスターノードと複数台のワーカーノードが存在し、全台に CentOS 7 がインストールされていることノード間で相互に名前解決が可能になっていること説明を単純にするため, iptables や firewalld は無効化されていること Bigtop リポジトリの追加まず最初に、パッケージマネージャ (今回は CentOS 7 なので yum) の設定に、Bigtop のリポジトリを追加します。 Bigt
Presto (SQL query engine) - Wikipedia
- 3 users
- en.wikipedia.org
- テクノロジー
- 2019/12/17
Presto (including PrestoDB, and PrestoSQL which was re-branded to Trino) is a distributed query engine for big data using the SQL query language. Its architecture allows users to query data sources such as Hadoop, Cassandra, Kafka, AWS S3, Alluxio, MySQL, MongoDB and Teradata,[1] and allows use of multiple data sources within a query. Presto is community-driven open-source software released under
Multi-Raft: Apache Hadoop Ozoneの書き込みパフォーマンスを加速する
- 3 users
- blog.cloudera.co.jp
- テクノロジー
- 2021/01/19
2020/06/24 に公開された「Multi-Raft — Boost up write performance for Apache Hadoop-Ozone」の翻訳です。関連リンク Apache Hadoop Ozone: Apache Hadoop 用のオブジェクトストアの紹介 Apache Hadoop Ozone: オブジェクトストアの概要 Apache Hadoop Ozone — オブジェクトストアのアーキテクチャー Ozoneのベンチマーク: CDP用Clouderaの次世代ストレージ Apache Hadoop Ozone セキュリティ — 認証この記事は、Li Cheng, Software Engineer, Tencent Inc.による寄稿です本番環境で Hadoop-Ozone を利用するApache Hadoop Ozone は、ビッグデータプラットフ
- データ
Apache Hadoop のデータを BigQuery で分析するための移行手順
- 3 users
- medium.com
- テクノロジー
- 2019/12/09
この記事は Google Cloud Japan Customer Engineer Advent Calendar 2019 の 2 日目の記事です。 TL;DRApache Hadoop のデータを BigQuery で分析できるようにするための移行手順をご紹介します。Google Cloud が提供する、フルマネージドでサーバレスなデータウェアハウスである BigQuery を活用することで、インフラやミドルウェアの運用保守作業を行う必要がなく、データ分析作業に専念できるようになります。（個人的な意見ですが）オンプレミスで Apache Hadoop クラスタを運用している場合、サーバの調達や、ミドルウェアのインストール、各種リソースの使用率のモニタリング、パフォーマンスチューニングなどの運用保守作業が定期的に発生し、効率的にデータ分析環境を運用することができない、といった課題が
- bigQuery
- hadoop
- 運用
- データ
- google
100+PB scale Unified Hadoop cluster Federation with 2k+ nodes
- 3 users
- speakerdeck.com/line_devday2019
- テクノロジー
- 2019/11/22
Tianyi Wang LINE Data Platform Department Engineer https://linedevday.linecorp.com/jp/2019/sessions/D1-5
- あとで読む
Presto で Parquet にクエリすると、参照するカラムのみ読んでいることを確認した - ablog
- 3 users
- yohei-a.hatenablog.jp
- テクノロジー
- 2020/02/05
HDFS の Datanode の Flame Graph sun.nio.ch.FileChannelImpl:::transferTo から sendfile システムコールが呼ばれている。一番左のスタックをドリルダウンしたもの。 Presto Server の Flame Graph 一番左のスタックをドリルダウンしたもの、com.facebook.presto.parquet.reader.BinaryColumnReader:::readValue で Columnar Read していると思われる。確認ポイント Presto で Parquet にクエリする際、参照するカラムのデータのみ読む。環境リリースラベル: emr-5.28.0 Hadoop ディストリビューション: Amazon 2.8.5 Hive 2.3.6, Pig 0.17.0, Hue 4.4.0,
- Presto
- hadoop
beelineでhiveのtableを作成してみて、meta情報を覗いてみた - Qiita
- 3 users
- qiita.com/letusfly85
- テクノロジー
- 2020/04/28
前回の投稿で、hiveのdatabaseを作成しました。本日はテーブルを作成して、meta情報を確認してみます。 1. beelineでhiveserver2に接続 # コンテナにdocker-xecで/bin/bashで入ってから、beelineと入力 $ docker exec -it dockercompose_hiveserver2_1 /bin/bash root@6a715b5d374e:/# beeline # hiveserver2に接続 beeline> !connect jdbc:hive2://localhost:10000 hive hive org.apache.hive.jdbc.HiveDriver 2. tableを作成する以下のddlをクリップボードに貼り付けて、beelineで発行しました。 Points. テーブル、カラムに付与するコメントがOra
- hadoop
KafkaとSpark Streamingの統合について｜Engineers' Blog｜SBクラウド株式会社 - SBクラウド株式会社
- 3 users
- www.sbcloud.co.jp
- テクノロジー
- 2019/10/30
こんにちは　Kouです。 Webアクセス解析や、ログのリアルタイムモニタリングと不正検知、ソーシャルメディア分析などの時に、オープンソースの分散ストリーミングプラットフォームと呼ばれるApache KafkaとSparkにストリームデータを処理するSpark Streamingを組み合わせたストリームデータ処理システムはよく利用されると考えられます。今回の記事はTwitterのメッセージ分析を例として、Alibaba CloudのE-MapReduce上で、KafkaとSpark Streamingの統合方法について、皆さんにご紹介させて頂きたいと思います。検証環境について Spark Streaming EMR-3.20.0 クラスタータイプは Hadoop ハードウェア構成(Header)はecs.sn2.largeを1台ハードウェア構成(Worker)はecs.sn2.large
- hadoop
Hadoopのバージョン混用は可能?　HDP 2.6.4 とコミュニティ版 Hadoop 3.2.1 におけるHDFSの互換性調査結果
- 3 users
- techblog.yahoo.co.jp
- テクノロジー
- 2019/12/06
Home テクノロジー Blog Hadoopのバージョン混用は可能?　HDP 2.6.4 とコミュニティ版 Hadoop 3.2.1 におけるHDFSの互換性調査結果 (English translation is available here) ヤフーで Hadoop の運用・開発をしている李燮鳴です。私たちのチームでは Hadoop 3.2.1 に含まれる Router Based Federation (RBF) で Hadoop のスケーラビリティ問題の解決を試みています。この記事では RBF を導入する背景と Hadoop 3.2.1 と既存の実行系の互換性を紹介します。背景および目的 Hadoopクラスタ@ヤフーヤフーでは、自社が提供している多種多様なサービスのログを分析してサービスの改善に役立てるため、Hadoop クラスタを複数運用しています。ソフトウェアスタックで
- hadoop
Partition Management in Hadoop - Cloudera Blog
- 3 users
- blog.cloudera.com
- テクノロジー
- 2019/05/20
Guest blog post written by Adir Mashiach In this post I’ll talk about the problem of Hive tables with a lot of small partitions and files and describe my solution in details. A little background In my organization, we keep a lot of our data in HDFS. Most of it is the raw data but a significant amount is the final product of many data enrichment processes. In order to manage all the data pipelines
- data
Ozoneに10億ファイル
- 3 users
- blog.cloudera.co.jp
- テクノロジー
- 2020/05/19
Apache Hadoop Ozoneは分散型のキーバリューストアであり、小さなファイルから大きなファイルまでの両方を管理することができます。Ozoneは、小さなファイルに関するHDFSのスケールの制限に対処するために設計されました。HDFSは大きなファイルを格納するために設計されており、HDFSでの推奨ファイル数は NameNode で3億個で、この制限を超えてのスケールはできません。スケーラビリティを達成するためのOzoneの主な特徴は以下の通りです。 Ozoneの名前空間はローカルのRocksDBインスタンスに書き込まれ、パフォーマンス（全てをメモリに保持する）とスケーラビリティ（あまり使われていないメタデータをディスクに永続化）の間のバランスを、簡単に調整することができます。名前空間とブロックスペースの管理は、2つの異なるデーモン、OzoneManager(OM)とStorage
- hadoop
- ストレージ