タグ

hadoopに関するShoCohのブックマーク (17)

  • Java11へのマイグレーションガイド ~Apache Hadoopの事例~

    BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)NTT DATA Technology & Innovation852 views•48 slides Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)NTT DATA Technology & Innovation465 views•67 slides Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)NTT DATA Technology & Innovation1.2K views•64 slides

    Java11へのマイグレーションガイド ~Apache Hadoopの事例~
  • Apache Sparkに注力するIBM、目指すは「データ分析のOS」

    Apache Sparkに注力するIBM、目指すは「データ分析のOS」:Database Watch(2015年7月版) 北米トヨタ販売子会社での採用事例の発表などもあり、日国内でも注目を集めつつある「Apache Spark」。具体的にはどんな特徴があって、何ができるのだろうか。Sparkへの大規模投資を発表したIBM(日IBM)を取材した。 連載バックナンバー Apache Sparkとは何か? 2015年7月8日、日IBMは「Sparkプロジェクトへの取り組みに関する記者説明会」を行いました。Sparkとは「Apache Spark」(以下、Spark)のことで、分散環境で計算処理を並列実行するソフトウエアです。2015年6月に米国で開催された「Spark Summit 2015」で、米国におけるトヨタ自動車の販売子会社である米国トヨタ自動車販売(Toyota Motor Sa

    Apache Sparkに注力するIBM、目指すは「データ分析のOS」
  • Spark/MapReduceの 機械学習ライブラリ比較検証

    2015/5/21 Hadoopソースコードリーディング 第19回におけるリクルートテクノロジーズ堀越による発表資料になります

    Spark/MapReduceの 機械学習ライブラリ比較検証
  • 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)

    ■Hadoopの理解にちょっと自信のない皆さんに贈る 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 日Hadoopユーザー会 濱野 賢一朗/Kenichiro Hamano (NTTデータ)

    40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
  • RCFile,Parquet,ORCFile

    この2ヶ月で,Cloudera/Twitter,Hortonworks からそれぞれ別の列指向ファイルフォーマットが公開されました.Parquet と ORCFile です. この記事では,まず RCFile の復習をして,その後 Parquet と ORCFile それぞれの共通点と違いをおおまかに見ていこうと思います.コードレベルの詳細な違いについては,次回以降で見ていきます. RCFile の復習 RCFile は Record Columnar File の略で,Hive から利用できるストレージフォーマットです.特に,HDFS や S3 といった分散ストレージ上でパフォーマンスがでるように設計されています. HDFS/S3 といったストレージでは,基的にデータを計算機間で同じ負荷になるようにデータを分散配置します.このため,従来の列指向ストレージフォーマットのように適当に列毎に

  • 第4回 データ処理の方法 | gihyo.jp

    はじめに 前回までは、(⁠並列)データ処理の説明をするために必要な言葉の定義や整理をしてきました。いよいよこれからは、データ処理自体について触れていきます。今回は、アプリケーション開発者の視点から見るデータ処理にはどのようなものがあり、その観点において、Hadoopがどのようなものであるか、また、Hadoopがどのようにデータ処理を構築しているかについて、その概要を説明します。 手続き型言語によるデータ処理と宣言型言語によるデータ処理 データ処理は、データ処理を行うアプリケーション開発者(ユーザ)の視点から見ると、 手続き型言語によるデータ処理 宣言型言語によるデータ処理 の2つに大別することができます。 手続き型言語によるデータ処理は、ユーザがプログラミング言語等を用いて行うデータ処理です。たとえば、CやPerlなどを用いて行うデータ処理や、汎用機においてCOBOLなどを用いた集計処理な

    第4回 データ処理の方法 | gihyo.jp
  • Cloudera Impala

    大規模並列処理(MPP)エンジンであり、Hadoopのデータに対してSQLを用いてクエリを実行できるソフトウェアImpalaについて紹介する書籍です。ビッグデータのワークフロー全体から、またRDBMS、OS、そしてHadoopといった読者の背景知識を元にして、Impalaが実現する機能や役割を紹介します。なお書はEbook版のみのリリースとなります。 イントロダクション 1章 ビッグデータのエコシステムにおけるImpalaの立ち位置 2章 ビッグデータのワークフローにおけるImpalaの場所 柔軟性 パフォーマンス 3章 RDBMSの背景知識から見たImpala 標準的なSQL ストレージ、ストレージ、ストレージ 数十億行に及ぶデータ Impalaとデータウェアハウスの相似点 Impalaでの初めてのクエリ Impalaのテーブルへのデータの取り込み 4章 UnixあるいはLinuxの背

    Cloudera Impala
  • 第1回 なぜ、Hadoopはどのように動くのか、を学ぶのか | gihyo.jp

    はじめに ビッグデータ解析のためのシステム基盤として、Hadoopをはじめとするオープンソースのデータ処理ソフトウェア(データ処理系)が広く利用されつつありますが、当該データ処理系をすでに利用している、もしくは利用の検討をしている読者の方々の中には、たとえば以下のような問題を抱えている方が少なからずいらっしゃるのではないでしょうか。 データ処理系の使い方はなんとなくわかるが、その内部をあまり理解できていない。または、内部の動作原理がよくわからないので、格的に使う気にならない。 同様の目的を達成する複数のデータ処理系において、どれを使って良いかがよくわからない。または、適切に使い分けられていない気がする。たとえば、どのような場合にHadoopを用いて、どのような場合に同類のデータ処理系であるImpalaやSparkを用いれば良いかが“⁠明確に⁠”わからない。 このような問題を解決するには、

    第1回 なぜ、Hadoopはどのように動くのか、を学ぶのか | gihyo.jp
  • Apache Sparkのご紹介 (後半:技術トピック)

    第16回 Hadoopソースコードリーディング(2014/05/29) 発表資料 『Apache Sparkのご紹介』(後半:技術トピック) NTTデータ 基盤システム事業部 OSSプロフェッショナルサービス 猿田 浩輔 (Kousuke Saruta) http://oss.nttdata.co.jp/ 前半はこちら → http://www.slideshare.net/hadoopxnttdata/apache-spark-spark

    Apache Sparkのご紹介 (後半:技術トピック)
  • Apache HBase ™ Reference Guide

    This is the official reference guide for the HBase version it ships with. Herein you will find either the definitive documentation on an HBase topic as of its standing when the referenced HBase version shipped, or it will point to the location in Javadoc or JIRA where the pertinent information can be found. This reference guide is a work in progress. The source for this guide can be found in the _

  • Hadoopを10分で試す

    ブログの総集編です。下記にあるリンクを参照してください。 Hadoopを使ってみたい! 新しく何かを始めようと思った時、面倒だなぁと思うことは多いものです。書籍やブログをみて「これは役立ちそうだ」と思っても、ちょっと試すことにさえにも辿り着けず、頓挫しているものがTODOリストやPocket(旧Readitlater)に大量にあります。 #書いていて嫌な気持ちになってきた、、、 Hadoopはそんな面倒なものの一つかもしれません。書籍を読んで「よし、やってみるか」という強い決意を持ったすぐ後、 「試すにはマシンを買わないといけないのかなぁ」 「いや、EC2でいけそう。アカウントどうしようか」 「なんか仮想マシンでもできそうって書いてある」 という第一の壁があります。 運良く壁を乗り越えたあと、 「ソフトはどこからダウンロードすればいいだっけ?」 「コマンドラインでやるの?」 「設定面倒そう

    Hadoopを10分で試す
  • 稼働中のCDHクラスタからCloudera Managerに移行した話 - Qiita

    こちらはSpark, SQL on Hadoop etc. Advent Calendarの12日目です はじめに Cloudera ManagerはCloudera社が提供するHadoop(CDH)クラスタをGUIで管理・監視ができるアプリケーションです。 (以下一部Cloudera Manager = CMと略します) 職場にて元々CDH4.3を利用してHadoopクラスタを運用していたのですが 運用が2-3名 障害時に停止や再起動の手順を把握している人そのくらい(ドキュメントは一部用意してあるが…) 日々の運用や開発に手一杯で監視が甘い GangliaとCloudForecastとNagiosなど組み合わさってとっちらかる 時々とんでもない値を設定しててハマる などなどありまして、「もうちょい楽して開発に集中したい」というモチベーションが高まりCloudera Managerを採用し

    稼働中のCDHクラスタからCloudera Managerに移行した話 - Qiita
  • Apache Drill ではクエリ処理はこんな風に行われる(Hadoop アドベントカレンダー 2013 16日目) - nagix

    この記事は Hadoop アドベントカレンダー 2013の16日目の記事です。 Apache Drill 概要 Apache Drill は Google Dremel に触発されて開発されたオープンソースプロジェクトで、2012年8月に Apache Incubator として提案されました。大規模データに対し、バッチ処理ではなく、インタラクティブなクエリの実行を可能にするという意味では、ImpalaやStinger、Presto といったプロジェクトと同様の大きな目的を持っていますが、SQL 2003 完全準拠、パーサや処理実行部分を Pluggable にして幅広いクエリ言語やデータソースに対応、JSON/Avro のようなネストデータに対応、スキーマはオプショナルでスキーマレスなデータに対応、といったところなど、より柔軟で拡張性の高いフレームワークを目指しているのが他のプロジェクト

  • 分散処理に入門してみた(Hadoop + Spark) | Casley Deep Innovations株式会社 技術ブログ

    こんにちは。SI部の腰塚です。 RDBやデータウェアハウスの仕事に携わることが多かった筆者は、数年前からたびたび聞こえたビッグデータ分析機械学習のための分散処理フレームワークに興味を覚えたものの、ついぞアクセスしないままここまで来てしまいました。 今回ブログを書くにあたって、せっかくなのでイチから手さぐり入門し、いまさら他人に聞けない分散処理の初歩からhadoop・sparkを触ってみるまでをまとめたいと思います。 1.分散処理の基礎知識 1-1.分散処理の処理方式:MapReduce まず分散処理とは、ひとつの計算処理をネットワークで接続した複数のコンピュータで同時並列で処理することです。 ビッグデータ活用の市場が日々大きくなるに従って、数百テラ~ペタのデータ処理も珍しいものではなくなっており、日常的にこの規模のデータを扱うシステムでは、現実的な時間的・費用的コストで処理する工夫が必要

    分散処理に入門してみた(Hadoop + Spark) | Casley Deep Innovations株式会社 技術ブログ
  • Apache Hadoop と MapReduce の概要 - Azure HDInsight

    Apache Hadoop は来、クラスターでのビッグ データ セットの分散処理および分析のためのオープンソース フレームワークでした。 Hadoop エコシステムには、Apache Hive、Apache HBase、Spark、Kafka、その他の多くの関連するソフトウェアおよびユーティリティが含まれます。 Azure HDInsight は、フル マネージドの、全範囲に対応した、クラウド上のオープンソースのエンタープライズ向け分析サービスです。 Azure HDInsight の Apache Hadoop クラスター タイプでは、Apache Hadoop 分散ファイル システム (HDFS)、Apache Hadoop YARN によるリソース管理、シンプルな MapReduce プログラミング モデルを使用して、バッチ データを並列に処理して分析することができます。 HDIn

    Apache Hadoop と MapReduce の概要 - Azure HDInsight
  • Hadoopアプリ開発キット「Cloudera Development kit」を公開

    Hadoop環境用のアプリケーション開発やデータ操作を容易にする開発キットをClouderaが公開。「いまどき」のアプリケーション開発者に扱いやすい環境を整備する。 米Clouderaは、2013年5月7日、Hadoop用アプリケーション開発キット「Cloudera Development kit(CDK)」をGitHub上で公開した(リンク)。現在のバージョンは0.2.0。ライセンスはApache License V2を採用している。 CDKには、Clouderaの提供するHadoopディストリビューション用のアプリケーション開発を容易にするライブラリ群、ツール類、サンプルコード、ドキュメントが含まれる。 現リリースにはHDFSやローカルのファイルシステムに含まれるデータセットに対して「徹底的にシンプルに動作する」APIセットである「CDK Data module」が含まれる。 OSSで

    Hadoopアプリ開発キット「Cloudera Development kit」を公開
  • 1