[B! hadoop] ShoCohのブックマーク

Java11へのマイグレーションガイド ~Apache Hadoopの事例~

BigtopでHadoopをビルドする（Open Source Conference 2021 Online/Spring 発表資料）NTT DATA Techno logy & Innovation852 views•48 slides Apache Bigtop3.2 (仮)（Open Source Conference 2022 Online/Hiroshima 発表資料）NTT DATA Techno logy & Innovation465 views•67 slides Apache Bigtopによるオープンなビッグデータ処理基盤の構築（オープンデベロッパーズカンファレンス 2021 Online 発表資料）NTT DATA Techno logy & Innovation1.2K views•64 slides

ShoCoh 2019/05/22

java
hadoop

リンク

Apache Sparkに注力するIBM、目指すは「データ分析のOS」

Apache Sparkに注力するIBM、目指すは「データ分析のOS」：Database Watch（2015年7月版）北米トヨタ販売子会社での採用事例の発表などもあり、日本国内でも注目を集めつつある「Apache Spark」。具体的にはどんな特徴があって、何ができるのだろうか。Sparkへの大規模投資を発表したIBM（日本IBM）を取材した。連載バックナンバー Apache Sparkとは何か？ 2015年7月8日、日本IBMは「Sparkプロジェクトへの取り組みに関する記者説明会」を行いました。Sparkとは「Apache Spark」（以下、Spark）のことで、分散環境で計算処理を並列実行するソフトウエアです。2015年6月に米国で開催された「Spark Summit 2015」で、米国におけるトヨタ自動車の販売子会社である米国トヨタ自動車販売（Toyota Motor Sa

ShoCoh 2015/07/28

Spark
hadoop

リンク

Spark／MapReduceの機械学習ライブラリ比較検証

2015/5/21 Hadoopソースコードリーディング第19回におけるリクルートテクノロジーズ堀越による発表資料になります

ShoCoh 2015/06/05

Spark
hadoop

リンク

40分でわかるHadoop徹底入門（Cloudera World Tokyo 2014 講演資料）

■Hadoopの理解にちょっと自信のない皆さんに贈る 40分でわかるHadoop徹底入門（Cloudera World Tokyo 2014 講演資料）日本Hadoopユーザー会濱野賢一朗／Kenichiro Hamano (NTTデータ)

ShoCoh 2015/05/26

hadoop

リンク

RCFile，Parquet，ORCFile

この2ヶ月で，Cloudera/Twitter，Hortonworks からそれぞれ別の列指向ファイルフォーマットが公開されました．Parquet と ORCFile です．この記事では，まず RCFile の復習をして，その後 Parquet と ORCFile それぞれの共通点と違いをおおまかに見ていこうと思います．コードレベルの詳細な違いについては，次回以降で見ていきます． RCFile の復習 RCFile は　Record Columnar File の略で，Hive から利用できるストレージフォーマットです．特に，HDFS や S3 といった分散ストレージ上でパフォーマンスがでるように設計されています． HDFS/S3 といったストレージでは，基本的にデータを計算機間で同じ負荷になるようにデータを分散配置します．このため，従来の列指向ストレージフォーマットのように適当に列毎に

ShoCoh 2015/05/19

hadoop

リンク

第4回　データ処理の方法 | gihyo.jp

はじめに前回までは、（⁠並列）データ処理の説明をするために必要な言葉の定義や整理をしてきました。いよいよこれからは、データ処理自体について触れていきます。今回は、アプリケーション開発者の視点から見るデータ処理にはどのようなものがあり、その観点において、Hadoopがどのようなものであるか、また、Hadoopがどのようにデータ処理を構築しているかについて、その概要を説明します。手続き型言語によるデータ処理と宣言型言語によるデータ処理データ処理は、データ処理を行うアプリケーション開発者（ユーザ）の視点から見ると、手続き型言語によるデータ処理宣言型言語によるデータ処理の2つに大別することができます。手続き型言語によるデータ処理は、ユーザがプログラミング言語等を用いて行うデータ処理です。たとえば、CやPerlなどを用いて行うデータ処理や、汎用機においてCOBOLなどを用いた集計処理な

ShoCoh 2015/05/13

hadoop

リンク

Cloudera Impala

大規模並列処理（MPP）エンジンであり、Hadoopのデータに対してSQLを用いてクエリを実行できるソフトウェアImpalaについて紹介する書籍です。ビッグデータのワークフロー全体から、またRDBMS、OS、そしてHadoopといった読者の背景知識を元にして、Impalaが実現する機能や役割を紹介します。なお本書はEbook版のみのリリースとなります。イントロダクション 1章　ビッグデータのエコシステムにおけるImpalaの立ち位置 2章　ビッグデータのワークフローにおけるImpalaの場所柔軟性パフォーマンス 3章　RDBMSの背景知識から見たImpala 標準的なSQL ストレージ、ストレージ、ストレージ数十億行に及ぶデータ Impalaとデータウェアハウスの相似点 Impalaでの初めてのクエリ Impalaのテーブルへのデータの取り込み 4章　UnixあるいはLinuxの背

ShoCoh 2015/04/21

hadoop

リンク

第1回　なぜ、Hadoopはどのように動くのか、を学ぶのか | gihyo.jp

はじめにビッグデータ解析のためのシステム基盤として、Hadoopをはじめとするオープンソースのデータ処理ソフトウェア（データ処理系）が広く利用されつつありますが、当該データ処理系をすでに利用している、もしくは利用の検討をしている読者の方々の中には、たとえば以下のような問題を抱えている方が少なからずいらっしゃるのではないでしょうか。データ処理系の使い方はなんとなくわかるが、その内部をあまり理解できていない。または、内部の動作原理がよくわからないので、本格的に使う気にならない。同様の目的を達成する複数のデータ処理系において、どれを使って良いかがよくわからない。または、適切に使い分けられていない気がする。たとえば、どのような場合にHadoopを用いて、どのような場合に同類のデータ処理系であるImpalaやSparkを用いれば良いかが“⁠明確に⁠”わからない。このような問題を解決するには、

ShoCoh 2015/04/01

hadoop

リンク

Apache Sparkのご紹介（後半：技術トピック）

第16回 Hadoopソースコードリーディング(2014/05/29) 発表資料『Apache Sparkのご紹介』（後半：技術トピック） NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス猿田浩輔 (Kousuke Saruta) http://oss.nttdata.co.jp/ 前半はこちら → http://www.slideshare.net/hadoopxnttdata/apache-spark-spark

ShoCoh 2015/03/17

hadoop
Spark

リンク

Apache HBase ™ Reference Guide

This is the official reference guide for the HBase version it ships with. Herein you will find either the definitive documentation on an HBase topic as of its standing when the referenced HBase version shipped, or it will point to the location in Javadoc or JIRA where the pertinent information can be found. This reference guide is a work in progress. The source for this guide can be found in the _

ShoCoh 2015/03/16

HBase
hadoop

リンク

Hadoopを10分で試す

ブログの総集編です。下記にあるリンクを参照してください。 Hadoopを使ってみたい！新しく何かを始めようと思った時、面倒だなぁと思うことは多いものです。書籍やブログをみて「これは役立ちそうだ」と思っても、ちょっと試すことにさえにも辿り着けず、頓挫しているものがTODOリストやPocket（旧Readitlater）に大量にあります。＃書いていて嫌な気持ちになってきた、、、 Hadoopはそんな面倒なものの一つかもしれません。書籍を読んで「よし、やってみるか」という強い決意を持ったすぐ後、「試すにはマシンを買わないといけないのかなぁ」「いや、EC2でいけそう。アカウントどうしようか」「なんか仮想マシンでもできそうって書いてある」という第一の壁があります。運良く壁を乗り越えたあと、「ソフトはどこからダウンロードすればいいだっけ？」「コマンドラインでやるの？」「設定面倒そう

ShoCoh 2015/02/26

hadoop

リンク

稼働中のCDHクラスタからCloudera Managerに移行した話 - Qiita

こちらはSpark, SQL on Hadoop etc. Advent Calendarの12日目ですはじめに Cloudera ManagerはCloudera社が提供するHadoop（CDH）クラスタをGUIで管理・監視ができるアプリケーションです。（以下一部Cloudera Manager = CMと略します）職場にて元々CDH4.3を利用してHadoopクラスタを運用していたのですが運用が2-3名障害時に停止や再起動の手順を把握している人そのくらい（ドキュメントは一部用意してあるが…）日々の運用や開発に手一杯で監視が甘い GangliaとCloudForecastとNagiosなど組み合わさってとっちらかる時々とんでもない値を設定しててハマるなどなどありまして、「もうちょい楽して開発に集中したい」というモチベーションが高まりCloudera Managerを採用し

ShoCoh 2015/02/26

リンク

Apache Drill ではクエリ処理はこんな風に行われる（Hadoop アドベントカレンダー 2013 16日目） - nagix

この記事は Hadoop アドベントカレンダー 2013の16日目の記事です。 Apache Drill 概要 Apache Drill は Google Dremel に触発されて開発されたオープンソースプロジェクトで、2012年8月に Apache Incubator として提案されました。大規模データに対し、バッチ処理ではなく、インタラクティブなクエリの実行を可能にするという意味では、ImpalaやStinger、Presto といったプロジェクトと同様の大きな目的を持っていますが、SQL 2003 完全準拠、パーサや処理実行部分を Pluggable にして幅広いクエリ言語やデータソースに対応、JSON/Avro のようなネストデータに対応、スキーマはオプショナルでスキーマレスなデータに対応、といったところなど、より柔軟で拡張性の高いフレームワークを目指しているのが他のプロジェクト

ShoCoh 2015/02/25

hadoop
drill

リンク

分散処理に入門してみた（Hadoop + Spark） | Casley Deep Innovations株式会社技術ブログ

こんにちは。SI部の腰塚です。 RDBやデータウェアハウスの仕事に携わることが多かった筆者は、数年前からたびたび聞こえたビッグデータ分析や機械学習のための分散処理フレームワークに興味を覚えたものの、ついぞアクセスしないままここまで来てしまいました。今回ブログを書くにあたって、せっかくなのでイチから手さぐり入門し、いまさら他人に聞けない分散処理の初歩からhadoop・sparkを触ってみるまでをまとめたいと思います。 1.分散処理の基礎知識 1-1.分散処理の処理方式：MapReduce まず分散処理とは、ひとつの計算処理をネットワークで接続した複数のコンピュータで同時並列で処理することです。ビッグデータ活用の市場が日々大きくなるに従って、数百テラ～ペタのデータ処理も珍しいものではなくなっており、日常的にこの規模のデータを扱うシステムでは、現実的な時間的・費用的コストで処理する工夫が必要

ShoCoh 2015/02/25

hadoop

リンク

Apache Hadoop と MapReduce の概要 - Azure HDInsight

Apache Hadoop は本来、クラスターでのビッグデータセットの分散処理および分析のためのオープンソースフレームワークでした。 Hadoop エコシステムには、Apache Hive、Apache HBase、Spark、Kafka、その他の多くの関連するソフトウェアおよびユーティリティが含まれます。 Azure HDInsight は、フルマネージドの、全範囲に対応した、クラウド上のオープンソースのエンタープライズ向け分析サービスです。 Azure HDInsight の Apache Hadoop クラスタータイプでは、Apache Hadoop 分散ファイルシステム (HDFS)、Apache Hadoop YARN によるリソース管理、シンプルな MapReduce プログラミングモデルを使用して、バッチデータを並列に処理して分析することができます。 HDIn

ShoCoh 2015/02/23

hadoop

リンク

Hadoopアプリ開発キット「Cloudera Development kit」を公開

Hadoop環境用のアプリケーション開発やデータ操作を容易にする開発キットをClouderaが公開。「いまどき」のアプリケーション開発者に扱いやすい環境を整備する。米Clouderaは、2013年5月7日、Hadoop用アプリケーション開発キット「Cloudera Development kit（CDK）」をGitHub上で公開した（リンク）。現在のバージョンは0.2.0。ライセンスはApache License V2を採用している。 CDKには、Clouderaの提供するHadoopディストリビューション用のアプリケーション開発を容易にするライブラリ群、ツール類、サンプルコード、ドキュメントが含まれる。現リリースにはHDFSやローカルのファイルシステムに含まれるデータセットに対して「徹底的にシンプルに動作する」APIセットである「CDK Data module」が含まれる。 OSSで