© 2024 - Teradata Confidential. Copyright Teradata Corporation. Use of these materials is subject to the terms and conditions of the partner agreement(s) between the member's company and Teradata. Privacy | Terms of Use
目次 Hiveとは Hiveの設定 HiveQL構文(DDL) DataBase/SCHEMAの作成 Database/SCHEMAの削除 Tableの作成 Tableの削除 Table名変更 Partition作成 Partitionの削除 Columnの変更 Columnの追加/置き換え TableのProperty変更 SerDe Propertyの追加 HiveQL構文(SQL) テーブル一覧表示 テーブルの内容を表示 基本的なSELECT文 WHERE句(条件指定) DISTINCT(重複削除) ORDER BY / SORT BY句(ソート) GROUP BY句(グループ化) HAVING句(グループ化後の条件) LIMIT句 JOIN(テーブル結合) 抽出カラムを正規表現で指定 UNION(結果の結合) SUBQUERY LOAD(データの読み込み) Hiveを使う 事前準備
id:naoya:20080511:1210506301 のエントリのコメント欄で kzk さんに教えていただいた Hadoop Streaming を試しています。 Hadoop はオープンソースの MapReduce + 分散ファイルシステムです。Java で作られています。Yahoo! Inc のバックエンドや、Facebook、Amazon.com などでも利用されているとのことです。詳しくは http://codezine.jp/a/article/aid/2448.aspx (kzk さんによる連載記事)を参照してください。 Hadoop Streaming 記事にもあります通り、Hadoop 拡張の Hadoop Streaming を使うと標準入出力を介するプログラムを記述するだけで、Hadoop による MapReduce を利用することができます。つまり、Java 以外
Hadoopエンタープライズソリューションセミナー2012 日時:2012年12月10日(月) 10:15~17:15 会場:東京コンファレンスセンター品川 いまや広く認知されるに至った オープンソースの分散処理基盤Hadoop。増え続ける大量のデータをHadoopで効率的に処理したり、ビジネス上の価値がある有意義な情報を見い出すことに活用されています。NTTデータは、2008年からHadoopへの取り組みを本格化しており、数多くのシステムでの運用経験を培ってきました。 一方で、Hadoopの成長はめざましく、その適用領域や構築・運用に関わるノウハウなどはまだ十分に認知されているとは言い難い状況です。本セミナーでは、NTTデータが培ったノウハウや事例をもとに企業システムにおけるHadoopの活用シーンや事例についてご紹介します。また、NTTデータで取り組む他のオープンソースソフトウェアにつ
HadoopのSQL対応分散クエリエンジン「Cloudera Impala」。Clouderaがオープンソースで公開 Hadoopのディストリビューションベンダとして知られるClouderaは10月25日、SQLに対応し、データの分析速度はMapReduceよりも何倍も高速だという新しい分散クエリエンジン「Cloudera Impala」(製品名「Cloudera Enterprise RTQ」)をオープンソースで公開しました。 これまでHadoopでは内部でMapReduceと呼ばれる処理が用いられていましたが、ImpalaではMapReduceを使わず、Clouderaが2年かけて開発した独自の分散クエリエンジンを用いて処理を行います。Hiveの上位互換のSQLが利用でき、Hive/MapReduceで数分かかっていた応答時間を数秒に短縮すると説明されています。 グーグルのDremel
Facebook、Hadoopのスケーラビリティ問題を解決する、独自の「Hadoop Corona」をオープンソースで公開 Facebookでは、24時間ごとに0.5ペタバイトのデータが生成され、それらを分析するために毎日6万回以上ものHiveのクエリが実行されているそうです。 こうした大規模処理を行うプラットフォームとして使われているのがHadoop。しかしFacebookはHadoop MapReduceのスケーラビリティに限界を感じており、それを解決するための新しいソフトウェア「Hadoop Corona」を開発、オープンソースで公開しました。 Facebookのページ「Under the Hood: Scheduling MapReduce jobs more efficiently with Corona」では、従来のHadoop MapReduceのどこに課題があったのか、4つ
Acroquest Technologyは2012年11月9日、分散処理フレームワークのHadoopや、Hadoop上に構築する分散データベースのHBaseの内部動作を可視化するソフトウエア「halook」をオープンソースソフトウエア(OSS)として公開すると発表した。halookでは、WebブラウザからHadoopで構築したクラスター間のデータの偏りや、クラスターのタスクなどを確認できる。 Hadoopの分散ファイルシステムでは、クラスターを構成するDataNodeにデータを分散させて保存する。各クラスター内に保持しているデータは、できるだけ均等に保つことが望ましい。各クラスターに保存されているデータ量に偏りがあると、データ量が大きいクラスターに処理が集中してしまい、サーバーの台数を増やしても処理能力がスケールしない可能性があるためだ。 halookの「HDFSDataDistribut
内部で使用しているフレームワークをOSS化することにしました。 Huahin Framwork (http://huahinframework.org/) Huahin Manager (http://huahinframework.org/huahin-manager/)に関しては某所で求められてて先行でリリースしていたのですが、こちらはMapReduceをラップしたフレームワーク本体です。 Pig、Hiveじゃどうしてもできないことがあったためネイティブで書くしかなかったのですが、正直、Writableとかソートとか書くのにはウンザリしていたためこれが出来た感じです。 基本は、MapReduceをラップしてるだけなので足りないものは自分で実装できるようになってます。Key/Valueがレコードという概念になっていて、レコードに対してグルーピングするのかソートにするのかそれともただの値な
管理が困難―分散処理の常識はZooKeeperで変わる:ビッグデータ処理の常識をJavaで身につける(8)(1/3 ページ) Hadoopをはじめ、Java言語を使って構築されることが多い「ビッグデータ」処理のためのフレームワーク/ライブラリを紹介しながら、大量データを活用するための技術の常識を身に付けていく連載 分散処理の課題が「管理」なのは常識 複数の計算機上で動作(分散)するアプリケーション、ソフトウェアが多く存在します。分散ソフトウェアは複数の計算機で動作することで大量のデータを扱えたり、高負荷な状況に対処します。本稿では、複数の計算機(クラスタ)で動作する各サーバを「インスタンス」と呼びます。 本連載で紹介した分散Key-Valueデータベースである「HBase」は複数の計算機で動作する代表的なソフトウェアです。両ソフトウェアはともに「Apache ZooKeeper」(以下、Z
Hadoopの現実解「バッチ処理」の常識をAsakusaで体得:ビッグデータ処理の常識をJavaで身につける(7)(1/4 ページ) Hadoopをはじめ、Java言語を使って構築されることが多い「ビッグデータ」処理のためのフレームワーク/ライブラリを紹介しながら、大量データを活用するための技術の常識を身に付けていく連載 “ビッグデータ”時代の「バッチ処理」 アプリケーション開発というと、システム利用者に一番近い画面系の開発が花形ですね。一方「バッチ処理」というと、何となく地味な感じがしますが、「バッチ処理」は縁の下の力持ち、これがないと、大概のシステムは稼働できません。 絶対に必要だけど、影の薄い「バッチ処理」でしたが、“ビッグデータ”への注目度が高まり、大量データを短時間に処理する「並列分散処理バッチ」が活躍する場面も増えてきました。 本稿では、並列分散で「バッチ処理」を行う方法につい
Program against your datacenter like it’s a single pool of resources Apache Mesos abstracts CPU, memory, storage, and other compute resources away from machines (physical or virtual), enabling fault-tolerant and elastic distributed systems to easily be built and run effectively. Download Mesos Mesos 1.11.0 Changelog What is Mesos? A distributed systems kernel Mesos is built using the same principl
Hadoopをバッチ処理の高速化に活用しているノーチラス・テクノロジーズは、ビッグデータのブームに真っ向から異論を唱える。「ビッグデータは中身のないバズワード」と断言する代表取締役社長 神林飛志氏に、その真意を聞いた。 Hadoop=ビッグデータは大きな誤解 ノーチラス・テクノロジーズは、基幹系システム向けのミドルウェアを手がける国産ベンチャー。Webサービスのように決して派手ではないが、「そもそもダウンすると、飛行機が飛ばないとか、病院で人が死んでしまうとか、電車が動かないとか、生活に影響が出る分野」(神林氏)という、まさにミッションクリティカルな領域のITで、同社の製品は活用されている。 同社の「Asakusa Framework」は、Hadoopを活用した分散処理により、基幹系バッチの高速化を実現する。神林氏は、「Hadoopというと、WebやSNS系、BIやデータ解析での使い方がメ
ノーチラスは、アンデルセンサービスのシステム構築において、アマゾンウェブサービス(AWS)のクラウドサービスを利用することにより、インフラ構築の時間を大幅に短縮、初期コストも低減し、Hadoopのクラスタを早期に準備することができたという。また、AWSの従量課金体系により、オンプレミス想定構築運用費用と比較し、約10分の1に運用コストを低減することができたとしている。さらに、「Amazon Virtual Private Cloud (Amazon VPC)」を活用することにより、クラウド上に重要なデータを送信することに対する不安を払拭したという。 発表によると、システムを構築するにあたり、AWSが提供しているクラウドサービスのうち、AWSが東京リージョンで提供している「Amazon Elastic Compute Cloud 」「Amazon Simple Storage Service
近年、大規模データ処理の新たな潮流として話題になることの多い分散処理プラットフォームHadoopですが、企業の中でどのようにHadoopを活用し、既存システムとの連携を考えるかということが大きな検討のテーマになってきています。HadoopはこれまでのRDB中心のデータ処理基盤とは異なるアプローチのシステムですが、両者を補完的に組み合わせることで、これまでは不可能であった大規模かつ柔軟なデータ活用の道が開けます。今回はGreenplum DBのHadoopとの連携機能をデータベース/Hadoopのアーキテクチャや用途の違いの観点を含めて解説します。 Hadoopのしくみとデータベースシステムとの対比 HadoopはGoogleの分散処理基盤システムを紹介した論文をもとに、Apacheコミュニティにて開発されたオープンソースの分散処理システムです。分散処理環境の構築に汎用ハードウェアを活用し、
HadoopでのMapReduce実行方法は以下の5つあるだろう。 Javaでごりごり実装 Asakusaつかって実装 Hadoopストリーミングを使って実装 Pig使う Hive使う 僕自身はもっぱらHiveだ。 Asakusaは全然わからないのでここでは触れないが、それ以外は象本読んで何となく雰囲気はつかめた。 分類的に言うとPigとHiveは手続き的、宣言的という違いはあるがDSLという意味では同じようなものなのでここではあまり触れない。 まずJavaでごりごり実装する場合だがこれはなかなか大変だ。 とくに結合が大変。結合がどんな感じかは象本の8章に書いてある。 それ以外の資料としては以前@n3104さんが 5月11日 DevLOVE 黄色い象使いが、獄長に出会うまで。〜象、邂逅編〜(東京都)で説明している資料とサンプルコードが良い題材になるだろう。セカンダリソートやmap side
*2chプログラム板から抜粋 **機械学習はMapReduceの格好の題材(MahoutやDryadLINQなど) -http://www.r.dl.itc.u-tokyo.ac.jp/study_ml/pukiwiki/index.php?plugin=attach&refer=schedule%2F2007-05-17&openfile=mrmlmc.pdf -http://www.cs.stanford.edu/people/ang//papers/nips06-mapreducemulticore.pdf RDBのデータマイニング方面を探してみると、機械学習アルゴリズムの説明があったりするのね。 -http://msdn2.microsoft.com/ja-jp/library/ms175595.aspx -http://otndnld.oracle.co.jp/document/
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く