[B! hadoop] minotonのブックマーク

「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮

Hadoopの時代は終わった、という言説をたまに見かけるようになりました。もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。本記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。以上をご了承の上、読み進めてください。要約データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが

minoton 2017/07/11

リンク

IBM Bigdata University - ZDNET Japan

特別コンテンツ高速で柔軟なアナリティクス基盤に必要なコト - IBM Watson Summit 2016 レポート日本アイ・ビー・エム株式会社のアナリティクス事業部でビッグデータ Spark スペシャリストを務める田中裕一氏が「高速で柔軟なアナリティクス基盤が企業をアジャイルに進化させる-Sparkの活用」と題して講演した。やっぱりビジネスパーソンも、おさえておきたい機械学習やソーシャル分析を支えるビッグデータ基盤Apache Spark 事業企画などにたずさわるビジネスパーソンに向けて、Sparkの特徴を解説すると共に、Sparkを支援するIBMの活動を紹介しよう。このような特徴を理解することは、ビッグデータに関するビジネスを企画・推進する際にも、大いに役に立つだろう。銀行・保険・証券など金融業界が注目する、ビッグデータの信頼性を向上させるデータガバナンスとはあらた

minoton 2015/12/14

リンク

IBM、「Apache Spark」のクラウドサービスを提供開始

IBMは6月に米サンフランシスコで開催された「Spark Summit」で、「Apache Spark」に対する3億ドルの資金投入、Spark Techno logy Centerの設立、および3500名の専任研究者の配属を発表することで、Apache Sparkへの全面的な支援を表明した。そして米国時間10月26日、IBMはラスベガスで開催中の自社イベント「IBM Insight 2015」で、「IBM Analytics on Apache Spark」を発表した。「Bluemix」クラウドの一部として提供する「Spark-as-a-Service」だという。 Apache SparkをBluemix環境で提供するIBMの目的は、「Cloudant NoSQL」や「dashDB」などを含む他のクラウドデータやアナリティクスサービスと、Apache Sparkを統合することだ。同社では、コ

minoton 2015/10/29

リンク

Apache Sparkで始めるお手軽リアルタイムウインドウ集計 | NTTデータ先端技術株式会社

バッチを高速にした後はリアルタイムの世界へ！現在、さまざまな業種の企業でビッグデータ分析の取り組みが行われている。ビッグデータへの最初の取っ掛かりは、既存のバッチ処理の高速化や、大量の業務データを用いた分析レポートの作成という企業が多いことだろう。そして、バッチ処理の高速化が一段落した次のステップとして、「リアルタイム処理」をテーマに掲げる企業も多いかと思われる。具体的には、直近10秒間のトラフィックを集計したい。直近10分間で自社商品がTwitterで話題になった回数を知りたい。直近10時間での全店舗での来客数を集計したい。といったリアルタイムなモニタリングを実現したくなるのではないだろうか？こういったモニタリング用の集計は、技術的には「ウインドウ集計（Time-Window Operation）」と呼ばれる。そこで本コラムでは、近頃、「ポストHadoop」として話題のApac

minoton 2015/10/29

hadoop

リンク

Apache Spark の紹介（前半：Sparkのキホン）

第16回 Hadoopソースコードリーディング(2014/05/29) 発表資料『Apache Sparkのご紹介』（前半：Sparkのキホン） NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス土橋昌 (Masaru Dobashi) http://oss.nttdata.co.jp/ 後半はこちら → http://www.slideshare.net/hadoopxnttdata/apache-spark

minoton 2015/10/29

hadoop

リンク

パフォーマンス検証から見るHadoopへの仮想化の適用とx86サーバーとの比較

本資料ではHadoopに仮想化を適用した際の適用分野を紹介するとともに、従来とは異なる仮想化テクノロジーの使用により、これまでタブーとされてきた仮想化環境でも十分な性能を発揮することを確認したIBMとパートナー企業との共同検証結果を掲載している。ビッグデータの分析で今話題のHadoop。現状、そのHadoopの環境はx86サーバーを横に並べスケールアウトさせるのが通例である。理由はX86サーバー上での仮想化は、パフォーマンスオーバーヘッドが生じるためHadoopでは禁じ手と言われているからである。 IBMは、UNIXのテクノロジーをLinuxサーバーに持ち込んだPowerLinuxと独自の仮想化技術により、その限界を破ることに成功している。2編（前編4ページ、後編8ページ）にわたる本資料では、Hadoopの簡単な解説と仮想化によるチャレンジについて、さらにはHadoop環境においてLin

minoton 2014/02/20

リンク

Apache Mahoutの使い方：テキスト分類のアルゴリズムを活用する

ビッグデータ活用：その分析実装として注目されるMahout 長年蓄積した企業内データや、ソーシャルネットワークサービス、センサ端末から集められる膨大なデータを活用し、企業における利益向上やコスト削減などに活用する動きが活発になってきました。データの分析手段として最近とみに注目されている技術として「機械学習」があります。大規模データの処理を得意とする大規模分散処理基盤「Apache Hadoop」の強みを生かし、簡単に機械学習を行うためのライブラリが、「Apache Mahout」（以下、Mahout）です。本稿ではMahoutを用いたデータ分析の例として「文書分類」を取り上げます。マシンを用いて分析実行する際の手順や陥りがちなポイント、チューニング方法の一例を紹介します。 Mahoutとは？ MahoutとはApache Software Foundationが公開しているOSSの機械

minoton 2013/12/18

hadoop

リンク

Cloudera | ハイブリッドデータカンパニー

データを信頼し、AI を信頼する信頼できるデータ、信頼できるモデル、信頼できる AI を実現するために、これほど多くのクラウドのさまざまなデータタイプを管理でき、オープンデータのイノベーションと大規模展開に対応できるプラットフォームは他にありません。

minoton 2013/12/18

｢YARNは、”Yet-Another-Resource-Negotiator”を意味します。これは、任意の分散処理フレームワークやアプリケーションの作成を容易にする新しいフレームワークです｣

リンク

数百億件のデータを30秒で解析――クラウド型DWH「Treasure Data」に新サービス

Hadoopベースのクラウド型DWHサービス「Treasure Data Service」に、数百億件のデータを30秒程度で分析できるというオプションサービスが追加された。クラウド型のデータウェアハウス（DWH）サービス「Treasure Data Service」を手掛けるトレジャーデータは12月9日、クエリの実行速度を従来比で10～50倍に高速化するというオプションサービス「Treasure Query Accelerator」の提供を始めた。 Treasure Data Serviceは、ユーザー企業が持つ大量のセンサーデータや購買取り引きデータ、Web閲覧データ、アプリケーションログデータなどをクラウド上に蓄積し、分析可能な形に整理して提供するサービス。有償版は月額3000ドルからのサブスクリプション制で利用でき、ビッグデータ活用基盤の構築・運用にかかる時間やコストを低減するとし

minoton 2013/12/11

リンク

インテル、データセンターを1チップで模倣した「シングルチップ・クラウドコンピュータ」の開発に成功

Futuristic Intel Chip Could Reshape How Computers are Built, Consumers Interact with Their PCs and Personal Devices インテルは「シングルチップ・クラウドコンピュータ（Single-chip Cloud Computer）」と呼ばれる新型のプロセッサを試作したと発表しました。このプロセッサは、多数のサーバを高速回線で接続し大規模なデータを並列に処理する現在のデータセンターのアーキテクチャを模倣し、1チップの中に多数のコアと、コア同士をつなぐ高速なネットワークが構築されています。そのためデータセンターでの大規模並列処理に用いられているソフトウェアにも対応できるようになっており、すでにインテル、ヒューレット・パッカード、ヤフーなどが共同でHadoopの移植を開始しているとのこと

minoton 2009/12/04

cloud
hadoop

リンク

Hypertable のリード開発者が Hadoop と分散データベースを語る

最近、データベース関連の話題が盛り上がっている。IBM はこのほど(source)、Amazon EC2 上で動作するクラウドエディションをサポートする EnterpriseDB (source)に出資したし、Amazon は去年の終わりごろに独自のクラウドデータベースをリリースした。Google の BigTable(source) も、オープンソースではないにもかかわらず、コミュニティによる学習や研究の対象となっている。このような流れの中(source)、ふたつのオープンソースプロジェクト HBase(source) と Hyperta ble (source)が、 BigTable にインスパイアされたスケーラブルなデータベースを実装するために Map/Reduce プラットフォームである Hadoop (source)を活用している。InfoQ は Hyperta ble 産みの親で、