タグ

hadoopに関するminotonのブックマーク (12)

  • 「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮

    Hadoopの時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。 記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。 中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。 以上をご了承の上、読み進めてください。 要約 データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが

    「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
  • IBM Bigdata University - ZDNET Japan

    特別コンテンツ 高速で柔軟なアナリティクス基盤に必要なコト - IBM Watson Summit 2016 レポート 日アイ・ビー・エム株式会社のアナリティクス事業部でビッグデータ Spark スペシャリストを務める 田中 裕一 氏が「高速で柔軟なアナリティクス基盤が企業をアジャイルに進化させる-Sparkの活用」と題して講演した。 やっぱりビジネスパーソンも、おさえておきたい 機械学習やソーシャル分析を支えるビッグデータ基盤Apache Spark 事業企画などにたずさわるビジネスパーソンに向けて、Sparkの特徴を解説すると共に、Sparkを支援するIBMの活動を紹介しよう。このような特徴を理解することは、ビッグデータに関するビジネスを企画・推進する際にも、大いに役に立つだろう。 銀行・保険・証券など金融業界が注目する、 ビッグデータの信頼性を向上させるデータガバナンスとは あらた

    IBM Bigdata University - ZDNET Japan
  • IBM、「Apache Spark」のクラウドサービスを提供開始

    IBMは6月に米サンフランシスコで開催された「Spark Summit」で、「Apache Spark」に対する3億ドルの資金投入、Spark Technology Centerの設立、および3500名の専任研究者の配属を発表することで、Apache Sparkへの全面的な支援を表明した。そして米国時間10月26日、IBMはラスベガスで開催中の自社イベント「IBM Insight 2015」で、「IBM Analytics on Apache Spark」を発表した。「Bluemix」クラウドの一部として提供する「Spark-as-a-Service」だという。 Apache SparkをBluemix環境で提供するIBMの目的は、「Cloudant NoSQL」や「dashDB」などを含む他のクラウドデータやアナリティクスサービスと、Apache Sparkを統合することだ。同社では、コ

    IBM、「Apache Spark」のクラウドサービスを提供開始
  • Apache Sparkで始めるお手軽リアルタイムウインドウ集計 | NTTデータ先端技術株式会社

    バッチを高速にした後はリアルタイムの世界へ! 現在、さまざまな業種の企業でビッグデータ分析の取り組みが行われている。ビッグデータへの最初の取っ掛かりは、既存のバッチ処理の高速化や、大量の業務データを用いた分析レポートの作成という企業が多いことだろう。そして、バッチ処理の高速化が一段落した次のステップとして、「リアルタイム処理」をテーマに掲げる企業も多いかと思われる。具体的には、 直近10秒間のトラフィックを集計したい。 直近10分間で自社商品がTwitterで話題になった回数を知りたい。 直近10時間での全店舗での来客数を集計したい。 といったリアルタイムなモニタリングを実現したくなるのではないだろうか?こういったモニタリング用の集計は、技術的には「ウインドウ集計(Time-Window Operation)」と呼ばれる。そこでコラムでは、近頃、「ポストHadoop」として話題のApac

    Apache Sparkで始めるお手軽リアルタイムウインドウ集計 | NTTデータ先端技術株式会社
  • Apache Spark の紹介(前半:Sparkのキホン)

    第16回 Hadoopソースコードリーディング(2014/05/29) 発表資料 『Apache Sparkのご紹介』(前半:Sparkのキホン) NTTデータ 基盤システム事業部 OSSプロフェッショナルサービス 土橋 昌 (Masaru Dobashi) http://oss.nttdata.co.jp/ 後半はこちら → http://www.slideshare.net/hadoopxnttdata/apache-spark

    Apache Spark の紹介(前半:Sparkのキホン)
  • パフォーマンス検証から見るHadoopへの仮想化の適用とx86サーバーとの比較

    資料ではHadoopに仮想化を適用した際の適用分野を紹介するとともに、従来とは異なる仮想化テクノロジーの使用により、これまでタブーとされてきた仮想化環境でも十分な性能を発揮することを確認したIBMとパートナー企業との共同検証結果を掲載している。 ビッグデータの分析で今話題のHadoop。現状、そのHadoopの環境はx86サーバーを横に並べスケールアウトさせるのが通例である。理由はX86サーバー上での仮想化は、パフォーマンスオーバーヘッドが生じるためHadoopでは禁じ手と言われているからである。 IBMは、UNIXのテクノロジーLinuxサーバーに持ち込んだPowerLinuxと独自の仮想化技術により、その限界を破ることに成功している。2編(前編4ページ、後編8ページ)にわたる資料では、Hadoopの簡単な解説と仮想化によるチャレンジについて、さらにはHadoop環境においてLin

    パフォーマンス検証から見るHadoopへの仮想化の適用とx86サーバーとの比較
  • Apache Mahoutの使い方:テキスト分類のアルゴリズムを活用する

    ビッグデータ活用:その分析実装として注目されるMahout 長年蓄積した企業内データや、ソーシャルネットワークサービス、センサ端末から集められる膨大なデータを活用し、企業における利益向上やコスト削減などに活用する動きが活発になってきました。 データの分析手段として最近とみに注目されている技術として「機械学習」があります。大規模データの処理を得意とする大規模分散処理基盤「Apache Hadoop」の強みを生かし、簡単に機械学習を行うためのライブラリが、「Apache Mahout」(以下、Mahout)です。 稿ではMahoutを用いたデータ分析の例として「文書分類」を取り上げます。マシンを用いて分析実行する際の手順や陥りがちなポイント、チューニング方法の一例を紹介します。 Mahoutとは? MahoutとはApache Software Foundationが公開しているOSSの機械

    Apache Mahoutの使い方:テキスト分類のアルゴリズムを活用する
  • Cloudera | ハイブリッドデータカンパニー

    データを信頼し、AI を信頼する 信頼できるデータ、信頼できるモデル、信頼できる AI を実現するために、これほど多くのクラウドのさまざまなデータタイプを管理でき、オープンデータのイノベーションと大規模展開に対応できるプラットフォームは他にありません。

    Cloudera | ハイブリッドデータカンパニー
    minoton
    minoton 2013/12/18
    「YARNは、”Yet-Another-Resource-Negotiator”を意味します。これは、任意の分散処理フレームワークやアプリケーションの作成を容易にする新しいフレームワークです」
  • 数百億件のデータを30秒で解析――クラウド型DWH「Treasure Data」に新サービス

    Hadoopベースのクラウド型DWHサービス「Treasure Data Service」に、数百億件のデータを30秒程度で分析できるというオプションサービスが追加された。 クラウド型のデータウェアハウス(DWH)サービス「Treasure Data Service」を手掛けるトレジャーデータは12月9日、クエリの実行速度を従来比で10~50倍に高速化するというオプションサービス「Treasure Query Accelerator」の提供を始めた。 Treasure Data Serviceは、ユーザー企業が持つ大量のセンサーデータや購買取り引きデータ、Web閲覧データ、アプリケーションログデータなどをクラウド上に蓄積し、分析可能な形に整理して提供するサービス。有償版は月額3000ドルからのサブスクリプション制で利用でき、ビッグデータ活用基盤の構築・運用にかかる時間やコストを低減するとし

    数百億件のデータを30秒で解析――クラウド型DWH「Treasure Data」に新サービス
  • インテル、データセンターを1チップで模倣した「シングルチップ・クラウドコンピュータ」の開発に成功

    Futuristic Intel Chip Could Reshape How Computers are Built, Consumers Interact with Their PCs and Personal Devices インテルは「シングルチップ・クラウドコンピュータ(Single-chip Cloud Computer)」と呼ばれる新型のプロセッサを試作したと発表しました。 このプロセッサは、多数のサーバを高速回線で接続し大規模なデータを並列に処理する現在のデータセンターのアーキテクチャを模倣し、1チップの中に多数のコアと、コア同士をつなぐ高速なネットワークが構築されています。 そのためデータセンターでの大規模並列処理に用いられているソフトウェアにも対応できるようになっており、すでにインテル、ヒューレット・パッカード、ヤフーなどが共同でHadoopの移植を開始しているとのこと

    インテル、データセンターを1チップで模倣した「シングルチップ・クラウドコンピュータ」の開発に成功
  • Hypertable のリード開発者が Hadoop と分散データベースを語る

    最近、データベース関連の話題が盛り上がっている。IBM はこのほど(source)、Amazon EC2 上で動作するクラウドエディションをサポートする EnterpriseDB (source)に出資したし、Amazon は去年の終わりごろに独自のクラウドデータベースをリリースした。Google の BigTable(source) も、オープンソースではないにもかかわらず、コミュニティによる学習や研究の対象となっている。このような流れの中(source)、ふたつのオープンソースプロジェクト HBase(source) と Hypertable (source)が、 BigTable にインスパイアされたスケーラブルなデータベースを実装するために Map/Reduce プラットフォームである Hadoop (source)を活用している。InfoQ は Hypertable 産みの親で、

    Hypertable のリード開発者が Hadoop と分散データベースを語る
  • Hadoop、hBaseで構築する大規模分散データ処理システム

    CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

    Hadoop、hBaseで構築する大規模分散データ処理システム
  • 1