タグ

hadoopに関するpero_0104のブックマーク (7)

  • すごいアプリケーションを作りたいならCassandraを使ってみよう (1/2):EnterpriseZine(エンタープライズジン)

    止めることが許されないならCassandraを Apache Cassandraでチーフ・エバンジェリストをつとめる パトリック・ムクファディンさん Q:Cassandraは、NoSQLのマーケットにおいてどのような位置づけにあるデータベースですか? ムクファディン:NoSQLの中でもCassandraはオペレーショナルなデータベースになります。ユーザーの近いところにあって、Oracleのようなデータベースをリプレイスする存在でもあります。Cassandraはインターネット時代になり、スケーラビリティがありなおかつ稼働し続けるというニーズに応えるために出てきました。何1,000万、何億といった莫大な数のユーザーが利用しても稼働し続ける。そのために、マルチデータセンターでもアクティブ、アクティブの分散構成で、ダウンタイムのないデータベースとなっています。 Q:NoSQLデータベースは他にもさ

    すごいアプリケーションを作りたいならCassandraを使ってみよう (1/2):EnterpriseZine(エンタープライズジン)
  • Hadoopとは - Qiita

    Hadoopに関する基的な内容をまとめてみたものです。Hadoopに関する、Web上にすでにある解説コンテンツをまとめたサイトの抜粋です。 Hadoopとは Hadoopの概要 Hadoopは、 ・テキスト ・画像 ・ログ などの構造化されていないデータを、高速に処理出来るオープンソースのプラットフォームです。 Hadoopは大規模なデータの処理に適しているだけではく、複数のコンピュータで処理を行う分散処理を可能としている点が特徴となっています。 従来の分残処理は処理を分散するだけものが多かったのですが、Hadoopの分散処理はデータも複数のコンピュータに分散させる事で、容易にスケールアウト出来るようになりました。 そのため、Hadoopを使えばビッグデータを処理するシステムは低コストで構築出来ると、注目を集めています。 分散処理を可能とするHDFSとMapReduce Hadoopの分

    Hadoopとは - Qiita
  • 機械学習、どこから手を付ける? ~初期コストゼロで試せるBigInsightsで、Hadoop&Sparkのエコシステムをフル活用~ - はてなニュース

    「大規模データ分析機械学習を始めてみたい」と考えているチームは多いはずだ。情報システムや業務の現場が生み出すビッグデータを最新手法で分析することで、データに潜んでいた価値を発掘でき、それを新たなビジネス価値に結び付けられるとの期待が高まっているからだ。そこで出てくる問いは「いったいどこから始めたらいいのだろうか?」。 (※この記事は、日アイ・ビー・エム株式会社提供によるPR記事です) 大量データ分析で名前が挙がるソフトウェアといえば、Apache HadoopとApache Sparkだ。そのエコシステムは高度で充実している。だからこそ「どこから手を付けるのか」に悩む人も多い。「Hadoop/Sparkのディストリビューションを利用できるIBM BigInsights試用版や、クラウドサービスBluemixを使えば、明日からでもHadoop/Sparkによるデータ分析機械学習に取り組

    機械学習、どこから手を付ける? ~初期コストゼロで試せるBigInsightsで、Hadoop&Sparkのエコシステムをフル活用~ - はてなニュース
  • cronの代替になりそうなジョブ管理ツールのまとめ - Qiita

    たまに検討するけど、よく忘れるのでまとめておく。ごく個人的な感想としては、Rundeck, Azkabanあたりで始めてみるのがいいかもと思う。 要件 重複実行の防止 ジョブの実行結果、かかった時間、ログ出力などが見れる 失敗時の通知 候補 OSS系 Rundeck http://rundeck.org/ Java Runtimeで動く RUNDECK PROという有料サービスもある http://simplifyops.com/ 参考: http://heartbeats.jp/hbblog/2015/01/rundeck.html Oozie http://oozie.apache.org/ Workflow Scheduler for Hadoop Java http://oozie.apache.org/docs/4.1.0/DG_Overview.html Webコンソールもある

    cronの代替になりそうなジョブ管理ツールのまとめ - Qiita
  • 分散処理に入門してみた(Hadoop + Spark) | Casley Deep Innovations株式会社 技術ブログ

    こんにちは。SI部の腰塚です。 RDBやデータウェアハウスの仕事に携わることが多かった筆者は、数年前からたびたび聞こえたビッグデータ分析機械学習のための分散処理フレームワークに興味を覚えたものの、ついぞアクセスしないままここまで来てしまいました。 今回ブログを書くにあたって、せっかくなのでイチから手さぐり入門し、いまさら他人に聞けない分散処理の初歩からhadoop・sparkを触ってみるまでをまとめたいと思います。 1.分散処理の基礎知識 1-1.分散処理の処理方式:MapReduce まず分散処理とは、ひとつの計算処理をネットワークで接続した複数のコンピュータで同時並列で処理することです。 ビッグデータ活用の市場が日々大きくなるに従って、数百テラ~ペタのデータ処理も珍しいものではなくなっており、日常的にこの規模のデータを扱うシステムでは、現実的な時間的・費用的コストで処理する工夫が必要

    分散処理に入門してみた(Hadoop + Spark) | Casley Deep Innovations株式会社 技術ブログ
  • 2015年のHadoopとビッグデータ活用 | gihyo.jp

    あけましておめでとうございます。濱野 賢一朗です。 1年は早いものですね。当にあっという間に過ぎ去ってしまうものです。しかし、いざ1年を振り返ってみると、いろんなことが起きていたのだと実感したりもします。ここでは「ビッグデータ(Big Data)活用」が2015年にどう変化していきそうか、Hadoopの話題を中心に紹介したいと思います。 2014年を振り返る まずは、昨年を振り返ってみましょう。急浮上したバズワードという印象の「ビッグデータ活用」も、すこし落ち着いてきました。まだまだ浮ついた話を耳にしましたが、一方で、具体的な事例や技術の話も増えてきた1年でした。 システム基盤の観点では「Hadoop」の変貌が始まりました。皆さんご存じのとおり、Hadoopは並列分散処理を実現するオープンソースソフトウェアです。技術的側面での変貌は2015年に格化すると思いますが、その下準備が着実に行

    2015年のHadoopとビッグデータ活用 | gihyo.jp
  • 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)

    ■Hadoopの理解にちょっと自信のない皆さんに贈る 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 日Hadoopユーザー会 濱野 賢一朗/Kenichiro Hamano (NTTデータ)

    40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
    pero_0104
    pero_0104 2016/03/01
    17page
  • 1