[B! hadoop] pero_0104のブックマーク

すごいアプリケーションを作りたいならCassandraを使ってみよう (1/2)：EnterpriseZine（エンタープライズジン）

止めることが許されないならCassandraを Apache Cassandraでチーフ・エバンジェリストをつとめるパトリック・ムクファディンさん Q：Cassandraは、NoSQLのマーケットにおいてどのような位置づけにあるデータベースですか? ムクファディン：NoSQLの中でもCassandraはオペレーショナルなデータベースになります。ユーザーの近いところにあって、Oracleのようなデータベースをリプレイスする存在でもあります。Cassandraはインターネット時代になり、スケーラビリティがありなおかつ稼働し続けるというニーズに応えるために出てきました。何1,000万、何億といった莫大な数のユーザーが利用しても稼働し続ける。そのために、マルチデータセンターでもアクティブ、アクティブの分散構成で、ダウンタイムのないデータベースとなっています。 Q：NoSQLデータベースは他にもさ

pero_0104 2019/12/19

リンク

Hadoopとは - Qiita

Hadoopに関する基本的な内容をまとめてみたものです。Hadoopに関する、Web上にすでにある解説コンテンツをまとめたサイトの抜粋です。 Hadoopとは Hadoopの概要 Hadoopは、・テキスト・画像・ログなどの構造化されていないデータを、高速に処理出来るオープンソースのプラットフォームです。 Hadoopは大規模なデータの処理に適しているだけではく、複数のコンピュータで処理を行う分散処理を可能としている点が特徴となっています。従来の分残処理は処理を分散するだけものが多かったのですが、Hadoopの分散処理はデータも複数のコンピュータに分散させる事で、容易にスケールアウト出来るようになりました。そのため、Hadoopを使えばビッグデータを処理するシステムは低コストで構築出来ると、注目を集めています。分散処理を可能とするHDFSとMapReduce Hadoopの分

pero_0104 2019/12/19

hadoop
qiita

リンク

機械学習、どこから手を付ける？～初期コストゼロで試せるBigInsightsで、Hadoop＆Sparkのエコシステムをフル活用～ - はてなニュース

「大規模データ分析や機械学習を始めてみたい」と考えているチームは多いはずだ。情報システムや業務の現場が生み出すビッグデータを最新手法で分析することで、データに潜んでいた価値を発掘でき、それを新たなビジネス価値に結び付けられるとの期待が高まっているからだ。そこで出てくる問いは「いったいどこから始めたらいいのだろうか？」。（※この記事は、日本アイ・ビー・エム株式会社提供によるPR記事です）大量データ分析で名前が挙がるソフトウェアといえば、Apache HadoopとApache Sparkだ。そのエコシステムは高度で充実している。だからこそ「どこから手を付けるのか」に悩む人も多い。「Hadoop/Sparkのディストリビューションを利用できるIBM BigInsights試用版や、クラウドサービスBluemixを使えば、明日からでもHadoop/Sparkによるデータ分析や機械学習に取り組

pero_0104 2016/11/22

hadoop

リンク

cronの代替になりそうなジョブ管理ツールのまとめ - Qiita

たまに検討するけど、よく忘れるのでまとめておく。ごく個人的な感想としては、Rundeck, Azkabanあたりで始めてみるのがいいかもと思う。要件重複実行の防止ジョブの実行結果、かかった時間、ログ出力などが見れる失敗時の通知候補 OSS系 Rundeck http://rundeck.org/ Java Runtimeで動く RUNDECK PROという有料サービスもある http://simplifyops.com/ 参考: http://heartbeats.jp/hbblog/2015/01/rundeck.html Oozie http://oozie.apache.org/ Workflow Scheduler for Hadoop Java http://oozie.apache.org/docs/4.1.0/DG_Overview.html Webコンソールもある

pero_0104 2016/07/28

リンク

分散処理に入門してみた（Hadoop + Spark） | Casley Deep Innovations株式会社技術ブログ

こんにちは。SI部の腰塚です。 RDBやデータウェアハウスの仕事に携わることが多かった筆者は、数年前からたびたび聞こえたビッグデータ分析や機械学習のための分散処理フレームワークに興味を覚えたものの、ついぞアクセスしないままここまで来てしまいました。今回ブログを書くにあたって、せっかくなのでイチから手さぐり入門し、いまさら他人に聞けない分散処理の初歩からhadoop・sparkを触ってみるまでをまとめたいと思います。 1.分散処理の基礎知識 1-1.分散処理の処理方式：MapReduce まず分散処理とは、ひとつの計算処理をネットワークで接続した複数のコンピュータで同時並列で処理することです。ビッグデータ活用の市場が日々大きくなるに従って、数百テラ～ペタのデータ処理も珍しいものではなくなっており、日常的にこの規模のデータを扱うシステムでは、現実的な時間的・費用的コストで処理する工夫が必要

pero_0104 2016/03/01

hadoop

リンク

2015年のHadoopとビッグデータ活用 | gihyo.jp

あけましておめでとうございます。濱野賢一朗です。 1年は早いものですね。本当にあっという間に過ぎ去ってしまうものです。しかし、いざ1年を振り返ってみると、いろんなことが起きていたのだと実感したりもします。ここでは「ビッグデータ（Big Data）活用」が2015年にどう変化していきそうか、Hadoopの話題を中心に紹介したいと思います。 2014年を振り返るまずは、昨年を振り返ってみましょう。急浮上したバズワードという印象の「ビッグデータ活用」も、すこし落ち着いてきました。まだまだ浮ついた話を耳にしましたが、一方で、具体的な事例や技術の話も増えてきた1年でした。システム基盤の観点では「Hadoop」の変貌が始まりました。皆さんご存じのとおり、Hadoopは並列分散処理を実現するオープンソースソフトウェアです。技術的側面での変貌は2015年に本格化すると思いますが、その下準備が着実に行