[B! Hadoop] J138のブックマーク

（日本語）Hadoopは失敗した、という分析

Datanami社によるデータベース専門家とのインタビューの結果によると、Hadoopを採用したい企業の多くは、失敗プロジェクトに終わっている、と指摘している。 Snowflake Computing社CEO, Bob Muglia氏によると、今までHadoopを採用してい幸せになった企業はみた事が無いし、今後も出てくるような気配が無い、と言い切っている。すでに、Hadoopは多くの企業で使われ...

J138 2017/03/28

Hadoop

リンク

DockerでCloudera Managerを立ち上げる - Qiita

Hadoop初心者のアメリカ在住Java女子です。 Clouderaが提供しているCloudera Quickstartのdocker imageを使ってCloudera Managerを立ち上げてみました。動作環境 Mac OS Dockerインストール済み手順 Cloudera Quickstart imageをインストールまずはターミナルから $ docker pull cloudera/quickstart:latest (結構長く待たされた・・・) Dockerイメージを立ち上げネットでよく見る手順書にはこのコマンドが載ってるけれども、 $ docker run --hostname=quickstart.cloudera \ --privileged=true -t -i cloudera/quickstart:latest \ /usr/bin/docker-quic

J138 2016/11/14

リンク

Hadoop HBase操作サンプル(Hishidama's Hadoop HBase sample Memo)

HBaseのテーブルは、qualifierの中はデータ追加で自動的に増やせるが、family（列）はテーブルを一旦使用不可にして項目追加を行わないと増やせない。したがって変化の無いものを列（family）にする方がいいんじゃないかと思う。（試験名の方を可変にしておけば、模試とか補習(苦笑)とかにも対応できるし）準備：テーブルの作成今回のサンプル用に、HBase Shellからcreateコマンドを実行するか、HBaseのテーブル作成APIを使ってテーブルを作成しておく。 HBase Shellの場合 hbase(main):001:0> create 'student','personal','suugaku','kokugo','rika','shakai','eigo','total5' HBase APIの場合 package jp.hishidama.hadoop.hbas

J138 2015/11/05

HBase
Hadoop

リンク

分散処理に入門してみた（Hadoop + Spark） | Casley Deep Innovations株式会社技術ブログ

こんにちは。SI部の腰塚です。 RDBやデータウェアハウスの仕事に携わることが多かった筆者は、数年前からたびたび聞こえたビッグデータ分析や機械学習のための分散処理フレームワークに興味を覚えたものの、ついぞアクセスしないままここまで来てしまいました。今回ブログを書くにあたって、せっかくなのでイチから手さぐり入門し、いまさら他人に聞けない分散処理の初歩からhadoop・sparkを触ってみるまでをまとめたいと思います。 1.分散処理の基礎知識 1-1.分散処理の処理方式：MapReduce まず分散処理とは、ひとつの計算処理をネットワークで接続した複数のコンピュータで同時並列で処理することです。ビッグデータ活用の市場が日々大きくなるに従って、数百テラ～ペタのデータ処理も珍しいものではなくなっており、日常的にこの規模のデータを扱うシステムでは、現実的な時間的・費用的コストで処理する工夫が必要

J138 2015/03/31

Hadoop
Spark

リンク

ビッグデータ・ツール「Spark」はHadoopよりホットかも知れない、だがまだ問題がある | readwrite.jp

Hadoopはホットだ、だがその従兄弟であるSparkは更にホットな存在だ。 Sparkは5年前のApache Hadoopの様な存在で、バークレー大 AMP研で生まれた、Hadoopのエコシステムで動くMapReduceに代わる高速データ処理エンジンだ。これは（MapReduceの様な）バッチ処理および、ストリーミングやインタラクティブ・クエリーといった新しいワークロードや、機械学習やグラフ処理でよく見られる反復アルゴリズムの処理に対応している。サンフランシスコに拠点を構えるTypesafeは、私が去年記事で触れたJava開発者に対するよく知られたアンケート調査のスポンサーであり、Scala、Playフレームワーク、Akkaのコマーシャルな支援者だ。最近行われたSparkについてのアンケート調査では、2000人以上（正確には2136人）の開発者からの回答が得られた。そこから以下三点の結

J138 2015/03/04

Spark
Hadoop

リンク

Hadoop超える機械学習向きのビッグデータ処理基盤、Spark 1.0が正式公開

米Apache Software Foundationは、ビッグデータ処理を分散クラスター上で高速に実行できる処理基盤「Spark 1.0」を2014年5月30日（米国時間）に公開した。 HDFSを介してストレージ経由のやり取りが多くなるHadoopと比べて、インメモリー処理を主体とするSparkでは、より高速で低遅延の分析が可能となる。次世代のビッグデータ処理基盤として期待が集まっているフレームワークである。 SparkではHadoopと同じく、処理対象となるビッグデータをHDFSから読み取ることができるが、以後の処理は基本的にインメモリーで行う。このため、機械学習やグラフ計算のように繰り返し型の計算が多い処理を、Hadoopよりも高速に実行できる（関連記事：NECがビッグデータの機械学習を高速化する技術を開発、インメモリー処理やMPIを導入）。 Sparkは、もともと米Universi

J138 2014/11/13

Spark
Hadoop

リンク

Fluentd + Hadoop: Instant Big Data Collection | Architects Zone

Fluentd is a JSON-based, open-source log collector originally written at Treasure Data. Fluentd is specifically designed for solving big data collection probl em. Many companies choose Hadoop Distributed Filesystem (HDFS) for big data storage. [1] Until recently, however, the only API interface was Java. This changed with the new WebHDFS interface, which allows users to interact with HDFS via HTTP.

J138 2012/11/27

リンク

Hadoop／HBaseの内部動作を可視化するソフトウェア「halook」をOSSで公開

Hadoop内部の負荷状況などをグラフィカルに表示するOSSツールが登場。Javaプログラム解析ツールを流用し、HTML5などを駆使して内部の挙動を可視化する Acroquest Techno logyは、2012年11月9日、Hadoop／HBaseの内部動作を可視化するソフトウェア「halook」をオープンソースソフトウェアとして公開した。CDH 3u4、3u5で動作確認済み。 Hadoopは分散処理を行うため、多数のノードを連携して動作する。データの処理が多数のノード、多数のプロセスで実行されるため、処理中に問題が発生した際の調査が非常に困難とされる。halookは、Hadoopシステムにおける障害や稼働状況そのものの可視化を実現している。可視化の対象は、並列処理タスク、Region、データノード。 HDFSのクラスタノード「DataNode」のデータの偏りを可視化する「HDFS Da

J138 2012/11/12

Hadoop

リンク

Ruby Diary: Hadoopインストール(CentOS 6.2)

J138 2012/03/21

Hadoop

リンク

NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

業界トップのエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成２１年度産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発（分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業）」という

J138 2010/09/29

リンク

分散データベースシステム「Apache Cassandra 0.6」リリース、Hadoopに対応 | OSDN Magazine

Apache Software Foundation（ASF）のApache Cassandra Projectは4月13日（米国時間）、オープンソースの分散データベース管理システム「Apache Cassandra 0.6」を公開した。「Apache Hadoop」に対応、Hadoopを使った分析クエリを実行できるようになった。 Cassandraは耐障害性の高さやデータの分散保持、リッチデータモデル、柔軟性の高さなどを特徴とする分散データベースシステムで、すでにDiggやFacebook、Twitterといった大手サイトで利用されている。もともとは米Facebookが自社開発した技術で、同社が2009年にASFにコードを寄贈した。ASFは今年2月、Cassandra Projectをインキュベータからトップレベルプロジェクト（TLP）に承認、バージョン0.6は、TLPになってから初めて

J138 2010/05/04

リンク

Hadoopを業務で使ってみた話 - クックパッド開発者ブログ

8月に入社した佐々木です。こんにちわ！入社してからはHadoopを使うことが多く、日々、大規模データと格闘しています。大変ではありますが、個人ではなかなか触ることが出来ないような大規模データを触れるのは楽しいです。さて、Hadoopは最近色々なところで使われ始めてきていると思うんですが、実際に利用してみて困った事やtipsなど、実践的な情報はまだあまり公開されていません。その辺の情報をみんな求めているはず…！！そこで、僕が実際に触ってみて困った事やHadoopを使う上でポイントだと思ったことなどを社内勉強会で発表したので公開してみます。Hadoopを使っている（使いたいと思っている）方の参考になれば幸いです。 [slideshare id=2711363&doc=20091214tech blog-091213183529-phpapp02] Hadoopの利用はまだまだ試行錯誤の連続

J138 2010/02/01

リンク

Amazon Elastic MapReduceを使ってみた - moratorium

Amazon Elastic MapReduceを使ってみた 2009-04-03 (Fri) 3:06 Amazon EC2 連日のEC2ネタです。本日、AmazonからElastic MapReduceというサービスがリリースされました。大規模データ処理技術が一気に民間の手に下りてくる、まさに革命的なサービスだと思います。 Amazon Elastic MapReduce Amazon ElasticMapReduce 紹介ビデオ With Hadoop, Amazon Adds A Web-Scale Data Processing Engine To Its Cloud Computer by techcrunch.com Elastic MapReduceは、Googleの基盤技術の一つであるMapReduceを時間単位課金で実行できるサービスです。MapReduceについては以

J138 2010/02/01

リンク

IBM Developer

IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.

J138 2010/01/19

Hadoop

リンク

Hadoop

TOPICS Database 発行年月日 2010年01月 PRINT LENGTH 568 ISBN 978-4-87311-439-2 原書 Hadoop: The Definitive Guide, First Edition FORMAT 本書は、Hadoopの基礎から応用までを包括的に解説する書籍です。はじめに、Hadoopの分散ファイルシステムHDFSやI/Oの効率化の仕組みなど、Hadoopの基礎を説明し、なかでもMapReduceについて詳しく解説します。MapReduceのアプリケーションを開発するために必要なステップを一通り紹介し、さらにユーザの目から見てMapReduceがどう実装されるのかを詳述します。後半ではHadoop管理者のために、HDFSとMapReduceを実行するためのHadoopクラスタの立ち上げと管理の方法を紹介。さらにPig、HBase、ZooK

J138 2010/01/19

Hadoop

リンク

C API to HDFS: libhdfs

J138 2010/01/16

HDFS
Hadoop

リンク

Pasang Bola Online | Judi Bola Tanpa Blokir

<div class="at-above-post-homepage addthis_tool" data-url="http://hugjp.org/2021/07/salah-pilih-agen-sbobet-bisa-sebabkan-berbagai-kerugian/"></div>Sbobet tentunya menjadi salah satu server judi online paling diminati oleh orang-orang yang gemar bermain judi online. Sbobet online via sbobet mobile. Main Game Online Sbobet Mobile.

J138 2010/01/16

Hadoop

リンク

Amazon.co.jp: Hadoop: Tom White (著), 玉川竜司 (翻訳), 兼田聖士 (翻訳): 本

J138 2010/01/16

リンク

http://agilecatcloud.com/category/hdfs/page/2/

J138 2010/01/16

HDFS
Hadoop

リンク

HBase と Serialization - takahi-iの日記

Hadoop で計算したデータは HDFS にファイルとして保存するのが手軽ですが、出力されたファイルに含まれるデータ片にアクセスするにはファイルを全ロードする必要があって面倒です (MapFile にはランダムアクセスできますが)。このような場合データベースにデータを格納すると格納された個々のデータ片アクセスできて便利です。そこで HBase というデータベースにデータを格納し、後でそのデータを取り出すという処理について調べてました。HBase は Hadoop のサブプロジェクトであり、キーバリューペアのデータを格納できます。HBase ではシリアライズされたオブジェクトを入れておいて、後でデシリアライズすることでオブジェクトを元通り復元することができます。 HBase のシリアライズの仕方については、HBase の Serialization テストを見ると書いてあります。ただ少

J138 2010/01/15

Hbase
Hadoop

リンク

はてなブックマーク

タグ

関連タグで絞り込む (31)

Hadoopに関するJ138のブックマーク (84)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス