一定期間更新がないため広告を表示しています
ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 本連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1
2011/05/10 Hadoopのエンタープライズ向けディストリビューションを6月末までに提供すると、米EMCが5月9日に発表した。EMCといっても、ストレージ機器の事業部門ではない。同社が2010年7月に買収した、元米Greenplumの事業部門だ。これにより、非構造化データの分析ニーズの高まりに対応していくという。 Greenplumはこれまで、オープンソース技術をベースとした、データウェアハウス/ビジネスデータ分析向けのデータベースシステムである「Greenplum Database」を提供してきた。多数のPostgreSQLインスタンスを並列に動作させてデータ処理を実行する仕組みを通じ、データロードおよびクエリ処理の高速化とスケーリングを実現し、大規模データウェアハウスを可能としている。Greenplum製品群としては現在、有償のソフトウェア製品に加え、無償の「Greenplum
Error message : Directory is not found or not writable (DATA_DIR) Directory is not found or not writable (DIFF_DIR) Directory is not found or not writable (BACKUP_DIR) Directory is not found or not writable (CACHE_DIR) Site admin: whitestar Copyright © 2006-2023 whitestar. All Rights Reserved. Icons powered by famfamfam. PukiWiki 1.5.0 Copyright © 2001-2006 PukiWiki Developers Team. License is GPL
スライド1: MapReduce 初心者がHadoop をさわってみた~もちろん C++ から~プログラミング生放送勉強会 第4回 @名古屋2010/06/26(土) You&I スライド2: Agenda1. Hadoopとは2. MapReduceとは3. Hadoopの構成4. なぜHadoopか?5. Hadoopの環境構築6. C++からHadoopを使う7. まとめ スライド3: 0.自己紹介• H/N You&I (読み:ユー アンド アイ)• 出身 生まれも育ちも名古屋市• 年齢 30代前半• 本職 商学部出身の職業プログラマ• 言語 C++, VisualBasic 6.0, 日本語COBOL• 日記 http://d.hatena.ne.jp/youandi/• 所属 大規模分散技術勉強会in名古屋名古屋アジャイル勉強会*わんくま同盟(名古屋勉強会)* スライド4
(参考) Cloudera社のHadoopパッケージの情報 http://archive.cloudera.com/docs/ 必要なもの ・CentOS5かCentOS6のLinux環境1台(ここではCentOS5.6とCentOS6.0を使いました。CentOSの他バージョンや、Fedora、Redhat等でも大丈夫だと思います) ・インターネット接続 ・Sun社Javaパッケージ(パッケージファイルをインターネットから取得) ・Cloudera社のCDH3のHadoopパッケージ(yumでインターネットからインストール) 作業手順 0. 準備 0-1. Sun社Javaパッケージの取得 http://java.sun.com/javase/downloads/にて、 Java SE 6の[Download]ボタンを押して出る「Java SE Downloads」のページから必要なもの
C/C++ MapReduce Code & build This is the WordCount example using C/C++. 1 #include "hadoop/Pipes.hh" 2 #include "hadoop/TemplateFactory.hh" 3 #include "hadoop/StringUtils.hh" 4 5 class WordCountMap: public HadoopPipes::Mapper { 6 public: 7 WordCountMap(HadoopPipes::TaskContext& context){} 8 void map(HadoopPipes::MapContext& context) { 9 std::vector<std::string> words = 10 HadoopUtils::splitString(
以下の記事ではPig, Hiveなど8種類の言語でMapReduceの一番単純な例、WordCountを記述した場合のスクリプトの比較を行っています。とても興味深かったので紹介したいと思います。Pigs, Bees, and Elephants: A Comparison of Eight MapReduce Languages « Dataspora なお、今回はRSS購読しているDataSporaのブログから発見しましたが、エントリを寄稿したエンジニアの個人ブログも大変興味深いのでオススメです。 はじめにMapReduceを美しく効率的に書くために、私は様々な言語を比較しました。果たしてその勝者は!?私の個人ブログでは統計やグラフのアルゴリズムをMapReduceで記述する方法を紹介し、擬似コードによる実装を示しました。擬似コードには2つの問題点があります:誰もがその命令を理解できると
Twitterについては先日の記事でフロントエンドのBlenderを紹介しましたが、バックエンドやデータ解析のシステムにも興味があります。ちょうどData-Intensive Text Processing with MapReduceで有名な@lintool先生の新しい論文が公開されていたので読んでみました。Full-Text Indexing for Optimizing Selection Operations in Large-Scale Data Analytics(pdf)ACMのMapReduce'11というワークショップで発表された内容のようです。この論文を読んで初めて知ったのですが、Lin先生はサバティカル休暇(大学教授が長期の休みを取れる制度)でTwitterに来ており、データ解析チームで働いているそうです。この論文もTwitterエンジニアの@squarecogさんと
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019 #hc...Yahoo!デベロッパーネットワーク
ノードの追加・削除といった Hadoop の運用面について少し調べてみたのでメモ。 ノードの追加 ノードを追加するにはだいたい以下のような手順となる。 Hadoop のソフトウェアをインストールする。 このとき、hadoop-env.sh や conf/*.xml も設定しておく。 NameNode、JobTracker ノードからパスワードなしで ssh ログインできるようにしておく。 NameNode, JobTracker の conf/slaves に追加したノードを追記する。 最後に、追加したノードで以下のコマンドを実行する。 $ cd $HADOOP_HOME $ ./bin/hadoop-daemon.sh start datanode $ ./bin/hadoop-daemon.sh start tasktracker これで、Hadoop クラスタにノードが追加され、HD
id:naoya:20080511:1210506301 のエントリのコメント欄で kzk さんに教えていただいた Hadoop Streaming を試しています。 Hadoop はオープンソースの MapReduce + 分散ファイルシステムです。Java で作られています。Yahoo! Inc のバックエンドや、Facebook、Amazon.com などでも利用されているとのことです。詳しくは http://codezine.jp/a/article/aid/2448.aspx (kzk さんによる連載記事)を参照してください。 Hadoop Streaming 記事にもあります通り、Hadoop 拡張の Hadoop Streaming を使うと標準入出力を介するプログラムを記述するだけで、Hadoop による MapReduce を利用することができます。つまり、Java 以外
mapred.child.java.opts の設定は、JobConf実行時に設定可。 (hadoop-site.xml の設定項目は実行時に設定できるものとできないものがある) public class Test { public static void main(String[] args) throws Exception { JobConf conf = new JobConf(Test.class); conf.setMapperClass(Map.class); // 子JVMの最大ヒープサイズを設定 conf.set("mapred.child.java.opts", "-Xmx512m"); ... } } SequenceFile SequenceFile は、<key, value>形式でデータを保持する。テキストをそのままMapで読み込むと、keyにバイトオフセット、
温馨提醒:合理安排看片时间,享受健康生活!请收藏本站网址 yoshimov.com 以免下次找不到!
業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く