[B! hadoop] moccos_infoのブックマーク

NameNode Garbage Collection Configuration: Best Practices and Rationale

Garbage Collection Best Practice GC Configuration This is an example implementation of our current recommendation for best practice GC tuning, driven by requirements of the NameNode: export HADOOP_NAMENODE_OPTS="-Dcom.sun.management.jmxremote -XX:+UseConcMarkSweepGC -XX:ParallelGCThreads=8 -XX:+UseCMSInitiatingOccupancyOnly -XX:CMSInitiatingOccupancyFraction=70 -Xms1G -Xmx1G -XX:NewSize=128M -XX:M

moccos_info 2016/07/19

GC
hadoop

リンク

Azkaban

Azkaban is a batch workflow job scheduler created at LinkedIn to run Hadoop jobs. Azkaban resolves the ordering through job dependencies and provides an easy to use web user interface to maintain and track your workflows. Features Compatible with any version of Hadoop Easy to use web UI Simple web and http workflow uploads Project workspaces Scheduling of workflows Modular and pluginable Authentic

moccos_info 2016/05/09

hadoop

リンク

IT news, careers, business technology, reviews

Q&A: How Thomson Reuters used genAI to enable citizen developers

moccos_info 2012/11/13

hadoop

リンク

Hadoop Pig の使いどころ - Tech-Sketch

「PigとHive何が違うの？」「Difference between Pig and Hive? Why have both?(PigとHive何が違うの？)」という質問を、先日、StackOverFlowで見かけました。恐らくHadoopを触ると一度は疑問に思う事ではではないでしょうか。 PigとHiveは、共にSQLライクな記法でMapReduceを書けるDSLですが、利用者数においてはHiveに軍配が上がっているようにみえます。一方で、「Pigをもっと早く試せば良かった」というお話を伺うこともあり、有用（かもしれない）ツールであれば、正しく理解しておいた方がよさそうです。というわけで、ここではPigの活用を探ります。 Pigの性能 Pigが今一つ利用されていないのは、SQLとの親和性に加え、性能面で、「Java MapReduce＞Hive＞Pig」という傾向があるからで

moccos_info 2012/09/27

hadoop

リンク

Hadoopによるテキストマイニングの精度を上げる2つのアルゴリズム

Hadoopによるテキストマイニングの精度を上げる2つのアルゴリズム：テキストマイニングで始める実践Hadoop活用（最終回）（1/3 ページ） Hadoopとは何かを解説し、実際にHadoopを使って大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します Passive-Aggressiveとロジスティック回帰で精度向上前回の「実践！「MapReduceでテキストマイニング」徹底解説」では、「青空文庫」の作品から学習を行い、テキストデータから著者の寿命を推定するMapReduceプログラムを作成しました。今回は、前回のプログラムを少し変更するだけで、精度が上がる「Passive-Aggressive」というアルゴリズムを実装します。また、テキスト分類のアルゴリズムと

moccos_info 2011/11/02

リンク

次世代Hadoopの特徴は、MapReduce 2とGiraph - ＠IT

次世代Hadoopの特徴は、 MapReduce 2とGiraph Hadoopの父に聞く、HadoopとClouderaの現在・未来有限会社オングス後藤大地 2011/9/15 ■ 増え続けるHadoop活用企業大規模データの分析に、Javaのフレームワーク「Apache Hadoop」（以下、Hadoop）を採用する事例が増えている。HadoopはMapReduceの実装系の1つで、特にログデータ解析やリサーチ目的の大規模データ分析や計算などに活用されている。TwitterやFacebook、mixi、LinkedIn、Groupon、Amazon、eBay、Yahoo!、楽天、クックパッド、リクルート、ディー・エヌ・エー、サイバーエージェントなどのいわゆるWebサービス系企業だけでなく、NTTデータ、Amazon Web Services、国立国会図書館、EMC、PFI、ウル

moccos_info 2011/09/19

hadoop

リンク

実践！「MapReduceでテキストマイニング」徹底解説

「青空文庫」をテキストマイニング！前回の「いまさら聞けないHadoopとテキストマイニング入門」では、Hadoopとテキストマイニングの概要や構成、MapReduceの仕組み、Hadoopの活用場面などを解説し、Hadoopの実行環境を構築しました。今回から、Hadoopを使い、テキストマイニングのMapReduceプログラムを作成していきます。「青空文庫」というサイトをご存じでしょうか。青空文庫は、著作権が切れた日本の文学作品を掲載しているWebサイトで、青空文庫の全データをDVDや、BitTorrentによる配信で入手できます。今回は、このデータを使ってテキストマイニングを行いましょう。前回、テキスト分類で、著者の性別、年齢、地域、職業などの属性も推定できると書きましたが、青空文庫は、他のデータにはない、著者属性があります。青空文庫の作品は、著作権が切れて、作者がなくなっている場

moccos_info 2011/07/25

具体的なサンプル、Widrow-Hoffの学習規則による

hadoop

リンク

第5回　これからHadoopを活用するエンジニアが理解しておくべきこと | gihyo.jp

第4回まではHadoopの活用事例や、どのような用途に向いているのかということを中心に解説してきました。さて、最終回となる第5回は、Hadoopをこれから活用し始めようとしているエンジニアが理解しておくべきことや、情報収集のポイントなどについて解説します。 Hadoopの構成要素を理解する Hadoopの導入を検討する際には、まずは構成要素を理解しておきましょう。Hadoopは大きく2つの要素から成り立っています。1つは分散ファイルシステムの「Hadoop Distributed File System（HDFS⁠）⁠」⁠、もう1つは分散処理フレームワーク「Hadoop MapReduce（MapReduceフレームワーク⁠）⁠」です。どちらも大量のサーバから構成されるクラスタシステムとして動作します。現在はWebから得られる情報や書籍が充実しているのでここでは詳しい説明はしませんが、こう

moccos_info 2011/07/15

スタートアップ段階における注意事項

hadoop

リンク

第3回　海外におけるHadoop活用事例 | gihyo.jp

2010年10月12日、ニューヨークにてHadoopの祭典「Hadoop World 2010 NYC」が開催されました。このイベントには日本からもNTTデータとリクルートが参加し、それぞれの技術開発・検証などの取り組みや今後の展望などを発表しました。今回は、Hadoop World 2010 NYCで発表された事例のうち以下の3つを取り上げ、海外におけるHadoopの活用事例を紹介します。米国陸軍におけるHadoopの活用 General Electric社における感性分析事例シカゴ・マーカンタイル取引所における事例 1．米国陸軍におけるHadoopの活用最初の事例は米国陸軍でのHadoopの活用事例です。大量のデータの扱いに悩んでいるのは企業だけではありません。米国陸軍もまた、膨大なデータからいかにして有益な情報を抽出するかという課題を抱えていました。彼らは時代とともにより粒度の

moccos_info 2011/06/30

hadoop

リンク

第2回　国内におけるHadoop活用事例（国立国会図書館サーチ） | gihyo.jp

今回と次回は、Hadoopがどのようなシーンで活用されているのか、具体的な事例を基に見ていきます。今回は、国内での活用事例として、国立国会図書館でHadoopを検索インデックスの生成に活用している事例を紹介します。国立国会図書館サーチ（NDLサーチ）におけるHadoopの活用事例 NDLサーチ[1]とは国立国会図書館が公開している検索サービスです。国立国会図書館をはじめ全国の公立図書館、公文書館、美術館や学術研究機関など、複数の機関が所蔵する著作物の検索が可能で、検索した著作を所蔵している機関の表示や、関連する著作物を検索結果に表示させることができます。図　NDLサーチ公式サイト NDLサーチでは、Hadoopを検索インデックスの生成に利用しています。検索インデックスを生成するために、日本全国の機関からデータ収集します。このため処理すべきデータ量は膨大です。NDLサーチにおける検索イン

moccos_info 2011/06/23

同定キー

hadoop

リンク

いまさら聞けないHadoopとテキストマイニング入門

ビッグデータ時代の救世主「Hadoop」とは「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。本連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。重い処理を複数のマシンに分散させる複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。例えば、Hadoopを使うと、1

moccos_info 2011/06/22

hadoop

リンク

第1回　Hadoopで広がるビジネス領域 | gihyo.jp

はじめに近年、「⁠Hadoop」というキーワードをよく目にします。もしかしたらこの記事を読んでいるあなたも、Hadoopというキーワードを目にしたり聞いたりしたことがあり、興味を持ってこの記事をご覧になっているのかもしれません。Hadoopとは何でしょうか？何ができるのでしょうか？今回から全5回にかけて、Hadoopの活用事例や活用のヒント、そしてこれからHadoopを活用しようと考えているエンジニアが知っておくべきことや、情報収集の仕方を解説します。 Hadoopって何？ Hadoopとは何でしょうか。簡単に言うと、テラバイト、ペタバイトといった巨大なデータを処理するためのオープンソースの分散処理基盤で、Googleが検索エンジンのバックエンドに利用している技術のクローンです。Googleは2003年に大規模分散ファイルシステム「Google File System（GFS⁠）⁠」につ

moccos_info 2011/06/16

活用事例

hadoop

リンク

IBM Developer

IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.

moccos_info 2011/05/27

"書き込みは 1 回限りで読み取りは何度もできるという、HDFS の write-once-read-many モデル" "データをアプリケーション空間の近くに配置するのではなく、処理ロジックをデータの近くに配置するように設計"

hadoop

リンク

Hadoopを使ってTwitterやFacebook上での「影響力」を数値化するには - nokunoの日記

Hadoopを使ってTwitterやFacebook上での「影響力」を数値化しているKloutというサービスがあるそうです。大変興味深かったので翻訳してみました。元記事のCloudera社とKout社の許可を頂いて掲載しています（@shiumachiさん、ありがとうございます！） Using Hadoop to Measure Influence | Apache Hadoop for the Enterprise | Cloudera ソーシャルメディア上の影響力測定サービス「Klout」とはKlout | The Standard for InfluenceKloutのゴールは影響力の数値化の分野でのスタンダードになることだ。近年のソーシャルメディアの普及により、多くの測定可能な友達関係に関する情報が手に入るようになってきている。Facebookユーザには、平均して130人の友達がいる

moccos_info 2011/05/24

Cloudera、Klout

hadoop

リンク

米Cloudera、Hadoopディストリビューションの最新版を公開 | OSDN Magazine

Hadoop専業ベンダーの米Clouderaは6月29日（米国時間）、最新のHadoopディストリビューション「Cloudera Distribution for Hadoop（CDH） v3」を公開した。CentOSやAmazon Web Services（AWS）などと事前検証済みで、企業はHadoopベースのデータ管理プラットフォームを容易に導入できるという。 CDHは、分散処理フレームワーク「Apache Hadoop」をコアに、オープンソース技術を加えた包括的なパッケージ。CentOS 5、RHEL5、FedoraなどのRed HatベースディストリビューションやUbuntuなどのDebianベースディストリビューション、そしてAWSやRackspace、SoftLayerなどのクラウドで検証済みで、インストールや設定を容易にした。Apache Lisence 2.0で公開されて