[B! hadoop] rgfxのブックマーク

日立、バッチ処理を高速化する「かんたんHadoopソリューション for バッチ処理」

rgfx 2013/04/17

"HA8000-bd/BD10に、「Cloudera Enterprise/CDH」、Asakusa Framework、JP1をインストール・初期設定を済ませて提供。"

リンク

Loading...

rgfx 2012/10/08

(;´Д`)…。

リンク

うるう秒によるjava障害と連動して生じたHDFSメタデータ破損からの復帰手順 - 生物物理計算化学者の雛

※本記事ではうるう秒によるjavaの異常と、それに伴って生じたHadoop 0.21.0 HDFSのメタデータ破損からの復旧手順を説明します。なお、本復旧手順は私の環境で上手くいっただけであり、他の環境で同様の手順を行ったとしても復旧できる保証はありませんので、ご注意ください。昨日（2012/7/1）Hadoopクラスタの一部マシンでCPU負荷が突然MAXに張り付いていることに気付きました。今日になってこの現象はうるう秒のあとにjavaに生じた不具合であることが分かりました（参考：http://d.hatena.ne.jp/sh2/20120702、このブログの記述と同様にjavaとksoftirqdプログラムが大きなCPU負荷を占め続けていました）。この障害が起きていたのはOSがfedora10, 13のマシン群で、他のマシンはCentOSであり不具合無く動作していました。試行錯

rgfx 2012/07/02

Namenodeとぶとかこえーーーーーー

リンク

Amazon EMR セミナーの記録 - 急がば回れ、選ぶなら近道

Amazon EMR セミナーに行ってきたので、個人的にまとめておく http://kokucheese.com/event/index/34636/ 日時： 2012/5/18 14:00 – 17:00 会場：アマゾン目黒オフィス東京都目黒区下目黒1-8-1アルコタワーアネックス16F メインスピーカーは、EMRのSenior Product Manager の Adam Gray氏場所は目黒のAmazonJapanの本社。渋谷の東邦生命ビルの時とは大違いで、ビル全てがAmazonという陣容。16Fのセミナールームはおそらく200名前後は余裕で入れるしっかりした部屋で、東京でのAWSのセミナーは大抵はここでやっていることが多い。今回のセミナーはどうやら複数回やったようで、自分はこの金曜日に、同じ会社の他のメンバーは翌日に呼ばれたようだ。パートナー向けのプライベートセミナーで、「

rgfx 2012/05/23

リンク

【公式】3.Hadoopで基幹バッチを行うために - Asakusa Framework

【ノーチラス・テクノロジーズの詳細はこちら】　http://www.nautilus-techno logies.com/ 　http://www.facebook.com/NautilusTechno logies 　https://twitter.com/#!/NAUTILUS_Tech 【Asakusa Frameworkの詳細はこちら】　http://www.asakusafw.com/ 　https://twitter.com/#!/asakusa_hadoop 【この動画について】この動画では、Hadoopの適用基準や、バッチ処理基盤としてのHadoopに「何が足りないのか？」、そしてHadoopの足りないところを補うAsakusa Frameworkについての解説をしています。 Hadoopは信頼性の高い、スケーラブルな分散処理基盤を提供する

rgfx 2012/02/01

リンク

第1回EMR勉強会のメモ - ひしだまの変更履歴

ひしだまＨＰの更新履歴。主にＴＲＰＧリプレイの元ネタ集、プログラミング技術メモと自作ソフト、好きなゲームや音楽です。 Amazon Elastic MapReduceの勉強会『第1回EMR勉強会（Hadoop on AWS）』に参加しましたので、そのメモです。（Twitterのタグ→#emrstudy_jp、他の人のメモ→くろのさん）（会場の最寄り駅はテレコムセンター駅。ゆりかもめは国際展示場正門以外で初めて降りたかもｗ）最初はクリエーションライン株式会社の李さん。まずAmazon Web Service（AWS）の簡単な紹介として、AWSはWeb系・業務系・Highパフォーマンス（並列）・BigData等、色々な分野で使われている。 EMRはクラウド型Hadoopサービス。プログラムや入出力ファイル・ログはS3に格納する。（HiveのメタデータはRDSに置く）プログラムはSt

rgfx 2011/12/16

リンク

"BigData"では何が問題なのか？ - 急がば回れ、選ぶなら近道

”ビッグデータで奇跡が起こる” はいどうも。まず、個人的には楽天的な進歩史観には、まったく組しない。従って、突然に新技術ができて、なんか凄い事になる、というのはさらにまったく同意しない。すべからくブレイクスルーは課題解決により起こると思っているので、問題意識のないところに、こんなものできました的な発想は、基本的にプラスにならないことが多いと思っている。現状のビッグデータブームは2011年の秋口現在は完全にハイプになっており、バブルと言ってもいいと思う。印象として、十数年前のナノテク・ブームに似ている。とはいえ、過度の期待という側面を除けば、それなり効果もある部分もあり、”そこだけ”を見ていけばそれなりに効果はある（と思う）。大体において、今後は以下の二つのユースケース・カテゴリーに集約されると思う。すなわち、ビッグデータの拠り所はまずもって以下の２点だ。 1 Webのログ解析というか

rgfx 2011/12/11

リンク

Hadoopソースコードリーディング第7回に参加しました。 | @johtani の日記

一定期間更新がないため広告を表示しています

rgfx 2011/11/29

昨日TLに出てたディズニー話はこれか。

hadoop

リンク

Hadoopはルイーダの酒場 - wyukawa's diary

昨日の深夜に某氏講師による「Java エンジニアのためのHadoop入門」の話題がネタになってましたが、僕はJava エンジニアとしてキャリアを積んできてHadoopに入門しました。キリ HadoopはJavaで書かれているのでJava エンジニアのキャリアのひとつとしていいと思いますけどね。当初はHiveでデータ処理をしていましたがうまくHiveQLが書けず、DB エンジニアからHadooperになった人にSQLやデータモデルについて教えてもらったりしてました。最近はインフラまわりをやるようになって、HeartBeatわかんねーーーーってなって、インフラエンジニアからHadooperになった人にいろいろ教えてもらったりしてました。かようにHadoopを使う場合はいろいろなスキルが求められます。まずインフラ構築、運用ならざっと下記のような作業が必要になるでしょう。ハードウェア選定ハー

rgfx 2011/11/24

リンク

Heroku Adds Automated Support for Hadoop with Help of Stealth Startup | Services Angle

Heroku has added automated support for Hadoop through Treasure-Data, a startup that is still in “stealth,” mode, according to its Web site. Heroku currently offers Hadoop support with Amazon Elastic MapReduce as a manual set up. But Treasure-Data adds something more. It helps remove the complexity that comes with managing Hadoop clusters. According to the Heroku Web site: Through Treasure Data Had

rgfx 2011/11/22

リンク

アトムとビット〜Hadoopでバッチが速くなって何がうれしいか？ - 急がば回れ、選ぶなら近道

まず、社内のオープニングで説明した内容だったりするのですが、一回まとめておきたいので。断っておくとこの言い方はニコラス・ネグロポンティから取っています。彼の主張は明確でいままでアトム（物質）的な存在だったものが、ビット（電子情報）的な存在に凌駕される、いや大きく姿を変えてるという指摘でございますね。Being digitalが出版されたのが95年なので、もう15年以上になるわけですね。ま、ざっくりすぎてアレですが。・・ワーディングとして便利なので利用させてもらいます。まず、主題は何かというと、「バッチが速くなって何がうれしいのか？」という問題の背景をちゃんと説明しておきたい。もともとHadoopで何がしたかったのかというと、そもそもバッチのスピードを上げたかった。そもそもRDBMSではまぁ限界があったというのが事の起こり。んで分散処理を行うとIOが分散されるので、スピードがあがりますね

rgfx 2011/11/22

「「アトムとビットの不一致」をなくすことことに大きく寄与できるのがITです。なので、やるべき価値があるし、ITでやることの意義がある、と思っています。」アツい。業務上のスループットとレイテンシの話も。

リンク

HPE Ezmeral Learn On-Demand

WELCOME TO HPE E Z M E R A L LEARN ON-DEMAND Click a tile and start your journey

rgfx 2011/11/17

リンク

Hadoopのトラブルシューティングに関する資料があったのでめもっとく - wyukawa's diary

Hadoop World 2011でClouderaの人が発表した資料を見つけたのではっておく。 Hadoop Troubleshooting 101 - Kate Ting - Cloudera View more presentations from Cloudera, Inc. Clouderaのサポートチームの極意が詰め込まれているようだ。内容的にはHadoop徹底入門の10章の「性能向上のためのチューニング」と若干かぶっているが参考になります。 io.sort.mb < mapred.child.java.opts　とすることとか（ていうかmapred.child.java.optsを増やすことはあるかもしれないがio.sort.mbっていじるもんなのかな）、プロセス数やファイルディスクリプタいじれとか、map出力のスレッドいじれとか、Jetty 6.1.26は使うなとか、盛り

rgfx 2011/11/14

hadoop

リンク

Amazon.co.jp: Hadoop MapReduce デザインパターン ―MapReduceによる大規模テキストデータ処理: Jimmy Lin (著), Chris Dyer (著), 玉川竜司 (翻訳), 神林飛志 (監修), 野村直之 (監修): 本

rgfx 2011/10/25

hadoop
book

リンク

Mapreduce2.0 - 急がば回れ、選ぶなら近道

次世代Hadoopの開発が進んでいる。現状の推移では、少なくとも分散クラウドでの「OSSインフラ」としてはHadoopが最有力候補であることは間違いない。クラウド上での分散処理基盤での技術競争ではGoogleやAmazonが相当抜きんでいる現在、それに対抗しうる可能性があるOSSはHadoopの潮流の延長線上にしか考えられない。その形としてHadoop-MapReduce2.0があるように見える。現在の状態で自分なりの次世代Hadoopの理解をまとめておく。基本的に全部は見切れていないので、そのあたりはあしからず。基本的に次世代Hadoopの仕組みは大きく二つの要素からなる現在のところの柱はHDFSとMapreduce2.0の二つだ。まずMapReduce。これは従来の「MapReduce」というものからはほど遠い。むしろ「任意」の分散処理実行フレームワークにたいして、適切なリソースを

rgfx 2011/10/21

リンク

第14回データマイニング+WEB 勉強会＠東京( #TokyoWebmining 14th)－大規模分散データマイニング祭り－を開催しました - hamadakoichi blog

2011/10/16 "第14回データマイニング+WEB 勉強会＠東京"を開催しました。第14回データマイニング+WEB 勉強会＠東京 ( #TokyoWebmining 14th)−大規模分散データマイニング祭り−: Eventbrite Google グループ会場提供し運営を手伝って下さったニフティ株式会社のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。参加者ID・バックグラウンド一覧：以下、全講師資料、関連資料、ツイートまとめです。 AGENDA： ■Opening Talk： O1.「データマイニング+WEB勉強会＠東京について」(10分) 講師： id:hamadakoichi [Twitter:@hamadakoichi] オープニングト

rgfx 2011/10/16

リンク

現実のアプリケーションはこれからも勝手に疎結合になっていく ---そしてmap-reduceこそが並列処理の王道 - 最尤日記

まあ以下の文章をダシにする必要は無い内容になっちゃったけど：さてHadoop関連の某セミナーへの参加者が900人を越えたそうです。個人的にはHadoopを必要としている人、またはHadoopに関わる人というのはそれほど多くないと思うのですがね。HadoopのもととなったMapReduceは良くも悪くも、きわめて癖が強い分散処理手法。それをベースにしたHadoopも当然、汎用的なシステムではなく、データ特性や処理内容を選びます。どちらかというと既存のデータ処理に問題を抱えている方で、その中で問題解決にHadoopがたまたま向いている方になると思うのですがね。それとHadoopを使うと分散システムは様々な難しい問題を解決すると思っている方が多いのも気になります。分散システムのは難しい問題のほとんどは、元を辿れば通信遅延に起因します。つまりコンピュータ間で情報共有する場合、他のコンピュータに

rgfx 2011/10/15

リンク

Hadoop Conferene Japan Fall 2011 - 急がば回れ、選ぶなら近道

Hadoop Conference Japan Fall 2011が終わったので、その印象を記録しておきたい。詳細は、日経の中田さんの記事が今のところ一番的確な感じ。 Hadoopカンファレンスが開催、本格普及を見据えた支援サービスや先進事例が充実 | 日経 xTECH（クロステック）内容はこの方の記事がすげーので Attending Hadoop Conference Japan 2011 Fall in Shinbashi, Bellesalle Shiodome! #hcj11f - #garagekidztweetz また別の方のブログ記述もあるので、参考に。 http://d.hatena.ne.jp/smg-engineer/20110926/1317067540 まずは、主催して頂いたリクルート社の方々に厚く御礼申し上げたい。本当にありがとうございました。凄く大変

rgfx 2011/09/27

hadoop

リンク

Hadoopの現在 - 急がば回れ、選ぶなら近道

もともとHadoopは注目の仕組みであったけどここに来てさらに大きな流れになろうとしてる。各種のイベントや記事にしても大型のものが多く一種のHype状態になってきている。 Hadoop Japan Conference 2011 Fall Hadoop Conference Japan 2011 Fall Tickets, Mon, Sep 26, 2011 at 10:00 AM | Eventbrite 登録人数で1000人を超えている。 Cloud Computing World Tokyo 2011 ＆ Next Generation Data Center2011 Apache Hadoop: A New Paradigm for Data Processing http://www.idg.co.jp/expo/ngdc/2011/index.html このイベントがあっ

rgfx 2011/09/20

hadoop

リンク

Asakusa Frameworkメモ(Hishidama's Asakusa Framework Memo)

データモデルデータをHiveで読む [/2014-12-13] データをPigで読む [2011-08-15] テキストファイルを扱う [2015-12-05] シーケンスファイルを扱う [2012-07-11] バイナリーファイルを扱う [2012-07-10] データモデルドライバー [/2015-07-25] テストドライバー [2011-08-27] dmdlファイルの読み込み [2018-11-25] サンプル Oracleシーケンス [/2018-11-01] Asakusa Frameworkの概要 AsakusaFWは、（複数のマシンで）分散して処理を行うバッチアプリケーションを開発する為のフレームワーク。[/2015-07-04] AsakusaFWの独自言語（Asakusa DSL）で処理を記述し、コンパイルすることで、実行用のバイナリーを生成する。 AsakusaF

rgfx 2011/08/29

リンク

はてなブックマーク

タグ

関連タグで絞り込む (46)

hadoopに関するrgfxのブックマーク (50)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス