タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

hadoopに関するsh2のブックマーク (15)

  • 「カジュアル」な規模のデータクラスター上でのデータ解析処理 « NAVER Engineers' Blog

    今年はさだまさしさんのデビュー40周年ということで、記念コンサート「さだまつり」も絶賛開催中の折も折、残暑も厳しい中皆様いかがお過ごしでしょうか。大平です。 さだまさし氏は経験の豊富な方ですので彼の歌や発言から学ぶことは大変多いのですが、個人的に非常に感銘を受けているのは「歌はコンサートで成長する」という言葉です。歌い手として、「歌」という作品を作って公開・販売するだけが仕事ではなく、実際にコンサートなどでお客さんに届け、お客さんの反応を参考にしたり日々の演奏活動の中で試行錯誤を繰り返して、内容をブラッシュアップし洗練させていく過程を指して先の言葉があるのだと思います。実際にさだまさし氏の曲はCDに収録されているものと実際にライブで演奏されるものとでアレンジが大きく異なり、かつ作品としても質が向上しているものが少なからず存在します。 …あまりさだまさしの話を続けると当に上長に叱られますの

    sh2
    sh2 2012/09/11
    カジュアルという言葉の定義を考えさせられる
  • HadoopによるApacheのログ解析の実際

    こんにちは、ミツバチワークス stoneです。 今日は、DECOLOGで行われている、Apacheのログ解析について、 ご紹介してみようかと思います。 現在、DECOLOGでは、リバースプロキシが8台あって、 その8台の1日のApacheのログは、全部で、200Gバイト以上になっています。 これを、13台のHadoopのスレーブノードで解析を行っています。 全体の流れとしては、 1) リバースプロキシからHDFSにログを転送 2) 解析用のサーバーで、HDFSにログの転送が終わるのを監視 3) ログの転送が終わったら、Hadoopを起動、解析 4) Hadoopの解析結果をデータベースに保存 以下では、各々のステップを個別に見て行くことにしますね。 1. リバースプロキシからHDFSにログを転送 当初、Hadoopのプロセスが立ち上がっていないと、HDFSにはアクセスできない、 と思い込ん

    sh2
    sh2 2012/01/24
    2億PV/日ってすごいな
  • MapR(GreenPlumHD)の中身説明会参加

    MapR(GreenPlumHD)の中身説明会に参加しました。「HadoopのC++実装らしい。」程度の予備知識しかない状態で参加したので、知らないことが多くて面白かったです。 思ったことなど MapRはEMCと提携していたのか。知らなかった。 MapR-FSは普通のファイルシステムは経由せずに、ブロックデバイスをそのまま使っている。 へー。 ビルトイン圧縮は拡張子で判断して圧縮の有効/無効を切り替えているのが面白い。jarやpptxをはじめ、最近はほとんど実態はzipな気がするので、ちゃんとフォーマットを見ないとダメでしょう。全然詳しくないけど、普通最初の4バイトくらいで判別できるんじゃないの? 実機デモのサクサク感がすごかった!WebUI※1とNFSマウントしたときの操作※2。 「すげー速いよ。品質いいよ。」とは言っているけど、デモがサクサクなの以外は言っているだけだった。NTTデータ

    MapR(GreenPlumHD)の中身説明会参加
    sh2
    sh2 2012/01/20
    難しかった
  • 基幹バッチでHadoopを飼い慣らすノーチラスとEMCの提携

    1月19日、EMCジャパンはエンタープライズ分野でのHadoopソリューション「EMC Greenplum HD EE」の販売を開始するとともに、Hadoop製品の開発を進めるノーチラス・テクノロジーとの協業を発表。基幹システムのでバッチ処理をHadoopで行なうソリューションを提供する。 Apache Hadoopと互換性のあるエンタープライズレディなHadoop 発表会の冒頭、EMCジャパン データ・コンピューティング事業テクノロジー&プロフェッショナルサービス部 部長 仲田聰氏は、同日発売を開始した「EMC Greenplum HD EE」について説明した。 EMC Greenplum HD EEは非構造化データ処理に最適化されたHadoop製品で、Apache Hadoopと100%の互換性を保ちつつ、パフォーマンスや信頼性を強化した実装になる。並列処理に最適化されたデータベ

    基幹バッチでHadoopを飼い慣らすノーチラスとEMCの提携
    sh2
    sh2 2012/01/20
    ノード単位の課金だと流行らない気がする。ノード数の平方根でどうか
  • EMCジャパンとノーチラス、基幹システム向けHadoopで協業

    EMCジャパンとノーチラス・テクノロジーズは2012年1月19日、分散バッチ処理ソフト「Hadoop」を基幹系システムのバッチ処理に適用するソリューションで協業すると発表した。EMC版のHadoopディストリビューション「Greenplum HD Enterprise Edition(EE)」と、ノーチラスのアプリケーションフレームワーク「Asakusa Framework」を組み合わせて提供する。 EMCは同日、Greenplum HD EEの日市場での販売を開始した。Greenplum HD EEは、Apacheソフトウエア財団のオープンソースソフトウエア(OSS)である「Apache Hadoop」をベースに、性能や可用性などを強化したディストリビューションだ。分散ファイルシステムとして、標準の「HDFS」ではなく、米MapRテクノロジーズが開発した「MapR FS」を採用。C/C

    EMCジャパンとノーチラス、基幹システム向けHadoopで協業
    sh2
    sh2 2012/01/19
    「分散ファイルシステムとして、標準の「HDFS」ではなく、米MapRテクノロジーズが開発した「MapR FS」を採用。C/C++で実装したMapR FSは、Javaで実装したHDFSと比べて高性能」
  • zusaar.com

    zusaar.com 2024 著作権. 不許複製 プライバシーポリシー

    sh2
    sh2 2012/01/10
    英語かな
  • Hadoop&Asakusaを基幹業務で使い倒す--ノーチラス 神林飛志氏

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 日立ソリューションズは12月2日、東京・品川にて「Hadoopが導く分散処理における次世代のバッチ処理開発とは〜Asakusa FrameworkによるHadoopエンタープライズ適用セミナー〜」を開催した。 稿ではその中から、ノーチラス・テクノロジーズ代表取締役副社長 神林飛志氏による講演「Hadoopによるバッチ処理の導入」を紹介する。 Hadoopを定義するのにビッグデータという言葉は必要ありません——神林氏は冒頭、こう切り出した。 いまやバズワードとして定着し始めている「ビッグデータ」だが、その言葉が語られるときはサブセットのごとく「並列分散処理システム」としてHadoopも引き合いに出されることが多い。だが神林氏は「ビッグデ

    Hadoop&Asakusaを基幹業務で使い倒す--ノーチラス 神林飛志氏
    sh2
    sh2 2011/12/08
    ツイートを拝見する限り、ビッグデータなんて持っていない企業が大半だから、バッチ処理の高速化というアプローチの方が仕事が取れるってことかな。事例はすばらしい
  • NTTデータが「Hadoop」戦略の最新動向を米国で披露--富士通とストレージシステム共同開発

    注目が集まるビックデータ分野を支える技術命は、オープンソースの分散処理ソフトHadoopだろう。Hadoopは、Googleが唱える大規模データ処理方式を実装したオープンソースソフトウェアで、テラバイト~ペタバイト級のデータの蓄積・処理を得意とする。IBMはHadoopをベースとした製品をリリースし、オラクルは主要製品ExadataとHadoopのコネクタを発表して連携を推し進めている状況だ。 こうした中、米国ニューヨークで11月8日より2日間「Hadoop World NYC 2011」が開催された。Hadoop Worldは第3回目の開催で、最新事例や技術に関する情報が一同に集まるイベントとして知られている。27カ国から1400名以上が集まり、60を超える講演が繰り広げられた。 このイベントにおいて、NTTデータは「Hadoop's Life in Enterprise Syste

    NTTデータが「Hadoop」戦略の最新動向を米国で披露--富士通とストレージシステム共同開発
    sh2
    sh2 2011/11/10
    Scoopのスライド、pg_bulkload使ってる部分はいいけどReduceが性能ボトルネックになると思う
  • Hadoopを用いた大規模ログ解析

    JCBの Payment as a Service 実現にむけたゼロベースの組織変革とテクニカル・イネーブラー(NTTデータ テクノロジーカンファレンス ...NTT DATA Technology & Innovation

    Hadoopを用いた大規模ログ解析
    sh2
    sh2 2011/04/11
    どうやってデータを集めてくるかがポイント
  • DECOLOGでのMySQL Archiveエンジンの使い方

    こんにちわ、stoneです。 今回は、MySQLのストレージエンジンの中の1つ、ArchiveエンジンのDECOLOGでの使い方をご紹介したいと思います。 ※「DECOLOGでのMySQL BlackHoleエンジンの使い方」も合わせてどうぞ Archiveエンジンの概要MySQLのマニュアルをご覧いただくのが正確なのですが、その特徴を簡単にまとめると。。。。 insert/selectは出来るが、update/deleteは出来ない order byはサポートされない blobもサポートされない データは圧縮されてディスクに保存される まぁ、最初にこのマニュアルを読んだときの、正直な感想は、 「どうやって使うんだ、これ?」 って感じでした。 deleteが出来ないので、データは溜まる一方だし、データは圧縮して保存されているので、selectもそんなに速くないことは容易に想像できます。 ア

    sh2
    sh2 2010/11/29
    SELECTしてファイルに落としてHDFSに置いて、というところを中抜きできないかなあと思った。redisでどうやるかも知りたい
  • 平成21年度 産学連携ソフトウェア工学実践事業報告書の公表について(METI/経済産業省)

    高信頼組込みソフトウェア開発(委託先:一般社団法人JASPAR) 報告書(PDF形式:3,278KB) (ZIP形式:2,993KB) ソフトウェア工学の実践強化に関する調査研究(委託先:株式会社三菱総合研究所) 報告書(PDF形式:2,501KB) クラウドコンピューティング時代のDependabilityの考え方などに関する米国の動向調査(委託先:株式会社アイ・ビー・ティ) 報告書(PDF形式:4,583KB) (ZIP形式:4,300KB) クラウド・コンピューティングに関する国内外の制度・技術動向等の調査研究(委託先:株式会社野村総合研究所) 報告書(PDF形式:2,050KB) 高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)(委託先:株式会社エヌ・ティ・ティ・データ) (PDF形式:9,606KB) (ZIP形式:8,656

    sh2
    sh2 2010/09/29
    NTTデータのHadoop報告書。他にもいろいろ
  • 大量データのバッチ処理を高速化するHadoop

    Hadoopというソフトウエアが、いま注目を集めています。米Googleが発表した論文のアイディアをオープンソース・モデルで実装したソフトウエアです。膨大な量のデータを処理する必要に迫られた企業や研究組織が、続々とHadoopを実際に活用しはじめています。 私たちの研究グループでは、Wikipediaなどの巨大なテキスト・データを解析するために、2007年頃からHadoopを利用しはじめましたが、日国内でも2009年あたりからHadoopを使った事例を多く見聞きするようになりました。国内で初めてのHadoop関連イベントが2009年11月に東京で開催され、オライリー・ジャパンから2010年1月にHadoopの邦訳が出版されるなど、Hadoopが多くの開発者の注目を浴びています。 しかしながら、「Hadoopは何となくすごそうなんだけど、複雑だし、どんなソフトなのかいまいち分からないんだ

    sh2
    sh2 2010/06/04
    このへんから説明してくれると超助かる
  • クックパッドのデータ処理、たった5万円:日経ビジネスオンライン

    気になる記事をスクラップできます。保存した記事は、マイページでスマホ、タブレットからでもご確認頂けます。※会員限定 無料会員登録 詳細 | ログイン 月間ユニークユーザー数、884万人、月間ページビュー数、4億6000万(2010年3月)を誇る国内ナンバーワンの料理レシピの投稿・検索サイト「クックパッド」。 日常的に料理をする人はもちろんのこと、たまにしか包丁を握らない人でもクックパッドのウェブサイトを一度は訪れたことがあるのではないか。 2ちゃんねるTwitterを凌駕する それくらい、クックパッドレシピの投稿・検索サイトとして不動の地位を築いているように思える。なにしろ、母の日とカミサンの誕生日くらいしか、料理をしない筆者でさえも、クックパッドは何度かのぞき、お世話になったことがあるくらいだ。 ページビュー数の比較でいえば、この4億6000万という数字は、2ちゃんねるや今流行りのT

    クックパッドのデータ処理、たった5万円:日経ビジネスオンライン
    sh2
    sh2 2010/04/20
    Hadoopの商用事例って時点で既にすごい / クラウドマガジンvol.1に詳しく載ってた
  • Hadoop Conference Japan 2009のスライド

    Either email addresses are anonymous for this group or you need the view member email addresses permission to view the original message 皆様 太田です 先日のHCJ2009のスライドを、発表者の方にいくつか公開して頂きました。 残念ながら諸般の事情で公開出来ないスライドや発表もございますが、現在 のところ、以下の4つのスライドを公開して頂いております。 Hadoop入門 by PFI 西川徹さん - http://www.slideshare.net/pfi/hadoop-2525724 Elastic MapReduceでお手軽Wikipediaマイニング by 大倉務さん - http://www.slideshare.net/ohkura/elast

    sh2
    sh2 2009/11/25
    とても見たかった
  • 分散処理ソフト「Hadoop」のユーザー会が日本で発足、企業の導入が広がる

    オープンソースの分散処理ソフトウエア「Hadoop」の日におけるユーザー会「Hadoopユーザー会」が2009年11月13日に発足した。Hadoopは米グーグルの分散処理ソフト「GFS」「MapReduce」を模したもの。同日開催した「Hadoop Conference Japan 2009」には200人以上のエンジニアなどが集まり、Hadoopコンサルティングを行う米クラウデラ、ユーザー企業の楽天はてななどが講演した。 Hadoopはグーグルが2004年までに公開したGFSやMapReduceの論文を基に、プログラマーのダグ・カッティング氏が2005年に開発したソフトウエア。カッティング氏は2009年に、米ヤフーからクラウデラに移籍している。クラウデラは、グーグルで上級ソフトウエアエンジニアを務めたクリストフ・ブシーリヤ氏らが2008年に起業したベンチャー企業で、Hadoop関連のツ

    分散処理ソフト「Hadoop」のユーザー会が日本で発足、企業の導入が広がる
    sh2
    sh2 2009/11/16
  • 1