タグ

hadoopに関するgolden_egggのブックマーク (46)

  • 日本企業から初のApache Hadoopのコミッタ(主要開発者)就任

    電信電話株式会社(東京都千代田区、代表取締役社長:鵜浦 博夫、以下:NTT)および株式会社NTTデータ(社:東京都江東区、代表取締役社長:岩 敏男、以下:NTTデータ)から、大規模データを対象とした並列分散処理を実現するオープンソースソフトウェアApache Hadoop(以下:Hadoop)およびその関連のプロジェクトのコミッタに、2014年12月18日、小沢 健史(NTTソフトウェアイノベーションセンタ)、鯵坂 明、岩崎 正剛(NTTデータ 基盤システム事業部)の3名が就任することになりました。 コミッタとは、Hadoopの開発やメンテナンスにおいて、プログラムを書き換える権限(コミット権)を持つ主要開発者のことで、現在、Hadoopの開発に関与している全世界で約3,000名のうち、コミッタはごく一部[約100名(2014年12月)]に限られています。Hadoopにおいては、

  • BigQuery と Google の Big Data Stack 2.0 - naoyaのはてなダイアリー

    先日、有志で集まって「BigQuery Analytics」という書籍の読書会をやった。その名の通り Google BigQuery について書かれた洋書。 BigQuery を最近仕事で使い始めたのだが、BigQuery が開発された背景とかアーキテクチャーとかあまり調べもせずに使い始めたので今更ながらその辺のインプットを増やして以降と思った次第。 それで、読書会の第1回目は書籍の中でも Overview に相当するところを中心に読み合わせていった。それだけでもなかなかに面白かったので少しブログにでも書いてみようかなと思う。 BigQuery の話そのものも面白いが、個人的には Google のインフラが書籍『Google を支える技術』で解説されたものが "Big Data Stack 1.0" だとして、BigQuery は Big Data Stack 2.0 の上に構築されており

    BigQuery と Google の Big Data Stack 2.0 - naoyaのはてなダイアリー
    golden_eggg
    golden_eggg 2014/08/15
    企画「Hiveのクエリ返ってこないでござる」開発「叩き過ぎだカス」、という会話をよく聞いたけど、ShortとLargeの話で(何となく)合点がいった
  • データマネジメント 2014 で異彩を放っていた @okachimachiorz1 さんの「正確なデータをもとに明日を予測する 〜ノーチラスが提案する新しい予測の形〜」のメモ - #garagekidztweetz

    データマネジメント 2014に参加してきたレポートの最後は、以下のセッションのみをひとつ切り出しました。 14:00-14:40 C-5 『正確なデータをもとに明日を予測する 〜ノーチラスが提案する新しい予測の形〜』 ノーチラス・テクノロジーズ 理由は簡単で、この @okachimachiorz1 さんのセッションが今回のデータマネジメント 2014 の中で、わたしが一番面白いと思い、かつ異彩を放っていたなぁ、と思っているからです。 ゼヒ、資料が slideshare 等にアップされてほしいなぁと思っていますが、わたしのとれた範囲内でメモを公開させていただきます。 C-5 『正確なデータをもとに明日を予測する 〜ノーチラスが提案する新しい予測の形〜』 ノーチラス・テクノロジーズ 自己紹介 DM というよりも業務系で Hadoop を使う OSS を中心に Asakusa を開発したりしてい

    データマネジメント 2014 で異彩を放っていた @okachimachiorz1 さんの「正確なデータをもとに明日を予測する 〜ノーチラスが提案する新しい予測の形〜」のメモ - #garagekidztweetz
  • Hadoop/Storm の統合を実現する Twitter の SummingBird - Okapies' Archive

    Twitter が SummingBird を正式リリースして早二ヶ月。「日語の紹介記事がほとんど出てないな」と気付いたので、調査がてらまとめてみました。 SummingBird とは? MapReduce なプログラムを書くための Scala/Java ライブラリ。最大の特徴は、ひとたび SummingBird で書いたジョブは Hadoop でも Storm でも同じように実行できること。 SummingBird では、Hadoop を使う「バッチモード」と、Storm を使う「リアルタイムモード」に加えて、二つを同時に実行する「ハイブリッドモード」がある。ハイブリッドモードでは、ジョブの作者が特に配慮しなくても、バッチとリアルタイムの処理結果を自動的にマージできる。 ハイブリッドモードでは、同じジョブを Hadoop と Storm で同時に実行できるので、Hadoop の耐障害性

    Hadoop/Storm の統合を実現する Twitter の SummingBird - Okapies' Archive
  • Cascading

    Please note that all new project news and releases have moved to https://cascading.wensel.net The Cascading Ecosystem is a collection of applications, languages, and APIs for developing data-intensive applications. At the ecosystem core is Cascading, a Java API for defining complex data flows and integrating those flows with back-end systems, and a query planner for mapping and executing logical f

    golden_eggg
    golden_eggg 2013/09/25
    Hadoop MapReduce用のフレームワーク
  • Apache Sparkってどんなものか見てみる(その1 - 夢とガラクタの集積場

    こんにちは。 Kafkaを試している最中で微妙ですが、最近使えるのかなぁ、と情報を集めているのが「Apache Spark」です。 MapReduceと同じく分散並行処理を行う基盤なのですが、MapReduceよりも数十倍速いとかの情報があります。 ・・・んな阿呆な、とも思ったのですが、内部で保持しているRDDという仕組みが面白いこともあり、 とりあえず資料や論文を読んでみることにしました。 まず見てみた資料は「Overview of Spark」(http://spark.incubator.apache.org/talks/overview.pdf)です。 というわけで、読んだ結果をまとめてみます。 Sparkとは? 高速でインタラクティブな言語統合クラスタコンピューティング基盤 Sparkプロジェクトのゴールは? 以下の2つの解析ユースケースにより適合するようMapReduceを拡張

    Apache Sparkってどんなものか見てみる(その1 - 夢とガラクタの集積場
    golden_eggg
    golden_eggg 2013/09/02
    しばらくウォッチしてなかったら、いつの間にかApache配下のprojectになってたのね
  • Hadoopとの出会いが転機に~トレジャーデータCTO 太田一樹氏インタビュー

    米トレジャーデータのCTOを務める太田一樹氏にインタビューする機会を得た。プログラミングを始めたきっかけや、Hadoopとの出会い、起業についてなど、28歳の若手起業家の素顔に迫った。 米トレジャーデータは、昨今話題となっている“ビッグデータ”の処理基盤を提供していることに加えて、3人の日人が立ち上げたシリコンバレー発のベンチャーとして、注目を集めている。2013年5月20日には、日国内での事業展開を格化すると発表している(関連記事)。 同社が提供する「Treasure Data Platform」は、自社開発技術とHadoop、クラウドサービス(AWS)を組み合わせたビッグデータ処理基盤である。ビッグデータの処理基盤をクラウドで提供している点が特徴だ。大量のセンサデータや購買取引データ、Web閲覧・アプリケーションのログデータなどをクラウド上のデータベースにインポートし、そのデータ

    Hadoopとの出会いが転機に~トレジャーデータCTO 太田一樹氏インタビュー
  • Treasure Data’s Plazma: Columnar Cloud Storage | Treasure Data Blog

    Treasure Data’s Plazma: Columnar Cloud Storage Tweet Treasure Data has been developed by Hadoop experts. We get Hadoop, and, in many ways, it’s part of our core. As we have built out the platform, we noticed that the storage layer needs to be multi-tenant, elastic, and easy to manage while keeping the scalability and efficiency. This led us to create Plazma, our own distributed columnar storage sy

  • プログラミング Hive

    書は、Hadoop上でSQLライクなクエリ操作を可能にするHiveについて、基礎から応用までを詳細に解説した書籍です。データ型とファイルフォーマット、またHiveQLのデータ定義、操作などの基礎的な事柄から、関数、ストリーミング、Thriftサービス、さらにAWSやHCatalogなどの応用まで、Hiveについて必要な事柄を豊富なサンプルとともにわかりやすく解説します。 日語版では、Microsoftの佐藤直生氏による「Windows Azure HDInsight Service」、Clouderaの嶋内翔氏による「Cloudera Impala」、「Hive 0.10 の新機能」、「HiveServer2」を追加。ビッグデータに関心のあるすべてのエンジニア、必携の一冊です。 訳者まえがき はじめに 1章 イントロダクション 1.1 HadoopとMapReduceの概要 1.1.1

    プログラミング Hive
    golden_eggg
    golden_eggg 2013/06/04
    HBaseの和本もHiveの和本もあるなんて、時代が裏山
  • 基幹システムをクラウドへあげるのは簡単ではなかった。ノーチラス・テクノロジーズがクラウドの現実を語る(前編)

    基幹システムをクラウドへあげるのは簡単ではなかった。ノーチラス・テクノロジーズがクラウドの現実を語る(前編) 基幹システムをクラウドで実現する。その過程でどのような技術を用い、どのような苦労があったのか。小売り流通業である西鉄ストアの基幹システムをAmazonクラウド(以下、AWSAmazon Web Services)の上で実現したノーチラス・テクノロジーズが、その詳細について紹介したセミナーを5月15日、アマゾンジャパン社のセミナールームで開催しました。 大規模システム開発の現状、Hadoopの可能性、クラウドのメリットとデメリットなど、参考にすべき多くの内容が語られたセミナーでした。この記事ではその概要を紹介します。 止まってはいけない基幹システムをクラウドへ ノーチラス・テクノロジーズ 代表取締役社長 神林飛志氏(写真中央)。 西鉄ストア様の部基幹システムをクラウドへ移行する

    基幹システムをクラウドへあげるのは簡単ではなかった。ノーチラス・テクノロジーズがクラウドの現実を語る(前編)
    golden_eggg
    golden_eggg 2013/06/03
    会計バッチをHadoopか、、端数処理とか細かい事も気になるけど事例が出来たのは意義深いな
  • MySQL→Hadoop移行でビッグデータの威力を引き出すゲームサイトKing.com

    スウェーデンの無料のオンラインゲームサイト「King.com」は、主にFacebookから流入するビッグデータに対応するため、データアーキテクチャを刷新した。 世界最大のカジュアルソーシャルゲームサイトであるとうたうKing.comは、2003年に設立。『Bubble Witch Saga』や『Candy Crush』などのゲームを提供している。6000万の登録ユーザーを擁し、毎月のゲームプレイ回数は50億を超えるという。 King.comは150タイトル以上の無料ゲームを取りそろえ、ブーストやライフ追加などゲーム内商品と広告売上から収益を得ている。 同社のデータウェアハウス担当ディレクターであるマッツォロブ・エリクソン氏は、Facebookのゲームから流入するデータ量が増大し、それまで使っていたMySQLデータベースでは対処できなくなったと説明する。1日当たり100万ユーザーなら十分に対

    MySQL→Hadoop移行でビッグデータの威力を引き出すゲームサイトKing.com
  • Hadoopすらもかなわない!? Amazon Redshiftの破壊力をHapyrus 藤川氏が語る | gihyo.jp

    Hadoopすらもかなわない!? Amazon Redshiftの破壊力をHapyrus 藤川氏が語る シリコンバレーで起業し、順調にビッグデータビジネスを展開している日人ベンチャー企業といえば、Hadoop Conference Japan 2013 Winterでも話題となったTreasure Dataがその筆頭に挙げられます。 ですが、Treasure Dataとほぼ同じ時期に西海岸でビジネスをローンチし、現在、国内外の投資家たちから高い注目をあつめるビッグデータベンチャー、それも日技術者が創業者である企業が実はもう1社存在します。それが藤川幸一氏率いるHapyrusです。今回、来日中の藤川氏に直接、Hapyrusが現在最も注力するAmazon Redshiftに関するビジネスを中心にお話を伺いました。 藤川幸一氏 Redshiftへのデータアップロードを事業の中核に ─⁠─H

    Hadoopすらもかなわない!? Amazon Redshiftの破壊力をHapyrus 藤川氏が語る | gihyo.jp
  • Hadoopはビッグデータの汎用プラットフォームであり、行く先はグーグルが示している

    Hadoopはビッグデータ処理の汎用プラットフォームであり、SQLやジョインやトランザクションなどが使えるようになる。Hadoopの生みの親であるダグ・カッティング氏は、都内で開催された日Hadoopユーザー会主催のイベント「Hadoop Conference Japan 2013 Winter」にビデオメッセージで参加。Hadoopの現在、そして将来像について語りました。 カッティング氏が語ったHadoopの将来とはどんなものなのか。ポイントを紹介しましょう。 バッチ処理を超え続くApache Hadoopの進化 Apache Software FoundationのChairmanでありClouderaのChief Architect、Doug Cutting氏。 今日はみなさんと一緒に参加したかったのですが残念ながらかなわず、このビデオをお送りすることになりました。 MapRedu

    Hadoopはビッグデータの汎用プラットフォームであり、行く先はグーグルが示している
  • 「Hadoopには力強い未来がある」Doug Cutting氏からのメッセージ─Hadoop Conference Japan 2013 Winterレポート(1) | gihyo.jp

    「Hadoopには力強い未来がある」Doug Cutting氏からのメッセージ─Hadoop Conference Japan 2013 Winterレポート(1) 1月21日、東京ビッグサイトにおいて日Hadoopユーザ会主催のユーザイベント「Hadoop Conference Japan 2013 Winter」が開催されました。今年で4回目となるカンファレンスですが、事前登録者数1,000名超、3トラック21講演を終日、東京ビッグサイトで行うという、いちオープンソースのユーザイベントとは思えない規模の開催となりました。 基調講演が行われた東京ビッグサイト 国際会議場の模様 稿では午前中に行われた基調講演のうち、Hadoop生みの親であるDoug Cutting氏のビデオメッセージの内容を中心にその模様をレポートします。 1000名超えの参加者はHadoop普及の証? 基調講演の冒

    「Hadoopには力強い未来がある」Doug Cutting氏からのメッセージ─Hadoop Conference Japan 2013 Winterレポート(1) | gihyo.jp
  • 「LINE」を支えるHBaseの裏側など、Hadoop Conferenceが開催

    オープンソースソフトウエア(OSS)の分散バッチ処理ソフト「Hadoop」のユーザー会「Hadoop Conference Japan 2013 Winter」が2013年1月21日、東京ビッグサイトで開催された(写真1)。スマートフォン向けコミュニケーションツール「LINE」を運営するNHN Japanの中村俊介氏が、LINEのストレージとして利用する「HBase」の運用ノウハウを語るなど、ユーザー企業やHadoop関連ベンダーによる21セッションが行われた。 Hadoop Conference Japanが開かれるのは、今回が4回目。冒頭のセッションでは、Hadoopのオリジナル開発者であるダグ・カッティング氏(Apacheソフトウエア財団会長)がビデオメッセージを寄せ、今後のHadoopの開発方針などを説明した。 Hadoopは、米グーグルが2000年代前半に論文発表した分散ファイル

    「LINE」を支えるHBaseの裏側など、Hadoop Conferenceが開催
  • HadoopをWindows上の仮想マシンで手軽に試す方法

    Hadoopといえば大規模分散フレームワークであり、実行にはそれなりのサーバ群を揃えなければならない、と思われがち。 しかしHadoopでもっとも有名なディストリビューションを提供するClouderaは、PC上の仮想マシンで手軽にHadoopを実行できる仮想マシンイメージ「Cloudera's Hadoop Demo VM for CDH4」を無償公開しています。 VMware Player、KVM、VirtualBoxなど幅広い仮想マシンに対応。個人のPCを使って、例えばWindowsの上でも簡単にHadoopを試すことができます。 仮想マシンを使ったHadoopの実行手順を詳しく解説

    HadoopをWindows上の仮想マシンで手軽に試す方法
    golden_eggg
    golden_eggg 2012/08/31
    0.19をcygwinで動かすのに四苦八苦してた時代がウソのようだ
  • 第2回NHNテクノロジーカンファレンスでしゃべってきた - たごもりすメモ

    勤務先が主催でNHNテクノロジーカンファレンスという技術者向けイベントをやってるんだけど、その登壇者として社外の誰かから推薦されたらしいので(何故……)、ひとセッションしゃべってきた。なお「HBase at LINE」の発表は「HBaseについて誰かいない?」と主催の伊勢さんに聞かれたのに自分が推薦しました。みんなありがたがるといいよ。 他の人の話も、懇親会でのあれやこれやも大変楽しかった。HBaseなー、火山かー、みたいな。そのうち techblog にまとめエントリが上がるんじゃないでしょうか。それまでこっちでも見ると当日の状況が多少なりわかるかもしれません。 第2回NHNテクノロジーカンファレンス #nhntech まとめ - Togetterまとめ で、自分がしゃべったときのスライドはこちら。(slideshareのembed用タグを埋めてもはてなダイアリーに弾かれてしまう…… 対

    第2回NHNテクノロジーカンファレンスでしゃべってきた - たごもりすメモ
    golden_eggg
    golden_eggg 2012/08/21
    "各サービスの担当エンジニアはあくまでサービスの向上が目的/役割なのであって、彼らの投げるHiveクエリが効率的かどうかなんて正直どうでもいい話だ"
  • ApacheがGoogleのリアルタイムビッグデータツールDremelのオープンソースクローンDrillを

    No need to sugarcoat it, the history of Android tablets is rough. There are some exceptions. Samsung, for one, has managed to carve out a nice market for itself in the space, courtesy of nice hardware ElevenLabs, the viral AI-powered platform for creating synthetic voices, has raised a new round of cash. Today, the startup announced the closure of a $19 million Series A round co-led by entrepreneu

    ApacheがGoogleのリアルタイムビッグデータツールDremelのオープンソースクローンDrillを
  • livedoor Techブログ : 第2回NHNテクノロジーカンファレンス開催!

    (※ 2012.7.27追記 : 講演5を追加しました) NHN技術部会、株式会社データホテルの伊勢幸一です。 おまたせいたしました。 お約束通り、来る8月18日(土)、第2回NHNテクノロジーカンファレンスを開催します! 今回のテーマはこちら! 「H (エッチ)」 もともと当は第2回テーマとして今流行のHTML5大特集を予定していたのですが、前回のカンファレンスでスピーカーをして頂いたGREEの藤さんから、 「LINEで使っているHBaseの話を聞きたい」 という余計な突っ込みというか、プレッシャーを与えられまして、思わず、 「じ ・・・・ 次回に ・・・・」 と言ってしまい(やっべー!次回はHTML5で行く予定だったんだけど)、HTML5とHBaseじゃ全くカテゴリーが違うし関連性も無いのでどうするか、何か共通性が無いか?と、悩んでおりましたところ、 「あれ?両方とも頭文字が「H」

    golden_eggg
    golden_eggg 2012/07/25
    サマソニと被ってるのか...
  • うるう秒の挿入で複数のサイトに障害が発生 (CNET Japan) - Yahoo!ニュース

    インターネットに大混乱を引き起こすには、ほんの1秒あれば十分だ。 グリニッジ標準時(GMT)7月1日午前0時、協定世界時にうるう秒が追加されたことで、複数の人気ウェブサイトやソフトウェアプラットフォームでサイトの混乱が発生したようだ。 国際地球回転及び基準座標系事業(International Earth Rotation and Reference Systems Service)が行うこの時間調整は、原子時計をムラのある地球の自転速度と一致させるために必要だ。1972年に時間調整が導入されて以来、何度となくうるう秒が追加されてきた。 うるう秒が引き起こした障害の影響を受けたサイトには、人気のリンク共有サイトRedditが含まれる。Redditは、Javaで構築されたオープンソースデータベース「Apache Cassandra」に問題が発生したのはうるう秒が原因、とTwitter