タグ

Hadoopに関するbraitomのブックマーク (18)

  • Hadoop is Dead. Long live Hadoop の所感

    数年前から「Hadoopは終わった」と言われることがあります。 厳密なHadoopの定義は Apache Hadoop プロジェクトを指しますが、現在では異なる意味で使われていることも多いです。では、Hadoopは時代と共に消えたソフトウェアなのでしょうか? @shiumachiの「Hadoopの時代は終わった」を正しく理解するの記事は、Hadoopを取り巻く環境の変化について書かれています。データ基盤の歴史に始まり、時代とともに変化し、現代におけるデータ基盤になっているという考察があり必見です。 Hadoop is Dead. Long live Hadoop. Arun C Murthy (Hortonworksの創業者であり、現在ClouderaのCPO)が日公開したブログ、「Hadoop is Dead. Long live Hadoop」では、Hadoopは哲学(”Hadoop

    Hadoop is Dead. Long live Hadoop の所感
    braitom
    braitom 2019/09/13
    ふむ。面白い。“「Hadoop」とは哲学であり、データを管理および分析するための最新のアーキテクチャーへの動きである。”
  • LINE の全社員が必要に応じて担当サービスのデータを分析できる環境の構築 - LINE ENGINEERING

    ! This post is also available in the following languages. 英語, 韓国語 この記事は、 LINE Engineering Blog 「夏休みの自由研究 -Summer Homework-」 の 2 日目の記事です。 LINE Data Labs のデータエンジニアの吉田啓二です。昨年から行っている「 LINE の全社員が必要に応じて担当サービスのデータを分析できる環境を構築・提供する」という取り組みをご紹介します。 LINE Data Labs とは LINE Data Labsは、 LINE の各サービスのデータの収集・処理・集計・分析を専門的に行うことで、データの分析・活用という側面から各サービスの成長を支えることを目的とした部署です。Hadoop クラスタへの各サービスデータの収集、データを集計・可視化する BI/レポーティン

    LINE の全社員が必要に応じて担当サービスのデータを分析できる環境の構築 - LINE ENGINEERING
    braitom
    braitom 2018/08/04
    LINE社の全社向けデータ分析基盤について。Hadoopクラスタで各サービスのデータを収集、ユーザー向けインターフェイスにはApache Zeppelinを参考にWebインターフェイスを独自開発。これはすごい。
  • Amazon EMR で使う Hue

    Hue Meetup 2017-09-20 発表資料 https://connpass.com/event/65052/ Hadoop の 標準WebUI であるHue を、Amazon EMR 上で使用する際の利点/欠点と、欠点を回避して便利に使うための方法を紹介します 補足資料 ・Amazon EMR 上の WebUI群 ( Hue や Zeppelin ) をSSHトンネルなしでブラウザ表示する方法 https://qiita.com/yaiwase/items/907589155d90722533dc ・EMR 4->5 バージョン間で Hue データを移行する https://qiita.com/yaiwase/items/1a2da951e002ce8f612f

    Amazon EMR で使う Hue
    braitom
    braitom 2017/09/21
    EMR上でHueを使うときの利点と欠点について。Hueへの接続方法の工夫やデータのバックアップ方法について書かれている。
  • Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017

    Similar to Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017(20)

    Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
    braitom
    braitom 2017/09/12
    ビックデータ時代のプラットフォームの進化の話、Hadoopの基本的な説明、Kuduの詳細説明と使われ方などがまとめられている。順を追って書かれていて分かりやすい。
  • Cloudera World Tokyo 2016 に参加してきました。 - #garagekidztweetz

    この日(2016-11-08)は以下のリンクのイベント( Cloudera World Tokyo 2016 )に参加してきましたので、そのことについて書こうと思います。 www.clouderaworldtokyo.com Cloudera World Tokyo 2016 の総括(というより個人的感想)。 まずは感想から。 そんなに技術技術ガッツンガッツンなセッションに当たらなかった(おそらくそういうセッションもあったのだとは思いますが)ので、当に個人の感想的なものです。 まずは、月並みではございますが、 Hadoop生誕10周年おめでとうございます!ついにこのプロダクトも一区切りまできましたね。 今回の Cloudera World Tokyo 2016 はまさにHadoop生誕10周年を祝う場でとして大成功なイベントだったのではないでしょうか。黎明期の Hadoop から一貫して

    Cloudera World Tokyo 2016 に参加してきました。 - #garagekidztweetz
    braitom
    braitom 2016/11/12
    “IoT が一般化すると身の回りのあらゆるものからデータが得られるということになるので、データも一般化する。そのデータは AI / 機械学習によって利活用される。その基盤を今後も支えていくのは Hadoop ”
  • http://infra-engineer.com/hadoop/hadoop-conference-japan-2011-fall%E3%81%A7%E4%BD%BF%E7%94%A8%E3%81%95%E3%82%8C%E3%81%9F%E8%B3%87%E6%96%99%E3%82%84%E3%81%A4%E3%81%B6%E3%82%84%E3%81%8D-hcj11f/

  • Hadoop Conference Japan 2011 参加メモ - 科学と非科学の迷宮

    私の記事は個人的なメモで、間違った部分も多いため関連リンクを併読することをおすすめします。 特に今回は twitter と並行して読み書きしてたので、結構書き漏れてる箇所多いです。 網羅性とか正確性は期待しないように。 概要 イベント名 Hadoop Conference Japan 2011 URL http://hadoop-conference-japan-2011.eventbrite.com/ 日時 2011/02/22 11:15 - 18:00 場所 NTTデータ社ビル内 カンファレンスルーム 関連リンク twitterハッシュタグ #hcj2011 Ust http://www.ustream.tv/channel/hugjp http://www.ustream.tv/channel/sonwupao-live Togetter http://togetter.com/

    Hadoop Conference Japan 2011 参加メモ - 科学と非科学の迷宮
  • More preview enhancements for Windows Azure AD Premium - Active Directory Blog - Site Home - TechNet Blogs

    In Visual Studio 2022 17.10 Preview 2, we’ve introduced some UX updates and usability improvements to the Connection Manager. With these updates we provide a more seamless experience when connecting to remote systems and/or debugging failed connections. Please install the latest Preview to try it out. Read on to learn what the Connection ...

    More preview enhancements for Windows Azure AD Premium - Active Directory Blog - Site Home - TechNet Blogs
  • IBM Developer

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    IBM Developer
  • ヤフーを変え始めたHadoop

    ヤフーが日独自の検索関連サービスの開発で、オープンソースの分散処理ソフトである「Hadoop」の活用を進めている。Hadoopを使うことで、従来は6時間以上かかった処理がわずか5分半で済むようになった例もある。2009年秋には組織を整備し、適用範囲を全社に広げている。 Hadoopは、米グーグルが開発した分散処理ソフト「Google File System(GFS)」と「MapReduce」を模したオープンソースソフトである(図)。GFSとMapReduceは、グーグルのクラウドを支える基盤技術。Hadoopを使うと、複数台の安価なPCサーバーを連携させ、数十テラ~数ペタバイトに及ぶデ ータを高速に処理できる。 Hadoopを日国内で最も積極的に利用している企業はヤフーだ。2008年ごろから部署単位でHadoopの導入を進め、Hadoopを使う事例が10件を超えるようになった(表)。

    ヤフーを変え始めたHadoop
  • Hadoop を使うべき場合・使うべきでない場合 - 武蔵野日記

    id:ny23 さんが動的ダブル配列を使って Wikipedia のテキスト処理を高速化なんてのを書いている。たぶんこれのエントリを見る前にMapReduce と四身の拳を見た方がコンテクストが分かると思う。Hadoop 使ってなんでもできそう! Hadoop の勉強したい!なんて思っている人は読んでみるとよい。 自分の考えについて書いておくと、自分は誰も彼も Hadoop 使いたがる状況には辟易している。ほとんどの人には不要なはずだし、そもそも Hadoop は(ny23 さんも書かれているが)メモリに乗り切らない大規模データを扱いたいときに効力を発揮するのであって、メモリに乗り切るくらいのサイズであれば、データ構造を工夫したり適切なアルゴリズムを選択した方が遥かによい(id:tsubosaka さんも実験されていたが)。たとえデータが大規模であったとしても、たとえば形態素解析なんかのタ

    Hadoop を使うべき場合・使うべきでない場合 - 武蔵野日記
  • 大量データのバッチ処理を高速化するHadoop

    Hadoopというソフトウエアが、いま注目を集めています。米Googleが発表した論文のアイディアをオープンソース・モデルで実装したソフトウエアです。膨大な量のデータを処理する必要に迫られた企業や研究組織が、続々とHadoopを実際に活用しはじめています。 私たちの研究グループでは、Wikipediaなどの巨大なテキスト・データを解析するために、2007年頃からHadoopを利用しはじめましたが、日国内でも2009年あたりからHadoopを使った事例を多く見聞きするようになりました。国内で初めてのHadoop関連イベントが2009年11月に東京で開催され、オライリー・ジャパンから2010年1月にHadoopの邦訳が出版されるなど、Hadoopが多くの開発者の注目を浴びています。 しかしながら、「Hadoopは何となくすごそうなんだけど、複雑だし、どんなソフトなのかいまいち分からないんだ

  • Hadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記

    今月中に実験の実装が終わるくらいでないと来月の投稿〆切に間に合わないので、今週から研究室のサーバに Hadoop をインストールしている。 研究室にはサーバが20台弱あるのだが、そのうち10台強を使うことにして設定。これくらいの規模だと「大規模」と言うのは憚られるかもしれないが(Yahoo!Google と比べて、という意味で。)、中規模、くらいには言ってもいいだろうし、たぶん、多くの大学や企業で使える台数もこれくらいだと思うし、大企業にいないとできない研究をするのも大変価値があるが、他の人たちがやる気になれば真似できる研究をするのも(データやインフラ勝負ではなくアイデア勝負になるので苦しくはあるのだが)重要だと考えている。 たとえば、数台でも分散環境の恩恵が受けられる、というのはPFI が出した Hadoop の解析資料で知っていたので、初めて導入したときは参考になったし、こういう

    Hadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記
  • http://agilecatcloud.com/2010/05/04/microsoft-readying-hadoop-for-windows-azure-%E3%81%AE%E5%AF%BE%E8%A8%B3-cloud-cloudcomputing-azure-hadoop/

  • Hadoopリンクまとめ(1) - 科学と非科学の迷宮

    Part1 / Part2 更新履歴 2010/06/20 リンク追加 入門、事例紹介、ニュース Part2へ移動 EC2、Pig、MapReduce、HDFS 新規追加 性能測定 公式 Welcome to Apache Hadoop! 日語訳 Hadoopユーザー会 Welcome to Hadoop MapReduce! "大規模な計算ノード・クラスタ上において膨大なデータを高速で並列処理するアプリケーションを作成するためのプログラミングモデルおよびソフトウェアフレームワーク" Welcome to Pig! "大規模なデータセットを分析するためのプラットフォーム""Pig の言語レイヤを構成しているのは、Pig Latin と呼ばれるテキストベースの言語" wikipedia Apache Hadoop - Wikipedia, the free encyclopedia Apa

    Hadoopリンクまとめ(1) - 科学と非科学の迷宮
  • 僕が Amazon Elastic MapReduce を使わない3つの理由 - (゚∀゚)o彡 sasata299's blog

    2010年04月20日22:46 Hadoop 僕が Amazon Elastic MapReduce を使わない3つの理由 【追記】 この内容は古いです。最近はEMRを利用してます。つ 961万人の卓を支えるデータ解析 僕は日頃から Hadoop さんを使って(あと EC2 と S3 も使ってます!)色々ごにょごにょすることが多いんですが、EC2 上で Ruby でスクリプト書いて使ってるよーと言うとよく言われるのが、 「何で Amazon Elastic MapReduce 使わないの?」 という質問です。今までこれに個別に答えてたりしたんですが、めんどくさいので一度ここにまとめておきます。以前、Elastic MapReduce を実際に試してみたんですが、そのとき感じたメリット・デメリットはこんな感じです。今はそうじゃないよ!とかあったらごめんなさい>< ★ メリット ・Hado

  • KOF2009「ウェブサービスのパフォーマンスとスケーラビリティ」 - stanaka's blog

    KOF2009にて、「ウェブサービスのパフォーマンスとスケーラビリティ」と題して発表してきました。発表資料を以下に置いておきます。 Performance and Scalability of Web ServiceView more presentations from Shinji Tanaka. 概要は、「ウェブサービスのパフォーマンスを向上させスケーラビリティを高めるために、はてなでは様々な取組みを行っています。セッションでは、はてなで採用している具体的な技術、ノウハウ、可視化手法と、それらの効果について紹介します。」というものです。 最近の、Interopやカーネル読書会あたりで話した内容をまとめつつ、レスポンスタイムの可視化という最近の取り組みについて話しました。 最近、レスポンスタイムについては、以下のようなグラフを使っています。 x軸がレスポンス時間、y軸がその時間内に収

    KOF2009「ウェブサービスのパフォーマンスとスケーラビリティ」 - stanaka's blog
  • 優良企業はなぜHadoopに走るのか

    ちなみに、この分析のために必要とされるMapReduceのコードであるが、そのサイズはわずか20ステップだという。Yahoo!のプレゼンテーターである、エリック・バルデシュバイラー氏によると、たとえ経験の浅いエンジニアであっても、MapReduceによるプログラミングは可能であるとされる。 また、VISAのジョー・カニンガム氏からも、貴重なデータが提供されていたので以下に紹介する。同社では、1日に1億トランザクションが発生するため、2年間で700億強のトランザクションログが蓄積され、そのデータ量は36テラバイトに至るという。こうしたスケールのデータを、従来のRDBを用いて分析するには、約1カ月の時間が必要とされてきたが、Hadoopを用いることで13分に短縮されたという。 これまでは、Yahoo!にしろVISAにしろ、膨大なデータをRDBに押し込むほかに方法はなく、その分析に数十日を要する

    優良企業はなぜHadoopに走るのか
  • 1