タグ

Hadoopに関するs-fengのブックマーク (24)

  • SIOS Tech. Lab - エンジニアのためになる技術トピックス

    今回は、Pythonの標準インストールされている『Tkinter』の配置に関する実践的Tipsを書き留めています。Classで作成したフレームをキー入力によって切り替える方法について書いています。Classで定義したもの […]

    SIOS Tech. Lab - エンジニアのためになる技術トピックス
  • Distributed TensorFlowの話 - Qiita

    Hadoop Conference Japan 2016 もともとは2月8日に開催されるHadoop Conference Japan 2016のセッションとしてこの話を応募したのですが、あえなく落選しました……(;_;) しかし、ありがたいことに復活戦のLightning Talkの投票では5位に選んでいただき、ランチタイムA会場でお話することになりました。ありがとうございます! 今回のスライドはここで公開しています。 とはいえ、5分のLTではこの内容をしっかりと伝えられる自信がないので、以下でスライド内容の詳しい解説をしたいと思います。また、2/13にGoogle東京オフィスで開かれるRejected HCJ 2016では、以下の内容をゆっくり普通のセッションとして発表する予定ですので、ご興味ある方はぜひどうぞ。 引用元 今回の元ネタはこちら。より詳しく知りたい方はこちらをごらんくださ

    Distributed TensorFlowの話 - Qiita
  • リクルートにおける画像解析事例紹介

    2015/11/20 NTTデータ数理システム主催のユーザカンファレンスと、2015/11/25 WebDBフォーラム2015 技術報告セッションでの、白井の講演資料になります

    リクルートにおける画像解析事例紹介
  • 『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011

    『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011 2011/02/22 [登壇後エントリ] :" 「モバゲーの大規模データマイニング基盤におけるHadoop活用」-Hadoop Conference Japan 2011 #hcj2011 で登壇してきました " http://d.hatena.ne.jp/hamadakoichi/20110222/p1

    『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011
    s-feng
    s-feng 2015/11/27
    濱田晃一氏
  • Facebook、分散SQLエンジン「Presto」公開。大規模データをMapReduce/Hiveの10倍効率よく処理すると

    Facebookは、数ペタバイト級の大規模データに対しても、対話的にアドホックな問い合わせを可能にする分散SQLエンジン「Presto」を、オープンソースで公開しました。 PrestoはFacebook社内で大規模データの分析のために開発され、すでに同社社内使われているもの。 FacebookはPrestoを開発した背景として、大量のデータをHadoop/HDFSベースで保存したものの、バッチ指向のMapReduceではなく、リアルタイム性に優れた処理が必要になったためだと、次のように説明しています。 Facebook’s warehouse data is stored in a few large Hadoop/HDFS-based clusters. Hadoop MapReduce [2] and Hive are designed for large-scale, reliabl

    Facebook、分散SQLエンジン「Presto」公開。大規模データをMapReduce/Hiveの10倍効率よく処理すると
  • “シリコンバレーの技術者集団”ではトレジャーデータを見誤る (1/5)

    シリコンバレーの日人ベンチャーとして注目度の高いトレジャーデータのCTOである太田一樹氏とのインタビューが実現した。CEO芳川裕誠氏の家のベランダと熱海の温泉で始まった会社の起業物語やサービスのポイントなどを聞いた1時間のインタビューをほぼ加工なしで掲載する。 Hadoopのポテンシャルを感じ始めたときに声をかけてもらった TECH.ASCII.jp 大谷(以下、TECH 大谷):太田さんというと、Hadoopの人というイメージがありますが、そもそものバックグラウンドを教えてください。 トレジャーデータ 太田氏(以下、TD 太田):はい。もともと私のバックグラウンドはHPC(High Performance Computing)のエリアで、19歳くらいからあまり学校にも行かず(笑)、プリファードインフラストラクチャという会社のCTOをやらせていただきました。あと、米オレゴンの国立研究所で

    “シリコンバレーの技術者集団”ではトレジャーデータを見誤る (1/5)
    s-feng
    s-feng 2013/07/03
    トレジャーデータ 太田CTO のインタビュー記事。データのクラウドインフラの今後という意味でも、シリコンバレーで起業したときの話についても、とても面白い。
  • Treasure Data - naoyaのはてなダイアリー

    少し前にログの話を書いた http://d.hatena.ne.jp/naoya/20130219/1361262854 ときに、Treasure Data については後日にもう少し詳細に書くと言ったので書くとしよう。 近頃 Treasure Data (以下、時折 TD) という名前をちらほら聞いたことがある人は多いのではないかと思います。「ビッグデータのクラウドサービスである」とか「日人が創業したシリコンバレーのベンチャー」、あるいは Yahoo! 創業者の Jerry Yang が投資したとか、Fluentd と何か関係があるといった文脈などなど。 けど、具体的に Treasure Data がどういうサービスで、どういう機能を持っていて、どんな場面で利用されるものなのかはまだあまり良く知られていないかもしれない・・・ようにも見える。今日はその辺から少し紹介していこうかなと思う。

    Treasure Data - naoyaのはてなダイアリー
  • 来年のHadoop - 急がば回れ、選ぶなら近道

    Hadoopアドベント・カレンダーの多分最終日のはず。 せっかくなんで、来年の予想でもしてみようかと。 日の話です。世界のことはよくわかりません。当のことは、日には伝わらない(表向きの話はともかく、現状ではVCあたりの外野の方が発言力があると思うし、向こうでも、その辺の正確な情報は伝播してる気がしません)と思うので。とはいえ、日のHadoopマーケットは、それなりわかっている(というか、わかっていないとまずい)感じみたいなので・・・勝手に、来年のHadoopとか予想します。外れたら焼き肉おごります。 1 大量データ処理でのデファクト化 ・いわゆるWeb系ではつかっていないところは一社もなくなる 特にレコメンデーションエンジンあたりは、もう普通に実装して使う。ただし、それ以上のものは出ない。集計処理と推論をうまく利用したレコメンデーションエンジン(とその亜流)、従来からのフィルタリン

    来年のHadoop - 急がば回れ、選ぶなら近道
  • Hadoop Streaming - naoyaのはてなダイアリー

    id:naoya:20080511:1210506301 のエントリのコメント欄で kzk さんに教えていただいた Hadoop Streaming を試しています。 Hadoop はオープンソースの MapReduce + 分散ファイルシステムです。Java で作られています。Yahoo! Inc のバックエンドや、Facebook、Amazon.com などでも利用されているとのことです。詳しくは http://codezine.jp/a/article/aid/2448.aspx (kzk さんによる連載記事)を参照してください。 Hadoop Streaming 記事にもあります通り、Hadoop 拡張の Hadoop Streaming を使うと標準入出力を介するプログラムを記述するだけで、Hadoop による MapReduce を利用することができます。つまり、Java 以外

    Hadoop Streaming - naoyaのはてなダイアリー
  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
  • MapReduce以外の分散処理基盤BSP, Piccolo, Sparkの紹介 - Preferred Networks Research & Development

    どうも,実は今年から開発チームにjoinしていた中川です.可愛い犬の写真がなかったので,可愛いマスコットの画像を貼っておきます. 最近MapReduceとかその実装であるHadoopとかをよく聞くようになりました.これはつまり,それだけ大量のデータをなんとか処理したいという要望があるからだと思います.しかし当たり前ですが,MapReduceは銀の弾丸ではありません. ということで,最近気になっているMapReduceとは違ったアプローチを取っている分散処理基盤について,社内のTechTalkで話した内容を簡単にまとめて紹介したいと思います. Bulk Sychronous Parallel このアルゴリズム自体は1990年に誕生したものです.長いのでBSPと書きます.さて,グラフから最短経路を求める時,MapReduceは使えるでしょうか?このような論文が出るくらいですから出来ないことはあ

    MapReduce以外の分散処理基盤BSP, Piccolo, Sparkの紹介 - Preferred Networks Research & Development
  • FacebookやTwitterのつぶやきを分析した先には何があるのか?~ビッグデータ活用が目指すもの

    『クラウドの次は何がくるんでしょうか』。ここ2~3年、クラウド・コンピューティングを専門に調査活動を行ってきた城田氏が、メディアからの取材などで頻繁に受けた質問だという。その回答を模索してきた城田氏が最近になって見出したのが『ビッグデータ』というテーマだ。米国では、ビッグデータをテーマにしたカンファレンスが開催されるなど、注目を集めており、日でも徐々に認知度が向上している。「クラウドの次にくるのはビッグデータではないか」(城田氏)。 まずは、ビッグデータの定義を確認しておこう。城田氏はビッグデータを「既存の技術では管理できないほどにボリュームが増え、複雑化したデータ」と規定する。現時点では、数十TBから数PB程度を指すことが多いが、企業によって管理できるデータの量は違うし、データの種類や性質によっても管理にかかるコストは異なる。当然、テクノロジーの進歩によってもビッグデータを定義するしき

    FacebookやTwitterのつぶやきを分析した先には何があるのか?~ビッグデータ活用が目指すもの
    s-feng
    s-feng 2011/05/31
    ビッグ&非構造化データが次に来るという話。簡単な事例もあり。
  • Amazon.co.jp: Hadoop徹底入門: 太田一樹 (著), 下垣徹 (著), 山下真一 (著), 猿田浩輔 (著), 藤井達朗 (著), 濱野賢一朗 (監修): 本

    Amazon.co.jp: Hadoop徹底入門: 太田一樹 (著), 下垣徹 (著), 山下真一 (著), 猿田浩輔 (著), 藤井達朗 (著), 濱野賢一朗 (監修): 本
  • ビッグデータの利用で得られる効能とは?

    論点は3つに大別される。すなわち、「a.どのようなデータソースをもとにビッグデータをつくるか」「b.どのような処理や機能によってビッグデータを利用するか」「c.ビッグデータの利用からどんな効能を得ることができるか」の3点である。 まず、「a.どのようなデータソースをもとにビッグデータをつくるか」としては、各種のセンサ技術由来データ、「オープン」を標榜するウェブサービスが提示するAPIを介して利用可能な各種データ、自らウェブサイトを運営しているのであれば当該サイトを訪問する利用者のログデータなどが相当する。 このような機械的なデータに加え、営業マンが顧客管理データベースに手入力する内容などもデータソースとなるし、公的機関が公開している大量の統計データなども当然にしてデータソースの一種と言えるだろう。 次に「b.どのような処理や機能によってビッグデータを利用するか」において関連商材・サービスの

    ビッグデータの利用で得られる効能とは?
    s-feng
    s-feng 2011/04/12
    ストック型/フロー型 x 系全体へのFB/個別へのFB でデータの活かし方を整理している。
  • hadoopの話とpythonでデータマイニングをする話 - gumi Engineer’s Blog

    gumiの粟飯原です。 データマイニングやってます。しかしながら最近はあまりデータをいじる時間がなく社内でプレゼンばかりする日々で、社内でも私がなにやってるのかわからないというもっぱらの評判。そこで今回は一応データ解析もやってはいるんだよということを内外に主張するためにもデータマイニングの話をしようと思います。 アプリの基的な日々の統計データ取得などは別の方々はやられているので、私からはhadoopを使った大規模解析の話や、そこで得られたデータを分析する環境の話をしたいと思います。コードを併記した具体例などは今回載せられないのですが、今後また紹介していければと思います。 大規模データの解析 日々のログ解析やDB解析はcronによる処理で毎朝レポーティングを行っているのですが、新しい情報を過去のアクセスログからまとめてどかんと取得したいと言う時はHadoopによる大規模解析を実行しています

    hadoopの話とpythonでデータマイニングをする話 - gumi Engineer’s Blog
  • Googleの並列ログ解析向け言語「Sawzall」が公開されたので使ってみた | Preferred Research Blog

    Rapidly Realizing Practical Applications of Cutting-edge Technologies

    Googleの並列ログ解析向け言語「Sawzall」が公開されたので使ってみた | Preferred Research Blog
  • リッテル、スカイアーチネットワークス 新サービス「Hadoopデータセンター」(仮)で業務提携

    TOP > プレスリリース一覧 > 「その他IT・インターネット (企業向け)」のプレスリリース > リッテル、スカイアーチネットワークス 新サービス「Hadoopデータセンター」(仮... リッテル、スカイアーチネットワークス 新サービス「Hadoopデータセンター」(仮)で業務提携 ~東京大学産学連携の技術。 ベンチャーが、企業の肥大化するデータに光をあてる~ 東京大学との産学連携企業で情報検索技術を提供する株式会社リッテル(社:東京都文京区郷、代表取締役社長:和田 憲治、以下 リッテル)と、ITアウトソーシングを提供する株式会社スカイアーチネットワークス(社:東京都港区南麻布、代表取締役社長:江戸 達博、以下 スカイアーチ)は、10月21日(木)、「Hadoopデータセンター」(仮)サービスにおいて業務提携を発表しました。 ITシステムの浸透により、企業では年々肥大化するデータ

    リッテル、スカイアーチネットワークス 新サービス「Hadoopデータセンター」(仮)で業務提携
    s-feng
    s-feng 2010/10/21
    >>「Hadoopデータセンター」(仮)は、大規模データの処理環境を、クラウドで安価に、従量課金で提供するサービス。
  • NTTデータがHadoopビジネスを拡大、米クラウデラと提携

    NTTデータは、オープンソースの分散バッチ処理ソフト「Hadoop」専業のベンチャー企業である米クラウデラと提携し、クラウデラの開発するHadoop関連製品を、日を含むアジア太平洋地域で販売する。2010年10月12日(米国時間)に米国ニューヨークで開催される「Hadoop World 2010」で、NTTデータの山田伸一常務が発表する。両社は共同で、Hadoopのサポートや研修サービスなども展開する。 Hadoopは、分散処理システムを構築するためのミドルウエア。グーグルがWeb検索エンジンのインデックスを作成するために独自開発した分散バッチ処理ソフト「MapReduce」と、分散ファイルシステムの「Google File System(GFS)」を基にして作られた。プログラマはHadoopを使うことで、データをノードに分散したり集約したりするネットワーク処理機構を、独自に開発する必要

    NTTデータがHadoopビジネスを拡大、米クラウデラと提携
  • NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

    業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という

    NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
    s-feng
    s-feng 2010/09/29
    Hadoop関連文書
  • Hadoopに入門してみた - セットアップからHadoop Streaming まで - - download_takeshi’s diary

    大規模データを処理する必要が出て来たので、Hadoopを導入してみることになりました。 以下、導入メモです。 セットアップ 以下のような構成で試してみます。環境はCentOSです。 マスター(host001) ━┳ スレーブ(host002) ┣ スレーブ(host003) ┣ スレーブ(host004) ┗ スレーブ(host005) まずは各マシンにJavaをインストール。JDK1.6を落として来てrpmでインストールするか、yum install java-1.6.0*などとたたけばOKです。(rpmでインストールする場合は http://java.sun.com/javase/ja/6/download.html から jdk-6u18-linux-i586-rpm.binをダウンロードして、実行権限を与えてルートで実行すればインストールできます。) 続いてマスターノードにHado

    Hadoopに入門してみた - セットアップからHadoop Streaming まで - - download_takeshi’s diary