タグ

Hadoopに関するgologo13のブックマーク (71)

  • HadoopとS3 - Qiita

    Distributed computing (Apache Hadoop, Spark, ...) Advent Calendar 2016の12/25分です。もともとYARNのApplication Timeline Server v2について書こうと思っていたのですが、気が変わってHadoopとS3の関係性について書いていこうと思います。もし期待していた方がいらっしゃったらごめんなさい。(ATSについては機会があればまた書きたいと思います。) 背景 S3について書こうとおもったのは、下記のような仕組みを作っている中でいろいろ思うところがあったからです。 システムがS3に吐き出す様々なログ、データやメトリクスをZepplinで可視化するための仕組みです。永続化したいデータはS3にしか置かず、SparkやZeppelinなどのコンポーネントはステートレスかつ拡張、もしくは別の計算フレームワ

    HadoopとS3 - Qiita
  • 「RedshiftはHadoopキラーになる」、FlyDataの藤川氏に聞く

    藤川幸一氏がシリコンバレーで起業した米フライデータ(FlyData)は、様々なデータソースから米アマゾン・ウェブ・サービス(AWS)のデータウエアハウス(DWH)サービス「Amazon Redshift」にデータを転送するというサービス「FlyData」を提供する。藤川氏はAWSのRedshiftが「Hadoopキラーになりつつある」との見方を示す。 フライデータのビジネスの現状はどうか? 当社はもともとハピルス(Hapyrus)という社名で、「Hadoop」のPaaS(プラットフォーム・アズ・ア・サービス)を提供することを目指して起業した。しかしHadoopのPaaSが増えてきたことを考え、現在の「FlyData」の事業にピボット(事業転換)し、社名もFlyDataへと変更した。 事業を転換したもう一つの理由が、AWSが2013年初めにRedshiftを開始したことだ。Redshiftを

    「RedshiftはHadoopキラーになる」、FlyDataの藤川氏に聞く
    gologo13
    gologo13 2016/08/04
    redshiftは1TB~数TBあるようなデータ分析用途に適している。数TBデータを処理するDWHを構築しようと思ったら、数百万~数千万円の予算が必要だった。それがRedshiftであれば数ドル/1Hといった従量制で利用可
  • 転職してから4年が経ちました - 科学と非科学の迷宮

    といっても4月1日の話なのでもう一ヶ月以上も前になるのですが、色々と忙しくて後回しにしてました。 ブログで転職報告してから4年の間、どういう仕事をしてきたのか書いてないことに気づいたので、せっかくなのでちょっとまとめてみようと思います。 1年目(2011年) 「朝、ベッドから起きると、そこが職場になっていた」 この感覚は今でも忘れません。オフィスも同僚もいなかった私は、在宅勤務という形で Cloudera での仕事を始めました。1Kの小さいマンションに住んでいたため他の作業部屋がなく、自分のベッドの横の机がそのまま仕事場になりました。 サポートエンジニア(今は COE = カスタマー・オペレーション・エンジニアという名前になっている)として今の会社での仕事を始めたのですが、肩書き通りの仕事だけをしていればいいなんていうことは当然あるわけもなく、日にいる唯一のエンジニアとして何でも仕事をこ

    転職してから4年が経ちました - 科学と非科学の迷宮
  • リクルートライフスタイルの考える�ストリームデータの活かし方(Hadoop Spark Conference2016)

    リクルートライフスタイルの考える�ストリームデータの活かし方 ~AWS + Kafka + Spark Streaming~

    リクルートライフスタイルの考える�ストリームデータの活かし方(Hadoop Spark Conference2016)
  • Yahoo! JapanのHadoopクラスタは6000ノードで120PB。指数関数的に増大するデータ需要を技術で解決していく。Hadoop Spark Conference Japan 2016

    Yahoo! JapanのHadoopクラスタは6000ノードで120PB。指数関数的に増大するデータ需要を技術で解決していく。Hadoop Spark Conference Japan 2016 日を代表する規模のビッグデータ処理基盤を持つ企業の1つがYahoo! Japan(以下Yahoo!)です。 同社は2月8日に開催された「Hadooop Spark Conference Japan 2016」において、現在運用中のビッグデータ処理基盤の規模、そして同社が抱えている課題と、それをどう解決していくのかを基調講演の中で示しました。 同社が示した解決方法は、Hadoopなどのビッグデータ処理基盤を使い倒す側から、作る側へ向かうという大胆なものです。同社の貢献はオープンソースとなり、今後さらに多くの課題解決に役立つことになりそうです。 同社データインフラ部 遠藤禎士(えんどうただし)氏

    Yahoo! JapanのHadoopクラスタは6000ノードで120PB。指数関数的に増大するデータ需要を技術で解決していく。Hadoop Spark Conference Japan 2016
  • リクルート全社検索基盤のアーキテクチャ、採用技術、開発体制はどうなっているのか

    リクルート全社検索基盤のアーキテクチャ、採用技術、開発体制はどうなっているのか:Elasticsearch+Hadoopベースの大規模検索基盤大解剖(1)(1/2 ページ) リクルートの事例を基に、大規模BtoCサービスに求められる検索基盤はどう構築されるものなのか、どんな技術が採用されているのか、運用はどうなっているのかなどについて解説する連載。初回は全体的なアーキテクチャ、採用技術、開発体制について。 連載目次 大規模BtoCサービスで求められる検索基盤は、どうあるべきなのか カスタマー(消費者)が求めるものが日々変わっていく現在において、BtoCの検索基盤はどうあるべきなのでしょうか。 例えば、リクルートで使われている検索基盤の「Qass(Query analyze search system)」は単に全文検索機能を提供するのではなく、以下を軸としています。 サービスごとに最適化され

    リクルート全社検索基盤のアーキテクチャ、採用技術、開発体制はどうなっているのか
  • Yahoo! JapanのHadoopは6000台、今後はOSS開発にも貢献

    Yahoo! JapanのHadoopは6000台、今後はOSS開発にも貢献 ヤフー データソリューション部 小間基裕部長 など 世界最大の「Hadoop」クラスターを運用している企業と言えば、Hadoopの開発を始めた米ヤフーである。同社は2014年6月の「Hadoop Summit 2014」で、3万2000台のHadoopクラスターを運用していることを明らかにした。では日で最大級のHadoopクラスターを運用しているのは誰か。それもやはり、ヤフー(Yahoo! JAPAN)だ。 Yahoo! JAPANが運用するHadoopクラスターの規模は6000台で、同社のビッグデータ専門組織であるデータソリューション部には、220人のエンジニアやデータサイエンティストが集結する。同社データソリューション部の小間基裕部長、同部の岡慎一郎プロジェクトマネージャー、システム統括部の

    Yahoo! JapanのHadoopは6000台、今後はOSS開発にも貢献
  • Yahoo! JAPAN Selects Apache Hadoop Leader Hortonworks for their Enterprise

    SANTA CLARA, Calif., March 4, 2015 /PRNewswire/ -- Hortonworks® (NASDAQ: HDP), the leading contributor to and provider of Apache™ Hadoop®, today announced it has expanded its customer base in Asia with the addition of Yahoo! JAPAN, a leading digital property focused on making the world's daily habits inspiring and entertaining. Yahoo! JAPAN will launch a comprehensive data platform based on the Ho

  • DMM inside

    アニメ初の快挙!海外アニメ賞を受賞した『スキップとローファー海外ライセンス部長&プロデューサーが語る、奮闘の舞台裏

    DMM inside
    gologo13
    gologo13 2015/02/23
    GoogleBigQueryはコスパが良くて、SQLから操作できて学習コストが少ないので、総合的に良さそう
  • 日本企業から初のApache Hadoopのコミッタ(主要開発者)就任

    電信電話株式会社(東京都千代田区、代表取締役社長:鵜浦 博夫、以下:NTT)および株式会社NTTデータ(社:東京都江東区、代表取締役社長:岩 敏男、以下:NTTデータ)から、大規模データを対象とした並列分散処理を実現するオープンソースソフトウェアApache Hadoop(以下:Hadoop)およびその関連のプロジェクトのコミッタに、2014年12月18日、小沢 健史(NTTソフトウェアイノベーションセンタ)、鯵坂 明、岩崎 正剛(NTTデータ 基盤システム事業部)の3名が就任することになりました。 コミッタとは、Hadoopの開発やメンテナンスにおいて、プログラムを書き換える権限(コミット権)を持つ主要開発者のことで、現在、Hadoopの開発に関与している全世界で約3,000名のうち、コミッタはごく一部[約100名(2014年12月)]に限られています。Hadoopにおいては、

  • 「ZooKeeperによる分散システム管理」を読もう、という話 - たごもりすメモ

    Zookeeperは現代の分散システムに不可欠なミドルウェアで、メタデータの管理、更新通知、リーダー選出といった問題を解決する。自分でZookeeper APIを叩く人は少ないかもしれないが、今やHadoop Namenode HA*1もYARN ResourceManager HAもHBaseもZookeeperを要求する。とにかく使う必要がある、という人は今や多いのではないだろうか。 こういったソフトウェアが何故必要なのか、どういった役割を持つのかについて、明快な回答を返せる人はあまり多くないのではないだろうか。Zookeeperは必要性を喧伝され、あちこちで使われ、しかしいまだに、何台で動かす必要があるのか、どのように運用されなければならないのか、ということをまとめて学べる資料などは多くない。 ということで、このを読もう。 「2.2.1 Zookeeperのクォラム」。個人的には、

    「ZooKeeperによる分散システム管理」を読もう、という話 - たごもりすメモ
  • Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita

    「BigQueryは120億行を5秒でフルスキャン可能」は当か? 先日、kaheiさんがGoogle BigQuery(Googleクラウドの大規模クエリサービス)について、こんなエントリを書いていた。 とにかくパフォーマンスがすごい。(Fluentd Meetupでの)プレゼン中のデモで、ディスクに収められた5億件のデータをSQLでフルスキャンするのに3秒しかかからない。9億件のデータを正規表現を含んだSQLでスキャンしても、7秒で終わる(これ、記憶がちょっとあいまい。もう少しかかったかも)。これには驚いた。佐藤さんがGoogleに入社して一番驚いた技術が、一般公開される前のBigQueryだったと言っていたが、その気持ちはわかる。 From Fluentd Meetupに行ってきました これを読んだ時、BigQueryの検索スピードについてちょっと補足したくなった。確かにFluent

    Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita
  • Treasure Data - naoyaのはてなダイアリー

    少し前にログの話を書いた http://d.hatena.ne.jp/naoya/20130219/1361262854 ときに、Treasure Data については後日にもう少し詳細に書くと言ったので書くとしよう。 近頃 Treasure Data (以下、時折 TD) という名前をちらほら聞いたことがある人は多いのではないかと思います。「ビッグデータのクラウドサービスである」とか「日人が創業したシリコンバレーのベンチャー」、あるいは Yahoo! 創業者の Jerry Yang が投資したとか、Fluentd と何か関係があるといった文脈などなど。 けど、具体的に Treasure Data がどういうサービスで、どういう機能を持っていて、どんな場面で利用されるものなのかはまだあまり良く知られていないかもしれない・・・ようにも見える。今日はその辺から少し紹介していこうかなと思う。

    Treasure Data - naoyaのはてなダイアリー
  • あのジェリー・ヤンも出資! 話題のベンチャーTreasure Dataがめざすのは"ビッグデータをシンプルに"─Hadoop Conference Japan 2013 Winterレポート(3) | gihyo.jp

    シリコンバレーの投資家からも一目置かれるTreasure Dataの成長を支えているその技術力と経営理念について、Treasure DataのCTOである太田一樹氏が基調講演で語ったその内容をレポートします。 Feature Creepではなく“ナタ”を作る 太田氏をはじめとするTreasure Dataの創業メンバーはいずれもHadoopやmemcached、MongoDBなど、現在のビッグデータブームを支えるオープンソース技術の開発に学生時代から関わっていました。これらのオープンソースプロダクト、とくにHadoopに触れる経験が長かったことが、Treasure Data設立の大きなきっかけになっています。 「Hadoopの登場はこれまで使いづらいだけの存在だった分散システムの世界を大きく変えた。一方で、ユーザ企業がHadoopをデプロイし、運用をはじめても、結局はメンテナンスが大変にな

    あのジェリー・ヤンも出資! 話題のベンチャーTreasure Dataがめざすのは"ビッグデータをシンプルに"─Hadoop Conference Japan 2013 Winterレポート(3) | gihyo.jp
    gologo13
    gologo13 2013/02/01
    これはすごい
  • Corona、FacebookにおけるHadoopのスケーラビリティを改善する

    Rustが再評価される:エコシステムの現状と落とし穴 In this article, we share findings and insights about the Rust community and ecosystem and elaborate on the peculiarities and pitfalls of starting new projects with Rust or migrating to Rust from othe...

    Corona、FacebookにおけるHadoopのスケーラビリティを改善する
  • Mahout の開発環境を Maven+Eclipse で作る (1) - 木曜不足

    Mahout in Action 買ったんだけど、開発環境の作り方についてはほとんど何も書いてない。いや、それも大事なことだと思うぞ。 というわけで、Mahout 用の開発環境をちょっとまじめに作ってみた。 とりあえず今回は Mahout in Action のサンプルコードを Eclipse 上で動かすところまで。 いろいろインストール 必要なものをインストール。今回入れたのはこんな感じ。それぞれの入れ方は略。まあ JAVA_HOME を設定して、パスを通すぐらい。 OS が Windows 2008 x64 なので、Java と Eclipse は x64 版を入れている。 Cygwin Java SDK 6u23 x64 Eclipse 3.6(helios) SR1 x64 Maven 3.0.2 (Hadoop 0.21.0 0.20.2) Cygwin は Mahout が D

    Mahout の開発環境を Maven+Eclipse で作る (1) - 木曜不足
  • Mahout の開発環境を Maven+Eclipse で作る (2) Hadoop セットアップ - 木曜不足

    Mahout はやっぱり Hadoop の上で使ってこそでしょ。というわけで開発用にも Hadoop をセットアップしなければならない。 基的に Hadoop は Linux で使うべき。Linux 上での疑似分散くらいまでなら結構簡単にセットアップできる。ネット上にいっぱい情報がある。Cloudera 使ってもいい(まだ使ったこと無いけど)。 スタンドアローンなら Windows でもそんなには難しくない。けど、疑似分散になると途端にやっかい。 そんなこんなで Windows 2008 x64 に Hadoop 0.21.0 を疑似分散でセットアップにチャレンジ。 最初に結論から。 Hadoop 0.21.0 は使うな。 Windows で Hadoop は使うな。 【追記】Mahout 0.4 が Hadoop 0.20.2 なので、最初からそれを使うのがベストだった。0.5-SNA

    Mahout の開発環境を Maven+Eclipse で作る (2) Hadoop セットアップ - 木曜不足
  • Mahout の開発環境を Maven+Eclipse で作る (3) Eclipse で Hadoop の開発環境を作る - 木曜不足

    Mahout の、と言いつつ今回も Hadoop の話ばかり。 Hadoop は各ノードにアプリケーションを配布する関係から、通常 jar を作らなければならない。そのため、Eclipse で書いたコードを実行するのもデバッグするのも非常にめんどくさい。 でもうまくやれば、スタンドアローンモード限定だが、Eclipse から jar も作らずそのまま Map-Reduce ジョブを起動できる。デバッグ実行もできるので、ブレイクポイント入れてステップ実行とかも可能だ。 今回はそういう環境の作り方の話。ずいぶん苦労したけど、出来るようになったら簡単。 Eclipse のセットアップなどは済んでいるものとする。Mahout の開発環境を Maven+Eclipse で作る (1) - Mi manca qualche giovedi`? 参照。 なお、Hadoop を展開すると contrib/

    Mahout の開発環境を Maven+Eclipse で作る (3) Eclipse で Hadoop の開発環境を作る - 木曜不足
  • MapReduceは今後どうなるのか? - 急がば回れ、選ぶなら近道

    2012年の現在、割と悩んでいるのでメモっておく。 年度末ぐらいに再調査の予定。・・なので暫定ですよ。 まず前提として、現行のHadoopの実行フレームワークであるMapReduceは、実行効率は決して良くはないです。この辺が割と辛い。 とはいえ、大規模並列処理を一般的に行うという観点での品質や取り回しを考えた場合、”結果として”非常にバランスがとれており、普及している。その上で、このMapReduceですが、今後の見通しについては、潮流は今のところ二つに割れているよう見える。ので、その辺のメモ。 ■YARN 一つの方向性は、現在のHadoop2.0系で実装されているMapReduce2.0、というか、MapReduceとは別の実行基盤を利用するという方向ですね。すなわちBSPや、MPIを利用する。要は、今までの並列処理の成果をそのまま利用しましょう、という流れに近い。 MapReduce

    MapReduceは今後どうなるのか? - 急がば回れ、選ぶなら近道
  • 「カジュアル」な規模のデータクラスター上でのデータ解析処理 « NAVER Engineers' Blog

    今年はさだまさしさんのデビュー40周年ということで、記念コンサート「さだまつり」も絶賛開催中の折も折、残暑も厳しい中皆様いかがお過ごしでしょうか。大平です。 さだまさし氏は経験の豊富な方ですので彼の歌や発言から学ぶことは大変多いのですが、個人的に非常に感銘を受けているのは「歌はコンサートで成長する」という言葉です。歌い手として、「歌」という作品を作って公開・販売するだけが仕事ではなく、実際にコンサートなどでお客さんに届け、お客さんの反応を参考にしたり日々の演奏活動の中で試行錯誤を繰り返して、内容をブラッシュアップし洗練させていく過程を指して先の言葉があるのだと思います。実際にさだまさし氏の曲はCDに収録されているものと実際にライブで演奏されるものとでアレンジが大きく異なり、かつ作品としても質が向上しているものが少なからず存在します。 …あまりさだまさしの話を続けると当に上長に叱られますの