[B! hadoop] a2ikmのブックマーク

Preferred Networks におけるHadoop - Preferred Networks Research & Development

Preferred Networks （以下PFN）では、「現実世界を計算可能にする」「全てのひとにロボットを」という目標のもと、機械学習を始めとしたあらゆる計算技術を用いて研究開発に日々取り組んでいます。その過程では必ずといっていいほど、データの保存や読み出しが必要になります。ここでは、我々がどのようにデータ管理をしているか、また、その過程でどのようにHadoopを利用しているかについて紹介したいと思います。写真: PFNカラーリングのストレージサーバー Hadoop導入の経緯 Hadoopが多く利用されているようなログ分析や、エンタープライズ向けのETL処理やデータサイエンスに比べると、深層学習の分野でよく利用されているような規模のデータは比較的小さいです。よく画像認識のベンチマークとされるImageNetの2012年のコンペで利用されたデータセットは200GB程度です。これはそもそ

a2ikm 2020/06/29

“AWSやGCPのクラウドストレージは、上記の要件をほぼ完全に満たしますが、ひとつだけどうしても許容できない点がありました。それは、PFNのスーパーコンピュータとの接続性の問題でした。”

hadoop

リンク

Hadoop, Sparkその他分散処理フレームワークの2018年を占う | gihyo.jp

あけましておめでとうございます。例年、Apache HadoopやApache Sparkを中心に並列分散処理ミドルウェアの動向や展望についてご紹介しています。今年は NTTデータに所属する岩崎正剛（Hadoopコミッタ⁠）⁠、猿田浩輔（Sparkコミッタ⁠）⁠、鯵坂明（Hadoopコミッタ/PMC）の3名でディスカッションした内容を元にお伝えします。ディスカッション中の岩崎正剛氏 Hadoop 3.0リリース昨年の新春特別企画では、「⁠2017年はHadoop 3.0がリリースされる年になるはずです。」と書きましたが、Hadoop 3.0.0が2017年12月13日にリリースされました。2017年の間に3.0.0-alpha2、3.0.0-alpha3、3.0.0-alpha4、3.0.0-beta1とリリースを重ね、なんとか2017年内に間に合った格好です。 2016年にリリ

a2ikm 2018/01/04

リンク

HDFSの現状と今後 (その1) - Qiita

まず、Apache Hadoop 3.0.0リリースおめでとうございます! 公式の記事: https://blogs.apache.org/foundation/entry/the-apache-software-foundation-announces26 ここ最近の大きめのHDFSの機能について、いくつか語ってみたいと思います 3.0.0でリリースされた機能 Erasure Coding Router based federation (2.9.0にもbackportされた) 3.1.0に入ることが確定した機能 (trunkにマージ済) Tiered storage 3.1.0に入るかわからない機能 (trunkにマージ前) Ozone: Object store for HDFS Erasure Coding JIRA: https://issues.apache.org/jira/

a2ikm 2017/12/25

リンク

「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮

Hadoopの時代は終わった、という言説をたまに見かけるようになりました。もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。本記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。以上をご了承の上、読み進めてください。要約データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが

a2ikm 2017/07/10

リンク

HadoopとS3 - Qiita

Distributed computing (Apache Hadoop, Spark, ...) Advent Calendar 2016の12/25分です。もともとYARNのApplication Timeline Server v2について書こうと思っていたのですが、気が変わってHadoopとS3の関係性について書いていこうと思います。もし期待していた方がいらっしゃったらごめんなさい。（ATSについては機会があればまた書きたいと思います。) 背景 S3について書こうとおもったのは、下記のような仕組みを作っている中でいろいろ思うところがあったからです。システムがS3に吐き出す様々なログ、データやメトリクスをZepplinで可視化するための仕組みです。永続化したいデータはS3にしか置かず、SparkやZeppelinなどのコンポーネントはステートレスかつ拡張、もしくは別の計算フレームワ

a2ikm 2016/12/25

hadoop
s3

リンク

第1回　なぜ、Hadoopはどのように動くのか、を学ぶのか | gihyo.jp

はじめにビッグデータ解析のためのシステム基盤として、Hadoopをはじめとするオープンソースのデータ処理ソフトウェア（データ処理系）が広く利用されつつありますが、当該データ処理系をすでに利用している、もしくは利用の検討をしている読者の方々の中には、たとえば以下のような問題を抱えている方が少なからずいらっしゃるのではないでしょうか。データ処理系の使い方はなんとなくわかるが、その内部をあまり理解できていない。または、内部の動作原理がよくわからないので、本格的に使う気にならない。同様の目的を達成する複数のデータ処理系において、どれを使って良いかがよくわからない。または、適切に使い分けられていない気がする。たとえば、どのような場合にHadoopを用いて、どのような場合に同類のデータ処理系であるImpalaやSparkを用いれば良いかが“⁠明確に⁠”わからない。このような問題を解決するには、

a2ikm 2015/04/01

hadoop

リンク

Presto がもっとも優れている SQL-on-Hadoop な理由 | Epitome

Why Presto is the Best SQL-On-Hadoop You Haven’t Heard Of | Treasure Data Blog

a2ikm 2015/03/14

リンク

DMM inside

日本アニメ初の快挙！海外アニメ賞を受賞した『スキップとローファー』海外ライセンス部長&プロデューサーが語る、奮闘の舞台裏

a2ikm 2015/02/23

リンク

MPP on Hadoop, Redshift, BigQuery - Go ahead!

Twitterで「早く今流行のMPPの大まかな使い方の違い書けよ！」というプレッシャーが半端ないのでてきとうに書きます．この記事は俺の経験と勉強会などでユーザから聞いた話をもとに書いているので，すべてが俺の経験ではありません(特にBigQuery)．各社のSAの人とかに聞けば，もっと良いアプローチとか詳細を教えてくれるかもしれません．オンプレミスの商用MPPは使ったことないのでノーコメントです． MPP on HadoopでPrestoがメインなのは今一番使っているからで，Impalaなど他のMPP on Hadoop的なものも似たような感じかなと思っています．もちろん実装の違いなどがあるので，その辺は適宜自分で補間してください．前提アプリケーションを開発していて，そのための解析基盤を一から作る．簡単なまとめデータを貯める所が作れるのであれば，そこに直接クエリを投げられるPre

a2ikm 2014/07/25

リンク

Re-use Amazon Elastic MapReduce instance

a2ikm 2014/04/01

--aliveフラグをつけてcreateすればジョブフローが終わってもクラスタは生きてる。--jobflowオプションでそのクラスタを再利用できる

リンク

961万人の食卓を支えるデータ解析

[Harvard CS264] 08b - MapReduce and Hadoop (Zak Stone, Harvard)npinto

a2ikm 2014/01/08

リンク

Batch and Stream processing with SQL

Complex Event Processing on Ruby, Fluentd and Norikra #rubykai giSATOSHI TAGOMORI

a2ikm 2013/11/08

リンク

Hadoop/Storm の統合を実現する Twitter の SummingBird - Okapies' Archive

Twitter が SummingBird を正式リリースして早二ヶ月。「日本語の紹介記事がほとんど出てないな」と気付いたので、調査がてらまとめてみました。 SummingBird とは？ MapReduce なプログラムを書くための Scala/Java ライブラリ。最大の特徴は、ひとたび SummingBird で書いたジョブは Hadoop でも Storm でも同じように実行できること。 SummingBird では、Hadoop を使う「バッチモード」と、Storm を使う「リアルタイムモード」に加えて、二つを同時に実行する「ハイブリッドモード」がある。ハイブリッドモードでは、ジョブの作者が特に配慮しなくても、バッチとリアルタイムの処理結果を自動的にマージできる。ハイブリッドモードでは、同じジョブを Hadoop と Storm で同時に実行できるので、Hadoop の耐障害性

a2ikm 2013/11/03

リンク

Hadoop初のメージャーバージョンアップ「Hadoop 2」正式版が公開。MapReduce以外の分散処理フレームワークも実行可能に

The Apache Software Foundationは、Hadoopの初めてのメジャーバージョンアップとなる「Apache Hadoop 2」の正式版公開を発表しました。 Hadoopは2004年にGoogleが公開したMapReduceに関する論文を元にオープンソースとして開発されたものでした。Hadoopの開発者であるダグ・カッティング氏は、Hadoop 2のプレスリリースで次のように発言しています。 "What started out a few years ago as a scala ble batch processing system for Java programmers has now emerged as the kernel of the operating system for big data," said original Hadoop creator

a2ikm 2013/10/17

hadoop

リンク

基幹システムをクラウドへあげるのは簡単ではなかった。ノーチラス・テクノロジーズがクラウドの現実を語る（前編）

基幹システムをクラウドへあげるのは簡単ではなかった。ノーチラス・テクノロジーズがクラウドの現実を語る（前編）基幹システムをクラウドで実現する。その過程でどのような技術を用い、どのような苦労があったのか。小売り流通業である西鉄ストアの基幹システムをAmazonクラウド（以下、AWS：Amazon Web Services）の上で実現したノーチラス・テクノロジーズが、その詳細について紹介したセミナーを5月15日、アマゾンジャパン本社のセミナールームで開催しました。大規模システム開発の現状、Hadoopの可能性、クラウドのメリットとデメリットなど、参考にすべき多くの内容が語られたセミナーでした。この記事ではその概要を紹介します。止まってはいけない基幹システムをクラウドへノーチラス・テクノロジーズ代表取締役社長神林飛志氏（写真中央）。西鉄ストア様の本部基幹システムをクラウドへ移行する

a2ikm 2013/06/03

hadoop
aws

リンク

Treasure Data - naoyaのはてなダイアリー

少し前にログの話を書いた http://d.hatena.ne.jp/naoya/20130219/1361262854 ときに、Treasure Data については後日にもう少し詳細に書くと言ったので書くとしよう。近頃 Treasure Data (以下、時折 TD) という名前をちらほら聞いたことがある人は多いのではないかと思います。「ビッグデータのクラウドサービスである」とか「日本人が創業したシリコンバレーのベンチャー」、あるいは Yahoo! 創業者の Jerry Yang が投資したとか、Fluentd と何か関係があるといった文脈などなど。けど、具体的に Treasure Data がどういうサービスで、どういう機能を持っていて、どんな場面で利用されるものなのかはまだあまり良く知られていないかもしれない･･･ようにも見える。今日はその辺から少し紹介していこうかなと思う。

a2ikm 2013/03/23

リンク

TechCrunch

Identity and access giant Okta said a hacker broke into its customer support ticket system and stole sensitive files that can be used to break into the networks of Okta’s customers. Okta chief s

a2ikm 2013/03/11

リンク

Hadoop Conference Japan 2013で話したことと思ったこと - 急がば回れ、選ぶなら近道

Hadoop Conference Japan 2013 http://hcj2013w.eventbrite.com/ 先週終了。かなりの盛況で終わった感じです。まずは開催をサポートして頂き、相当の負担まで頂いたリクルート・テクノロジー様に感謝申し上げます。どうもありがとうございました。さて、えっと、前回がそもそもいつだったのか、良く覚えてないわけで。2011 Fallだったような。 http://hadoop-conference-japan-2011-fall.eventbrite.com/ 2011年の9月なので、1年4ヶ月ぶりという感じですね。Track数が増えて2から3で、会場もベルサールからビッグサイトになっていました。人数も1000人超になっております。以下、感想文です。記録としておいておく感じで。・内容で印象に残ったもの・HBase~LINEのバックボーンで使って

a2ikm 2013/01/28

hadoop

リンク

Hadoop Conference 2013 Winterのスライドへのリンク

Sadayuki Furuhashi @frsyuki 今日の発表資料を公開しました！ "How to collect Big Data into Hadoop - Big Data processing to collect Big Data" http://t.co/sb3lgMPd #hcj13w 2013-01-21 17:37:59

a2ikm 2013/01/22

リンク

「tagomorisが騙るはじめてのHadoop」 - たごもりすメモ

深夜に「はじめてのHadoop」が出版されるとしたら欲しいネタの一覧をなんとなく考えてた。Hadoopクラスタのセットアップを新規にやるのが予定にあるので、それも含めてトピックだけ書き出しておこうかなと思った次第。「初めてのHadoop」ちょっと考えてたが、例えば最初に考えるべきHDFSのblock sizeとかで、でもそれノード数とMR処理データ量の最大/平均サイズと、データ投入時の圧縮、そういうことをちゃんと考えないと決まらないんだよね、そういうことを書いてる本がないよね、みたいな 2012-05-08 01:13:11 via TweetDeck 設計 HDFS総容量と処理対象のデータ量についてファイルの形式について (TextFile/SequenceFile/RCFile) データの圧縮についてノードあたりのHDD台数、ディスクの選択 CPUおよびメモリの選択ノード数 H

a2ikm 2012/05/08

hadoop

リンク

はてなブックマーク

タグ

関連タグで絞り込む (106)

hadoopに関するa2ikmのブックマーク (100)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス