[B! hadoop] [4ページ] muddydixonのブックマーク

muddydixon id:muddydixon

hadoopに関するmuddydixonのブックマーク (275)

【14-B-2】グリーを支えるデータ分析基盤の過去と現在（橋本泰一〔グリー〕）
グリーではユーザに喜んでもらえるサービスを提供するための継続的な改善を重視しており、創業期よりログデータの分析基盤の開発・運用に注力してまいりました。昨年より、従来の自社開発の解析基盤に加え、Hadoopやfluentdなどを本格的に運用開始し、解析基盤のさらなる強化を実施しております。サービスの成長を支えるデータ分析基盤の構築・運用・活用方法について自社の事例をベースにお話します。
muddydixon 2014/02/20
presto

data

hadoop

yarn

hdfs

spark
リンク
Apache HiveにおけるJSON連想配列処理の最適化 - mixi engineer blog
あけましておめでとうございます．平野啓一郎著「葬送」がようやく読み終わった技術部の石川有です．ショパンの死を題材とした内容が難解で重く，すべて読み終えるのに都合５ヶ月ぐらい掛かっていたのではないかと思います．本当にとても重い内容ですが，濃厚で至福な時間を過ごせました．さて「重い」と言えば，「大規模データ解析」という言葉が頭に思い浮かびますよね．以前の記事「mixi の解析基盤とApache Hive での JSON パーサの活用の紹介」の通り，ミクシィの解析基盤として Apache Hive を利用しています．また Apache Hive で"No More 「刺身の上にタンポポをのせる仕事」 - 単純作業の繰り返しで開発者の時間を浪費しないために。"を実現するための Hive の JSON パーサを活用しています．新年最初のエントリーは，Apache Hive で JSON 連想
muddydixon 2014/02/04
hadoop

file

format

performance
リンク
HiveServerがZooKeeperに繋ぎまくってHiveServer2もろとも死ぬ話 - tagomorisのメモ置き場
(訂正あり) HiveServer2で初めて有用になる hive.support.concurrency というプロパティがあって、こいつを有効にするとHiveクエリでテーブルロックがとれるようになる。まあ、でかい変更とかを他に邪魔されずにやりたい時は欲しいかもね。で、この機能はzookeeperを使うので、オプションを true にするときは hive.zookeeper.quorum を指定しましょう。が、こいつを有効にしているとき、HiveServer(訂正)およびHiveServer2はzookeeperへの接続をリークさせます。どうなるかというとズバリ zookeeper の maxClientCnxns から溢れて正常に動作しなくなります。なお HiveServer では hive.support.concurrency は有効にしても意味がありませんが、このコネクション
muddydixon 2014/01/15
hive

server

cloudera

hadoop

concurrency

connection
リンク
Resource Manager HA の概要と動かし方 - Qiita
本文章には，2013年時点での内容が含まれています．2017年04月13日に typo の修正を行いましたが，内容に関しては更新を行っていませんのでご注意ください．この記事は，Hadoop Advent Calendar 2013 の 11日目の記事です．記事を書いている今現在，私は GMT で活動していますので，時間的にはセーフだと思います．また、TPO によらずHiveはかわいいです. 背景 YARN とは YARN は，Yet Another Resource Negotiator の略で， Hadoop v1 の JobTracker が行っていたリソース管理部分を MapReduce 以外にも利用しようと試みたものです．JobTracker は Map Slot/Reduce Slot という単位でリソース管理を行っていましたが，これをコンテナというより汎用的な単位でリソースを
muddydixon 2013/12/23
hadoop

yarn
リンク
cdh-twitter-exampleで遊ぶ
この記事はHadoop Advent Calendar 2013, 13日目のエントリです。ブログなんざ書いたことないので勝手が良く分かりませんが@sudabonさん@kernel023さんのお前も何か書けやコラという圧力に負けてBloggerにページを用意してみました。 Hadoopの利用目的としてデータの分析に取り組んでいる、もしくはこれから取り組もうとしているユーザは多いのではないかと思います。中でもログ分析と並んでソーシャルメディアの分析は各社が積極的に取り組もうとしているテーマであり、私が勝手にTwitter分析3部作と呼んでいる以下のブログを読まれた方も多いのではないでしょうか： http://blog.cloudera.com/blog/2012/09/analyzing-twitter-data-with-hadoop/ http://blog.cloudera.com/b
muddydixon 2013/12/13
cloudera

hadoop

twitter

sample
リンク
2013年 Hadoop 運用ログ @ Treasure Data | Post Moratorium
2013年 Hadoop 運用ログ @ Treasure Data Hadoop Advent Calendar 2013、5日目のエントリです。2日遅れてすいません！細かいのは上げればキリが無いんだけど、誰かの役に立てばと思い Treasure Data でHadoopクラスタを運用してみたログ 2013年度版を公開してみます。対象バージョン2013年には、ディストリビューションのアップグレードを5回ほど行いました。 CDH3u0CDH3u1CDH4.1.2CDH4.2.0CDH4.2.1メジャーアップグレードは複数バージョンを同時に走らせて問題が無いことを確認後、切り替えを行っています。しかしCDH3って既にEnd of Maintenanceなんですね、知らなかった。運用体制約3名、年末には約8名程。約100社に向けてサービス運用をしていて、数分ジョブが刺さるだけでもサポートチ
muddydixon 2013/12/09
こういう話を出してくれる @@kzk_mover さんかっこいい！

hadoop

treasuredata
リンク
HueでCSVデータからHiveのテーブルを作る
４日目です。本日はHadoopアドベントカレンダー2013の立候補がいないようなので、あえて書く@choplinさんが今 (22:30)書いて下さっているとのこと。凄い！ありがとうございます！＃決して無理強いはしてないはず、、、、、と信じたい（汗本日のお題はHueとHiveについてです。 Hiveでテーブルを作成してデータをロードする場合には、1) CREATE TABLEを使用してテーブルを作成し、2) LOAD DATA INPATHなどを使ってデータをロードする、というような手順を踏みます。あるいは、既にデータがHDFS上にある場合、外部テーブルを利用することもできます。テーブルを作成してデータをロードする例 CREATE TABLE a (a INT, b INT) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; LOAD D
muddydixon 2013/12/05
hue

hive

hadoop

management

table

database

schema
リンク
Cloudera World Tokyo 2013に参加してきました #cwt2013 | DevelopersIO
Cloudera World Tokyo 2013に参加してきました。 http://www.cloudera.co.jp/jpevents/cwt2013/index.html 午前中は用事があったので午後からの参加となりました。参加したのは以下のセッションです。 13時30分〜14時10分 CDH最新情報 14時25分〜15時05分 Hadoopデータプラットフォーム 15時30分〜16時10分 SQLで実現するバッチ処理とストリーム処理 16時25分〜17時05分 Hadoopの運用 17時20分〜18時00分 Hadoop コミュニティと YARN の現状ということで参加レポートですが、現時点でスライドが公開されていないものが大半だったので、各セッションに関して概要といいつつ詳細まで書いています。ここについてはスライドが公開されたタイミングで差し替えていく予定です。 CDH最新情
muddydixon 2013/11/09
hadoop

conference
リンク
Batch and Stream processing with SQL
Complex Event Processing on Ruby, Fluentd and Norikra #rubykai giSATOSHI TAGOMORI
muddydixon 2013/11/08
hadoop

hive

norikra

stream

sql

presentation
リンク
Hadoop/Storm の統合を実現する Twitter の SummingBird - Okapies' Archive
Twitter が SummingBird を正式リリースして早二ヶ月。「日本語の紹介記事がほとんど出てないな」と気付いたので、調査がてらまとめてみました。 SummingBird とは？ MapReduce なプログラムを書くための Scala/Java ライブラリ。最大の特徴は、ひとたび SummingBird で書いたジョブは Hadoop でも Storm でも同じように実行できること。 SummingBird では、Hadoop を使う「バッチモード」と、Storm を使う「リアルタイムモード」に加えて、二つを同時に実行する「ハイブリッドモード」がある。ハイブリッドモードでは、ジョブの作者が特に配慮しなくても、バッチとリアルタイムの処理結果を自動的にマージできる。ハイブリッドモードでは、同じジョブを Hadoop と Storm で同時に実行できるので、Hadoop の耐障害性
muddydixon 2013/11/07
summingbird

hadoop

storm

mapreduce
リンク
GitHub - twitter/summingbird: Streaming MapReduce with Scalding and Storm
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
muddydixon 2013/11/04
twitter

hadoop

mapreduce
リンク
Spark shark
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC EnterpriseYusukeKuramata
muddydixon 2013/10/29
shark

spark

hadoop

hive

presentation

sql
リンク
MySQL Casual Talks vol.5 - MySQL Labs - @RKajiyama
2013年10月25日のMySQL Casual TalksでのMySQL Labsリリースのご紹介です。Labsリリースのダウンロードはこちらから http://labs.mysql.comRead less
muddydixon 2013/10/29
mysql

presentation

udf

cluster

hadoop
リンク
Cloudera Standard のご案内 ~ 無償版大幅機能強化のお知らせ | Cloudera Japan
データを信頼し、AI を信頼する信頼できるデータ、信頼できるモデル、信頼できる AI を実現するために、これほど多くのクラウドのさまざまなデータタイプを管理でき、オープンデータのイノベーションと大規模展開に対応できるプラットフォームは他にありません。
muddydixon 2013/10/17
Hadoop2もでたしどうしよう

hadoop

cloudera
リンク
Don't use Hadoop - your data isn't that big
"So, how much experience do you have with Big Data and Hadoop?" they asked me. I told them that I use Hadoop all the time, but rarely for jobs larger than a few TB. I'm basically a big data neophite - I know the concepts, I've written code, but never at scale. The next question they asked me. "Could you use Hadoop to do a simple group by and sum?" Of course I could, and I just told them I needed t
muddydixon 2013/09/24
hadoop

datamining

exploratorydataanalysis

excel

mysql
リンク
大規模サイトを支えるビッグデータプラットフォーム技術
ヤフーのメタデータ可視化の取り組みについて紹介します。メタデータを３つのlayerに分類してそれぞれの課題と対応について説明します
muddydixon 2013/09/19
Yahoo Stormつかってたのか！

yahoo

storm

hadoop
リンク
Presentations from the Cloudera Impala meetup on Aug 20 2013
This is a technical deep dive about Cloudera Impala, the project that makes scala ble parallel databse techno logy available to the Hadoop community for the first time. Impala is an open-sourced code base that allows users to issue low-latency queries to data stored in HDFS and Apache HBase using familiar SQL operators. Presenter Marcel Kornacker, creator of Impala, begins with an overview of Impala
muddydixon 2013/09/05
hadoop

impala

presentation

parquet
リンク
Apache Parquet
Documentation Download Apache Parquet is an open source, column-oriented data file format designed for efficient data storage and retrieval. It provides efficient data compression and encoding schemes with enhanced performance to handle complex data in bulk. Parquet is available in multiple languages including Java, C++, Python, etc...
muddydixon 2013/09/04
hadoop

file

format

parquet
リンク
Apache Sparkってどんなものか見てみる（その１ - 夢とガラクタの集積場
こんにちは。 Kafkaを試している最中で微妙ですが、最近使えるのかなぁ、と情報を集めているのが「Apache Spark」です。 MapReduceと同じく分散並行処理を行う基盤なのですが、MapReduceよりも数十倍速いとかの情報があります。・・・んな阿呆な、とも思ったのですが、内部で保持しているRDDという仕組みが面白いこともあり、とりあえず資料や論文を読んでみることにしました。まず見てみた資料は「Overview of Spark」（http://spark.incubator.apache.org/talks/overview.pdf）です。というわけで、読んだ結果をまとめてみます。 Sparkとは？高速でインタラクティブな言語統合クラスタコンピューティング基盤 Sparkプロジェクトのゴールは？以下の2つの解析ユースケースにより適合するようMapReduceを拡張
muddydixon 2013/09/03
apache

spark

hadoop

mapreduce

machinelearning
リンク
MongoDBがHadoopとの統合強化。HiveでMongoDBデータへSQL問い合わせ可能、BSONをHDFS上に保存など
Integration of Hadoop and Mongo DB, Big Data’s Two Most Popular Techno logies, Gets Significant Upgrade | 10gen, the Mongo DB company Mongo DB Connector for Hadoopは、Hadoopへの入出力データとしてMongo DBを使えるようにするソフトウェアで、新バージョンでは主に以下の機能が追加されています。 Apache HiveからMongo DBのデータへSQLライクな問い合わせインクリメンタルなMapReduceジョブのサポートによる、アドホックな分析を容易に実現 Mongo DB BSONファイルをHadoop Distributed File System（HDFS）上に保存することで、データの移動を削減これにより以下のようなメリットが
muddydixon 2013/08/21
な、なんだと・・・これは茨の道(げふんげふん

mongodb

hadoop
リンク
前のページ 1 2 3 4 5 6 7 8 9 10 次のページ