[B! hadoop] Drunkarのブックマーク

Drunkar id:Drunkar

hadoopに関するDrunkarのブックマーク (16)

Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Similar to Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017(20)
Drunkar 2018/06/04
hadoop

kudu

db
リンク
Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会 (2010/11/19)
@nsiena #event 2010/11/19「Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会(第3回)」<http://atnd.org/events/9098 > : キャンセル多いな。まだ空席があるぽい。 #hadoopmodeling 2010-11-19 16:24:15
Drunkar 2015/06/04
機械学習

hadoop
リンク
Hadoop HDFSコマンド実行メモ（0.20.1）
# 全体のhelpを見る $ bin/hadoop dfs -help # コマンド単体のヘルプを見る $ bin/hadoop dfs -help ls -ls <path>: List the contents that match the specified file pattern. If path is not specified, the contents of /user/<currentUser> will be listed. Directory entries are of the form dirName (full path) <dir> and file entries are of the form fileName(full path) <r n> size where n is the number of replicas specified for the
Drunkar 2015/05/01
hadoop

tips
リンク
Sparkによる分散処理 / 2015-01-16 PyData.Tokyo#3
Autonomous Database - Dedicated 技術詳細 / adb-d_technical_detail_jp
Drunkar 2015/04/26
Python

hadoop

spark

Scala

機械学習
リンク
Batch rename in hadoop
Drunkar 2015/04/14
hadoop

tips
リンク
Hadoopで始める並列データ解析／後編 | Inhale n' Exhale
1月13日（金）にPalo Altoで行われたJTPAのギークサロンに参加してきた。今回は参加者がラップトップ持ち込みでコーディングしていくハッカソン形式で、会場入りする前までにHadoopが使える環境を自前で用意しておく必要があった。前編では、Hadoopを使って計算処理をするための準備として、EC2上にHadoopクラスタを構築する方法を紹介した。後編では実際にギークサロンで手を動かしてやったことを中心に紹介していこう。 WordCount.java – 最初のサンプルコード Hadoop Tutorial / Module4: MapReduceで紹介されているWordCount.javaを使って、EC2上のHadoopクラスタで処理をさせてみる。いわゆる"Hello, wolrd!"的なサンプル。まずはEC2上のUbuntuにSSHでログインして、Hadoopのクラスタを立ち上
Drunkar 2015/02/17
hadoop

ec2

aws
リンク
MapReduceは「ゆっくり死んでいく」、Hadoop開発者のカッティング氏
オープンソースソフトウエア（OSS）の分散データ処理ソフト「Hadoop」が、大きな変貌を遂げ始めている。バッチ処理だけでなく、SQLクエリーを使ったインタラクティブ分析やインメモリー処理、機械学習処理などへと適用領域を広げているからだ。Hadoopのオリジナル開発者であるダグ・カッティング氏は、「新しい時代が始まった」と語る。現在のHadoopの状況をどのように見ているか？同じような機能を備えたコンポーネントが複数提案されるなど重複はあるが、技術開発は非常に高速に進んでいる。（米Apacheソフトウエア財団が2013年10月に正式版をリリースした）スケジューラーの「YARN」によって、（Hadoopのストレージシステムである）「HDFS」の上に、様々なテクノロジーを共存できるようになったことが大きい。私が特に驚いているのは、（DAG：Directed Acyclic Graph＝有向
Drunkar 2014/08/06
「SparkやTezが、Hadoopが当初から採用する並列処理の仕組みである「MapReduce」に取って代わる新しい時代が始まった。」

hadoop

db
リンク
Hive/Hivemallを利用した広告クリックスルー率(CTR)の推定 - Qiita
Hadoop Advent Calendar 2013 2013 12/25のXmasエントリです。本記事では私が開発しているHadoop/Hive上で動作する機械学習ライブラリのHivemallについて、KDD Cup 2012, Track 2のデータセットを用いて利用方法を解説します。 https://github.com/myui/hivemall 基本的にプロジェクトのWikiサイトにあるKDDCup 2012 track 2 CTR predictionの説明を丁寧にしたものです。a9a binaryやnews20 binaryの方がよりシンプルの例ですので、そちらも参考にして頂ければと思います。 KDD Cup 2012, Track 2のCTR推定タスクこのタスクは与えられたセッション情報（ユーザ属性と広告の属性）をもとに、検索エンジンの広告クリック率(Click-Th
Drunkar 2014/05/15
機械学習

広告

hadoop

hive

アドテク
リンク
HadoopでTwitterを分析してみた一覧
EnterpriseZine（エンタープライズジン）編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。
Drunkar 2014/04/26
*あとでやってみる

hadoop

twitter

Linux
リンク
Hadoop1
Drunkar 2014/01/03
オープンデータ

hadoop

java

*あとでやってみる

data
リンク
ニコニコデータセット分析環境作ってみた-ニコニコデータデータ分析研究会
4. データ分析環境 Amazon - Hadoop環境 Hiveで分析対話的に分析できる環境を作る。 hive> SELECT smid,count(*) as cnt FROM nicodata.comment_data_sampling100 WHERE comment_string LIKE "%wwwwww%" GROUP BY smid ORDER BY cnt DESC limit 10; 13年7月27日土曜日
Drunkar 2013/12/07
aws

data

ニコニコ動画

hadoop
リンク
テキストマイニングのためのhadoopの使い方 : 研究開発
Drunkar 2013/04/20
hadoop
リンク
Treasure Data - naoyaのはてなダイアリー
少し前にログの話を書いた http://d.hatena.ne.jp/naoya/20130219/1361262854 ときに、Treasure Data については後日にもう少し詳細に書くと言ったので書くとしよう。近頃 Treasure Data (以下、時折 TD) という名前をちらほら聞いたことがある人は多いのではないかと思います。「ビッグデータのクラウドサービスである」とか「日本人が創業したシリコンバレーのベンチャー」、あるいは Yahoo! 創業者の Jerry Yang が投資したとか、Fluentd と何か関係があるといった文脈などなど。けど、具体的に Treasure Data がどういうサービスで、どういう機能を持っていて、どんな場面で利用されるものなのかはまだあまり良く知られていないかもしれない･･･ようにも見える。今日はその辺から少し紹介していこうかなと思う。
Drunkar 2013/04/04
hadoop

ビッグデータ
リンク
第1回　未来のサービスをどうデザインするか | gihyo.jp
未来のサービスをデザインする「ATL」 ATL（Advanced Techno logy Lab.）は、多くのサービスを持つリクルート（図1）の中で、新しい技術の開拓や次のトレンドをいち早く察知し、未来のサービスにいかせるソリューションを生み出す部署です。図1　リクルートのサービス領域 ATL発足のきっかけ従来リクルートのWebサービスでは、とくにミドルウェアなどにおいて商用製品を中心に活用してきていました。たとえば某商用の検索エンジンを利用していた時期、維持コストに見合うような満足な結果はなかなか出せないでいました。そこで、以前から基礎技術のリサーチを進めていたオープンソースの検索システムであるSolrを導入してみたところ、大きなコストメリットを出すことができました。今ではリクルートの検索エンジンは、そのほとんどがSolrを利用したものとなっています。また、「⁠ビックデータ」の代名詞
Drunkar 2012/10/29
hadoop

脳波
リンク
“統計の基礎を無視している”Hadoop使いが考えるビッグデータ
Hadoopをバッチ処理の高速化に活用しているノーチラス・テクノロジーズは、ビッグデータのブームに真っ向から異論を唱える。「ビッグデータは中身のないバズワード」と断言する代表取締役社長神林飛志氏に、その真意を聞いた。 Hadoop＝ビッグデータは大きな誤解ノーチラス・テクノロジーズは、基幹系システム向けのミドルウェアを手がける国産ベンチャー。Webサービスのように決して派手ではないが、「そもそもダウンすると、飛行機が飛ばないとか、病院で人が死んでしまうとか、電車が動かないとか、生活に影響が出る分野」（神林氏）という、まさにミッションクリティカルな領域のITで、同社の製品は活用されている。同社の「Asakusa Framework」は、Hadoopを活用した分散処理により、基幹系バッチの高速化を実現する。神林氏は、「Hadoopというと、WebやSNS系、BIやデータ解析での使い方がメ
Drunkar 2012/05/10
Hadoop

ビッグデータ

考察
リンク
いまさら聞けないHadoopとテキストマイニング入門
ビッグデータ時代の救世主「Hadoop」とは「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。本連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。重い処理を複数のマシンに分散させる複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。例えば、Hadoopを使うと、1
Drunkar 2012/04/01
テキストマイニング

自然言語処理

hadoop
リンク
1