[B! spark] muddydixonのブックマーク

muddydixon id:muddydixon

sparkに関するmuddydixonのブックマーク (27)

Pythonで大量データ処理！�PySparkを用いたデータ処理と分析のきほん
PyConJP2017の資料　Python Spark PySpark PyConJP 2017 Apache Spark
muddydixon 2017/09/11
presentation

python

spark

pyspark

data

analytics
リンク
「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
Hadoopの時代は終わった、という言説をたまに見かけるようになりました。もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。本記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。以上をご了承の上、読み進めてください。要約データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが
muddydixon 2017/07/10
hadoop

mapreduce

history

storage

hdfs

spark
リンク
decode17
分散並列処理の基本に関する解説と，分散並列処理のオープンソース界隈で最近起こっていることをまとめた資料です．
muddydixon 2017/05/25
presentation

distributed

concurrency

hadoop

spark

filesystem
リンク
NoSQLに集めたIoTデータをRDBとして分析、富士通研が新技術
富士通研究所は2017年3月17日、NoSQLデータベース「Mongo DB」のデータを読み出し、RDB（リレーショナルデータベース）「PostgreSQL」の表に変換する技術を発表する。Mongo DBはIoT（インターネット・オブ・シングズ）機器などがデータの送受信に使うJSON形式でデータを保存するドキュメント指向のNoSQLデータベース。IoT機器から収集したデータを加工せずにMongo DBに保存し、SQLクエリーを使って読み出せる。コンピュータシステム研究所の堀江健志所長（右）、同研究所データシステムプロジェクトの河場基行プロジェクトディレクタ（中央）、同研究所同プロジェクトの中村実氏（左）この技術を使うと、SQLクエリーでPostgreSQLとMongo DBの両方のデータを操作できる。コンピュータシステム研究所データシステムプロジェクトの中村実氏は「Mongo DBに保存してある
muddydixon 2017/03/16
ん？？？？

mongo

spark

postgresql

fujitsu
リンク
ストリーム処理とは何か？＋2016年の出来事 - Qiita
この記事で書いている内容は？ストリーム処理とはそもそも何かからはじまり、必要になる検討ポイントなどの情報を振り返り用にまとめたものです。あとは、今年個人的にこの分野に影響が大きかったと思ったイベントをまとめています。他の方へ説明する際のベースとするためにまとめているため、既にこの分野を知っている方にとっては冗長な内容も多いかもしれませんが、その場合は適宜読み飛ばしていただけると。あと、私の他記事からも内容引っ張ってきているのでかぶりはあると思います。特にGoogleが考えるストリームデータ処理とは？とは目的もかぶっているので相応に被りがあるかと・・・出来るだけよく出てくる固有の言葉を最初から使用せずに書いているつもりですが、何かわかりにくい場所あればコメントいただけるとありがたいです。「ストリーム処理」とだけ書くと微妙にストリーミング配信等とも混同しやすいですが、デー
muddydixon 2017/01/04
stream

apache

beam

kafka

kinesis

spark

storm
リンク
Hadoop基盤上のETL構築実践例～多様なデータをどう扱う？～ by ペンギン愛好家さん - niconare
2016/05/26 D&S Data Night vol.02
muddydixon 2016/06/01
あー、引数にいっぱい渡して処理するの作ったわー

hadoop

spark

etl

database

analytics
リンク
Apache Zeppelin
Apache Zeppelin Web-based notebook that enables data-driven, interactive data analytics and collaborative documents with SQL, Scala, Python, R and more.
muddydixon 2016/05/27
visualization

spark

zeppelin
リンク
Building a Sustainable Data Platform on AWS
スマートニュース株式会社　エンジニア　坂本卓巳 Amazon EMR / Hive / Spark / Presto / Fluentd / Kinesis / DynamoDB / Pipeline DB / Airflow / Chartio / Datadog といった、様々な AWS サービス / SaaS / OSS を組み合わせて、スマートニュースが AWS 上でどのようにデータ分析基盤を運用しているかについてお話いたします。
muddydixon 2016/01/28
smartnews

data

management

aws

platform

spark

pipelinedb
リンク
DataflowProposal - INCUBATOR - Apache Software Foundation
Apache Beam Apache Dataflow proposal has been renamed to Apache Beam (combination of Batch and strEAM). The proposal page has moved to BeamProposal.
muddydixon 2016/01/22
dataflow

mapreduce

hadoop

spark
リンク
神林節炸裂！Asakusa Frameworkは「分散」から「並列」へ (1/3)
11月27日、ノーチラス・テクノロジーズは「2015 Asakusa Framework Day」を開催。舌鋒鋭い物言いで知られる同社の代表取締役社長神林飛志氏は、ビッグデータとIoT市場の現状やHadoop/Sparkと日本市場のミスマッチなどを指摘しつつ、次世代のAsakusa Frameworkの構想を披露した。ビッグデータは既存のCRM、IoTはPoCレベルノーチラス・テクノロジーズのAsakusa Frameworkは、業務システムのバッチ処理にHadoopやSparkでの分散システムを活用するための開発・運用フレームワーク。会計や在庫などの業務データから精度の高い分析情報を作成したり、バッチ処理に利用できるほか、分散システムのメリットを活かし、負荷分散や高い可用性などを実現する。OSSで公開されており、エンタープライズで多くの実績を持つ。イベントの後半で登壇したノーチラ
muddydixon 2015/12/02
舌鋒鋭いおじさんだ！

asakusa

spark

hadoop

core
リンク
知らないと大損する、Apache Sparkの基礎知識と3つのメリット
知らないと大損する、Apache Sparkの基礎知識と3つのメリット：特集：IoT時代のビジネス＆IT戦略（3）（1/3 ページ）社会一般から大きな注目を集めているIoT（Internet of Things）。だが、その具体像はまだ浸透しているとはいえない。今回は、IoTやビッグデータのキーテクノロジとして注目されている「Apache Spark」について、Sparkを製品に取り込んでいる日本IBMの土屋敦氏と、数多くの企業のデータ分析を担うブレインパッドの下田倫大氏に話をうかがった。大規模データ処理のテクノロジとしてApache Hadoop（以下、Hadoop）に続き、Apache Spark（以下、Spark）が注目されている。Sparkは、IoT（Internet of Things）やビッグデータのキーテクノロジとして注目されているが、エンタープライズ領域ではどのように活
muddydixon 2015/12/01
りんだいさん、貫禄が増してる

spark
リンク
分散処理環境で原価計算屋の夢を実現！「第26回さくらの夕べin東京」レポート | さくらのナレッジ
（左）さくらインターネット代表の田中、（右）ノーチラス・テクノロジーズの神林氏初めてさくナレに記事を書くことになりました法林です。今年の5月からさくらインターネットに常駐していて、技術広報、コミュニティ支援、イベント運営などを担当しています。さて、当社のイベントと言えば「さくらの夕べ」を思い出される方も多いでしょう。今回は9月28日(月)に東京は新宿にて開催した「第26回さくらの夕べ in東京～さくらで作る大規模分散処理環境～」の模様をお伝えします。久しぶりの東京開催にもかかわらず、今回も約100名の参加登録をいただきました。ありがとうございます！なぜ分散処理環境と原価計算システムを作ったの？今回の夕べでご紹介したのは、当社がノーチラス・テクノロジーズ様と共同で構築した分散処理環境と、その上に実装したデータセンターの原価計算システムです。はじめに、なぜこのようなものを構築した
muddydixon 2015/11/19
「木製バットと金属バットぐらい違う」ふむ。「間接費がでる」すごい！「江草さんの発表内容がない」ｗ

asakusa

hadoop

spark
リンク
SparkRをEC2上で動かして分散処理してみる
こんにちは！美味しいコーヒーを飲むために、毎朝早くにデスクでコーヒーミル回してます、アナリティクスチームの高柳です。アナリティクスチームでは、じゃらんnetやホットペッパービューティーをはじめとしたリクルートライフスタイルのサービスに対して、基礎集計やレポーティング、また、データマイニング（データ分析）を活用し、高速にサービスを改善していくというミッションを担っています。本記事では、データ分析環境としてのApache Spark、特にver 1.4から利用可能になったSparkRを、当チームのAWS上の分析環境に導入検討していたので、その辺について書きたいと思います。 SparkRは、まだリリースから日が浅いことから、日本語の記事が相当に少ないので、この記事がみなさんの"Happy SparkR ライフ"のお役に立つことを願っております。 Apache Spark導入の背景サービスを
muddydixon 2015/08/20
spark

hadoop

r
リンク
Hadoopソースコードリーディング第17回に参加してきました | DevelopersIO
Hadoopソースコードリーディング第17回に参加してきました。今回のテーマは7月にApacheのTop-Level Project入りしたばかりのApache Tezについてでした。なお、全体的にApache Sparkと比較する形での説明が多かったので、Sparkについてご存じない方は前回のHadoopソースコードリーディング第16回に参加してきましたをご参照下さい。 NTTデータ濱野さんの冒頭の挨拶今日は別のイベントも多いためいつもの半分ぐらいの参加者だが、その分Deepにやれればいつもの会場だと途中からピザとお酒だが、今回の会場は飲食禁止なので最後までシラフで Tezに関する勉強会は初回なのにいきなりタイトルがInternalsとかになってますねｗ Tez Internals （@oza_x86 さん） @oza_x86 さんからはTez Internalsということで、S
muddydixon 2014/09/11
hadoop

tez

spark
リンク
リピさんとオザさんのTezとSparkの会話
repeatedlyさんとoza_x86さんのTezとSparkに関する会話をまとめさせていただきました。
muddydixon 2014/09/10
hadoop

spark

tez

togetter
リンク
Hadoop Source Code Reading #17
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演）Hadoop / Spark Conference Japan
muddydixon 2014/09/10
tez

mpp

spark

hadoop

presentation
リンク
Spark Internals - Hadoop Source Code Reading #16 in Japan
Apache Spark Introduction and Resilient Distributed Dataset basics and deep diveSachin Aggarwal
muddydixon 2014/07/08
hadoop

presentation

spark

architecture
リンク
Private Presentation
Private content!This content has been marked as private by the uploader.
muddydixon 2014/07/08
hadoop

presentation

spark

mllib
リンク
Hadoopソースコードリーディング第16回に参加してきました | DevelopersIO
Hadoopソースコードリーディング第16回に参加してきました。今回は1.0がリリースされる目前のApache Sparkがテーマでした。 NTTデータ濱野さんの冒頭の挨拶 Spark1.0リリースを記念する予定が、されていないｗ今回はお酒を飲んでグダグダする時間はないｗ Apache Sparkのご紹介（前半） NTTデータ土橋さんまずは土橋さんからSparkの背景やSpark Summit 2013の振り返り、Sparkの基本についての説明がありました。詳細はスライドを見てもらった方がいいですが、さくっと雰囲気を掴みたい方は以下のメモをご参照下さい。土橋さん 6年前からHadoopに関わっている。基本はインフラエンジニア Ansible使っている。アジェンダ Sparkの背景 Spark Summit 2013振り返り Sparkのキホン RDD スケジューラ前提机上調
muddydixon 2014/06/02
spark

hadoop

presentation
リンク
Apache Sparkのご紹介（後半：技術トピック）
第16回 Hadoopソースコードリーディング(2014/05/29) 発表資料『Apache Sparkのご紹介』（後半：技術トピック） NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス猿田浩輔 (Kousuke Saruta) http://oss.nttdata.co.jp/ 前半はこちら → http://www.slideshare.net/hadoopxnttdata/apache-spark-spark
muddydixon 2014/05/30
hadoop

spark

presentation
リンク
1 2 次のページ