[B! redshift] you21979のブックマーク

We’re changing the way you think about data

Tableau helps people see and understand data What do you want to do with yours? Try Tableau for Free See it in action Student or teacher? Get a free 1-year license. Learn More Full-version trial. No credit card required.

you21979 2014/04/16

redshift

リンク

情弱のためのRedshiftまとめ - Qiita

先日、Redshift童貞を卒業しました情弱です。卒業するにあたり困り事がいくつかあったので、そのあたりまとめを作りたいと思います。そもそもこれなに？情弱な私はここからのスタートです。データウェアハウス（DWH）でテラバイトクラスでも分析出来るらしいということはわかっていましたが、そこから先がよくわかりません。これ、つまるところでいうと集計がめちゃくちゃ速いPostgres です。なので、これを使えばおばあちゃんの病気が治るとかそういった素敵なものではなく、create tableしてデータ入れて、group byしてcount()やsum()するだけです。ただ、DWH用途に特化しているだけあって、通常のPostgresにはない特徴がいくつかあります。ふつうのPostgresとの違い私がぱっと気付いたものなので、もっとたくさんあるはずですが、多分主なヤツ。サポートしてるデータ

you21979 2014/04/14

「列指向なのでselect *は基本ダメ。必要なカラムだけ採る」

redshift

リンク

Amazon Redshiftの利点

Amazon Redshiftについて色々と聞く機会があった。その時聞いたことメモ。 Amazon EMRとAmazon Redshiftの違いまずは、よく比較されることになるEMRとRedshiftの違いから。 Amazon EMR HadoopクラスタとHiveを簡単に使うためのサービス。自由な台数のクラスタを自由なタイミングで起動したり破棄したりできる。 Hadoopクラスタ運用(初期設定、チューニング、等)の手間が完全に不要なのはものすごいメリット。クエリの速さは、ログの量によりますが、数分～数十分くらいかかる。(ログの行数が数百万～数千万ある時) 利用者から見た基本的な用途・できることはEMRとほとんど同じ。ただ、仕組みが全く違う。 RedshiftはRDBのような(Postgresベースらしい)テーブル設計を持つ。例えば、VARCHAR(255)みたいなカラムを持つ。EMR

you21979 2014/04/14

redshift

リンク

SQL commands - Amazon Redshift

The SQL language consists of commands that you use to create and manipulate database objects, run queries, load tables, and modify the data in tables. Amazon Redshift is based on PostgreSQL. Amazon Redshift and PostgreSQL have a number of important differences that you must be aware of as you design and develop your data warehouse applications. For more information about how Amazon Redshift SQL di

you21979 2014/04/14

redshift

リンク

大規模データについて第6回～Redshift編～ - Qiita

大規模データについて最後にRedshiftについて書きます。使い始めたばかりで実践的な話は少ないですが、現場視点の使用感をまとめました。 Redshiftとは AWSが提供するデータウェアハウスです。いわゆるフルマネージドサービス（RDS、DynamoDBと同様）ですぐに使い始められます。操作項目はRDSに近いです。詳しくは、コチラをご覧下さい。特徴をまとめると使い勝手は、他のAWSサービス同様に必要に応じて簡単に拡張できます、データ抽出のためのSQLは、Postgreペースのカスタム版です。抽出のための機能は揃っているので問題なく使えます。詳しくは、コチラをご覧ください。運用の手間は、バッチ処理の様な比較的時間の余裕がある処理で使う分には問題ないレベルだと思われます。１時間/週のメンテナンス時間が必要なのでDBが止まっても問題ない(リカバリできる)処理でないと難し

you21979 2014/04/14

redshift

リンク

AWS Game Analytics - GDC 2014

Use AWS to learn how much players love your game by analyzing in-game metrics to measure engagement and retention. Start simple by uploading data to S3 and analyzing it with Redshift. Add additional game data sources and dive deeper with Cohort analysis. Finally I cover real-time analytics with Kinesis and Spark.

you21979 2014/04/10

aws
redshift

リンク

Fluentdを使ってアプリ側で吐いたログをAmazonRedshift上のテーブルに登録する - へろへろもへじ

2014年、明けましたおめでとうございます。年末年始にfluentdに関してちょこちょこ試作しておりまして、TODOはまだあるものの、ある程度まとまったので書き留めておきます。目的 Webサーバで吐かれたログ（複数ファイル）をRedshift上のテーブルに登録する（なるべくスマートに... 要件（希望含む） Webサーバには負荷をかけたくないので、最低限の仕事のみさせる構成としたい取り込み対象のログファイルが増えた場合、設定ファイルを極力いじらない構成としたいログファイルの出力形式はアプリ側で変えない高可用性、負荷分散を容易にできる構成としたい Redshiftになるべく簡単に連携... ※1,2,4はあたり前田の(ry...ですね解決案 1.Webサーバには負荷をかけたくないので、最低限の仕事のみさせる構成としたい Webサーバにfluentd(td-agent)を立て、生

you21979 2014/04/10

リンク

fluent-plugin-redshiftとその他pluginを組み合わせてredshiftへデータ保存

http://aws.amazon.com/jp/redshift/ AWSから安価で使用可能なDWH製品Redshiftが公開されてしばらく立ちます。非常に興味深いサービスなのですが、Redshiftへのデータの登録が独特(S3に置いたCSV/TSVをcopyコマンドを用いて登録）という事もあり、ちょっと面倒くさく感じていました。最近、掲題のようにredshiftへのデータ保存が行えるFluentdプラグインがあるのを発見したので、こちらと他プラグインを組み合わせて、Fluentdを用いたRedshiftへのデータ保存を試してみました。 ◯fluent-plugin-redshift https://github.com/hapyrus/fluent-plugin-redshift BufferedOutputプラグインの一つで、仕組みとしてはchunk単位でS3にデータを書き込んだ

you21979 2014/04/10

リンク

FluentdとRedshiftの素敵な関係

Apache Arrow - A cross-language development platform for in-memory dataKouhei Sutou

you21979 2014/04/10

リンク

Amazon Redshift を動かしてSQLで使ってみるまでの手順 | Check!Site

listing が約20万件ある状態です。各レコードの内容は以下のような感じです。（サーバ上に持ってきて見てみました。） # head -3 allusers_pipe.txt 1|JSG99FHE|Rafael|Taylor|Kent|WA|Etiam.laoreet.libero@sodalesMaurisblandit.edu|(664) 602-4412|TRUE|TRUE||FALSE|TRUE|||TRUE|FALSE|TRUE 2|PGL08LJI|Vladimir|Humphrey|Murfreesboro|SK|Suspendisse.tristique@nonnisiAenean.edu|(783) 492-1886||||TRUE|TRUE|||TRUE|FALSE|TRUE 3|IFT66TXU|Lars|Ratliff|High Point|ME|amet.fa

you21979 2014/04/10

redshift

リンク

第1回　Amazon Redshiftとは［前編］ | gihyo.jp

Amazon Web Services（AWS）は次々と新しいサービスを世の中に出して、クラウド・コンピューティングの可能性を広げていっています。そのAWSから登場した最新のサービスであるAmazon Redshiftは、そのパフォーマンスや驚異的な低コストのため、発表当時から大変な反響を呼んできました。この連載では、 Redshiftの概要からその利用方法まで、主にあまりデータウェアハウスを利用した経験がないWeb開発エンジニアなど向けに、このビッグデータ向けクラウド・データウェアハウス製品であるAmazon Redshiftの解説をして行きたいと思います。まずは、そもそもAmazon Redshiftとは何なのか、その概要から説明します。 Amazon Redshiftはビッグデータ時代のクラウド・データウェアハウス 2012年11月、AWSにとって初めての世界的なユーザカンファレ

you21979 2013/12/14

redshift

リンク

Fluentd、Amazon RedshiftとTableauを用いたカジュアルなデータ可視化 | SmartNews開発者ブログ

ゴクロ改め、スマートニュース株式会社の大平です。巷間では「bigdata」の活用が叫ばれて久しいですが、弊社はまだまだ小さい規模のスタートアップのため少なくともデータサイズとしてhugeなdataの活用が行える環境ではありません。であればデータの活用に対する要求が低いか、というとそうでも無く、サービスサイドでも自然言語処理や機械学習を中心としたデータ解析処理がサービスの生命線となっていますし、サービスの裏側でも戦略を立てる上で効果測定や諸々のデータの分析は非常に重要な位置を占めています。本記事では主にサービスの裏側で求められるデータ解析において、いかにカジュアルにデータを解析するか、の一例として、掲題のような組み合わせによるデータ可視化の事例を簡単にですがご紹介したいと思います。データ解析基盤を作る側の視点からすると、システムとして求められる要件は以下のようなものだと理解していま

you21979 2013/12/14

リンク

「Amazon Redshift」を使ってみた　～使いどころと、つまずきがちなポイント

はじめに Amazon Redshiftは、Amazon Web Services（AWS）が提供するデータウェアハウス（DWH）サービスで、2013年2月に正式リリースされ、同6月4日には東京リージョンでも利用可能になりました。既存のDWHと比較しても安価で、PostgreSQLベースで容易に高速なデータ分析が可能であることなどが知られており、注目も高まっています。ところが、日本国内では「使ってみた」という情報は非常に少ないです。幸運にも筆者は、限定プレビューの段階からRedshiftに触れる機会に恵まれました。そこで、今回は「こんな使い方をしてみました」「こんなところでつまずいた」といったことを中心に紹介したいと思います。なお、本記事は限定プレビュー～サービス開始当初の米国東部リージョンでの使用結果を元に執筆しており、当時のAPIバージョンは2012-12-01です。東京リージョン