タグ

ETLに関するInoHiroのブックマーク (10)

  • TREASUREDATAのエコシステムで作るロバストなETLデータ処理基盤の作り方

    ETL処理のユースケースや、ETL処理のセオリーを解説します。 2018/05/23(水)開催の「PLAZMA Data Engineer Day: TD Tech Talk 2018」にてお話ししたスライドです。 https://techplay.jp/event/669346

    TREASUREDATAのエコシステムで作るロバストなETLデータ処理基盤の作り方
    InoHiro
    InoHiro 2019/02/14
  • Amazon Web Services, Inc.

    2017 年 12 月に東京リージョンでサービス提供が開始され、日のお客様による検討、導入が進み始めました。

    Amazon Web Services, Inc.
    InoHiro
    InoHiro 2018/01/30
    おもしろそう(行けない
  • AWS Glue(分析用データ抽出、変換、ロード (ETL) )| AWS

    この図は、AWS Glue のユーザーが、複数のデータ統合エンジンを使用したジョブワークロードを作成するために、インターフェースオプションを選択する方法を示しています。左側に 1 つ、真ん中に 2 つ、右側に 1 つ、計 4 つのセクションを表示します。 左側の最初のセクションは、「データソース」と呼ばれています。 「Amazon S3」、「Amazon DynamoDB」、「Amazon EC2 上で実行するデータベース」、「データベース」および「SaaS」の、データソースが含まれます。 最初のセクションに、「インターフェースの選択」という図の上部にある真ん中のセクションを指す矢印があります。 この 2 番目のセクションには、3 つのセクションが含まれています。「AWS Glue Studio」、「Amazon SageMaker ノートブック」、「ノートブックと IDE」の 3 つです

    AWS Glue(分析用データ抽出、変換、ロード (ETL) )| AWS
    InoHiro
    InoHiro 2016/12/02
    Fully Managed ETL, TransformationスクリプトはPythonとある。こういうの乗っかるとあとが怖い
  • Amazon Redshiftへ継続的にデータをロードする際に気をつけること - クックパッド開発者ブログ

    こんにちは、インフラ部データ基盤グループの小玉です。 データ基盤グループでは、Amazon Redshift(以下、Redshift)へ継続的にデータをロードする仕組みを、約半年に渡り構築・運用してきました。この記事では、その中で学んだことを共有させて頂きます。 弊社では情報系システムの一部に、AWSが提供するRedshiftという分散データベースを利用しています。情報系システムとは、データ分析を主な用途とするシステムのことです。なかでもRedshiftはSQLを使った大量データの高速な分析に最適化されているため、DWH(データウェアハウス)としての利用に適しています。 DWHの構築に必要なタスクとしては、データソースの特定、モデリング、データの抽出・変換・ロード(ETL)、クエリツールやBIツール導入、パフォーマンス・チューニング、メタデータの管理、バックアップ・リストアなど、があります

    Amazon Redshiftへ継続的にデータをロードする際に気をつけること - クックパッド開発者ブログ
  • みんなのウェディングのデータ分析基盤の現状 — みんなのウェディングエンジニアリングブログ

    こんにちは、みんなのウェディングの小室 (id:hogelog) です。 今回はみんなのウェディングにおけるデータ分析基盤の現状についてご報告させていただきます。 三行まとめ 忙しい人のために先に結論を書くと bricolage と embulk で Redshift に集めて re:dash で分析 です。 データ収集 データ収集は bricolage のジョブネット機構を用いて bricolage の各種ジョブや embulk を連携させ、Redshift にデータを取り込んでいます。 参考までに https://github.com/hogelog/dwh-example に簡単な構成例を準備しました。 MySQL → Redshift みんなのウェディング http://www.mwed.jp/ のデータベースとしては MySQL を利用しています。 MySQL から Redshi

    みんなのウェディングのデータ分析基盤の現状 — みんなのウェディングエンジニアリングブログ
  • TechCrunch

    WhatsApp announced today that it is rolling out the ability for users to use two accounts simultaneously. That means you can switch between two accounts in the same WhatsApp instance. Historically, pe Google will start assembling the Pixel smartphone lineup in India, a company executive said, becoming the latest tech giant to bet on the South Asian market for devices manufacturing. The company int

    TechCrunch
    InoHiro
    InoHiro 2015/11/11
    オンデマンドで全部集計するのか、重たそう
  • リクルートライフスタイルのビッグデータ

    リクルートライフスタイルのビッグデータ 300のバッチが流れ、300人の分析者がクエリを投げるビッグデータ基盤 こんにちは、データ基盤チームの平です。 我々、データ基盤チームのミッションは2つあります。 リクルートライフスタイル各サービスの分析担当者に対して、そのサービス、もしくは複数のサービスにまたがったユーザの行動を分析できる環境を提供する 各サービスのデータを使ったOne to One、Cross-use施策のバッチを開発・運用し、各サービスに価値を提供する 今回は第1回目ということで、我々が構築・運用しているビッグデータ環境の全体像について紹介します。 基盤の全体像 我々の基盤は、リクルートライフスタイル全サービスのデータを収集しています。 収集したデータを基に、分析に使うマートやレコメンドに使うデータを作成しており、レコメンドのデータをサービス側のDBへエクスポートしたり、レ

    リクルートライフスタイルのビッグデータ
    InoHiro
    InoHiro 2015/08/07
    TD, Redshiftは既視感。JP1使ってるんだ。分析する人が300人いるのすごい
  • What is ETL? (Extract, Transform, Load) The complete guide

    Qlik StaigeBring your AI strategy to life with a trusted data foundation and actionable predictions Learn More

    What is ETL? (Extract, Transform, Load) The complete guide
    InoHiro
    InoHiro 2015/06/12
  • [レポート][TA-03]Amazon Redshift Integration Deep Dive #AWSSummit | DevelopersIO

    AWS Summit Tokyo 2015のTA-03: Tech Deep Dive by Amazon:「Amazon Redshift Integration Deep Dive」のレポートです。 スピーカーはAmazon Data Services Japanの八木橋 徹平氏。 レポート このセッションの目的 このセッションはRedshiftの使い方がある程度わかっている人に自社システムやAWSの他サービスとの連携方法のコツを知ってもらうことにある。Redshift固有のクセや設定があるため、端的にいうとRedshiftにいかに効率よくデータを入れるためにETL(Extract + Transform + Load) + Uploadを行うか、というセッションである。 Redshiftおさらい Redshiftの特徴 →MPP(超並列演算)、論理的なリソースの括り「ノードスライス」

    [レポート][TA-03]Amazon Redshift Integration Deep Dive #AWSSummit | DevelopersIO
    InoHiro
    InoHiro 2015/06/03
    "スロット数と同じ並列度でロードするため、ファイル数はスロット数の倍数が望ましい。"
  • スマートニュースの世界進出を支えるログ解析基盤 #jawsdays #tech

    スマートニュースは昨年の 10/1 に米国版をローンチするにあたり、ログ解析基盤のリニューアルを行いました。日に加えて米国やその他の国が入ってくることにより、単なるユーザ数の増加に加え、OS x 国 x タイムゾーン x 多種多様なメトリクスのような集計軸が増えることで、ログの前処理、集計、可視化に様々な工夫が必要になってきます。セッションでは、会社の成長に応じたログ集計基盤の転換を振り返りながら、世界進出にあたってどのようなことを考え、どのようにログ集計基盤をリニューアルしていったか、および、そのログ解析基盤を支える Amazon EMR, Hive, Presto, Azkaban, Shib, Chartio などのツールについてお話します。

    スマートニュースの世界進出を支えるログ解析基盤 #jawsdays #tech
    InoHiro
    InoHiro 2015/03/22
    S3からRedshiftに突っ込んで、そこでETL(ELT)は検討しなかったのかな
  • 1