並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 48件

新着順 人気順

DWHの検索結果1 - 40 件 / 48件

  • DWHにおけるデータモデリングで大事にしている考え方

    こんにちは。データエンジニアリングの支援を行っているstable株式会社の代表の宮﨑(@ikki_mz)です。弊社では、クライアント社内のデータウェアハウス(DWH)におけるデータモデリングをサポート...

      DWHにおけるデータモデリングで大事にしている考え方 
    • データ活用基盤の今 〜DWH外観図〜 - クックパッド開発者ブログ

      こんにちは、今年の1月に会員事業部から技術部データ基盤グループへ異動した佐藤です。先日、京まふ2019前夜祭イベントに参加するために人生で初めてピカピカ光る棒を買いました。 新卒で入社してから2年ほど分析作業をしていた身から、データ活用基盤を作る側へ立場を変えました。今回は新たに身を移したデータ活用基盤の外観を説明したいと思います。 2017年にも同内容の記事が投稿されていますので、当時との違いを中心に説明していきます。 外観図 以下が2019年10月現在におけるクックパッドのデータ活用基盤の全体像です。 クックパッドのDWH外観図 masterデータのインポートがMySQL以外にも複数種対応し始めたことと、PrismとSpectrum(S3+Glue)周りと、Tableau Serverが大きな変更点となっています。2017年の図にDmemoはありませんでしたが、記事本文にある通り当時か

        データ活用基盤の今 〜DWH外観図〜 - クックパッド開発者ブログ
      • データ分析基盤構築の肝は、データレイクとDWHの分離 - NRIネットコムBlog

        こんにちは佐々木です。 いろいろなところで口を酸っぱくして言っているのは、データレイクとDWHを分離しろと。とりあえずDWHに放り込むという考えはあるけど、DWHに入れる時点でデータの整形が行われて、情報の欠損がでてくる。だから、その前にデータレイクに生のままに入れること— Takuro SASAKI (@dkfj) 2021年5月1日 データレイクとDWHの分離について呟いたら、それなりの反響を頂きました。せっかくの機会なので、もう少ししっかりと解説してみます。何故、データレイクとDWHを分離する必要があるのか、格納するデータの構造と、データレイク・DWHの役割の観点から考えてみましょう。まずは、データの種類として、構造化データや非構造化データの説明をします。その次に、データレイクとDWHなどの用語・役割の説明をし、最後にアーキテクチャを考えてみます。 構造化データと半構造化データ、非構

          データ分析基盤構築の肝は、データレイクとDWHの分離 - NRIネットコムBlog
        • [速報]Amazon AuroraのOLTPとRedshiftのDWHを統合する「Amazon Aurora zero-ETL integration with Amazon Redshift」発表。AWS re:Invent 2022

          Amazon Web Services(AWS)の年次イベント「AWS re:Invent 2022」が米ラスベガスで開催中です。 2日目の基調講演には、AWS CEOのAdam Selipsky氏が生バンドの演奏とともに登場しました。 Selipsky氏は、さまざまなデータを分析する上で多数の分析ツールのあいだでデータを転送しなければならない問題を指摘し、データ転送ツールであるETLがなくなることが同社のビジョンだと説明。 新サービスとして「Amazon Aurora zero-ETL integration with Amazon Redshift」を発表しました。 Amazon Auroraは高速なトランザクション処理を特徴とするリレーショナルデータベースであり、Amazon Redshiftは大規模データの高速分析を特徴とするデータウェアハウスのサービスです。 新サービス「Amaz

            [速報]Amazon AuroraのOLTPとRedshiftのDWHを統合する「Amazon Aurora zero-ETL integration with Amazon Redshift」発表。AWS re:Invent 2022
          • DWHを活用した機械学習プロジェクト/ml-with-dwh

            Data Platform Meetup 【vol.2】 https://data-platform-meetup.connpass.com/event/155073/ での発表スライドです。 クックパッドにおける,DWHと密に連携した機械学習プロジェクトの話です。

              DWHを活用した機械学習プロジェクト/ml-with-dwh
            • DWHにおけるデータモデル 定番から最新トレンドまで

              Kubernetesでアプリの安定稼働と高頻度のアップデートを両立するためのプラクティス / Best Practices for Applications on Kubernetes�to Achieve Both Frequent Updates and Stability

                DWHにおけるデータモデル 定番から最新トレンドまで
              • [動画公開] データ分析を支える技術 DWH再入門 #devio2020 | DevelopersIO

                データアナリティクス事業本部の石川です。今週より開催しているクラスメソッド主催のオンラインカンファレンス、Developers.IO 2020 CONNECTにて「データ分析を支える技術 DWH再入門」というテーマにてセッション動画と資料を公開いたしました。 セッション概要 分かりそうで分からないDWH、何のために導入して、どのようにデータを管理・蓄積するのか、どうやって利用するのか、普通のDBと何が違って、アーキテクチャどうなっているかなど、コンサルの現場でよく尋ねられる疑問について解説します。 本セッションでは、DWHを理解するのに必要となる基礎的な用語について一通り網羅するように心がけました。DBは使ったことがあるけど、DWHはよく分からないという人には最適なセッションです。 DWH再入門 DWHの特性 ディメンジョナルデータモデル 分析データの利用 一般的なDBとDWHの相違点 D

                  [動画公開] データ分析を支える技術 DWH再入門 #devio2020 | DevelopersIO
                • DWH改善に生かす! 入門elementary - yasuhisa's blog

                  前提: これは何? dbtを使ったデータプロダクトを作っている社内のチームメンバー向けに書いた勉強会用のドキュメントです 社外に公開できるように少し抽象化して書いてます DWHに限らずdbtを使ったデータプロダクトで生かせる話ですが、分かりやすさのためにDWHを題材にしています 3行まとめ elementaryはdbtを利用しているデータパイプラインに対してData Observabilityを強化するツールであり、付属のリッチなレポートやSlachへのアラート通知が便利です しかし、実はelementaryが内部で生成している成果物はDWHの改善に役に立つものがたくさんあります 本エントリではelementaryの成果物や役に立つ実例を多めに紹介します 前提: これは何? 3行まとめ 背景: DWHとデータ品質 Observability / Data Observabilityについて

                    DWH改善に生かす! 入門elementary - yasuhisa's blog
                  • AWS、DWHサービスのサーバーレス版「Amazon Redshift Serverless」を一般提供開始

                      AWS、DWHサービスのサーバーレス版「Amazon Redshift Serverless」を一般提供開始
                    • DuckDBとdbtとRillで作るローカルで動くDWHっぽいもの

                      この記事はdbt Advent Calendar 2022の12月1日の記事です。 サマリ DuckDBとdbtを使えばローカル環境で一定のデータ量であればオレオレDWHっぽいものが作れるようになる 社内にデータ分析基盤がない、データ活用しようにもデータ基盤がなく本格的に取り組もうと思うとセキュリティや運用までかんがえると始めることすらままならないようなプロジェクトや会社でも始められる可能性がある MLのデータの前処理とdb Pythonモデルを使ってローカル環境で一定のクレンジングと前処理のパイプライン等も作れるかも? DuckDBとは? SQLiteをベースとした軽量で高速なOLAPデータベースです。 近年のPCのメモリ増加で16GBとか乗っていると数百万行ぐらいのデータでもローカルで高速に一定処理することが可能になってしまっています。 詳しくは @notrogue さんが書いた記事を

                        DuckDBとdbtとRillで作るローカルで動くDWHっぽいもの
                      • 今こそ注目!DWHにおけるデータモデリングとその歴史

                        近年、最新技術を用いた華々しいデータ活用が注目される一方で、データ活用のための基本的かつ重要な技術である「データモデリング」について、その重要性が再認識されつつある。 本稿では、DWHをとりまく歴史を踏まえ、様々なデータモデリング技法を紹介する。 目次なぜ今、データモデリングに注目すべきなのかDWHの誕生と発展に貢献した二人の偉大なアーキテクトクラウドDWH時代の最新データモデリングDX時代にデータを使いこなすためになぜ今、データモデリングに注目すべきなのかAIやBI、データドリブン、データ民主化、DX、デジタルサクセス。データ活用業界には様々なトレンドが渦巻いています。しかし、これらの根本を支える技術として、不変のものもあります。リレーショナルモデルとSQLです。 NoSQLやデータレイクの流行によって隅に追いやられていた時代もありましたが、データを分かりやすく扱う上で未だにリレーショナ

                          今こそ注目!DWHにおけるデータモデリングとその歴史
                        • [速報] 革新的な新しいハードウェアアクセラレーションキャッシュで他DWHよりも最大10倍高速化! AQUA(Advanced Query Accelerator) for Amazon Redshift が発表されました #reinvent | DevelopersIO

                          現在米国ラスベガスで開催されている『AWS re:Invent 2019』。米国時間2019年12月03日(日本時間2019年12月04日深夜)、Amazon Redshiftに関する非常に興味深い機能が発表されました。それが当エントリでご紹介する『AQUA(Advanced Query Accelerator) for Amazon Redshift』です。 AQUA (Advanced Query Accelerator) for Amazon Redshift will change the way you use a data warehouse. A new distributed & hardware-accelerated cache brings 10x performance, compute+storage innovation, processors, scale o

                            [速報] 革新的な新しいハードウェアアクセラレーションキャッシュで他DWHよりも最大10倍高速化! AQUA(Advanced Query Accelerator) for Amazon Redshift が発表されました #reinvent | DevelopersIO
                          • 世界最強のDWHクラウドはどれ?AWS・Azure・GCPの3大サービスを徹底比較

                            企業のDX(デジタルトランスフォーメーション)を後押しすべく、クラウド上のデータ活用基盤の開発競争が激しさを増している。中心となるのはAWS(Amazon Web Services)、Microsoft Azure、GCP(Google Cloud Platform)、いわゆる世界3大クラウドだ。 データを「集める」「ためる」「分析する」といった目的に向けて各クラウドが提供するサービスは数多い。オブジェクトストレージや各種データベース、DWH(データウエアハウス)、ETL(Extract、Transform、Load)ツールやBI(ビジネスインテリジェンス)ツール、各種AI(人工知能)など、データ活用に欠かせない機能をユーザーは手軽に使える。 ここにきて進化が著しいのがDWHサービスだ。AWSの「Amazon Redshift」は2019年12月に第3世代に当たるインスタンス「RA3」を発

                              世界最強のDWHクラウドはどれ?AWS・Azure・GCPの3大サービスを徹底比較
                            • AWSがDWHサービスを刷新、ライバルのAzureとGCPへの対抗を急ぐ理由

                              データ活用サービスの開発競争で3大クラウドがしのぎを削っている。AWS(Amazon Web Services)はオブジェクトストレージ「Amazon S3」にデータを集めるデータレイク戦略を拡大。ライバルであるMicrosoft AzureやGCP(Google Cloud Platform)への対抗を強める。 AWSはマネージド型データベース(DB)の「Amazon RDS」をはじめ、ETL(Extract、Transform、Load)ツールの「AWS Glue」、各種AI(人工知能)など様々なサービスを通じデータ活用を支援する。その戦略の中心に位置するのはオブジェクトストレージのAmazon S3である。 「全てのデータをS3にロードしてデータレイクを構築し、AWS Glueでデータフォーマットを整え、そこから各種ツールを使ったデータ分析に進む」(アマゾン ウェブ サービス ジャパ

                                AWSがDWHサービスを刷新、ライバルのAzureとGCPへの対抗を急ぐ理由
                              • 新感覚なELTツール「Meltano」を使ってSlackのデータをDWHに連携してみた | DevelopersIO

                                大阪オフィスの玉井です。 今回はMeltanoというツールをご紹介します。 Meltanoとは? 公式から引用すると「DataOps時代におけるEL(T)ツール」だそうです。 … …私の個人的な感覚で説明しますが、絶妙な位置づけのEL(T)ツールです。やることはELT(メインはEL)なのですが、とにかく位置づけが絶妙なのです。 Meltanoの絶妙なポジション データをE(抽出)してL(ロード)する…という仕組みを行いたいとき、ざっくり分けると、下記のどちらかを選ぶと思います。 手動で開発する(Pythonなど) そういうサービスを導入する(Fivetranなど) 前者は何でもできますが、人と時間のコストが半端じゃないです。後者はめちゃくちゃ楽ですが、ちょっとカスタマイズしたいみたいな時に、あまり身動きがとれません(融通が効きづらい)。 Meltanoは上記の中間に位置する感じです。コード

                                  新感覚なELTツール「Meltano」を使ってSlackのデータをDWHに連携してみた | DevelopersIO
                                • データアナリストが育てるDWH

                                  [オンライン開催] Retty ✕ Mercari Analyst Talk Night! 登壇資料 https://mercari.connpass.com/event/218848/

                                    データアナリストが育てるDWH
                                  • RDBMS特にDWHにおけるユーザー定義関数呼び出しオーバーヘッドによる性能劣化について - Qiita

                                    はじめに 多くの RDBMS では手続き型言語でユーザー定義関数(ストアドファンクション)を作成することができます。コード・ロジック再利用の観点からは有用ですが、SQL文からのユーザー定義関数の呼び出しはかなりオーバーヘッドがあり、呼び出し回数によっては性能劣化の原因になることが多いです。 この事は DWH 系システムでは特に顕著で、データモデルやシステムのアーキテクチャの設計方針に影響を与えるため、DB/DWH の技術者は大体知っているのですが、アプリ技術者には知らない人も多いようです。 そこで今回は、Oracle, SQL Server, MySQL, PostgreSQL において、ユーザー定義関数を利用した場合とそうでない場合でどれぐらい性能差があるかを実測してみたいと思います。 また、最後の章で回避策もいくつか紹介します。 実測環境 今回は Amazon EC2 のm5.larg

                                      RDBMS特にDWHにおけるユーザー定義関数呼び出しオーバーヘッドによる性能劣化について - Qiita
                                    • 広告配信プロダクトのDWHにSnowflakeを採用しました | CyberAgent Developers Blog

                                      広告配信プロダクトのDWHにSnowflakeを採用しました この記事は CyberAgent Developers Advent Calendar 2020 1日目 と Snowflake Advent Calendar 2020 1日目 の記事です。 AI事業本部 Dynalystで開発責任者をしている黒崎( @kuro_m88 )です。 CyberAgent Developers Advent Calendarは入社以来書き続けて6年目になりました。今年は弊社公式で開催されなかったため、有志で立ち上げてみました。 今年はSnowflakeというクラウドデータプラットフォームを自プロダクトで採用した話をさせていただこうと思います。 Snowflakeとは? クラウド上で構築されているSaaSのデータプラットフォームです。大量のデータを取り込んだり、保管したり、それらのデータを加工したり

                                        広告配信プロダクトのDWHにSnowflakeを採用しました | CyberAgent Developers Blog
                                      • 「DWH・BIツールのこれまでとこれから」Data Engineering Study #1イベントレポート | trocco®(トロッコ)

                                        データ基盤人材への需要が年々増えていることからも、企業のデータ活用はより注目を集めています。しかしゆずたそ氏によると、そこには「そもそもどのような基盤を作ればいいのか分からない」「基盤を作ったのに全然使われない」という2つの落とし穴があるそうです。そこで、実際に使われるデータ基盤の構築について、「使われるデータ基盤」構築の勘所を学ぶことをゴールに「なぜ作るのか(Why)」「どんな要素が必要なのか(What)」「どのように実現するのか(How)」の3つに分けて語られました。 ゆずたそ氏:「まずなぜ作るのか、この答えの1つは『お客様』のためです。特にレコメンドやAI活用が増えていく中でデータを活用すること自体が顧客の価値提供になっていきます。もう1つは『現場で働く人』のためです。しっかりとデータを見ながら現場の改善活動によって、業務が磨かれていきます。そして『経営』のためです。しっかり会社全体

                                          「DWH・BIツールのこれまでとこれから」Data Engineering Study #1イベントレポート | trocco®(トロッコ)
                                        • DWHの管理を内製ツールからdbtに移行した話[連載3/3] - Retty Tech Blog

                                          はじめに こんにちは。22卒アナリティクスエンジニアの井下田(@hiroki_igeta)です。 普段からデータ基盤の整備とDWH開発はもちろん、ダッシュボード作成、広告ロジック改善にも携わっています。 -- 本記事は、Rettyのデータ分析チームが約3ヶ月間取り組んできた「dbtの導入」を中心テーマとした連載 #dbtでデータの民主化 の3記事目です。 dbtの導入背景については連載記事の1つ目、dbt移行のプロジェクト進行については2つ目をそれぞれご参照いただけますと幸いです。 (Rettyではdbt導入のためにプロジェクトを立ち上げ、dbt移行を推進しました。) 連載記事1つ目:データアナリストがdbtを使って育てるデータマネジメント 連載記事2つ目:dbt移行プロジェクトを振り返ってみた 連載3記事目の本記事では、「DWHの管理を内製ツールからdbtへ移行する際に工夫した点・反省点

                                            DWHの管理を内製ツールからdbtに移行した話[連載3/3] - Retty Tech Blog
                                          • 【レポート】最新の DWH およびデータレイク動向について(AWS-36) #AWSSummit | DevelopersIO

                                            みなさんこんにちは、杉金です。 今回は 2022 年 5 月 25 - 26 日の 2 日間開催された AWS Summit Onlineのセッションレポートをしていきます。セッションのサマリーを理解し、興味があるセッションをチェックすることにご活用ください。また、セッションのアーカイブも公開されておりますので、詳細が気になった方は是非そちらをチェックして下さい。 セッション概要 生成されるデータ量は増え続け、データ分析のニーズも多様化が進んでいます。従来の方法でこれらの要件を全て満たそうとすると、システムやその管理は複雑化しがちですが、AWS の分析サービスではモダンデータ戦略というアプローチでこの課題に対する様々な解決策を提供しています。本セッションでは、Amazon Redshift を中心に、データレイクと連携した様々な目的別分析サービスを簡単に組み合わせて、それぞれの分析ニーズに

                                              【レポート】最新の DWH およびデータレイク動向について(AWS-36) #AWSSummit | DevelopersIO
                                            • Microsoftがデータ分析基盤「Fabric」発表、DWH・AI・ストリーム分析を統合

                                              米Microsoft(マイクロソフト)は2023年5月23日(米国時間)、年次イベント「Microsoft Build」で新しいデータ分析プラットフォーム「Microsoft Fabric」を発表した。データレイク「OneLake」を使って一元的にデータを管理し、AI(人工知能)によるアシスト機能「Copilot」も利用できる。 イベントに登壇したマイクロソフトのSatya Nadella(サティア・ナデラ)CEO(最高経営責任者)は「全てのAIアプリケーションはデータから始まる。(Fabricは)私たちが何年もかけて取り組んできた製品だ。マイクロソフトのデータ関連製品として、(データベース管理システムである)SQL Server以来、最大の発表になるだろう」と力を込めた。 マネージドクラウドサービス「Azure Data Factory」、企業向けデータ分析サービス「Azure Syna

                                                Microsoftがデータ分析基盤「Fabric」発表、DWH・AI・ストリーム分析を統合
                                              • DWHから“データクラウド”へ、日本に本格進出するSnowflakeの特徴

                                                クラウドデータプラットフォームを提供するSnowflake(スノーフレイク)は2020年11月25日、国内報道陣を対象にしたメディアラウンドテーブルを開催し、日本市場における戦略を明らかにした。 同社 最高売上責任者のクリス・デグナン氏は、「日本では2019年9月から事業を展開してきたが、この1年間で30社を超える顧客に導入していただいた。今後も日本企業がオンプレミスからクラウドへと移行するトランスフォーメーションを我々のデータクラウドで支援していきたい」と語り、日本市場へのコミットをより深めていく姿勢を強調した。 Snowflakeがクラウドで提供するデータ分析基盤。リリース当初はクラウドネイティブなデータウェアハウスサービスだったが、現在はサービスの適用範囲を拡大し「データクラウド」を名乗る 急成長の理由は“DWHにおけるクラウドネイティブなスケーラビリティ” Snowflakeは20

                                                  DWHから“データクラウド”へ、日本に本格進出するSnowflakeの特徴
                                                • AWSのDWH「Redshift」がサーバーレスに進化、10年で内部構造はこんなに変わった

                                                  米Amazon Web Services(アマゾン・ウェブ・サービス、AWS)が2022年7月12日(米国時間)、データウエアハウス(DWH)をサーバーレス化した「Amazon Redshift Serverless」の一般提供を開始した。ユーザー企業は容量設計が一切不要でDWHを利用できる。 サーバーレスと言っても、本当にサーバーがなくなったわけではない。これまでのAmazon Redshiftは使い始める際に、ユーザー企業はDWHクラスターで使用する仮想マシンのサイズなどを決める必要があった。仮想マシンの使用料金は1時間単位の従量課金で、クエリーを実行していない場合であっても料金が発生していた。 それに対してAmazon Redshift Serverlessの場合は、ユーザー企業は仮想マシンのサイズなどを決める必要はない。クエリーの実行時に自動的にノードが起動して処理が始まり、処理が

                                                    AWSのDWH「Redshift」がサーバーレスに進化、10年で内部構造はこんなに変わった
                                                  • DWHとデータレイクを運用する住友生命、なぜ2つのデータ分析基盤が必要なのか

                                                    住友生命保険は2つのクラウド上にそれぞれデータ分析基盤を構築し、データ活用を加速させている。従来のデータ分析基盤は1995年に稼働を開始した「情報分析システム」。オンプレミス環境のデータウエアハウス(DWH)で、簡易なビジネスインテリジェンス(BI)ツールを使ってデータを抽出し、データをExcelで加工していた。販売リポート作成、決算数値集計、各種分析業務などが主な用途だった。 情報分析システムの後継として、「新情報分析システム」と「スミセイデータプラットフォーム」の2つを2020年9月に稼働させた。 2つの使い分けについて住友生命保険の中川邦昭情報システム部上席部長代理データ分析プロジェクトチームリーダーはこう説明する。「情報分析システムは業務システムと位置付けている。全社員が使うので安定性が求められる。一方、スミセイデータプラットフォームはデータサイエンティストがビッグデータを分析する

                                                      DWHとデータレイクを運用する住友生命、なぜ2つのデータ分析基盤が必要なのか
                                                    • 「未来の企業はDWHの隣に“AIファクトリー”を作る」SnowflakeとNVIDIAの提携発表

                                                      Snowflake 会長兼CEOのフランク・スルートマン(Frank Slootman、左)氏と、NVIDIAの創業者兼CEOのジェンスン・フアン(Jensen Huang、右)氏。「Snowflake Summit 2023」にて Snowflakeが2023年6月26日、NVIDIAとの提携を発表した。NVIDIAの大規模言語モデル(LLM)開発用プラットフォーム「NVIDIA NeMo」とGPUを使い、Snowflakeデータクラウド内にあるデータを安全に活用した、自社向けの生成AIアプリケーションを開発できるというもの。 同日、米ラスベガスで開幕したSnowflakeの年次カンファレンス「Snowflake Summit 2023」で、Snowflakeの会長兼CEO、フランク・スルートマン氏とNVIDIA 創業者兼CEOのジェンスン・フアン氏が対談し、提携のメリットやAIのインパ

                                                        「未来の企業はDWHの隣に“AIファクトリー”を作る」SnowflakeとNVIDIAの提携発表
                                                      • Data Engineering Study #1「DWH・BIツールのこれまでとこれから」 (2020/07/15 19:30〜)

                                                        参加方法 今回のオンライン勉強会は YouTube Live を使用してライブ配信いたします。 また、コメントや感想は Twitter、講演内容に関する質問は Slido へお願いいたします。 下記、各種URLよりご参加くださいませ! ▍イベント視聴用 YouTube Live URL - https://youtu.be/hFYNuuAaiTg ▍質疑応答用 Slido URL - https://sli.do/DataEngineeringStudy ▍ギフト券プレゼントキャンペーン参加用Tweetリンク - https://twitter.com/intent/tweet?hashtags=DataEngineeringStudy,今一番気になっているDWH・BIツール ライブ配信終了後、アーカイブ動画の公開を予定しております。 当日の開催時間にライブ参加できない方も、こちらのページ

                                                          Data Engineering Study #1「DWH・BIツールのこれまでとこれから」 (2020/07/15 19:30〜)
                                                        • DWH(データウェアハウス)とは?活用例などわかりやすく解説|ITトレンド

                                                          DWH(Data Ware House:データウェアハウス)とは、さまざまなシステムからデータを集めて整理する、データの「倉庫」です。DWHではデータを時系列で保存し過去のデータ履歴を確認可能にすると同時に、システムごとのデータを集約して全体データとして活用が可能になるため、企業の意思決定に有効活用できます。 この記事では、DWHの概要からデータベース・データレイク・データマート・BIとの違い、活用例などを解説します。以下より関連製品の一括資料請求も可能なため、製品をじっくり検討したい方はぜひご利用ください。 DWH(データウェアハウス)とは DWH(Data Ware House:データウェアハウス)とは、さまざまなシステムからデータを集めて整理するデータベースのことを指します。直訳すると「データの倉庫」という意味です。社内のシステムなど、さまざまなデータソースから大量のデータを時系列に

                                                            DWH(データウェアハウス)とは?活用例などわかりやすく解説|ITトレンド
                                                          • Data Engineering Study #5「噂のSnowflake Deep Dive」で「DWH御三家の各特徴と選び方について〜SnowflakeとBigQueryとRedshiftと〜」を話しました #DataEngineeringStudy | DevelopersIO

                                                            大阪オフィスの玉井です。 2020年12月2日(水)、下記のイベントがオンラインで開催されました。 こちらのイベントにて、「DWH御三家の各特徴と選び方について〜SnowflakeとBigQueryとRedshiftと〜」という題名で、登壇させていただきました。というわけで(?)、使用した資料を公開致します。 改めて発表の概要 本イベントは、イベント名の通り、Snowflakeがメインの勉強会でした。しかし、私のパートでは、Snowflakeを含めた3つのクラウド型データウェアハウスを広く浅く紹介し、「どのデータウェアハウスを導入すればいいのか」という、データ分析担当者の悩みに対して、選定の観点となるポイントの例をいくつか示す内容となりました。 資料 資料の補足情報(リンク等) パフォーマンス セキュリティ スケーラビリティ primeNumber様(主催者)による公開リソース レポート

                                                              Data Engineering Study #5「噂のSnowflake Deep Dive」で「DWH御三家の各特徴と選び方について〜SnowflakeとBigQueryとRedshiftと〜」を話しました #DataEngineeringStudy | DevelopersIO
                                                            • オンプレDWHをBigQueryに移行した話 - ZOZO TECH BLOG

                                                              はじめに こんにちは。MA部MA施策・運用改善チームの辻岡です。MA部では、ZOZOTOWNのメルマガ・アプリPUSH通知などの配信・分析等の用途で約数十TBのデータを運用しています。今回は長年MAのデータ基盤として利用してきたオンプレDWHをBigQueryに移行したおはなしをします。 この記事はこんな方におすすめ オンプレDWHからBigQuery移行を検討・実施してる方 ジョブ・スケジューラ、ETLツールの移行を検討・実施してる方 概要 オンプレDWHからBigQuery移行する前後の構成イメージを元に、今回の移行の話について概要を説明します。 次の図が移行前の構成図です。オンプレ環境のWindowsサーバ上でジョブ・スケジューリングと実行を基盤処理として、データウェアハウス(以後オンプレDWH)に対してデータ生成や外部システムとの連携をしていました。 今回、以下を目的にオンプレDW

                                                                オンプレDWHをBigQueryに移行した話 - ZOZO TECH BLOG
                                                              • クラウドDWH(データウェアハウス)って何?AWS,Azure,GCPを比較しながら分析の手順も解説! | 株式会社トップゲート

                                                                削除する Google Service TGカルチャー アプリケーション開発 コンサルティング セミナー テックブログ デザイン デジタルプロダクト開発 開発実績 ニュース 2025年の崖(1) 5G(1) AI(39) AI Hub(1) AI Platform(1) AlloyDB(12) AlloyDB for PostgreSQL(6) AlphaZero(1) Analytics HUB(1) Android(11) Android アプリ(1) Anthos(6) API(12) API エコノミー(1) APP(2) App Engine(2) App Maker(2) AppServer(1) AppSheet(3) arduino(1) Authentication(1) AutoML(4) AWS(12) AWS (Amazon Web Services)(1) AWS

                                                                  クラウドDWH(データウェアハウス)って何?AWS,Azure,GCPを比較しながら分析の手順も解説! | 株式会社トップゲート
                                                                • Tableau Desktopで超高速DWH『Snowflake』に接続してみた

                                                                  この課金モデルだと、ウェアハウスサイズを大きくしても処理時間がその分短くなるので、1タスク当たりのコストは変わらないことが分かる。 例えば、X-Smallで128分掛かるタスクを4X-Largeで実行すると1分で終了するため、それぞれの時間単価を掛けた時のコストはどちらも128となる。 これをうまく利用すれば、大きいタスクが走る時間帯にサイズを上げ、逆にタスクが少ない時間帯はサイズを下げる等の運用ができるようになり、コストを抑えつつもハイパフォーマンスなDWH環境を常に提供することができるようになる。 そこで気になるのが、実際どのくらいの性能なのか。 Snowflakeのトライアルで確かめていく。 2.Snowflakeのトライアルを始める Snowflakeのトライアルでは、1ヶ月で400ドル分のリソースを無料で利用することができる。 試しに1.2TBのデータをスキャンし240億件のデー

                                                                    Tableau Desktopで超高速DWH『Snowflake』に接続してみた
                                                                  • PayPayのデータ分析基盤を支える専門組織が語る、開発体制とDWH/BIツール技術とは - TECH PLAY Magazine

                                                                    登録ユーザー数5000万人、決済回数は36億回を超える「PayPay」。モバイルペイメント機能だけでなく、多機能なサービスを統合するスーパーアプリであり、日々大量のデータが蓄積されている。その膨大なデータセットにおけるデータ活用においては、どのように問題解決しているのか。全社データ分析基盤の開発・管理を行う専門組織である「データマネジメント部」が取り組んできた課題やDWHとBIツールを活用した解決策を語ってくれた。 PayPayデータ基盤チーム立ち上げと役割・運営について PayPay株式会社 コーポレート統括本部 システム本部データマネジメント部 部長 三重野 嵩之氏 まず、登壇したのはデータマネジメント部 部長の三重野嵩之氏。三重野氏は建設コンサルタントを1年半、北海道・札幌でSESを1年半、SIでソフトウェアエンジニアを約6年経験。このSIで小売企業向けのデータ分析基盤を構築した。そ

                                                                      PayPayのデータ分析基盤を支える専門組織が語る、開発体制とDWH/BIツール技術とは - TECH PLAY Magazine
                                                                    • NTTデータ、クラウドDWHの米Snowflakeに出資、データ活用事業を300億円規模まで拡大目指す | IT Leaders

                                                                      IT Leaders トップ > テクノロジー一覧 > BI/BA/DWH > 市場動向 > NTTデータ、クラウドDWHの米Snowflakeに出資、データ活用事業を300億円規模まで拡大目指す BI/BA/DWH BI/BA/DWH記事一覧へ [市場動向] NTTデータ、クラウドDWHの米Snowflakeに出資、データ活用事業を300億円規模まで拡大目指す 2020年9月16日(水)日川 佳三(IT Leaders編集部) リスト NTTデータは2020年9月16日、データウェアハウス(DWH)のクラウドサービス「Snowflake」を提供する米Snowflakeに出資すると発表した。出資金額と資本構成比率は非公開だが、「多くはないマイナーな比率」(同社)とし、資本金を同年9月18日に支払う。これによりNTTデータは、Snowflakeを含むデータ活用推進事業全体で、2025年までに

                                                                        NTTデータ、クラウドDWHの米Snowflakeに出資、データ活用事業を300億円規模まで拡大目指す | IT Leaders
                                                                      • DWH: スタースキーマをベースにあらためて考えてみたデータモデリングの9つのこと - プログラマ38の日記

                                                                        DWHのデータモデルでとても有名な"スタースキーマ"。 でも、アプライアンスDBを導入したんだからきちんと正規化した方が後々使いやすいといった意見もあったりします。 私は、スタースキーマはとてもシンプルでわかりやすく、そして結合が少なくて使いやすい、何より性能が安定するモデルと考えています。 そこで、自分の思いを踏まえてスタースキーマをベースにしたデータモデリングについて書いていこうと思います。 [いわゆるスタースキーマの絵] ※以前の記事にも同じものを貼っています 真ん中の売上データのテーブルを一般的にファクトテーブル(以下、ファクト)そして、周りのカレンダ、商品、店舗、顧客のテーブルをディメンションテーブル(以下、ディメンション)という名前で呼びます。 1.ディメンションとファクトは、物理的に1:Nで結合する。 2.ディメンションとファクトは、内部結合にする。 3.ヘッダと明細の構成の

                                                                          DWH: スタースキーマをベースにあらためて考えてみたデータモデリングの9つのこと - プログラマ38の日記
                                                                        • データレイクとデータウェアハウス(DWH):主な4つの違い

                                                                          データ構造の違い:ローデータ vs 処理済みデータローデータは、目的を果たすための処理がまだ実行されていないデータです。データレイクとデータウェアハウスの最大の違いは、ローデータと処理済みデータの構造の違いであると言えます。データレイクは、主として未処理のローデータを格納し、データウェアハウスは処理済みの洗練されたデータを格納します。 このため、データレイクは通常、データウェアハウスよりもはるかに大きなストレージ容量を必要とします。さらに、未処理のローデータには柔軟性があり、任意の目的で迅速に分析でき、機械学習に理想的です。一方で、そのようなローデータのリスクは、適切なデータクオリティとデータガバナンスを講じなければ、データレイクがデータスワンプ化することがあるという点です。 データウェアハウス(DWH)は、処理されたデータのみを保存し、使用されない可能性のあるデータを維持しないことにより

                                                                            データレイクとデータウェアハウス(DWH):主な4つの違い
                                                                          • 【海外ITトピックス】 クラウドDWHで急成長 大型IPOのSnowflake

                                                                              【海外ITトピックス】 クラウドDWHで急成長 大型IPOのSnowflake
                                                                            • DWHの課題を一挙に解決する真のクラウド型DWH、Snowflakeとは何者か

                                                                              ビッグデータ活用の重要性が指摘されて久しい。しかし、日本企業は欧米企業と比較し、ビッグデータ活用の取り組みが遅れていると言われている。自社でシステムエンジニアを擁することが少ない日本企業にとって、データウェアハウス(DWH)の運用・管理はハードルが高い。導入検証をしたものの、その効果測定ができず頓挫しているケースも少なくない。では、DWHを選択する際には何を基準にすべきなのか。2019年11月に満を持して日本法人を設立したSnowflakeで、日本法人の代表を務める東條英俊氏とソリューションアーキテクトを務める本橋峰明氏に話を聞いた。 データドリブン経営成功の可否は企業の存続を左右する 今、多くの企業は、データ分析から得られた洞察を基にビジネスを駆動する、「データドリブン経営」への転換を図っている。IoT(Internet of Things)やウェブログなど、さまざまなリソースからデータ

                                                                                DWHの課題を一挙に解決する真のクラウド型DWH、Snowflakeとは何者か
                                                                              • クラウドDWHの米Snowflakeが日本法人を設立、データ駆動型経営を支援 | IT Leaders

                                                                                IT Leaders トップ > テクノロジー一覧 > BI/BA/DWH > 市場動向 > クラウドDWHの米Snowflakeが日本法人を設立、データ駆動型経営を支援 BI/BA/DWH BI/BA/DWH記事一覧へ [市場動向] クラウドDWHの米Snowflakeが日本法人を設立、データ駆動型経営を支援 2019年11月28日(木)河原 潤(IT Leaders編集部) リスト クラウド(SaaS)ベースのデータウェアハウス(DWH)製品ベンダーである米Snowflake(スノーフレイク)は2019年11月26日(米国現地時間)、同社の日本法人を東京に設立したと発表した。日本法人のカントリーマネジャーには東條英俊氏が就任し、12月1日より渋谷区にオフィスを開設する。 米Snowflakeは、DWaaS(Data Warehousing as a Service:サービスとしてのデー

                                                                                  クラウドDWHの米Snowflakeが日本法人を設立、データ駆動型経営を支援 | IT Leaders
                                                                                • 最新のDWH、ETLの技術的背景について"超ざっくり"とまとめる - Qiita

                                                                                  はじめに DWHおよびETLで必要とされる大規模な処理がどういう背景と考え方で実現されているのか"超ざっくり"まとめます。 データ処理技術のトレンド まずはETL処理に関してです。DWHもそうですが、分散処理がキーワードとなります。 求められるBigdataへの対応 いわゆる3V(Variety,Velocity,Volume)で定義されることの多いBigdataの出現に伴い、それを分析処理するソフトウェアにはまず第一に「大量のデータに対する処理を現実的な時間内で終わらせること」が求められました。 分散処理フレームワークの台頭 大量のデータを効率的に処理させるための対応として、Hadoopと呼ばれるような処理技術が利用されるようになりました。 Hadoopは以下のような仕組みで大量データを効率的に処理することを実現しました。 「データを分割して多数のサーバーで処理」(Map) 「それぞれの

                                                                                    最新のDWH、ETLの技術的背景について"超ざっくり"とまとめる - Qiita