並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 70件

新着順 人気順

データレイクの検索結果1 - 40 件 / 70件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

データレイクに関するエントリは70件あります。 awsデータdata などが関連タグです。 人気エントリには 『AWSで“データのサイロ化”を防げ すべてのデータを1ヶ所に集めるデータレイクの作り方』などがあります。
  • AWSで“データのサイロ化”を防げ すべてのデータを1ヶ所に集めるデータレイクの作り方

    リーガルテック領域のリーディングカンパニーである株式会社LegalForceが、「検索インフラTechTalk!」を開催しました。インフラ領域の中でも「検索インフラ」にフォーカスした今回は、検索インフラに関する具体的な事例や取り組みについて各スピーカーから発表がありました。野口真吾氏は、AWSを用いたデータレイクの基礎について紹介しました。 企業規模に関係なく起こるデータのサイロ化 野口真吾氏(以下、野口):みなさんこんばんは。本日は「検索インフラ Tech Talk!」ということで、検索インフラから少し広げた話題にはなるんですが、「AWSを用いたデータレイクの基礎」というお話をします。よろしくお願いします。 最初に簡単に自己紹介します。アマゾンウェブサービスジャパンでスタートアップ担当のソリューションアーキテクトをしている野口真吾と申します。Twitterでは@nogというIDを使って活

      AWSで“データのサイロ化”を防げ すべてのデータを1ヶ所に集めるデータレイクの作り方
    • 「AWSではじめるデータレイク」出版記念データレイク解説セミナーの資料公開 | Amazon Web Services

      Amazon Web Services ブログ 「AWSではじめるデータレイク」出版記念データレイク解説セミナーの資料公開 去年よりAWSのメンバー4名(志村、上原、関山、下佐粉)でデータレイクの基礎からアーキテクチャ、構築、運用管理までをカバーした書籍「AWSではじめるデータレイク」を執筆してきたのですが、7月出版の目処がたったことを記念して、5月末から毎週木曜にデータレイクに関するWebセミナーを開催してきました。 幸いにも大変多くの方にご参加いただくことができました。ご参加いただいた方にはあらためてお礼申し上げます。 一方で、以前の回に出られなかったので資料だけでも公開して欲しい、というご要望をたくさん頂いていました。そこで今回第1回から第3回の資料を公開させていただく事になりました。 ※ 2020/06/25更新:第4回の資料を追加公開しました 以下よりご覧いただけます。(PDFフ

        「AWSではじめるデータレイク」出版記念データレイク解説セミナーの資料公開 | Amazon Web Services
      • データ分析基盤構築の肝は、データレイクとDWHの分離 - NRIネットコムBlog

        こんにちは佐々木です。 いろいろなところで口を酸っぱくして言っているのは、データレイクとDWHを分離しろと。とりあえずDWHに放り込むという考えはあるけど、DWHに入れる時点でデータの整形が行われて、情報の欠損がでてくる。だから、その前にデータレイクに生のままに入れること— Takuro SASAKI (@dkfj) 2021年5月1日 データレイクとDWHの分離について呟いたら、それなりの反響を頂きました。せっかくの機会なので、もう少ししっかりと解説してみます。何故、データレイクとDWHを分離する必要があるのか、格納するデータの構造と、データレイク・DWHの役割の観点から考えてみましょう。まずは、データの種類として、構造化データや非構造化データの説明をします。その次に、データレイクとDWHなどの用語・役割の説明をし、最後にアーキテクチャを考えてみます。 構造化データと半構造化データ、非構

          データ分析基盤構築の肝は、データレイクとDWHの分離 - NRIネットコムBlog
        • Startup.fm: スタートアップのためのデータレイク構築の流れ / Startup.fm: Build a Data Lake in steps

          データウェアハウスやログ分析、機械学習といった進化する分析環境に柔軟に対応する 「データレイク」は今やデータ活用に欠かせないものとなりました。 一方で、現場では以下のような疑問や課題も多く出てきているのではないでしょうか? 「データレイク向けの関連サービスとか多くてなんかよくわからない」 「最初からデータレイクの構築は、ハードル高くて時間もコストもかかるでしょ?」 「手軽に始めたいけど、将来的にスケールできるようにもしておきたい・・・」 「とりあえず今はMySQLとかにデータ入れてるけど、次は何をすればいい?もっといいやり方ないの?」 この度そんなスタートアップのお客様向けに、データレイクセミナーの開催を決定いたしました! これからデータレイクを始めたい方にも、データレイクをさらに効果的に活用したい方にもおすすめです。

            Startup.fm: スタートアップのためのデータレイク構築の流れ / Startup.fm: Build a Data Lake in steps
          • データレイク構築後の四方山話 #DPM / 20190905

            Data Platform Meetup の登壇資料です。 https://data-platform-meetup.connpass.com/event/142822/

              データレイク構築後の四方山話 #DPM / 20190905
            • AWS データレイク事例祭り 登壇資料

              AWS データレイク事例祭り 登壇資料です。

                AWS データレイク事例祭り 登壇資料
              • S3データレイクをAWSの分析サービスを使って有効活用する #AWS-06 #AWSSummit | DevelopersIO

                本記事は、AWS Summit Japan 2021のセッション動画、「AWS-06: 貯めるだけじゃもったいない!AWS 分析サービスを使ったデータレイクの有効活用」のレポート記事です。 「データはとりあえずS3に溜めておけ!」とデータレイクっぽいものは作れたけど上手く使いこなせていない方、それなりにいらっしゃるのではないでしょうか?本セッションでぜひAWSの分析サービスの活用術をおさらいしてみてください。 概要 データの持つ力を活かす方法としてデータレイクがありますが、データレイク上にデータは貯まってきたものの、どう有効活用すればいいか悩んだ経験はないでしょうか?データレイクに存在するデータと分析ツールと組合せ、活用する方法として、“レイクハウスアプローチ”があります。本セッションでは"レイクハウスアプローチ"の考え方を紹介すると共に、どのようなAWSサービスを用いて"レイクハウスアプ

                  S3データレイクをAWSの分析サービスを使って有効活用する #AWS-06 #AWSSummit | DevelopersIO
                • AWS 上にデータレイクを構築し分析する方法を AWS エキスパートと一緒に1日で学びませんか? | Amazon Web Services

                  Amazon Web Services ブログ AWS 上にデータレイクを構築し分析する方法を AWS エキスパートと一緒に1日で学びませんか? この記事は、2021年3月30日に Kumar Kumaraguruparan によって投稿された Spend a day with AWS experts, and learn how to build a data lake を翻訳したものです。 データ分析・活用になぜデータレイクが必要なのでしょうか? IDC によると、今後3年間で、過去30年間を合わせたよりも多くのデータが生成されるという調査結果があることをご存知でしょうか?デジタル化した社会ではこれまで以上に多くのデータが作成され、ソーシャルメディアや各種 IoT センサーなど、多くのソースから流れてくるリアルタイムのデータが生成されています。さらに、データは、顧客の注文記録のような従

                    AWS 上にデータレイクを構築し分析する方法を AWS エキスパートと一緒に1日で学びませんか? | Amazon Web Services
                  • データレイクの基礎から構築と運用の視点を学べる『AWS ではじめるデータレイク』を読んだ - 継続は力なり

                    タダです. データレイクの設計や構築,運用の勉強をしたいと思い「AWS ではじめるデータレイク」を読んだので,書評記事を書いていきます. 公式サイト techiemedia.co.jp 物理本 AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門 作者:上原 誠,志村 誠,下佐粉 昭,関山 宜孝発売日: 2020/07/09メディア: 単行本 PDF版 booth.pm 目次 本書の概要 本書で学べること 読了後の所感 まとめ 関連記事 目次 本書は以下の章立てになってます. 序章 データレイクを始めよう 第1章 データレイクの構築 第2章 データレイクの活用 第3章 データレイクの運用 第4章 データレイクのセキュリティ 第5章 ハンズオンの概要 ービジネスデータのデータレイクー 第6章 データを可視化する 第7章 サーバーレスSQLによるデータ分析 第8章 デー

                      データレイクの基礎から構築と運用の視点を学べる『AWS ではじめるデータレイク』を読んだ - 継続は力なり
                    • 家族ノートを支えるBigQuery+StepFunctionsで作るデータレイク - コネヒト開発者ブログ

                      こんにちは。インフラエンジニアの永井(shnagai)です。 最近、家族ノートという「ママリ」内の検索データとQ&Aデータ(現在開発中)を可視化したデータ分析サービスの立ち上げに携わっています。 info-kazokunote.mamari.jp 今回は、家族ノートで使っているデータ基盤の一部であるBigQuery+StepFunctionsで作ったデータレイクの仕組みについてご紹介します。 内容は、ざっくりとこんな話を書こうと思います。 データ基盤作りに至った経緯 AWS→BigQueryにデータ移送するアーキテクチャのpros&cons StepFunctions+Embulk(Fargate)を利用したデータレイクの仕組み データ基盤作りに至った経緯 コネヒトには大きく分けると2つのデータセットがあります。 DB(Aurora)にあるアプリケーションのデータ(業務データやマスターデー

                        家族ノートを支えるBigQuery+StepFunctionsで作るデータレイク - コネヒト開発者ブログ
                      • 安全なデータレイクの構築が容易になる AWS Lake Formation がついにリリースされました | DevelopersIO

                        昨年のre:Invent2018で紹介されたAWS Lake Formation がついにリリースされました。東京リージョンでもリリースされましたので、早速、試してみたいと思います。 ついにきましたLake Formation. データレイクの構築が容易に。 AWS Lake Formation – Now Generally Available | AWS News Blog https://t.co/qBdo8Ubj8O — Junpei Ozono (@jostandard) August 8, 2019 Jeff Barさんよりも、大薗さんの方が情報早かったw AWS Lake Formation とは AWS Lake Formation を試してみました! AWS Lake Formation の設定できる権限のIAMユーザー/IAMロール付与 AWS Lake Formati

                          安全なデータレイクの構築が容易になる AWS Lake Formation がついにリリースされました | DevelopersIO
                        • データレイクをGitライクに使いたい!lakeFSを使ってみた | DevelopersIO

                          はじめに lakeFSは、ざっくり言うとデータレイクをGitのようなリポジトリぽく取り扱うソフトウェア/サービスです。Gitライクなので、ブランチの作成、バージョン管理、ロールバックなどをCLIまたはGUIにて実行できます。 現在、クラウドストレージをデータレイクとして使う場合にはAWS S3/Google Cloud Storage/Azure Blob Storageなど複数の選択肢があるかと思いますが、lakeFSをインターフェースとして入れることで、実際のストレージがどこにあるかを意識することなくデータレイクを取り扱えるため、マルチクラウドなデータ分析基盤においてより力を発揮します。 lakeFSにはローカル環境に導入するオープンソース版と、SaaSとして提供されるlakeFS Cloudがあります。 今回はオープンソース版でクイックスタートをやってみます。環境はMacBook P

                            データレイクをGitライクに使いたい!lakeFSを使ってみた | DevelopersIO
                          • 【書評】データレイク構築・運用のノウハウを網羅的に学び始められる! 『AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門』 | DevelopersIO

                            先日2020年07月09日、書籍『AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門』が発売されました!個人的に興味関心の強いテーマを取り上げた内容がてんこ盛りの書籍でしたので、簡単ではありますが書籍の内容について紹介させて頂きたいと思います。 「AWSではじめるデータレイク」がついに https://t.co/FvuHWrYlwH 上で予約可能になりました!7月9日発売予定です。どうかよろしくお願いいたします。 - https://t.co/do0ZeLrlrn #aws #datalake — Akira Shimosako (@simosako) June 23, 2020 テッキーメディア - BOOTH 【電子書籍版】AWSではじめるデータレイク - テッキーメディア - BOOTH AWSではじめるデータレイク - テッキーメディア - BOOTH 目

                              【書評】データレイク構築・運用のノウハウを網羅的に学び始められる! 『AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門』 | DevelopersIO
                            • COVID-19 データの分析用のパブリックデータレイク | Amazon Web Services

                              Amazon Web Services ブログ COVID-19 データの分析用のパブリックデータレイク COVID-19 のパンデミックは、世界中に脅威をもたらし、命を奪い続けています。私たちはこの病気と戦うために組織や科学的分野を超えて協力する必要があります。数え切れないほどの医療従事者、医学研究者、科学者、公衆衛生担当者は、すでに最前線で患者の世話、治療法の探求、国民の教育、政策立案の手助けをしています。AWS は、COVID-19 の原因となるウイルスをよりよく理解および追跡し、対応を計画し、最終的に封じ込めて制圧するために必要なデータとツールをこれらの専門家に提供することが一助になることを信じています。 今日、私たちはパブリックの AWS COVID-19 のデータレイクを用意しました。このデータレイクは、新型コロナウイルス (SARS-CoV-2) とこれに関連する病気である

                                COVID-19 データの分析用のパブリックデータレイク | Amazon Web Services
                              • AWS Lake Formationでのデータレイク登録からデータアクセスまで - NTT Communications Engineers' Blog

                                AWS Lake Formationでのデータレイク登録からデータアクセスまで この記事は NTTコミュニケーションズ Advent Calendar 2021 の16日目の記事です。 はじめに はじめまして!BS本部SS部の荒井です。データマネジメントに関するプリセールスを担当しています。 今回はアドベントカレンダー企画ということで、AWS Lake Formationに関する記事を投稿をさせていただきます。 データレイクとAWS Lake Formation 近年データ分析の盛り上がりなどから、散逸している様々な形式のデータを一元管理できるレポジトリ、いわゆるデータレイクを導入するケースが増えてきています(参考:データレイクとは)。 例えばシステムごとに保存されていた「会員データ」「購入履歴」「問合せ履歴」などのデータをデータレイクに集約することでシステム横断の顧客分析を手軽に行うこと

                                  AWS Lake Formationでのデータレイク登録からデータアクセスまで - NTT Communications Engineers' Blog
                                • Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話

                                  ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。データ統括本部でYahoo!広告のデータエンジニアをしている江島です。 本記事では、Yahoo!広告のデータ分析環境であるデータレイク上のデータを、Apache Hudi を用いてレコード単位で削除可能にした事例を紹介します。 Yahoo!広告のデータ分析環境 Yahoo!広告における データマーケティングソリューション では、ヤフーの持つ圧倒的な量と質のデータを活用し、消費者理解や広告効果分析を目的としたさまざまな商品を提供しています。 これらの商品を提供するための裏側には広告に関する膨大なログや多種多様なサービスのログを使ってデータ分析や機械学習を行うためのデータ基盤が必要です。データマーケティングソリューションで

                                    Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話
                                  • 【初データレイク体験】AWS Loft Osakaで DataLake ハンズオンを受けてきた(公開資料URLあり) | DevelopersIO

                                    大阪オフィスのちゃだいんです。 本日はAWS Pop-Up Loft Osakaにて、ハンズオンに参加してきました。 今回はそのハンズオンの内容をご紹介したいと思います。 その前に、 AWS Pop-Up Loft Osakaは期間限定でオープンしており、本日が最終日でした...(涙) 大阪のど真ん中一等地に、無料でコーヒーももらえるコワーキングスペース。中之島の高層ビル26階からの眺めを楽しみながら、優雅にパソコンパチパチできる稀有な場所でした。 どんな場所だったのかは、このブログをご覧ください。 【AWS Loftが大阪に期間限定オープン!】オープンしたてのAWS Pop-Up Loft Osakaで早速リモートワークしてみた #awsloft ハンズオン概要 DataLake ハンズオン OCT 31,2019 About the event(上記ページより抜粋) 幅広いデータソース

                                      【初データレイク体験】AWS Loft Osakaで DataLake ハンズオンを受けてきた(公開資料URLあり) | DevelopersIO
                                    • Snowflakeに中森明菜データレイク(通称NADL)を構築しました | DevelopersIO

                                      大阪オフィスの玉井です。 題名の通り、極めて先進的な(?)データレイクの構築に成功したので、当記事にて詳細をお伝え致します。 概要説明 NADL(Nakamori Akina Data Lake)とは? 日本が誇る歌姫である中森明菜氏の(ほぼ)全ての楽曲に関するデータを保存したデータレイクです。 SnowflakeはDWHのイメージが強いですが、データレイクを構築・運用する機能を備えています。今回、Snowflakeのデータレイク周りの機能を活用して、NADLを構築しました。 構築作業の流れ SpotifyのAPIから中森明菜の楽曲データを取得する 楽曲データの取得には Get Track’s Audio Analysisを使用 取得した楽曲データをGoogle Cloud Storage(GCS)にアップロードする 上記のGCS(のバケット)をSnowflakeの外部ステージとして連携す

                                        Snowflakeに中森明菜データレイク(通称NADL)を構築しました | DevelopersIO
                                      • データレイクの新しいカタチ:Open Table Formatの紹介 - 流沙河鎮

                                        はじめに Open Table Formatは次世代のデータレイクの基盤となり得る技術で、徐々に導入事例(末尾に列挙)が増えてきているものの、日本での認知度は発展途上な印象がある。本記事ではOpen Table Format登場の背景を紹介する。執筆にあたって、Apache Iceberg: An Architectural Look Under the CoversとAWSにおける Hudi/Iceberg/Delta Lake の 使いどころと違いについてを特に参考にした。 Open Table Formatとは? Open Table Formatとは、従来のデータレイクの技術的な課題&ユースケースの要請に応える形で登場した、データレイクに最適化されたテーブルフォーマットを指す概念で、上手く活用することでクエリプランニング、実行性能の最適化、効率的なUpdateやDelete、タイム

                                          データレイクの新しいカタチ:Open Table Formatの紹介 - 流沙河鎮
                                        • 「AWSではじめるデータレイク」出版記念 データレイクはじめの一歩.pdf

                                          1 「AWSではじめるデータレイク」出版記念 データレイクはじめの一歩 2020年5月28日 アマゾン ウェブ サービス ジャパン 株式会社 シニアソリューションアーキテクト 下佐粉 昭(しもさこ あきら) @simosako 2020年6月発売予定! 2 AWSオンラインセミナーへようこそ ご質問を受け付けております! • 書き込んだ質問は主催者にしか見えません • 最後のQ&A時間で、いただいたご質問から ピックアップしてご回答をさせていただき ます ① 吹き出しをクリック ② 質問を入力 ③ Sendをクリック 終了後にアンケートの記入をお願いいたします https://bit.ly/2TFPbps アンケートにお答えいただいた方には本日の資料を後日ご提供させていただきます。 3 自己紹介 下佐粉 昭(しもさこ あきら) 所属: アマゾン ウェブ サービス ジャパン シニアソリューシ

                                          • データレイクのデータスキャン量を25%削減する方法

                                            こんにちは。ヤフー広告でデータエンジニアをしている長峯です。 LINEヤフー株式会社では、Yahoo! JAPANと関連企業が所有するデータを活用することでお客様のマーケティング課題の発見と解決を実現するサービスYahoo! JAPAN データマーケティングソリューションを展開しています。私は本サービスを通じてお客様がさまざまなデータを活用するためのデータ分析基盤となるデータレイクの構築・運用を担当しています。このデータレイクは、2.5ペタバイトのデータを保有しており、年間1,000万クエリが実行される大規模な環境となっています。 今回、私たちはAWS上に構築されたデータレイクのデータスキャン量を4人月という工数で25%削減することに成功しました。この記事では、その削減プロセスを紹介いたします。このデータレイクは、クエリエンジンとしてAmazon Athenaを主に使用しており、Amazo

                                              データレイクのデータスキャン量を25%削減する方法
                                            • 更新できるデータレイクを作る 〜Apache Hudiを用いたユーザデータ基盤の刷新〜 - Gunosy Tech Blog

                                              広告技術部のUT@mocyutoです。 こちらの記事はGunosy Advent Calendar 2021の4日目の記事です。 昨日は内田さんの その設定、pyproject.tomlに全部書けます - Gunosyデータ分析ブログ でした 今回はApache Hudiを用いたユーザデータ基盤の刷新を紹介します。 背景 仕組み 課題 対応策 データの持ち方を変える Apache Hudiとは 構成 Glue + PySpark Athenaによる抽出 移行し終えて 背景 Gunosyの広告システムではユーザに対して最適な広告を届けるために、接触済みのユーザに対して何度も同じ広告を出さないようにする仕組みを提供しています。 例えば、すでにある広告Aをクリックしたユーザには広告Aは再度配信しないのような設定です。 仕組み この仕組みを実現するためには以下のようなアーキテクチャになっていました

                                                更新できるデータレイクを作る 〜Apache Hudiを用いたユーザデータ基盤の刷新〜 - Gunosy Tech Blog
                                              • データレイクハンズオンでデータレイクを実感してみる | DevelopersIO

                                                前回のAWS Innovateで、データレイクのハンズオンが掲載されていました。データレイクのイメージを掴むのに有益になればと思いましたのでご紹介します。 AWS Innovateのサイトは既にクローズされていますが、ハンズオン資料のサイトはありますので参考にしてください。 amazon-s3-datalake-handson 本ハンズオンのゴール 以下、ハンズオン資料から引用 幅広いデータソースからの構造化データまたは非構造化データの集中リポジトリとして使用できる Data Lake は、データの保存と分析の方法として多くの企業に取り入れられています。 AWS のビッグデータ関連サービスを使用して実際に分析パイプラインを構築することを通して、 Data Lake とビッグデータ分析基盤構築の実感を持って頂くことをゴールとしています。 ということで、データレイクを実感するにはとても良いハン

                                                  データレイクハンズオンでデータレイクを実感してみる | DevelopersIO
                                                • 新機能 – Amazon DynamoDB テーブルデータを Amazon S3 のデータレイクにエクスポート。コードの記述は不要 | Amazon Web Services

                                                  Amazon Web Services ブログ 新機能 – Amazon DynamoDB テーブルデータを Amazon S3 のデータレイクにエクスポート。コードの記述は不要 2012 年のリリース以来、数十万の AWS のお客様がミッションクリティカルなワークロードに Amazon DynamoDB を選択しています。DynamoDB は、非リレーショナルマネージドデータベースで、事実上無限のデータを格納し、1 桁ミリ秒のパフォーマンスで任意のスケールで取得できます。 このデータから最大限の価値を引き出すには、お客様は AWS Data Pipeline、Amazon EMR、または DynamoDB ストリームに基づくその他のソリューションを利用する必要がありました。このようなソリューションでは通常、読み取りスループットの高いカスタムアプリケーションを構築する必要があるため、メンテ

                                                    新機能 – Amazon DynamoDB テーブルデータを Amazon S3 のデータレイクにエクスポート。コードの記述は不要 | Amazon Web Services
                                                  • 医療データレイクで分析基盤の構築 / JAWS DAYS 2021 JMDC DATALAKE

                                                    JAWS DAYS 2021-03-20の登壇資料。 株式会社JMDCのデータレイクの取扱いについて紹介します。 https://jawsdays2021.jaws-ug.jp/timetable/track-d-1100/

                                                      医療データレイクで分析基盤の構築 / JAWS DAYS 2021 JMDC DATALAKE
                                                    • データレイク解説シリーズ 第 1 回 : データレイクってなに ? - builders.flash☆ - 変化を求めるデベロッパーを応援するウェブマガジン | AWS

                                                      こんにちは。今回から 4 回の予定でデータレイクについての連載をスタートします。現在データレイクの書籍を 4 名で執筆中なのですが、そこからエッセンスとなるポイントを抜き出し、builders.flash を読んでいただいている皆様にコンパクトにお届けします。第一回は「データレイクってなに?」です。 データレイクを一言で表すならば、多様なデータを一元的に、大量に保存して置ける場所です。データベースに入っているような構造化されたデータも、ソーシャルメディアのメッセージも、画像や音声ファイルも一箇所に集めたデータ置き場という意味です。 これを読んでいる皆様は「データベースでは駄目なの ?」と思われるかもしれませんね。巨大なデータを扱うという意味ではデータウェアハウスもありますが、これとはどう違うのでしょうか? 今回はデータレイク理解の最初の一歩として、データレイクは、データベースやデータウェア

                                                        データレイク解説シリーズ 第 1 回 : データレイクってなに ? - builders.flash☆ - 変化を求めるデベロッパーを応援するウェブマガジン | AWS
                                                      • 【レポート】最新の DWH およびデータレイク動向について(AWS-36) #AWSSummit | DevelopersIO

                                                        みなさんこんにちは、杉金です。 今回は 2022 年 5 月 25 - 26 日の 2 日間開催された AWS Summit Onlineのセッションレポートをしていきます。セッションのサマリーを理解し、興味があるセッションをチェックすることにご活用ください。また、セッションのアーカイブも公開されておりますので、詳細が気になった方は是非そちらをチェックして下さい。 セッション概要 生成されるデータ量は増え続け、データ分析のニーズも多様化が進んでいます。従来の方法でこれらの要件を全て満たそうとすると、システムやその管理は複雑化しがちですが、AWS の分析サービスではモダンデータ戦略というアプローチでこの課題に対する様々な解決策を提供しています。本セッションでは、Amazon Redshift を中心に、データレイクと連携した様々な目的別分析サービスを簡単に組み合わせて、それぞれの分析ニーズに

                                                          【レポート】最新の DWH およびデータレイク動向について(AWS-36) #AWSSummit | DevelopersIO
                                                        • データレイクはRAWデータレイク・中間データレイク・構造化データレイクの3層構造にすると良い - NRIネットコムBlog

                                                          こんにちは佐々木です。 前回、データレイクとDWHを分離せよという趣旨の記事を書いていました。今回は、その続きとして、データレイクをRAWデータレイク・中間データレイク・構造化データレイクの3層構造がお勧めですよというお話をします。何の事でしょう? RAWデータレイク・中間データレイク・構造化データレイクの役割 データレイクに、RAWデータレイク・中間データレイク・構造化データレイクと3つの名前をつけました。まずこのネーミングはオリジナルで、ググっても出てきません。ここ数年、データ分析基盤を作ってきた中の経験で、こんな感じでデータレイクを3層に分けると良いなぁってなっています。層ごとに便宜的に名前をつけたのが、RAWデータレイク・中間データレイク・構造化データレイクです。それぞれの層の役割をみていきましょう。 RAWデータレイク RAWデータレイクは、名前のとおりに各データソースから送られ

                                                            データレイクはRAWデータレイク・中間データレイク・構造化データレイクの3層構造にすると良い - NRIネットコムBlog
                                                          • 【電子書籍版】AWSではじめるデータレイク - テッキーメディア - BOOTH

                                                            本書の概要「データレイク」は、大量データ分析/生成データの活用を視野に入れた新しいデータストアのかたちです。従来のデータベース/データウェアハウスの範囲に収まらない多様なデータを大量に保管し、高度な統計分析や機械学習に役立つ情報基盤を作ることが可能です。 本書ではデータレイクの概念や特徴、必要とされる機能などをいちから解説し、さらにAmazonが運営するパブリッククラウドサービスAWS(Amazon Web Services)で実現する方法を解説します。 従来では想定しえなかった大量のデータを確実に保管するため、データレイクの世界ではクラウドのようなサービス型インフラストラクチャの活用が注目されます。さらにAWSではオブジェクトストレージS3上のデータを直接分析するAmazon Athena、データウェアハウスのAmazon Redshift、機械学習を実現するAmazon SageMak

                                                              【電子書籍版】AWSではじめるデータレイク - テッキーメディア - BOOTH
                                                            • AWS COVID-19 パブリックデータレイクの探索 | Amazon Web Services

                                                              Amazon Web Services ブログ AWS COVID-19 パブリックデータレイクの探索 AWS COVID-19 のデータレイク — 新型コロナウイルス (SARS-CoV-2) とこれに関連する病気である COVID-19 の広がりおよび特性についての、またはそれに関する最新のデータセットが収集され、一元化されたリポジトリが現在利用可能になりました。詳細については、COVID-19 データの分析用のパブリックデータレイクをご参照ください。世界的には、このデータを収集するためにいくつかの取り組みが進行中であり、AWS はパートナーと協力して、この重要なデータを自由に利用できる状態にし、最新の状態に保てるように尽力しています。 このデータは、質問、独自のデータセットとの混合、独自のデータレイクへの新しい洞察の取り込みを行うためにすぐに利用できます。AWS は、パンデミック監視

                                                                AWS COVID-19 パブリックデータレイクの探索 | Amazon Web Services
                                                              • [レポート] AWSでスケーラブルかつセキュアなデータレイクを構築するためのベストプラクティス – Subsurface LIVE Summer 2021 | DevelopersIO

                                                                米国時間2021年07月21日〜22日の計2日間、オンラインで開催された「Subsurface LIVE Summer 2021」では、主催となるDremio社のサービスやクラウドデータレイクに関する各種サービスやプロダクトのセッションが展開されていました。 Subsurface LIVE Summer 2021 当エントリでは、その中から「Best Practices for Building a Scalable and Secure Data Lake on AWS」(AWSでスケーラブルかつセキュアなデータレイクを構築するためのベストプラクティス)というセッションについてレポートします。 目次 セッション概要 セッションレポート まとめ セッション概要 セッション概要は以下の通り。 Distributed Transactions on the Data Lake with Pro

                                                                  [レポート] AWSでスケーラブルかつセキュアなデータレイクを構築するためのベストプラクティス – Subsurface LIVE Summer 2021 | DevelopersIO
                                                                • DWHとデータレイクを運用する住友生命、なぜ2つのデータ分析基盤が必要なのか

                                                                  住友生命保険は2つのクラウド上にそれぞれデータ分析基盤を構築し、データ活用を加速させている。従来のデータ分析基盤は1995年に稼働を開始した「情報分析システム」。オンプレミス環境のデータウエアハウス(DWH)で、簡易なビジネスインテリジェンス(BI)ツールを使ってデータを抽出し、データをExcelで加工していた。販売リポート作成、決算数値集計、各種分析業務などが主な用途だった。 情報分析システムの後継として、「新情報分析システム」と「スミセイデータプラットフォーム」の2つを2020年9月に稼働させた。 2つの使い分けについて住友生命保険の中川邦昭情報システム部上席部長代理データ分析プロジェクトチームリーダーはこう説明する。「情報分析システムは業務システムと位置付けている。全社員が使うので安定性が求められる。一方、スミセイデータプラットフォームはデータサイエンティストがビッグデータを分析する

                                                                    DWHとデータレイクを運用する住友生命、なぜ2つのデータ分析基盤が必要なのか
                                                                  • AWSでコロナウィルス(COVID-19)のデータレイクが公開されたので試してみた | DevelopersIO

                                                                    AWSでコロナウィルス(COVID-19)のデータレイクが公開されました。 A public data lake for analysis of COVID-19 data | AWS Big Data Blog Athenaを使って自由にSQLクエリでコロナウィルス(COVID-19)のデータセットへアクセスできる環境が提供されています。さっそく試してみました! 前提 今回の環境を構築するために、次の条件が必要です。 AWSアカウントがあること CloudFormationスタックを作成できる権限があること Glueを作成できる権限があること 使ってみる 公式ブログに記載されている、CloudFormationのクイック作成リンクをクリックして、CloudFormationを構築します。このCFnスタックはオハイオ(us-east-2)リージョンに構築されます。 できあがったCFnのリソ

                                                                      AWSでコロナウィルス(COVID-19)のデータレイクが公開されたので試してみた | DevelopersIO
                                                                    • データレイク解説シリーズ 第 4 回: 実践的なデータレイク構築方法とポイント - builders.flash☆ - 変化を求めるデベロッパーを応援するウェブマガジン | AWS

                                                                      こんにちは。AWS Glue & Lake Formation 開発チームの関山です。 この「データレイク解説シリーズ」では 2020 年 6 月出版予定の書籍「AWS ではじめるデータレイク」をベースに、全 4 回でデータレイクのエッセンスをお伝えしています。最終回となる今回は、実践的なデータレイク構築方法とそのポイントについて解説していきます。 今回は例として、図のような構成の一般的なウェブシステムのログデータをもとに、データレイクを構築していきます。 AWS ではデータレイクのストレージとして、Amazon S3 をオススメしています。そこで、ログデータを何らかの方法で収集して S3 にアップロードする必要があります。 ログデータはその性質上、いろんなところに点在しがちです。AWS で構築したシステムでも、EC2 インスタンスのローカルディスクにあったり、S3 にあったり、Cloud

                                                                        データレイク解説シリーズ 第 4 回: 実践的なデータレイク構築方法とポイント - builders.flash☆ - 変化を求めるデベロッパーを応援するウェブマガジン | AWS
                                                                      • データレイクとストリームデータ処理を理解する

                                                                        はじめに 前回は、DX時代のデータ活用のトレンドと3大クラウドベンダのデータ活用サービスの概要を説明した。 今回のテーマであるIoTデバイスやWebアプリケーションが生成するストリームデータの処理は、従来型のデータウェアハウス(Data Warehouse)とは大きく異なる特性がある。そこで今回は、各社のクラウド・サービスを理解し、比較するための基礎知識として、以下の項目を説明する。 データウェアハウスとデータレイク(Data Lake)の違いバッチ処理とストリームデータ処理の違いデータ分析で知っておきたいこと データウェアハウス、データレイクとは何か データ活用と聞いてデータウェアハウスやビジネスインテリジェンスツールを思い浮かべる人も多いだろう。また近年はデータレイクという用語も登場している。特に、データウェアハウスとデータレイクは大きく異なるものなので、注意したい。 データウェアハウ

                                                                          データレイクとストリームデータ処理を理解する
                                                                        • Amazon Athenaでペタバイト級のデータレイクを捌ききるFINRA社の事例 #ANT308 #reinvent | DevelopersIO

                                                                          どうも!DA部の春田です。 本記事は、AWS re:Invent 2020のセッション動画、「ANT308: How FINRA operates PB-scale analytics on data lakes with Amazon Athena」のレポート記事です。 English version is here. 個人的に長いこと業務でAthenaを使ってますが、ペタバイト級のデータをAthenaで扱っている事例は珍しく感じました。データを配置するS3側をしっかりチューニングしておけば、DWHとしても問題なく運用できるみたいです。 先日、様々なアップデートが詰め込まれたAthena engine 2.0が発表され、最近ついに東京リージョンでもGAとなりました。ビッグデータ分析基盤の選択肢に、コスパの高いAthenaも敵うようになってきましたね。 概要 FINRA社は、米国でビジネス

                                                                            Amazon Athenaでペタバイト級のデータレイクを捌ききるFINRA社の事例 #ANT308 #reinvent | DevelopersIO
                                                                          • AWS Lake Formation による効果的なデータレイクの構築 パート 1: governed tableを作成する | Amazon Web Services

                                                                            Amazon Web Services ブログ AWS Lake Formation による効果的なデータレイクの構築 パート 1: governed tableを作成する 本記事は Amazon Web Services, Senior Big Data Architect である 関山 宜孝 によって投稿されたものです。 数千人ものお客様が Amazon Simple Storage Service でデータレイクを構築しています。 AWS Lake Formation を使用すると、数か月ではなく数日で簡単にデータレイクを構築できます。しかし、データレイクにはまだ対処すべき困難な課題がいくつかあります: データレイクでのストリーミングの更新と削除(データベースレプリケーションなど)をサポートし、GDPR や CCPA などのプライバシー規制をサポート テーブルレベルまたは列レベルのア

                                                                              AWS Lake Formation による効果的なデータレイクの構築 パート 1: governed tableを作成する | Amazon Web Services
                                                                            • 花王がAzure上にデータレイク、「3度目の正直」で現場に浸透させる一手

                                                                              花王がデータレイクの構築を通じ、データ活用を深める体制を整えている。売り上げ関連のデータレイクを構築し、作業効率化など効果を上げている。過去の反省を生かし利用者と継続的にコミュニケーションを図る。 花王は、全社に散在する各種データを統合的に管理する「データレイク」の構築を進めている。2022年3月には売り上げ関連のデータレイクの構築を完了した。ハンドソープなどの日用品から化粧品まで多岐にわたる商品を展開する花王。日本だけでなく、アジア・欧米圏などにも市場を広げる。日々変化する消費トレンドに対応するためには、データは重要な資源だ。 売り上げ関連のデータレイクの完成により、さまざまな業務改善を実現した。例えば、売り上げ関連のデータ抽出・加工に関する業務だ。 データレイク基盤を整えたことで、現在は毎朝、自動でPDF形式のリポートを出力し部長クラス以上の社員にメールで共有できるようになった。リポー

                                                                                花王がAzure上にデータレイク、「3度目の正直」で現場に浸透させる一手
                                                                              • [新機能] Amazon Redshift データレイクのデータ更新がシンプルになるUNLOADコマンドのCLEANPATH指定がサポートされました | DevelopersIO

                                                                                [新機能] Amazon Redshift データレイクのデータ更新がシンプルになるUNLOADコマンドのCLEANPATH指定がサポートされました データアナリティクス事業本部コンサルティングチームの石川です。本日は、新たに追加になったUNLOADコマンドのCLEANPATH指定をご紹介します。S3パスにアンロードする前に、既存のファイルを削除する指定で、データレイクのデータ更新がシンプルになります。早速試してみます。 CLEANPATH指定とは UNLOADコマンドのCLEANPATH指定は、S3パスにアンロードする前に、既存のファイルを削除します。 例えば、 UNLOAD ('SELECT * FROM tickit.date') TO 's3://cm-bucket/datalake/tickit/sales/' IAM_ROLE 'arn:aws:iam::12345678912

                                                                                  [新機能] Amazon Redshift データレイクのデータ更新がシンプルになるUNLOADコマンドのCLEANPATH指定がサポートされました | DevelopersIO
                                                                                • データレイクとは?データレイクの落とし穴と効果

                                                                                  あるBI担当者に、「データレイクとデータウェアハウスって何が違うのですか?」と質問してみたところ、「データレイクには何でも入れられるけど、データウェアハウスには決まったものしか入れられないんだよ。」という答えが返ってきました そこで、「では、データレイクを使うと、どんなメリットがあるんですか?」と聞いてみると、「データレイクは安いんだよ。だから、容量とコストを気にせずに、いくらでもデータを蓄積できるんだ。それに、使えそうな情報だと思ったら、とりあえずデータレイクに入れておけば、誰かが活用して分析してくれるし、AIも使えるから、それで新しい洞察を発見できるんだよ。」という答えでした。 彼の言っていることは、非常に簡潔で正しい理解です。しかし、その言葉の裏には、「データレイク」の真の威力を発揮させるためのテクノロジーが複雑に絡み合っていることに留意する必要があります。 1. データレイクとは

                                                                                    データレイクとは?データレイクの落とし穴と効果

                                                                                  新着記事