並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 27 件 / 27件

新着順 人気順

dataLakeの検索結果1 - 27 件 / 27件

  • データ収集の基本と「JapanTaxi」アプリにおける実践例

    データ収集の基本として、データソース毎に典型的なデータ収集方法を整理して説明しています。またJapanTaxiアプリにおいてどのように実践しているかを説明しています。Read less

      データ収集の基本と「JapanTaxi」アプリにおける実践例
    • 新しいデータ基盤アーキテクチャである「データレイクハウス」について調べてみた - Taste of Tech Topics

      最近ソーダストリームを買い、炭酸水を飲むのにはまってます。機械学習エンジニアの@yktm31です。 以前に「AWS Lake Formationでデータレイク体験!」という記事を書いてみて、データ基盤アーキテクチャに興味が湧いてきました。 データレイクハウスは、「データウェアハウス」と「データレイク」を統合したようなアーキテクチャで、 2020年にDatabricks社により提唱され、新しいデータ基盤アーキテクチャとして注目されているようです。 www.databricks.com そこで今回、「データレイクハウス」について調べてみたことをまとめてみたいと思います。 なぜデータレイクハウスが注目されているのか? データウェアハウスの特徴・課題 データレイクの特徴・課題 データレイクハウスの特徴 データレイクハウスのアーキテクチャ Azure Azure Synapse Analyticsを

        新しいデータ基盤アーキテクチャである「データレイクハウス」について調べてみた - Taste of Tech Topics
      • Data Platform Guide - 事業を成長させるデータ基盤を作るには #DataEngineeringStudy / 20200715

        Data Engineering Study #1 の発表資料です。 https://forkwell.connpass.com/event/179786/ 当日の動画はYoutubeで閲覧可能です。 https://www.youtube.com/watch?v=hFYNuuAaiTg 参考文献 『Software Design (ソフトウェアデザイン) 2020年7月号』 https://amzn.to/30YueL7 『データマネジメントが30分でわかる本』 https://amzn.to/3fmz8Gw

          Data Platform Guide - 事業を成長させるデータ基盤を作るには #DataEngineeringStudy / 20200715
        • AWSで“データのサイロ化”を防げ すべてのデータを1ヶ所に集めるデータレイクの作り方

          リーガルテック領域のリーディングカンパニーである株式会社LegalForceが、「検索インフラTechTalk!」を開催しました。インフラ領域の中でも「検索インフラ」にフォーカスした今回は、検索インフラに関する具体的な事例や取り組みについて各スピーカーから発表がありました。野口真吾氏は、AWSを用いたデータレイクの基礎について紹介しました。 企業規模に関係なく起こるデータのサイロ化 野口真吾氏(以下、野口):みなさんこんばんは。本日は「検索インフラ Tech Talk!」ということで、検索インフラから少し広げた話題にはなるんですが、「AWSを用いたデータレイクの基礎」というお話をします。よろしくお願いします。 最初に簡単に自己紹介します。アマゾンウェブサービスジャパンでスタートアップ担当のソリューションアーキテクトをしている野口真吾と申します。Twitterでは@nogというIDを使って活

            AWSで“データのサイロ化”を防げ すべてのデータを1ヶ所に集めるデータレイクの作り方
          • 「AWSではじめるデータレイク」出版記念データレイク解説セミナーの資料公開 | Amazon Web Services

            Amazon Web Services ブログ 「AWSではじめるデータレイク」出版記念データレイク解説セミナーの資料公開 去年よりAWSのメンバー4名(志村、上原、関山、下佐粉)でデータレイクの基礎からアーキテクチャ、構築、運用管理までをカバーした書籍「AWSではじめるデータレイク」を執筆してきたのですが、7月出版の目処がたったことを記念して、5月末から毎週木曜にデータレイクに関するWebセミナーを開催してきました。 幸いにも大変多くの方にご参加いただくことができました。ご参加いただいた方にはあらためてお礼申し上げます。 一方で、以前の回に出られなかったので資料だけでも公開して欲しい、というご要望をたくさん頂いていました。そこで今回第1回から第3回の資料を公開させていただく事になりました。 ※ 2020/06/25更新:第4回の資料を追加公開しました 以下よりご覧いただけます。(PDFフ

              「AWSではじめるデータレイク」出版記念データレイク解説セミナーの資料公開 | Amazon Web Services
            • 事業に貢献するデータ基盤を作ろう・考え方編 / data_engineering_study_2

              Data Engineering Study #2「データ収集基盤とデータ整備のこれまでとこれから」https://forkwell.connpass.com/event/182769/ 作成者 :しんゆう@データ分析とインテリジェンス Twitter:https://twitter.com/data_analyst_

                事業に貢献するデータ基盤を作ろう・考え方編 / data_engineering_study_2
              • Delta Lake とは何か - connecting the dots

                はじめに 環境情報 Delta Lake (デルタレイク) とは Delta Lake の実体 Delta Lake の構造 Parquet と Delta の相違点 Parquetとは何か Parquetの構造 Parquet と Delta の違い Delta Lake が生まれた経緯: データレイクと Delta Lake の違い データレイクのメリット データレイクの課題 *Parquetで構築した場合 Delta Lake の特徴 ACIDトランザクションの担保 スケーラブルなメタデータ管理 バッチとストリーミングワークロードの統合 タイムトラベル (バージョン管理) CONSTRAINT句のサポート DML (データ操作言語) のフルサポート UPDATE DELETE MERGE 柔軟なスキーマ管理 1. スキーマ エンフォースメント 2. スキーマ エボリューション ストレ

                  Delta Lake とは何か - connecting the dots
                • データ活用基盤の今 〜DWH外観図〜 - クックパッド開発者ブログ

                  こんにちは、今年の1月に会員事業部から技術部データ基盤グループへ異動した佐藤です。先日、京まふ2019前夜祭イベントに参加するために人生で初めてピカピカ光る棒を買いました。 新卒で入社してから2年ほど分析作業をしていた身から、データ活用基盤を作る側へ立場を変えました。今回は新たに身を移したデータ活用基盤の外観を説明したいと思います。 2017年にも同内容の記事が投稿されていますので、当時との違いを中心に説明していきます。 外観図 以下が2019年10月現在におけるクックパッドのデータ活用基盤の全体像です。 クックパッドのDWH外観図 masterデータのインポートがMySQL以外にも複数種対応し始めたことと、PrismとSpectrum(S3+Glue)周りと、Tableau Serverが大きな変更点となっています。2017年の図にDmemoはありませんでしたが、記事本文にある通り当時か

                    データ活用基盤の今 〜DWH外観図〜 - クックパッド開発者ブログ
                  • データ分析基盤における個人情報の扱いについて - NRIネットコムBlog

                    こんにちは佐々木です。 誰に望まれた訳でもないですが、データ分析基盤の設計シリーズの第三弾です。今回のテーマは、データ分析基盤における個人情報&パーソナルデータの扱いについてです。ここを最初に考えておかないと、データ分析基盤は毒入りとなって、扱いづらいものになります。 データ分析基盤構築の肝は、データレイクとDWHの分離 - NRIネットコムBlog データレイクはRAWデータレイク・中間データレイク・構造化データレイクの3層構造にすると良い - NRIネットコムBlog 個人情報&パーソナルデータと匿名加工について まず最初に個人情報&パーソナルデータの定義と匿名加工について、サラッと確認しておきましょう。 個人情報&パーソナルデータ 個人情報とは、任意の一個人に関する情報であり、かつその情報をもとに個人を特定できるものを指します。代表的な個人情報としては、名前・住所・電話番号・E-ma

                      データ分析基盤における個人情報の扱いについて - NRIネットコムBlog
                    • データ基盤のメタデータを継続的に管理できる仕組みを作る - Hatena Developer Blog

                      こんにちは。MackerelチームでCRE(Customer Reliability Engineer)をしているid:syou6162です。 CREチームではカスタマーサクセスを進めるため、最近データ分析により力を入れています(参考1, 参考2)。データ分析を正確に行なうためには、データに関する正確な知識が必要です。今回はより正確なデータ分析を支えるためのメタデータを継続的に管理する仕組みについて書いてみます。 データに対する知識: メタデータ データ分析を正確に行なうためには、データ自身に関する知識(=メタデータ)が必要です。例えば、Mackerelのデータ分析タスクでは以下のような知識が必要とされることが多いです。 このテーブル / カラムは何のためのテーブルなのか 似たようなカラムとの違い 集計条件の違い、など データがどのような値を取り得るか SELECT column, COU

                        データ基盤のメタデータを継続的に管理できる仕組みを作る - Hatena Developer Blog
                      • AWSで作るデータ分析基盤サービスの選定と設計のポイント

                        2021年3月18日に実施したデータ活用ウェビナーの登壇資料 データ分析基盤を作る上での設計のポイントと、AWSのサービス選定について

                          AWSで作るデータ分析基盤サービスの選定と設計のポイント
                        • データ分析基盤構築の肝は、データレイクとDWHの分離 - NRIネットコムBlog

                          こんにちは佐々木です。 いろいろなところで口を酸っぱくして言っているのは、データレイクとDWHを分離しろと。とりあえずDWHに放り込むという考えはあるけど、DWHに入れる時点でデータの整形が行われて、情報の欠損がでてくる。だから、その前にデータレイクに生のままに入れること— Takuro SASAKI (@dkfj) 2021年5月1日 データレイクとDWHの分離について呟いたら、それなりの反響を頂きました。せっかくの機会なので、もう少ししっかりと解説してみます。何故、データレイクとDWHを分離する必要があるのか、格納するデータの構造と、データレイク・DWHの役割の観点から考えてみましょう。まずは、データの種類として、構造化データや非構造化データの説明をします。その次に、データレイクとDWHなどの用語・役割の説明をし、最後にアーキテクチャを考えてみます。 構造化データと半構造化データ、非構

                            データ分析基盤構築の肝は、データレイクとDWHの分離 - NRIネットコムBlog
                          • ぼくのかんがえる最高のレポーティング基盤 @AWSで実践!Analytics modernization

                            VOYAGE GROUP Zucks DSPレポーティング基盤をどのようにして作ったかの話。 https://pages.awscloud.com/JAPAN-event-OE-20210624-AnalyticsModernization-reg-event.html ディメンションモデリング https://zenn.dev/pei0804/articles/dimensional-modeling スタースキーマ(基礎) https://zenn.dev/pei0804/articles/star-schema-design 複数スタースキーマ https://zenn.dev/pei0804/articles/multiple-star-schema ファン・トラップ https://zenn.dev/pei0804/articles/datawarehouse-fan-trap

                              ぼくのかんがえる最高のレポーティング基盤 @AWSで実践!Analytics modernization
                            • Rettyのデータ基盤の歴史と統合 - Retty Tech Blog

                              書き手:@takegue (分析チーム) Rettyのデータ活用の多くにはBigQueryが現在利用されており、その活用の方法についてこれまでこのブログでもいくつかとりあげさせていただきました。 engineer.retty.me そのほか分析チームの記事一覧 これらの記事はおかげさまで好評いただいております。いつもありがとうございます。 しかしながら、我々が初期からこのようにBigQueryを使い続けてきかというと、実はそうではありません。 事業の成長とともにデータ基盤を変化させてきた経緯があり、今の成果は過去のトライアンドエラーの賜物であり、数多くの苦労を背景にしてできあがっています。 ほんのつい最近まで、Rettyで構築されていたデータ基盤は表立って見える実態よりもかなり複雑なパイプラインで構成されていました(以降で触れますが、4種類のデータパイプラインが共存しているカオスな状態でし

                                Rettyのデータ基盤の歴史と統合 - Retty Tech Blog
                              • 全社共通データ基盤を廃止して新しいデータ基盤に引越した話 - ZOZO TECH BLOG

                                こんにちは、データ基盤の開発、運用をしていた谷口(case-k)です。最近は配信基盤の開発と運用をしています。 ZOZOではオンプレやクラウドにあるデータをBigQueryへ連携し、分析やシステムで活用しています。BigQueryに連携されたテーブルは共通データ基盤として全社的に利用されています。 共通データ基盤は随分前に作られたこともあり、様々な負債を抱えていました。負債を解消しようにも利用者が約300人以上おり、影響範囲が大きく改善したくても改善できずにいました。 本記事では旧データ基盤の課題や新データ基盤の紹介に加え、どのようにリプレイスを進めたかご紹介します。同じような課題を抱えている方や新しくデータ基盤を作ろうとしている方の参考になると嬉しいです。 データ基盤の紹介 旧データ基盤の紹介 旧データ基盤の課題 変更があっても更新されないデータ 性質の異なるテーブルを同じ命名規則で管理

                                  全社共通データ基盤を廃止して新しいデータ基盤に引越した話 - ZOZO TECH BLOG
                                • データレイク構築後の四方山話 #DPM / 20190905

                                  Data Platform Meetup の登壇資料です。 https://data-platform-meetup.connpass.com/event/142822/

                                    データレイク構築後の四方山話 #DPM / 20190905
                                  • 大学で学んだ図書館情報学で食いっぱぐれずに済んでいる話 - oscillographの日記

                                    はじめに この記事はklis Advent Calendar 2019の22日目の記事です。 この記事では「図書館情報学という学問が大学の外の世界でどのように活用できるか」というのをIT系の企業で働いている実体験込みでつらつら書いていこうかなと思います。 この記事の目的は図書館情報学を学んでいる学生の方や、図書館情報学にちょっと興味のある方に対して、ちょっとお先に社会に出ている立場から「(司書にならなくても!)図書館情報学は社会で役に立つので頑張って学んでください!」という応援をすることです。*1 この記事の最後に、学問一般を学ぶことの意義にもちょっと触れてます。 何者? 簡単に自己紹介しておきたいと思います。 自分は2011年に入学したklis11の卒業生で、卒業後5年くらい立った社会人です。(大学院含めると社会人歴3年くらい) 大学院卒業後は新卒でデータ解析職として人材系の会社に入社し

                                      大学で学んだ図書館情報学で食いっぱぐれずに済んでいる話 - oscillographの日記
                                    • N予備校のデータ分析基盤構築に向けた取り組み - ドワンゴ教育サービス開発者ブログ

                                      はじめに 昨今Webに限らずあらゆる事業領域において、蓄積されたデータの活用は必要不可欠、やっていて当たり前なものになってきているかと思います。これまでこのブログではあまりそういう話題に触れてこなかったこともあり、本稿では改めてドワンゴ教育サービスにおけるデータの活用に関する取り組みについて、概要レベルにはなりますがご紹介したいと思います。 はじめに N予備校における従来のデータの取り扱い 現在の取り組み 本番環境のデータのBigQueryへの蓄積 データ活用のプロトタイピング そのほかのデータ活用に関連する取り組みや展望 N予備校のアーキテクチャ・パイプラインの検討 分析対象のデータ拡充 データの管理体制 機械学習技術等の活用 おわりに We are hiring! N予備校における従来のデータの取り扱い まず従来から行われているN予備校におけるデータ活用の取り組みについて紹介します。現

                                        N予備校のデータ分析基盤構築に向けた取り組み - ドワンゴ教育サービス開発者ブログ
                                      • 民間企業におけるデータ整備の課題と工夫 / 20220305

                                        第16回日本統計学会春季集会での発表資料です。 https://confit.atlas.jp/guide/event/tjss2022spring/top https://ies.keio.ac.jp/events/17173/ 講義や共同研究のご相談はブログのお問い合わせ欄にご連絡ください。 https://yuzutas0.hatenablog.com/

                                          民間企業におけるデータ整備の課題と工夫 / 20220305
                                        • 軽量な Go 製カラムナフォーマット変換ツール columnify を作った話 - Repro Tech Blog

                                          こんにちは。業務委託として SRE チームのお手伝いをしている @syucream です。 本記事では Repro にて開発した、 Go 製のカラムナフォーマットへのデータ変換ツール columnify について、開発背景や技術的な取り組みを紹介します。 なぜカラムナフォーマットか? ことのおこり 事業がスケールすると共に扱うログの量が増えることは、喜ばしい反面さまざまな悩みをもたらします。その中でも顕著なものの一つとしてコストの問題が挙げられます。 膨大なログデータはログに対するストレージ料金を増大させると共に、分析や可視化に際してクエリで求められるコンピュートのコストも無視できなくなっていきます。 近頃 Repro でもコンテナのログの管理においてこの問題が顕著になってきました。Repro のバックエンドシステムは ECS 上のコンテナで実現され、ログの閲覧・管理のため外部のログ収集サ

                                            軽量な Go 製カラムナフォーマット変換ツール columnify を作った話 - Repro Tech Blog
                                          • AWS データレイク事例祭り 登壇資料

                                            AWS データレイク事例祭り 登壇資料です。

                                              AWS データレイク事例祭り 登壇資料
                                            • データウェアハウスのバージョン管理をどうやるか - yasuhisa's blog

                                              というのをチームで議論する機会があったので、書いてみます。「うちではこうしている」とか「ここはこっちのほうがいいんじゃない?」とかあったらコメントで教えてください。 背景 / 前提 データウェアハウスのテーブルを社内に広く提供したい 初期の提供時期が過ぎてしばらくすると、要望を元にスキーマの変更や集計ロジックの変更が入る (事前にレビューはもちろんするが)SQLのミスなどで以前のバージョンに戻したいといったことがありえる 他の部門では新しいバージョンをすでに使っていて、気軽に戻せないこともある データウェアハウスのバージョンを場面に応じて複数提供できると都合がよい 一方で、大多数のデータウェアハウスのユーザーは最新バージョンの利用だけでよいはず SSOT(Single Source of Truth)になっていて欲しいわけなので... 複数バージョン見えていると「どのバージョンを使えばいい

                                                データウェアハウスのバージョン管理をどうやるか - yasuhisa's blog
                                              • S3データレイクをAWSの分析サービスを使って有効活用する #AWS-06 #AWSSummit | DevelopersIO

                                                本記事は、AWS Summit Japan 2021のセッション動画、「AWS-06: 貯めるだけじゃもったいない!AWS 分析サービスを使ったデータレイクの有効活用」のレポート記事です。 「データはとりあえずS3に溜めておけ!」とデータレイクっぽいものは作れたけど上手く使いこなせていない方、それなりにいらっしゃるのではないでしょうか?本セッションでぜひAWSの分析サービスの活用術をおさらいしてみてください。 概要 データの持つ力を活かす方法としてデータレイクがありますが、データレイク上にデータは貯まってきたものの、どう有効活用すればいいか悩んだ経験はないでしょうか?データレイクに存在するデータと分析ツールと組合せ、活用する方法として、“レイクハウスアプローチ”があります。本セッションでは"レイクハウスアプローチ"の考え方を紹介すると共に、どのようなAWSサービスを用いて"レイクハウスアプ

                                                  S3データレイクをAWSの分析サービスを使って有効活用する #AWS-06 #AWSSummit | DevelopersIO
                                                • データ基盤のメタデータを継続的に管理できる仕組みを作る(ペパボ編) / pepabohatena

                                                  ペパボ・はてな技術大会〜@オンライン https://pepabo.connpass.com/event/174331/

                                                    データ基盤のメタデータを継続的に管理できる仕組みを作る(ペパボ編) / pepabohatena
                                                  • 事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)

                                                    2021/12/10に開催された TechMarketing Conference 2021 # データマネジメント #techmar での講演資料です。 https://techxmarketing.connpass.com/event/229173/ Read less

                                                      事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
                                                    • データカタログにNotionを選択した理由

                                                      実装方法 冪等性を担保したGoogle Cloud Composerの設計と実装で紹介しているとおり、Luupのデータ基盤はGoogle Cloud Composerを軸に動いています。なので今回も、Google Cloud Composerの環境下に作りました。 アウトプットイメージは以下です。 以下のNotion APIのDocumentを参考に実装を進めていきます。 サンプルコードも豊富で、説明も丁寧なので簡単に実装できました。 以下、コード一例です。 # Notionのフォーマットに変換するメソッド def format_standard_property_value(self, property_name: str, value: str): if property_name == "title": return {"title": [{"text": {"content": v

                                                        データカタログにNotionを選択した理由
                                                      • データの価値を失わないためのData Reliability

                                                        dbtを活用したデータ基盤の 論理・物理設計の現在地と振り返り / data warehouse logic design by using dbt

                                                          データの価値を失わないためのData Reliability
                                                        1