タグ

datalakeと*bookに関するsh19910711のブックマーク (9)

  • データエンジニアリングの要諦の後ろ髪を掴む - Fundamentals of Data Engineeringを読んで - じゃあ、おうちで学べる

    最強なデータ分析基盤は何か⁉︎多種多様なデータ分析基盤が、制約のない環境で競合した時… ビジネス用途に限らず、あらゆるシナリオで使用可能な「データ分析」で比較した時、最強なデータ分析基盤は何か⁉︎ 今現在最強のデータ分析基盤は決まっていない データ分析基盤まとめ(随時更新) などもあり大変参考にさせていただきました。ありがとうございます。 はじめに データエンジニアリングは、データの収集、処理、保存、そして提供を行う技術やプロセスを扱う複雑な分野です。この分野の全容を系統的に把握することは決して容易なことではありません。このような状況の中で、『Fundamentals of Data Engineering』という書籍に出会いました。このは、著者たちの豊富な実務経験に基づいて書かれており、データエンジニアリングの基概念とそのライフサイクルに焦点を当てています。さらに、これらの概念を現実

    データエンジニアリングの要諦の後ろ髪を掴む - Fundamentals of Data Engineeringを読んで - じゃあ、おうちで学べる
    sh19910711
    sh19910711 2024/04/09
    "SREとデータエンジニアの役割が密接に関連しており、両者の協力が不可欠 / 高品質なデータフローを実現するためには、両分野の専門知識を統合し、継続的な改善を図る"
  • Apache Iceberg Catalog選択のポイント

    OTFSG Tokyo Meetup #2の登壇資料です

    Apache Iceberg Catalog選択のポイント
    sh19910711
    sh19910711 2024/03/10
    "Iceberg on Nessieに関しては『Apache Iceberg: The Definitive Guide』で詳しく解説されていそう + Early Release版が読める / Nessie Catalog: Nessieをサポートするエンジン・ツールが相対的に限られる / REST Catalog: Hive Thriftのイメージ"
  • データウェアハウスの設計原理 - 極北データモデリング

    非正規形のデータ構造では更新時異状が発生する。更新時異状があると実装できない機能が(ふつうは)出てくるので、OLTPシステムでは正規化が必要になる。 一方データウェアハウスには日中のデータ更新がないので、OLTPの設計原理に従う必要がない。では何を指針として設計すればよいか。 古典的なデータウェアハウスの設計原理にディメンジョナル・モデルがある。 ディメンジョナル・モデルに従ったDBは、いわゆるスタースキーマ 多数の外部キーと小数の数値データからなるファクトテーブルと それを取り巻く次元テーブル この2段でおしまい、という形になる。 このモデルでは、リレーションシップは全てファクトと次元の間に張るのであって、 売上ファクト = { 年月日, 事業部コード(FK), ブランドコード(FK), 製品コード(FK), 数量 } 事業部次元 = { 事業部コード, 事業部名 } ブランド次元 =

    データウェアハウスの設計原理 - 極北データモデリング
    sh19910711
    sh19910711 2023/07/21
    "ラルフ・キンボールの古典によれば、後者の「スノーフレーク・スキーマ」は、ユーザからのクエリに対する応答速度が低下する / ところが、この話があてはまるのは古典的な構成のデータウェアハウスシステム" / 2008
  • Designing Cloud Data Platforms読んだ - カーキ色はヒンディー語らしい

    www.manning.com Designing Cloud Data Platformsというを読みました。 どんなか 2021年に出版されたデータ基盤のです 大企業のデータ基盤の設計(コンサルSIer?)の人が著者です データ基盤を大きく6つのレイヤー(下図)に分割し、それぞれの章で説明しています Data Lake(②)とDatat Warehouse(⑤)を組み合わせた基盤を、このでは「Data Platform」と呼んでいるかと思います(Data Warehouse単体との対比) 書名に「Cloud」とついていますが一般論的な話がメインです。個別のクラウド・プロダクトの話題は軽く触れる程度です (Egressの通信量気をつけましょうとか、無限にスケールするオブジェクトストレージ良いよねとか) The Cloud Data Lakeや、 Fundamentals of

    Designing Cloud Data Platforms読んだ - カーキ色はヒンディー語らしい
    sh19910711
    sh19910711 2023/03/07
    "2021年に出版されたデータ基盤の本 / Operational Metadataの話: パイプラインの成功失敗、処理したデータ量 + Business Metadataではない / オブジェクトストレージのバケットの整理: Landing・Staging・Production・Archiveとして分類"
  • データガバナンスについて その8 | DAMA Japan Chapter ブログ

    データおよび情報の品質管理 TQdM(Total Quality data Management)あるいはTQIM(Total Quality Information Management)という考え方があるが、国内ではどうも一般化しないようである。米国ではデータや情報の品質管理に関して活発な議論が行われている。国内でもラリー・イングリッシュ著「高品質データウェアハウス戦略」(オーム社)が出版されているが、この中に書かれている内容はデータウェアハウスだけでなく基的な情報品質に関する議論である。 ところで、TQdMやTQIMの考え方の基はTQMである。さらなる基はQC7つ道具であり、Kaizen(改善)の考え方ではないか。これこそ日の製造メーカーが世界をリードした基的な考え方ではないのだろうか。筆者は情報システム関連の(あえてITと言わない)の新入社員にコンピュータ言語の教育をする

    データガバナンスについて その8 | DAMA Japan Chapter ブログ
    sh19910711
    sh19910711 2022/10/23
    2011 / "国内でもラリー・イングリッシュ著「高品質データウェアハウス戦略」(オーム社)が出版されている / この中に書かれている内容はデータウェアハウスだけでなく基本的な情報品質に関する議論である"
  • DWHについて僕が最初に勉強してみたこと - ジムには乗りたい

    いろいろ縁があって、データウェアハウスについてちょっと勉強したので、まだまだ未熟者ではあるがここまでやったことをまとめておく。 キーワードを知る データウェアハウスを設計・構築するにあたって知らなきゃお話にならないキーワード。 これはたまたま身近にスーパーなエンジニアがいて、「これは抑えてから設計に入らないとダメだよ」とのアドバイスをもらったのがきっかけ。 スタースキーマ ファクト ディメンション インモンモデル キンボールモデル データボルトモデル この辺のキーワードをググっていくと、結局派生して色々知識が入ってくるので、なんとなくDWHのイメージが具現化していく。 話は逸れるけど、自分より優れた人が身近にいるというのは自分の成長にとってとても大切なことだね。 を読む 文系エンジニアの僕は新しい技術に対する応用力が乏しい。 エンジニアとしてそもそもの前提知識が欠如していることが多いから

    DWHについて僕が最初に勉強してみたこと - ジムには乗りたい
    sh19910711
    sh19910711 2022/09/10
    2015 / "『データウェアハウスがわかる本』 (2000): スタースキーマやデータクレンジング、多次元データベースなど要点を / 『BIシステム構築実践入門』 (2005) : OpenOLAPという古いオープンソースプロジェクト?に言及"
  • 「[増補改訂]ビッグデータを支える技術」を書きました - Qiita

    2017年に技術評論社から出版された「ビッグデータを支える技術」を増補改定し、2021年版として新たに出版されることになりました。 WEB+DB PRESS plusシリーズ [増補改訂]ビッグデータを支える技術 ——ラップトップ1台で学ぶデータ基盤のしくみ https://gihyo.jp/book/2021/978-4-297-11952-2 改訂の背景 書では、筆者がトレジャーデータ株式会社に在籍していたときの経験をもとに、「ビッグデータを扱うシステムがどのように構築されているか」という基礎的な概念を解説しています。今回の改訂版では、記述が古くなってしまった部分を手直ししたのに加えて、機械学習やコンテナ技術などの話題をいくつか盛り込みました。 書の概要については次のページにまとめられています。 書について ―改訂にあたって もともとは旧第6章のサンプルコードを書き直すくらいのつ

    「[増補改訂]ビッグデータを支える技術」を書きました - Qiita
    sh19910711
    sh19910711 2022/06/15
    2021 / "ビッグデータの基盤技術そのものは2016年くらいには完成していたのでは / ワークフロー管理ツールは、ここ数年で本当にいろいろなものが登場 / 今回の改訂でも迷った末にPrefectをメインに取り上げることに"
  • データアナリストが育てるDWH

    [オンライン開催] Retty ✕ Mercari Analyst Talk Night! 登壇資料 https://mercari.connpass.com/event/218848/

    データアナリストが育てるDWH
    sh19910711
    sh19910711 2021/08/01
    "Agile Data Warehouse Design: Collaborative Dimensional Modeling, from Whiteboard to Star Schema"
  • ビッグデータの成熟期に改めて見直したいETL - About connecting the dots.

    Hadoopが出てきてから10年,ビッグデータという言葉が流行り始めてからでも5年以上が経ち,2016年現在では,Hadoopエコシステムを使ったデータ活用が当たり前のものとしてあります.とはいえ巷に出回っているビッグデータ活用事例というのは,綺麗な上澄みだけをすくい取っていたり,リリースしたてのピカピカのときに発表されていたり,というのが大半で,それが結構個人的に気にわなかったりします. ビッグデータが当たり前のものになっている現在においては,単に作っただけで価値があるというフェーズは過ぎ去っていて,継続的に運用しながら価値を生み出し続けることが,非常に重要な問題だと思います.特にビッグデータ界隈はミドルウェアやツールの陳腐化が激しく,またビジネス自体の変化速度も過去と比べてどんどん速くなっているわけで,そういった変化に対応していくためには,また別のスキルが必要とされるのではないでしょ

    ビッグデータの成熟期に改めて見直したいETL - About connecting the dots.
    sh19910711
    sh19910711 2018/09/01
    The Data Warehouse Toolkit / “第3版のほうがはるかに体系化されて,様々なノウハウが整理されているので,英語に苦がなければ原書で読むことをお勧めします”
  • 1