[B! datalake][*book] sh19910711のブックマーク

データエンジニアリングの要諦の後ろ髪を掴む - Fundamentals of Data Engineeringを読んで - じゃあ、おうちで学べる

最強なデータ分析基盤は何か⁉︎多種多様なデータ分析基盤が、制約のない環境で競合した時… ビジネス用途に限らず、あらゆるシナリオで使用可能な「データ分析」で比較した時、最強なデータ分析基盤は何か⁉︎ 今現在最強のデータ分析基盤は決まっていないデータ分析基盤まとめ（随時更新）などもあり大変参考にさせていただきました。ありがとうございます。はじめにデータエンジニアリングは、データの収集、処理、保存、そして提供を行う技術やプロセスを扱う複雑な分野です。この分野の全容を系統的に把握することは決して容易なことではありません。このような状況の中で、『Fundamentals of Data Engineering』という書籍に出会いました。この本は、著者たちの豊富な実務経験に基づいて書かれており、データエンジニアリングの基本概念とそのライフサイクルに焦点を当てています。さらに、これらの概念を現実

sh19910711 2024/04/09

"SREとデータエンジニアの役割が密接に関連しており、両者の協力が不可欠 / 高品質なデータフローを実現するためには、両分野の専門知識を統合し、継続的な改善を図る"

リンク

Apache Iceberg Catalog選択のポイント

OTFSG Tokyo Meetup #2の登壇資料です

sh19910711 2024/03/10

"Iceberg on Nessieに関しては『Apache Iceberg: The Definitive Guide』で詳しく解説されていそう + Early Release版が読める / Nessie Catalog: Nessieをサポートするエンジン・ツールが相対的に限られる / REST Catalog: Hive Thriftのイメージ"

リンク

データウェアハウスの設計原理 - 極北データモデリング

非正規形のデータ構造では更新時異状が発生する。更新時異状があると実装できない機能が(ふつうは)出てくるので、OLTPシステムでは正規化が必要になる。一方データウェアハウスには日中のデータ更新がないので、OLTPの設計原理に従う必要がない。では何を指針として設計すればよいか。古典的なデータウェアハウスの設計原理にディメンジョナル・モデルがある。ディメンジョナル・モデルに従ったDBは、いわゆるスタースキーマ多数の外部キーと小数の数値データからなるファクトテーブルとそれを取り巻く次元テーブルこの2段でおしまい、という形になる。このモデルでは、リレーションシップは全てファクトと次元の間に張るのであって、売上ファクト = { 年月日, 事業部コード(FK), ブランドコード(FK), 製品コード(FK), 数量 } 事業部次元 = { 事業部コード, 事業部名 } ブランド次元 =

sh19910711 2023/07/21

"ラルフ・キンボールの古典によれば、後者の「スノーフレーク・スキーマ」は、ユーザからのクエリに対する応答速度が低下する / ところが、この話があてはまるのは古典的な構成のデータウェアハウスシステム" / 2008

リンク

Designing Cloud Data Platforms読んだ - カーキ色はヒンディー語らしい

www.manning.com Designing Cloud Data Platformsという本を読みました。どんな本か 2021年に出版されたデータ基盤の本です大企業のデータ基盤の設計（コンサル・SIer？）の人が著者ですデータ基盤を大きく６つのレイヤー（下図）に分割し、それぞれの章で説明しています Data Lake（②）とDatat Warehouse（⑤）を組み合わせた基盤を、この本では「Data Platform」と呼んでいるかと思います（Data Warehouse単体との対比）書名に「Cloud」とついていますが一般論的な話がメインです。個別のクラウド・プロダクトの話題は軽く触れる程度です（Egressの通信量気をつけましょうとか、無限にスケールするオブジェクトストレージ良いよねとか） The Cloud Data Lakeや、 Fundamentals of

sh19910711 2023/03/07

"2021年に出版されたデータ基盤の本 / Operational Metadataの話: パイプラインの成功失敗、処理したデータ量 + Business Metadataではない / オブジェクトストレージのバケットの整理: Landing・Staging・Production・Archiveとして分類"

リンク

データガバナンスについてその8 | DAMA Japan Chapter ブログ

データおよび情報の品質管理 TQdM（Total Quality data Management）あるいはTQIM（Total Quality Information Management）という考え方があるが、国内ではどうも一般化しないようである。米国ではデータや情報の品質管理に関して活発な議論が行われている。国内でもラリー・イングリッシュ著「高品質データウェアハウス戦略」（オーム社）が出版されているが、この中に書かれている内容はデータウェアハウスだけでなく基本的な情報品質に関する議論である。ところで、TQdMやTQIMの考え方の基本はTQMである。さらなる基本はQC7つ道具であり、Kaizen（改善）の考え方ではないか。これこそ日本の製造メーカーが世界をリードした基本的な考え方ではないのだろうか。筆者は情報システム関連の（あえてITと言わない）の新入社員にコンピュータ言語の教育をする

sh19910711 2022/10/23

2011 / "国内でもラリー・イングリッシュ著「高品質データウェアハウス戦略」（オーム社）が出版されている / この中に書かれている内容はデータウェアハウスだけでなく基本的な情報品質に関する議論である"

リンク

DWHについて僕が最初に勉強してみたこと - ジムには乗りたい

いろいろ縁があって、データウェアハウスについてちょっと勉強したので、まだまだ未熟者ではあるがここまでやったことをまとめておく。キーワードを知るデータウェアハウスを設計・構築するにあたって知らなきゃお話にならないキーワード。これはたまたま身近にスーパーなエンジニアがいて、「これは抑えてから設計に入らないとダメだよ」とのアドバイスをもらったのがきっかけ。スタースキーマファクトディメンションインモンモデルキンボールモデルデータボルトモデルこの辺のキーワードをググっていくと、結局派生して色々知識が入ってくるので、なんとなくDWHのイメージが具現化していく。話は逸れるけど、自分より優れた人が身近にいるというのは自分の成長にとってとても大切なことだね。本を読む文系エンジニアの僕は新しい技術に対する応用力が乏しい。エンジニアとしてそもそもの前提知識が欠如していることが多いから

sh19910711 2022/09/10

2015 / "『データウェアハウスがわかる本』 (2000): スタースキーマやデータクレンジング、多次元データベースなど要点を / 『BIシステム構築実践入門』 (2005) : OpenOLAPという古いオープンソースプロジェクト？に言及"

リンク

「［増補改訂］ビッグデータを支える技術」を書きました - Qiita

2017年に技術評論社から出版された「ビッグデータを支える技術」を増補改定し、2021年版として新たに出版されることになりました。 WEB+DB PRESS plusシリーズ［増補改訂］ビッグデータを支える技術 ——ラップトップ1台で学ぶデータ基盤のしくみ https://gihyo.jp/book/2021/978-4-297-11952-2 改訂の背景本書では、筆者がトレジャーデータ株式会社に在籍していたときの経験をもとに、「ビッグデータを扱うシステムがどのように構築されているか」という基礎的な概念を解説しています。今回の改訂版では、記述が古くなってしまった部分を手直ししたのに加えて、機械学習やコンテナ技術などの話題をいくつか盛り込みました。本書の概要については次のページにまとめられています。本書について ―改訂にあたってもともとは旧第６章のサンプルコードを書き直すくらいのつ

sh19910711 2022/06/15

2021 / "ビッグデータの基盤技術そのものは2016年くらいには完成していたのでは / ワークフロー管理ツールは、ここ数年で本当にいろいろなものが登場 / 今回の改訂でも迷った末にPrefectをメインに取り上げることに"

リンク

データアナリストが育てるDWH

[オンライン開催] Retty ✕ Mercari Analyst Talk Night!　登壇資料 https://mercari.connpass.com/event/218848/

sh19910711 2021/08/01

"Agile Data Warehouse Design: Collaborative Dimensional Modeling, from Whiteboard to Star Schema"

リンク

ビッグデータの成熟期に改めて見直したいETL - About connecting the dots.

Hadoopが出てきてから10年，ビッグデータという言葉が流行り始めてからでも5年以上が経ち，2016年現在では，Hadoopエコシステムを使ったデータ活用が当たり前のものとしてあります．とはいえ巷に出回っているビッグデータ活用事例というのは，綺麗な上澄みだけをすくい取っていたり，リリースしたてのピカピカのときに発表されていたり，というのが大半で，それが結構個人的に気に食わなかったりします．ビッグデータが当たり前のものになっている現在においては，単に作っただけで価値があるというフェーズは過ぎ去っていて，継続的に運用しながら価値を生み出し続けることが，非常に重要な問題だと思います．特にビッグデータ界隈はミドルウェアやツールの陳腐化が激しく，またビジネス自体の変化速度も過去と比べてどんどん速くなっているわけで，そういった変化に対応していくためには，また別のスキルが必要とされるのではないでしょ

sh19910711 2018/09/01

The Data Warehouse Toolkit / “第3版のほうがはるかに体系化されて，様々なノウハウが整理されているので，英語に苦がなければ原書で読むことをお勧めします”

リンク

はてなブックマーク

タグ

関連タグで絞り込む (4)

datalakeと*bookに関するsh19910711のブックマーク (9)

お知らせ

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

今週のはてなブックマーク数ランキング（2024年5月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス