本書がテーマとして掲げる「Lakehouse プラットフォーム」とは、さまざまなデータを格納して有意義な形に変換し、ビジネスを支える土台となるものです。 各種のデータは、ETL(Extract Transform Load)処理やELT(Extract Load Transform)処理に代表されるデータ処理の工程を経て、最終的に利用可能な状態になります。 近年、その重要性が叫ばれるデジタルトランスフォーメーションでは、「データ」がビジネスを支える土台として機能するといわれる一方で、「データ」とは何かうまく説明できないことも珍しくありません。 そこで、めまぐるしく動向が変化するデータプラットフォーム関連技術における「データ」とは何かを明確に定義し、その設計や実装、そして運用にまで踏み込んで解説します。 【目次】 第 1 章 データプラットフォーム概要 1.1 データとは何か 1.2 Sin
本稿は、インフラエンジニアのための、データ活用基盤検討ガイドライン(前編)の続編となります。 サンプルアーキテクチャ 例1: Google Cloud のみ・最もシンプル 以下は最もシンプルなデータパイプライン構成の例です。 データ生成元のシステムからスクリプト等で BigQueryにデータをロードします。 BigQuery の Scheduled Query という機能を使って SQL を定期的に実行することで、BigQuery にロードされたデータを変換 (ELT) して分析に適した形にします。 この構成の利点は、図中にあるように非常に安価で、簡単に実装できることです。 ただし前後関係・依存関係のある複雑なジョブは組めないことや、何らかの理由で処理が失敗した場合のリトライや分岐処理などが弱いため、ごく小規模で単純なデータパイプラインの実装にだけ用いるべきでしょう。 例2: Google
削除する Google Service TGカルチャー アプリケーション開発 コンサルティング セミナー テックブログ デザイン デジタルプロダクト開発 開発実績 ニュース 2025年の崖(1) 5G(1) AI(39) AI Hub(1) AI Platform(1) AlloyDB(12) AlloyDB for PostgreSQL(6) AlphaZero(1) Analytics HUB(1) Android(11) Android アプリ(1) Anthos(6) API(12) API エコノミー(1) APP(2) App Engine(2) App Maker(2) AppServer(1) AppSheet(3) arduino(1) Authentication(1) AutoML(4) AWS(12) AWS (Amazon Web Services)(1) AWS
LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog はじめに こんにちは、Data Platform室IU Devチームの島村です。 Data Platform室では、約400ペタバイトのデータ分析基盤を運用しております。このData Platformは、「Information Universe」(以下、IU) と呼ばれており、LINEの様々なアプリケーションから生成されるデータをLINE社員が活用できるように、データの収集、処理、分析、可視化を提供しています。私が所属するIU Devチームでは、「IU Web」を開発しています IU Webは、IUのデータを安全にかつ効率的に活用できるようにするData Catalog機能を提供しており、LINEグループのあらゆるサービスか
はじめにTIG DXユニット真野です。Python連載の2本目です。普段はPython触らないのですが、データリネージという概念に興味をもったのと、それをサポートするためのPytnon製ツールがあったので触ってみます。 データリネージとは DWHのようなデータ基盤を整える上で必要になってくる概念で、保持するデータの発生源や、どのシステムがどう加工して保存されたかと言った流れを追跡できるようにすることです。データのトレーサビリティとも言うかなと思います。追跡可能にすることで、異常データの追跡(要はどこのETL処理で考慮漏れがでたりバグっちゃったのか)や依存関係などを捉えることができます。何かしらの分析にそのデータを利用すべきかどうかの重要な材料になるのは間違いないでしょう。システム開発においての影響度調査などにも便利かもしれませんね。 以下のページなどが参考になるかと思います データ ウェア
デジタル庁は、デジタル・ガバメント推進標準ガイドラインのもと、データの利活用、連携がスムースに行える社会を実現するための技術的体系として、「政府相互運用性フレームワーク(Government Interoperability Framework)」(以下、GIFといいます。)を提供します。このフレームワークを利用してデータを整備することで、拡張性が高く、連携が容易なデータを設計することが可能となります。 2022年4月以降に意見受付フォームや研修教材をあわせて公開する予定です。 小さなパーツから、組み合わせた実装モデルに展開し、標準化されたデータを整備していきます。 GitHub(外部サイト)2022年10月13日 GitHub(外部サイト)での公開を開始しました。 ドキュメント (2024年3月27日更新)ZipダウンロードGitHub利用不可の方は資料一式ダウンロードから取得してくださ
実装方法 冪等性を担保したGoogle Cloud Composerの設計と実装で紹介しているとおり、Luupのデータ基盤はGoogle Cloud Composerを軸に動いています。なので今回も、Google Cloud Composerの環境下に作りました。 アウトプットイメージは以下です。 以下のNotion APIのDocumentを参考に実装を進めていきます。 サンプルコードも豊富で、説明も丁寧なので簡単に実装できました。 以下、コード一例です。 # Notionのフォーマットに変換するメソッド def format_standard_property_value(self, property_name: str, value: str): if property_name == "title": return {"title": [{"text": {"content": v
静かなお盆でおめでとうございます。 記録的な暑さが続く中、みなさんはいかようにお過ごしでしょうか。 こう暑いと部屋の中から一歩も出たくないというのが人情 しかし、部屋でエアコンをつけっぱなしにしていても暑かったり寒かったりしませんか? 私は今の家に引っ越してから特に感じていて、 というのも築50年代のリノベ物件のため基本的な断熱や密閉がとれていない家に引っ越したためです。 そこで、「実際にエアコンの運転ってどうなってるの?」というのを調べてみました。 それでは簡単に我が家の環境と、調べてみた内容を紹介したいと思います。 いつも仕事は、2階建ての2階、南西向きのめちゃくちゃ日当たりのいい部屋で行っています。 エアコンをつけずに外出すると、夏場は40℃を超える日もしょっちゅうです。 書斎の間取り エアコンは南側の壁に設置されており、仕事机はエアコンとは反対の廊下側に置いてます。 この部屋の、A
各界のITリーダーが一堂に会する「CIO Japan Summit 2022」が、さる5月10日(火)・11日(水)の両日、ホテル椿山荘東京で開催された。今回で13回目を迎えた同サミットでは、さまざまな業界のCIOによる講演が実施された。特集「CIO Japan Summit 2022:注目企業のITリーダーに聞く!」では、CIO Japan Summitの登壇者であるITリーダーの話からDXの勘所を探っていく。第2弾は「全社員IT化:創業以来最大の危機に間に合った変化前提のIT戦略」と題して登壇した、星野リゾート 情報システムグループ グループディレクターの久本英司氏に、デジタル戦略を牽引するIT部門のつくり方について話を伺った。 星野リゾートのITリーダーの入社動機は「住宅ローンを組むため」だった!?2020年からのコロナ禍は、経済や産業にも大きなインパクトをもたらした。中でも旅行業・
スタースキーマ wikipedia スタースキーマ または 星型スキーマ はデータウェアハウスに利用される最も単純なスキーマである。スタースキーマには唯1つもしくは少数のファクト表と複数のディメンション表が含まれる。スタースキーマはスノーフレークスキーマの一種であるが、多くの用途で利用されている。 スタースキーマは、ディメショナル・モデリングをリレーショナル・データベースで実装したものになる。 詳しくは、ディメンショナル・モデリング にまとめている。 この記事は、あなたが「様々な指標を様々な軸で、レポートを見たい」類の要望に応えるためのスキーマ設計に困っている場合に役立つだろう。 ディメンションテーブル設計 サロゲートキー スタースキーマでは、各ディメンションテーブルに、サロゲートキーを割り当てる。このキーは、業務システムで使われているキー(ナチュラルキー)とは別のものを使用し、データウェ
2020/09/16 に開催された Data Engineering Study #3 「分析基盤をうまく組織に浸透させる方法」のイベントレポートです。 ●イベント概要 プログラム第3回「分析基盤をうまく組織に浸透させる方法」 データ分析基盤というものは、作ったら終わりではありません。基盤を作り上げた後は、頑張って貯めたログをビジネスに活用したり、基盤を利用する社内ユーザーを育成する「啓蒙」フェーズが始まります。むしろ作ってからが始まりなのです。 このセッションでは、分析基盤を上手く組織に浸透させる方法について、基調講演ではData Pipeline Casual Talkの主催者である伊藤様に道先案内人を務めて頂きます。 事例講演では、0→10の立ち上げフェーズの事例としてエウレカ鉄本氏、10→100の拡大フェーズの事例としてDeNA長谷川氏を迎え、各社の具体的な事例から学びます。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く