並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 9 件 / 9件

新着順 人気順

datalakeの検索結果1 - 9 件 / 9件

  • 分析基盤へのデータ連携処理をEmbulkからAmazon Aurora S3 Export機能に切り替えた話 - BASEプロダクトチームブログ

    はじめに こんにちは!Data Platformチームでデータエンジニアとして働いている @shota.imazeki です。 分析基盤の構築・運用などの側面から社内のデータ活用の促進を行っています。 BASEではAurora MySQLにあるデータをEmbulkを用いてBigQueryに連携しています。BigQueryへ連携されたデータは分析基盤としてLookerなどを通して社内利用されています。 このデータ連携処理にはいくつかの課題があり、それを解決するためにEmbulkからAurora S3 Export機能を用いた連携処理に切り替えることにしましたので、それについて紹介していきたいと思います。 ※この切り替えについては現状、試験的に一部のDBのみの切り替えとなっていますが、運用上の大きな課題が出てこなければ徐々に切り替えていく予定です。 切替前のデータ連携処理 先述した通り、BAS

      分析基盤へのデータ連携処理をEmbulkからAmazon Aurora S3 Export機能に切り替えた話 - BASEプロダクトチームブログ
    • データレイクの新しいカタチ:Open Table Formatの紹介 - 流沙河鎮

      はじめに Open Table Formatは次世代のデータレイクの基盤となり得る技術で、徐々に導入事例(末尾に列挙)が増えてきているものの、日本での認知度は発展途上な印象がある。本記事ではOpen Table Format登場の背景を紹介する。執筆にあたって、Apache Iceberg: An Architectural Look Under the CoversとAWSにおける Hudi/Iceberg/Delta Lake の 使いどころと違いについてを特に参考にした。 Open Table Formatとは? Open Table Formatとは、従来のデータレイクの技術的な課題&ユースケースの要請に応える形で登場した、データレイクに最適化されたテーブルフォーマットを指す概念で、上手く活用することでクエリプランニング、実行性能の最適化、効率的なUpdateやDelete、タイム

        データレイクの新しいカタチ:Open Table Formatの紹介 - 流沙河鎮
      • 社内勉強会「Modern Data Stack入門」の内容をブログ化しました - PLAID engineer blog

        プレイドの社内向けに行ったModern Data Stack勉強会の内容が好評だったので、データ基盤に携わる方に向けてModern Data Stackの概要、主要サービス、重要だと思うトレンドをまとめました。

          社内勉強会「Modern Data Stack入門」の内容をブログ化しました - PLAID engineer blog
        • 【新機能】BigQuery data canvasを早速触ってみた #GoogleCloudNext | DevelopersIO

          Google Cloudデータエンジニアのはんざわです。 現在開催中のGoogle Cloud Next'24でBigQuery data canvasという新機能が追加されました。 本記事では早速この新機能を触ってみたいと思います! BigQuery data canvas とは? BigQuery data canvasは、データソースの選択、クエリの実行、可視化をDAGで操作できる分析用のインターフェイスです。 また、Geminiのサポートにより、自然言語を使用したデータの検索やSQLの作成、グラフの生成も行うことが可能です。 BigQuery data canvasの公式ドキュメント それでは早速触ってみたいと思います! 注意 2024年4月10日時点でBigQuery data canvasはprivate プレビューで、使用するためにはRequest BigQuery data

            【新機能】BigQuery data canvasを早速触ってみた #GoogleCloudNext | DevelopersIO
          • AWS Glue × Apache Iceberg で構築する更新可能なデータレイクテーブル

            こんにちは。シンプルフォーム株式会社 にてインフラエンジニアをしています、山岸です。 社内向けに運用しているデータ分析基盤について現状抱えているいくつかの課題を克服すべく、最近は更改に向けた検証に取り組んでいます。今回は取り組みの一つである「AWS Glue と Apache Iceberg によるデータレイクテーブル構築」についてご紹介したいと思います。 概要 当社ではデータ分析基盤の ETL 処理に AWS Glue を使用しています。社内のデータ分析業務等のため、RDS データベース等のデータソースから日次で S3 上に構築された DWH に連携しています。 現行のデータ分析基盤では、DB テーブル上のデータを毎日全件洗い替えています。このような処理方法は ETL 実装や問題発生時の復旧が簡単である一方、ETL 処理のコスト効率が悪く、データ量の増加に伴って処理時間も長くなっていきま

              AWS Glue × Apache Iceberg で構築する更新可能なデータレイクテーブル
            • OpenMetadataでRedshiftのクエリログからリネージュを作成する | DevelopersIO

              OpenMetadataではデータリネージュ(データの流れ)を可視化できます。 Redshiftではクエリのログを読み込むことでそこから自動的にリネージュ情報を作ることができます。 その流れをやっていこうと思います。 Redshiftのユーザについて OpenMetadataを利用する際はスーパーユーザではないユーザを利用するべきです。 OpenMetadataはデータカタログなので原則Redshift内の実データ書き換えは発生しません。 発生してしまったらかなり怖いです。 よってスーパーユーザの権限はそもそも必要なく、 また、もしも想定外に書き換えがあった時にはきちんと禁止されるように一般のリードオンリーユーザを作成して行います。 また別の理由として、スーパーユーザでは全てのデータにアクセスができてしまい、 Redshift Spectrumを利用するテーブルに対してもクエリをかけること

                OpenMetadataでRedshiftのクエリログからリネージュを作成する | DevelopersIO
              • データエンジニアリングの要諦の後ろ髪を掴む - Fundamentals of Data Engineeringを読んで - じゃあ、おうちで学べる

                最強なデータ分析基盤は何か⁉︎多種多様なデータ分析基盤が、制約のない環境で競合した時… ビジネス用途に限らず、あらゆるシナリオで使用可能な「データ分析」で比較した時、最強なデータ分析基盤は何か⁉︎ 今現在最強のデータ分析基盤は決まっていない データ分析基盤まとめ(随時更新) などもあり大変参考にさせていただきました。ありがとうございます。 はじめに データエンジニアリングは、データの収集、処理、保存、そして提供を行う技術やプロセスを扱う複雑な分野です。この分野の全容を系統的に把握することは決して容易なことではありません。このような状況の中で、『Fundamentals of Data Engineering』という書籍に出会いました。この本は、著者たちの豊富な実務経験に基づいて書かれており、データエンジニアリングの基本概念とそのライフサイクルに焦点を当てています。さらに、これらの概念を現実

                  データエンジニアリングの要諦の後ろ髪を掴む - Fundamentals of Data Engineeringを読んで - じゃあ、おうちで学べる
                • Amazon DataZone 初期導入から Amazon Redshift 統合の新機能まで解説する! | DevelopersIO

                  Amazon DataZone 初期導入から Amazon Redshift 統合の新機能まで解説する! はじめに クラスメソッドの石川です。Amazon DataZoneは、クラウドサービス間の連携を活かし、Amazon Redshift統合の機能強化により、従来よりも簡単な操作で環境設定ができるようになりました。データガバナンス系のツールは設定が多くなりがちなので、この利便性は多くのユーザーにとって気になるところでしょう。 今回は、Amazon Redshiftのサンプルデータの作成からAmazon DataZoneの初期導入とAmazon Redshift 統合まで解説します。 すでに、Amazon Redshift 導入済みの方は、「Amazon DataZoneの準備」から、Amazon Redshift 統合の機能強化のみご覧いただきたい方は「環境プロファイルを作成」から読み進

                    Amazon DataZone 初期導入から Amazon Redshift 統合の新機能まで解説する! | DevelopersIO
                  • 【Iceberg 1.5新機能】viewの紹介 - 共通メタデータ形式とバージョン管理が実現する新たな可能性 - 流沙河鎮

                    はじめに Iceberg view概要 一般的なクエリエンジンにおけるviewの役割 Iceberg viewを使ってみる Iceberg viewのコンセプト メタデータ形式の共有 viewのバージョン管理 Iceberg viewの構成要素と仕組み View Metadata versionsフィールド representationsフィールド 「create_changelog_view」プロシージャによるIcebergのCDC create_changelog_view create_changelog_viewの使い方 引数 アウトプット create_changelog_viewの実行例 Tips Carry-over Rows Pre/Post Update Images ユースケースのアイデア おわりに Appendix: Viewサポートに関連するPR はじめに 2024

                      【Iceberg 1.5新機能】viewの紹介 - 共通メタデータ形式とバージョン管理が実現する新たな可能性 - 流沙河鎮
                    1