[B! datalake] sh19910711のブックマーク

BigQueryのBigLakeテーブルと従来の外部テーブルを比較してみた | DevelopersIO

Google Cloudデータエンジニアのはんざわです。前回に引き続き、BigLakeテーブルを紹介したいと思います。今回の記事では、従来の外部テーブルとBigLakeテーブルを比較し、BigLakeテーブルが従来の外部テーブルより優れている点を簡単に紹介したいと思います。前提条件 Cloud StorageをデータストアとしたBigLakeテーブルと外部テーブルを比較します BigQuery Omniを使用した他クラウドのBigLakeテーブルやCloud Bigtableなどをデータストアとする外部テーブルは検証の対象外ですそもそもBigLakeテーブルとは？ BigLakeテーブルは、従来の外部テーブルと同様に外部のデータストアのデータにアクセス可能なテーブルです。従来の外部テーブルと比較するとアクセス権の委任により、「ユーザーがBigLakeテーブルにアクセスする権限」と

sh19910711 2024/05/16

"BigLakeテーブルへのアクセス権限と「BigLakeテーブルがデータストアを参照する権限」が分離 + Cloud Storageの権限が必要ありません / Delta LakeとIcebergのフォーマットを追加でサポート"

リンク

並列分散処理基盤のいま～45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門～（Open Source Conference 2021 Online/Hokkaido 発表資料）

並列分散処理基盤のいま～45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門～（Open Source Conference 2021 Online/Hokkaido 発表資料） 2021年6月26日 NTTデータ技術革新統括本部システム技術本部デジタル技術部インテグレーション技術担当吉田貴哉Read less

sh19910711 2024/05/11

"従来のデータレイク: 高度化する要件に対してデータの整合性を保つのが難しい・更新の重複への対応が難しいなどの課題 / データレイクを進化させるOSSのストレージレイヤソフトウェアが登場" 2021

リンク

【AWS】Amazon Security Lakeの概要とアクセス管理の検証 - Qiita

はじめに 2023年5月に一般提供を開始したAmazon Security Lake(以後Security Lakeと記載)についてサービスの概要と特徴であるアクセス管理(データアクセス,クエリアクセス)に焦点をあてて記載します。今回解説を行わない内容 Security Lake 環境構築の諸設定解説 Security Lake に蓄積したデータの可視化目次・Security Lakeとは・メリット・システム構成図とアクセス管理の検証箇所・導入ステップ・アクセス管理動作検証・どのような活用が期待されるか・注意点 Security Lakeとは Security Lakeは、フルマネージド型のセキュリティデータレイクサービスです。 AWS環境・SaaSプロバイダー・オンプレミス・クラウドソースからのセキュリティデータ（ログ・イベントデータ）を、アカウントに保存されている専用

sh19910711 2024/05/09

"Security Lake: 検知したデータと他のログデータと組み合わせて分析や機械学習に利用する + サードパーティのデータもOSCF形式に変換することで一元管理 / 従量課金: データの取込みとデータ変換(正規化)"

リンク

Hive on Spark の設計指針を読んでみた

Apache Sparkに手を出してヤケドしないための基本～「Apache Spark入門より」～（デブサミ 2016 講演資料）NTT DATA OSS Professional Services

sh19910711 2024/05/04

"Hive QLの意味解析によりHiveのオペレータプランがSparkで実行できるタスクプランに変換 / Operator Plan: TableScanOperator, ReduceSink, FileSink, GroupByOperatorなどの論理オペレータのグラフで構成" 2014

リンク

Streamlitを使ってデータカタログを作ってみた

sh19910711 2024/04/27

"SQLを実行する時にどのテーブルを使うべきか理解するのに苦労 / カタログ型のソフトウェアは高額 + StreamlitがイケてそうだからStreamlitで作ろう / Streamlit in Snowflakeにて、簡単にアプリをデプロイすることもできる"

リンク

【新機能】BigQuery data canvasを早速触ってみた #GoogleCloudNext | DevelopersIO

Google Cloudデータエンジニアのはんざわです。現在開催中のGoogle Cloud Next'24でBigQuery data canvasという新機能が追加されました。本記事では早速この新機能を触ってみたいと思います！ BigQuery data canvas とは？ BigQuery data canvasは、データソースの選択、クエリの実行、可視化をDAGで操作できる分析用のインターフェイスです。また、Geminiのサポートにより、自然言語を使用したデータの検索やSQLの作成、グラフの生成も行うことが可能です。 BigQuery data canvasの公式ドキュメントそれでは早速触ってみたいと思います！注意 2024年4月10日時点でBigQuery data canvasはprivate プレビューで、使用するためにはRequest BigQuery data

sh19910711 2024/04/27

"BigQuery data canvas: DAGで操作できる分析用のインターフェイス / ドキュメントによるとテーブルの検索はdataplexのメタデータと連携 + 積極的に活用するためには、メタデータの整備の重要性が上がってくる"

リンク

Repro における Presto Cassandra Connector 改造秘話 / Presto Conference Tokyo 2020

https://techplay.jp/event/795265 の発表資料です

sh19910711 2024/04/22

"Cassandra 導入理由: 書き込みのスケーラビリティを担保 / データの特性によってはパーティション有無の確認をスキップするメリットが大きい / デバッグログを有効化すると大きなヒントが得られる" 2020

リンク

SparkをRESTfulに利用できるApache Livyを導入した話 #hcj2019 #ApacheSpark #ApacheLivy

2019年3月14日開催された Hadoop / Spark Conference Japan 2019 のライトニングトークで発表した資料です。 Apache SparkをAPI経由でRESTfulに利用できるApache Livyをプロダクション環境に導入した話になります。 Apache Livyを入れることで、jupyterやAirflowなど他のシステムとの連携も簡単にすることが可能になります。 https://hcj2019.eventbrite.com/Read less

sh19910711 2024/04/22

"Apache Livy: ClouderaとMicrosoftが開発 + REST APIを利用して柔軟にSparkの実行 / 運用側が設定値の制限などをかけられるため安全性が増した / ワークフローエンジンなどの外部システムとの連携もしやすくなった" 2019

リンク

Amazon DataZone 初期導入から Amazon Redshift 統合の新機能まで解説する！ | DevelopersIO

Amazon DataZone 初期導入から Amazon Redshift 統合の新機能まで解説する！はじめにクラスメソッドの石川です。Amazon DataZoneは、クラウドサービス間の連携を活かし、Amazon Redshift統合の機能強化により、従来よりも簡単な操作で環境設定ができるようになりました。データガバナンス系のツールは設定が多くなりがちなので、この利便性は多くのユーザーにとって気になるところでしょう。今回は、Amazon Redshiftのサンプルデータの作成からAmazon DataZoneの初期導入とAmazon Redshift 統合まで解説します。すでに、Amazon Redshift 導入済みの方は、「Amazon DataZoneの準備」から、Amazon Redshift 統合の機能強化のみご覧いただきたい方は「環境プロファイルを作成」から読み進

sh19910711 2024/04/21

"DataZone: テンプレートの上にパラメーターセットを作成 + プロファイルを使って環境を作成する権限を与える / データの提供者や利用者は、環境を作成する際に自分でパラメーターを入力する必要がなくなり、選択するだけ"

リンク

〜小さく始めて大きく育てる〜データ分析基盤の開発から活用まで

sh19910711 2024/04/20

"Glue Data Quality: 定義したルールに従ってデータ品質検査 + Deequを利用 / 既存データを自動で分析して最適なルールをレコメンド + ルールに合致しないデータを検出するだけでなく意図しない変化や異常を自動的に検出"

リンク

AWS Glue × Apache Iceberg で構築する更新可能なデータレイクテーブル

こんにちは。シンプルフォーム株式会社にてインフラエンジニアをしています、山岸です。社内向けに運用しているデータ分析基盤について現状抱えているいくつかの課題を克服すべく、最近は更改に向けた検証に取り組んでいます。今回は取り組みの一つである「AWS Glue と Apache Iceberg によるデータレイクテーブル構築」についてご紹介したいと思います。概要当社ではデータ分析基盤の ETL 処理に AWS Glue を使用しています。社内のデータ分析業務等のため、RDS データベース等のデータソースから日次で S3 上に構築された DWH に連携しています。現行のデータ分析基盤では、DB テーブル上のデータを毎日全件洗い替えています。このような処理方法は ETL 実装や問題発生時の復旧が簡単である一方、ETL 処理のコスト効率が悪く、データ量の増加に伴って処理時間も長くなっていきま

sh19910711 2024/04/18

"BI ツールとして ECS サービス上に構築した Redash + データソースとして Redshift Serverless + ETL 処理を Glue ジョブで実装 / Iceberg V1, V2 テーブルに対して、Redshift Spectrum を使用した外部表としての読み取りがサポート"

リンク

分析基盤へのデータ連携処理をEmbulkからAmazon Aurora S3 Export機能に切り替えた話 - BASEプロダクトチームブログ

はじめにこんにちは！Data Platformチームでデータエンジニアとして働いている @shota.imazeki です。分析基盤の構築・運用などの側面から社内のデータ活用の促進を行っています。 BASEではAurora MySQLにあるデータをEmbulkを用いてBigQueryに連携しています。BigQueryへ連携されたデータは分析基盤としてLookerなどを通して社内利用されています。このデータ連携処理にはいくつかの課題があり、それを解決するためにEmbulkからAurora S3 Export機能を用いた連携処理に切り替えることにしましたので、それについて紹介していきたいと思います。 ※この切り替えについては現状、試験的に一部のDBのみの切り替えとなっていますが、運用上の大きな課題が出てこなければ徐々に切り替えていく予定です。切替前のデータ連携処理先述した通り、BAS

sh19910711 2024/04/14

"Aurora MySQLにあるデータをEmbulkを用いてBigQueryに連携 + Lookerなどを通して社内利用 / Aurora S3 Export: 100GBで$1.2~1.3程度 / RdsStartExportTaskOperator: Airflowサーバーのバージョンが低くて利用ができなかった"

リンク

Strata NY 2019 参加記 - Session Day 2 | リクルート

リクルートデータ組織のブログをはじめました。※最新情報はRecruit Data Blogをご覧ください。 Recruit Data Blogはこちらそろそろ時差ボケにも慣れてきました、データ分析基盤チームのエンジニアの鳥井です。こちらの記事に詳しいですが、この記事を執筆している今、O’Reillyが主催している Strata Data Conference 2019 @ NY というカンファレンスに参加しています。 Strataについてと、Session Day 1の印象に残ったセッションについて、上記記事で紹介させていただきました。この記事では、1本目の記事に引き続き、Session Day 2で聞いた中で印象に残った発表を1つ簡単に紹介したいと思います。 Session Day 2 Creating an extensible 100+ PB real-time big da

sh19910711 2024/04/12

"Strata: O’Reilly主催のカンファレンス + データにまつわるインフラ技術・機械学習・セキュリティといったトピックス / Uberが数百PBのデータをリアルタイムで保存および処理するための基盤をどのようにして作ったか" 2019

リンク

データエンジニアリングの要諦の後ろ髪を掴む - Fundamentals of Data Engineeringを読んで - じゃあ、おうちで学べる

最強なデータ分析基盤は何か⁉︎多種多様なデータ分析基盤が、制約のない環境で競合した時… ビジネス用途に限らず、あらゆるシナリオで使用可能な「データ分析」で比較した時、最強なデータ分析基盤は何か⁉︎ 今現在最強のデータ分析基盤は決まっていないデータ分析基盤まとめ（随時更新）などもあり大変参考にさせていただきました。ありがとうございます。はじめにデータエンジニアリングは、データの収集、処理、保存、そして提供を行う技術やプロセスを扱う複雑な分野です。この分野の全容を系統的に把握することは決して容易なことではありません。このような状況の中で、『Fundamentals of Data Engineering』という書籍に出会いました。この本は、著者たちの豊富な実務経験に基づいて書かれており、データエンジニアリングの基本概念とそのライフサイクルに焦点を当てています。さらに、これらの概念を現実

sh19910711 2024/04/09

"SREとデータエンジニアの役割が密接に関連しており、両者の協力が不可欠 / 高品質なデータフローを実現するためには、両分野の専門知識を統合し、継続的な改善を図る"

リンク

pg2arrowを並列化する - KaiGaiの俺メモ

今回は皆さんが大好きな便利ツール「pg2arrow」のお話です。 PostgreSQLでポータブルな列指向データ形式 Apache Arrow を読み出すには、Arrow_Fdwを利用する事ができます。 PG-StromではGPU-Direct SQLにも対応していますし、列指向データという事もあって、被参照列しかI/Oが発生しない、同じ列のデータが近傍に固まっているという大量データ処理に適した特性を持ってもいます。また、Apache Arrow形式のファイルを作成するにはPyArrowやPandasなど様々なツールがありますが、我々DB屋としてはPostgreSQLに格納されたトランザクショナルなデータを、分析用にApache Arrow形式として吐き出せるととても嬉しい。そんな時に使えるツールがpg2arrowなのです。 pg2arrowは、PostgreSQLにクエリを投げ、その問

sh19910711 2024/04/08

"PostgreSQLに格納されたトランザクショナルなデータを、分析用にApache Arrow形式として吐き出せるととても嬉しい / pg2arrow: PostgreSQLにクエリを投げ、その問合せ結果をApache Arrow形式のファイルとして保存"

リンク

【Iceberg 1.5新機能】viewの紹介 - 共通メタデータ形式とバージョン管理が実現する新たな可能性 - 流沙河鎮

はじめに Iceberg view概要一般的なクエリエンジンにおけるviewの役割 Iceberg viewを使ってみる Iceberg viewのコンセプトメタデータ形式の共有 viewのバージョン管理 Iceberg viewの構成要素と仕組み View Metadata versionsフィールド representationsフィールド「create_changelog_view」プロシージャによるIcebergのCDC create_changelog_view create_changelog_viewの使い方引数アウトプット create_changelog_viewの実行例 Tips Carry-over Rows Pre/Post Update Images ユースケースのアイデアおわりに Appendix: Viewサポートに関連するPR はじめに 2024

sh19910711 2024/04/05

"Iceberg 1.5: viewの仕様を定めるIceberg View Specが定義され、いくつかのCatalog実装がviewの操作をサポート / create_changelog_view: viewを活かしたSparkのStored Prodecure + 行レベルの変更をキャプチャできるため、CDCを実装する上で役に立つ"

リンク

データカタログのコメントをLLMに考えさせてみる - Qiita

要約 LLMを使ってこれをこうしますはじめに今回はBedrockの利用ユースケース案の簡単な検証です。冒頭示したように、Glue Data CatalogにはGlueでETLジョブを走らせるためのデータスキーマが登録されています。各カラムには名前とデータタイプのほかにコメントを格納できます。コメント自体は機能に何ら影響は与えません。メモ書きです。あまり意識することはないかもしれませんが、AthenaなどS3をソースにテーブル作成する際には、バックグラウンドで自動的にData Catalog テーブルが作成されます。今回対象としているテーブルもその一つで、先日以下の記事でAthenaを利用する際に作られたテーブルです。このほかにもELBのログ分析のためAthenaを使ったことがある人もそのテーブルが作られているはずです。このテーブル自体は何てことないテーブルですし、この前作られ

sh19910711 2024/03/29

"データマネジメントは規模に応じて非常に労力のいる仕事 / データカタログに限らず、基盤のマネジメントタスクにLLMを活用していくユースケースは沢山ある / こういった仕組みでLLMに力を発揮させる土壌を整えていく"

リンク

UNION 型: データ型が混在するカラムのサポート - nagix

この記事は Apache Drill Advent Calendar 2015 の3日目の記事です。少し前の記事で、一つのカラムにデータ型が混在したデータを読むときの注意点を説明しました。その後リリースされた Drill 1.3 で、[DRILL-3229] Create a new EmbeddedVector にて改良が進行中のコードが取り込まれたことにより、データ型が混在するカラムの取り扱いができるようになりました。具体的には、UNION 型というデータ型が新たに追加され、個々のフィールドごとに異なるデータ型を内部で保持できるようになっています。以前の記事同様、次のようなデータを用意します（以前の記事の時のデータとはほんの少し異なりますが、その理由は後述）。 $ cat /tmp/sensor.json [ {"sensor_id":15, "timestamp":"2015-

sh19910711 2024/03/24

"Drill 1.3: データ型が混在するカラムの取り扱いができるように / UNION 型というデータ型が新たに追加され、個々のフィールドごとに異なるデータ型を内部で保持できる" DRILL-3229 2015

リンク

分析者から見た使いにくいデータ基盤の話 | リクルートテクノロジーズ　メンバーズブログ

リクルートテクノロジーズのアドベントカレンダーの 12/25 の分です。要するにデータが潤沢なデータレイクと、秩序だったデータウェアハウスがほしいという話をします。データマートは分析者も必要に応じて作ればいいので、なくても問題ないです。データレイク、データウェアハウス、データマートについては本記事で解説します。とはいえ、「データあるから分析してくれ」を最初に取りかかる場合は、秩序だったデータウェアハウスが無いはずなので、データレイクに大量のデータがあれば贅沢は言いません。実はデータがない状態は本記事では想定していません。本アドベントカレンダーでは似た内容を先に書かれましたが、本ブログでは使う側の視点なのでちょっと違います。とはいえ、目指す姿はだいたい似るはずです。 http://yuzutas0.hatena blog.com/entry/2018/12/08/235900 なんのため

sh19910711 2024/03/20

"データが無いよりは沼のほうがありがたい / データレイク自体の秩序よりも、次に解説するデータウェアハウスへ流し込むところの秩序のほうが重要 / 目的なきデータウェアハウスは意味がわからない" 2018

リンク

RAG用ドキュメントとしてのデータカタログ

データカタログの悩み dataplexやdbt docs、その他無数のSaaS製品に代表されるデータカタログは、データリネージを自動的に生成できるなど便利な機能を数多くそろえている一方で、物足りない点もまだ多く、特にマネージャー陣など非データ分析職や他チームからの問い合わせを削減することは過去の経験から考えてもまだ難しいと感じている。自チームがデータ分析を行う際には、とりあえずデータカタログで調べてみるという形を実現できたことはあるのだが、マネージャー「AのディメンションごとにBのメトリクスを自分で集計したいが、どのテーブルを使えばいいか」別チームのメンバー「プロダクトXに関する指標Yが数日前から変動しているが、Xのチームで何らかの変更を行ったのか」といった相談や問い合わせは依然としてそれなりの工数を占めていた。組織全体でのデータ活用や複数ドメインでのデータ連携ができているという

sh19910711 2024/03/15

"問い合わせに回答するのはルーチン性が高い一方でスケールさせないといずれ運用が破綻する / ドメイン知識がない質問者が自力で回答に辿り着くのは極めて難しい / ragstar: dbtのレポジトリをドキュメントとして探索"

リンク

はてなブックマーク

タグ

関連タグで絞り込む (58)

datalakeに関するsh19910711のブックマーク (262)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス