タグ

dwhに関するsh19910711のブックマーク (391)

  • N予備校のデータ分析基盤構築に向けた取り組み - ドワンゴ教育サービス開発者ブログ

    はじめに 昨今Webに限らずあらゆる事業領域において、蓄積されたデータの活用は必要不可欠、やっていて当たり前なものになってきているかと思います。これまでこのブログではあまりそういう話題に触れてこなかったこともあり、稿では改めてドワンゴ教育サービスにおけるデータの活用に関する取り組みについて、概要レベルにはなりますがご紹介したいと思います。 はじめに N予備校における従来のデータの取り扱い 現在の取り組み 番環境のデータのBigQueryへの蓄積 データ活用のプロトタイピング そのほかのデータ活用に関連する取り組みや展望 N予備校のアーキテクチャ・パイプラインの検討 分析対象のデータ拡充 データの管理体制 機械学習技術等の活用 おわりに We are hiring! N予備校における従来のデータの取り扱い まず従来から行われているN予備校におけるデータ活用の取り組みについて紹介します。現

    N予備校のデータ分析基盤構築に向けた取り組み - ドワンゴ教育サービス開発者ブログ
    sh19910711
    sh19910711 2022/08/16
    "S3に蓄積されたスナップショットやログデータを入力として、本番環境のRDBとアクセスログのデータをBigQueryのData Transfer Service (DTS)で / Pythonでゴリゴリ書いて納得してから共有用にGoogle Data Portalというフローになりがち"
  • スタディサプリでのBigQuery移管と実践的活用術 / meetup_kittaka

    2022/01/27_スタディサプリのデータ基盤を支える技術 2022 -RECRUIT TECH MEET UP #3-での、橘高の講演資料になります

    スタディサプリでのBigQuery移管と実践的活用術 / meetup_kittaka
    sh19910711
    sh19910711 2022/08/15
    "DMBOK2に準拠した2種類のメタデータ / ビジネスメタデータ: ドメイン情報を管理し、暗黙知を形式知化する + オペレーショナルメタデータ: データの利用状況などを管理し、クエリの棚卸しを継続しやすい状態にする"
  • Amazon Redshift Serverless 本番環境に向けた「設定をカスタマイズ」による環境構築手順 | DevelopersIO

    データアナリティクス事業コンサルティングチームの石川です。「デフォルト設定を使用」で構築するのであれば、ワンクリック3分で構築可能です。 しかし、番環境のように任意のVPCに構築するには「設定をカスタマイズ」による環境構築が必要です。 1つ目のRedshift Serverless環境の構築は、「デフォルト設定を使用」を用いた環境構築 もしくは「設定をカスタマイズ」による環境構築のいずれかです。2つ目以降は、下記のサーバーレスダッシュボードの[ワークグループを作成]から環境構築します。この手順は、「設定をカスタマイズ」とほぼ同じで、RPUの設定が追加されたものとそれほど変わりません。 日は、Redshift Serverlessを構築するための設定項目の整理して、「設定をカスタマイズ」による環境構築する手順について解説します。 環境構築するための設定項目 最初にRedshift S

    Amazon Redshift Serverless 本番環境に向けた「設定をカスタマイズ」による環境構築手順 | DevelopersIO
    sh19910711
    sh19910711 2022/08/09
    "RPU: コンピューティングを表す単位 + 1RPUあたり16GiBメモリ / ネットワーク: 少なくとも3つのサブネット + それらが3つのアベイラビリティゾーンにまたがっている必要 + RPUの数に応じてENIをより多く確保"
  • redashからSnowflakeを参照したらクレジット消費が異常に増えたお話

    前置き はじめまして。株式会社GENDAのこみぃです。 株式会社GENDAではデータウェアハウスとしてSnowflake、BIツールとしてredashを使っています。 この設計は初期段階から決めており、Snowflakeのトライアル期間にはまずはこの部分を構築しました。 さて、Snowflakeにデータを転送し、redashで接続設定をし、数日経ってふとクレジット消費量を確認すると、そこには異常に消費されたクレジットの姿が!! 幸いにして運用になる前に修正することができましたが、これ以上同じ悲しみを背負う人が出ないように、SnowflakeとBIツールをつなぐ際に気をつけるべき設定についてまとめました。 Snowflakeの料金体系 Snowflakeの料金体系は以下の2つになっています データ量に応じたストレージの料金 コンピュータリソースの利用料金(クレジットという概念で計算される)

    redashからSnowflakeを参照したらクレジット消費が異常に増えたお話
    sh19910711
    sh19910711 2022/08/07
    "REDASH_SCHEMAS_REFRESH_SCHEDULE / クエリ作成画面にて、選択しているデータソースのテーブルスキーマの一覧を表示してくれる便利な機能 / デフォルトで利用していると30分に一回snowflakeのcomputeが呼び出され"
  • 日々変化するゆるふわフォーマットをBigQueryでおいしく料理する方法。Athenaユーザも必見だよ! - CARTA TECH BLOG

    3行まとめ 背景 データの流れ そのままコピーするだけのLambda 外部テーブルを使おう ゆるふわをゆるふわのまま扱う JSON Linesを1カラムのレコードとして取り込む 定期的に外部テーブルにクエリして結果を保存する まとめ 3行まとめ BigQueryはいいぞ 外部テーブルはすごいぞ Scheduled Queryも便利だぞ こんにちは。ひむ(@himu)です。 株式会社fluctでエンジニアとして働いていたり、ボルダリングしたりガチャを回したり健康で文化的な生活をしています。 fluctはインターネット広告プラットフォームのサービスなどを提供しており、毎日億単位の大量のイベントログが発生しています。 イベントログには、売上の計算に必要なデータから、アプリケーションを改善する上で必要なデータなど、様々なデータが入り混じっており、情報が追加されることも度々あります。 今回は、そんな

    日々変化するゆるふわフォーマットをBigQueryでおいしく料理する方法。Athenaユーザも必見だよ! - CARTA TECH BLOG
    sh19910711
    sh19910711 2022/08/05
    2020: JSON型とかでいい感じになって欲しい / "JSON Linesを1カラムのレコードとして取り込む / CSVフォーマットにはデリミタを指定することができるためデータに入り得ない文字を指定すれば1行1カラムとしてパース"
  • 【R&D DevOps通信】Cloud Composerを用いたデータ基盤の転送パイプライン構築 - Sansan Tech Blog

    こんにちは。研究開発部でデータエンジニアをしている鈴木翔大です。 今回は【R&D DevOps通信】連載 9回目として、以前構築したデータ基盤の転送パイプラインについて書こうと思います。 AWSのS3上に存在するデータをGCPのGCSに転送して、データのETL処理をしながらBigQueryのネイティブテーブルに同期するような仕組みです。この一連の処理の流れ(パイプライン)をCloud Composer上で管理・運用する方法について紹介します。 背景 Sansanが持っているデータは非常に大規模で、かつ機密性が高いデータも含まれています。そのため、基的にデータを全社員が見れないように、必要なチームのみにアクセス権限を付与しています。現在構築を進めている全社横断データ基盤でも、列レベル・行レベルできめ細やかなアクセス制御を行う必要があり、これを実現できるデータウェアハウスとしてBigQuer

    【R&D DevOps通信】Cloud Composerを用いたデータ基盤の転送パイプライン構築 - Sansan Tech Blog
    sh19910711
    sh19910711 2022/08/05
    BigQuery Data Transfer Serviceの方はAWSのIAMロール指定できないのか👀 / "BigQuery Data Transfer Serviceを利用する方法もありますが、今回構築したパイプラインではS3からGCSにデータを転送するData Transfer Serviceを利用しています"
  • DevelopersIO 2022 Snowflakeトーク&ディスカッション~Snowflake Summit’22の最新情報を現地参戦できなかった二人のData Superheroと一緒に学ぼう!#devio2022 | DevelopersIO

    さがらです。 DevelopersIO 2022技術で心を揺さぶる3日間〜の2日目、2022年7月27日にSnowflakeトーク&ディスカッション~Snowflake Summit'22の最新情報を現地参戦できなかった二人のData Superheroと一緒に学ぼう!というタイトルで、Snowflake社のKTさん、弊社クラスメソッドの甲木、さがら、の3人で登壇しました。 ブログではこの登壇内容について、紹介のあったSnowflakeの新機能を中心にまとめたいと思います。 登壇概要 概要 Snowflake社の最大のユーザーカンファレンスイベントである「Snowflake Summit」がラスベガスにて2022年6月13~16日の日程で開催されました。セッションではSnowflake社のKT氏をお招きし、イベントに現地参戦できなかったData Supeheroesであるクラスメソ

    DevelopersIO 2022 Snowflakeトーク&ディスカッション~Snowflake Summit’22の最新情報を現地参戦できなかった二人のData Superheroと一緒に学ぼう!#devio2022 | DevelopersIO
    sh19910711
    sh19910711 2022/08/02
    "Icebergフォーマットに関連するメタデータやデータファイルを外部のS3などのストレージサービスに保持している場合でも、Snowflakeの通常のテーブルと同様のパフォーマンスを発揮することが出来る"
  • SQLに力を:Databricks SQLにおけるPython UDFのご紹介 - Qiita

    先月のData & AIサミットでDatabricks SQL(DBSQL)におけるPythonユーザー定義関数(UDF)のプレビューを発表できたことを大変嬉しく思っています。このブログ記事では、新機能の概要を説明し、機能とそのユースケースを説明するサンプルをウォークスルーします。 Python UDFを用いることで、ユーザーは簡単かつセキュア、そして完全に管理された方法を通じて、SQL関数を通じてPythonコードを記述し、呼び出すことができるようになり、PythonのパワーをDatabricks SQLに持ち込むことができます。 Databricks SQLにおけるPython UDFのご紹介 DatabricksとApache Spark™においては、UDFは通常Sparkを拡張します:ユーザーとして、データを変換したりマスキングするなどSparkの語彙を拡張する再利用可能な関数と

    SQLに力を:Databricks SQLにおけるPython UDFのご紹介 - Qiita
    sh19910711
    sh19910711 2022/07/28
    "Databricks SQLにおけるPython UDF: jsonパッケージのようなPythonの標準的なライブラリやDatabricks Runtime 10.4をインポートすることができ + 事例には ~ 位置空間機能や、NumPyやpandasを用いた数値、統計処理など"
  • AWSのDWH「Redshift」がサーバーレスに進化、10年で内部構造はこんなに変わった

    Amazon Web Services(アマゾン・ウェブ・サービス、AWS)が2022年7月12日(米国時間)、データウエアハウス(DWH)をサーバーレス化した「Amazon Redshift Serverless」の一般提供を開始した。ユーザー企業は容量設計が一切不要でDWHを利用できる。 サーバーレスと言っても、当にサーバーがなくなったわけではない。これまでのAmazon Redshiftは使い始める際に、ユーザー企業はDWHクラスターで使用する仮想マシンのサイズなどを決める必要があった。仮想マシンの使用料金は1時間単位の従量課金で、クエリーを実行していない場合であっても料金が発生していた。 それに対してAmazon Redshift Serverlessの場合は、ユーザー企業は仮想マシンのサイズなどを決める必要はない。クエリーの実行時に自動的にノードが起動して処理が始まり、処理が

    AWSのDWH「Redshift」がサーバーレスに進化、10年で内部構造はこんなに変わった
    sh19910711
    sh19910711 2022/07/28
    "「SIGMOD 2022」で、Amazon Redshiftの10年の歴史を振り返る講演 / PostgreSQLを使ってMPP型のDWHを開発していたスタートアップの米ParAccel(パーアクセル、当時)からライセンスを受けて作られた / 当初の内部構造はまさにMPP型"
  • Dataformでデータ分析基盤を整備した話 - Adwaysエンジニアブログ

    こんにちは佐藤です。 今回はサービスのデータ分析基盤を作成する際に使用したDataformについて紹介させていただきます。 背景 Dataformについて 導入して良かったこと 依存関係がわかりやすい クエリのテスト 工夫した点 フォルダの構成について データセット名、テーブル名について シャーディングテーブルの定義について 最後に 背景 現在、広告部署に所属する私たちのチームは自社のサービスデータと外部データを分析してユーザーの利用率向上につながる仮説検証をおこなうプロジェクトを進めています。 その中で様々なデータをTableauを用いて分析しており、データソースとして主にBigQueryを使用しているのですが、現状、分析データの加工、集計処理についてBigQueryのスケジュールされたクエリで作成したりtableau側のカスタムクエリで作成したりと対応方法がバラバラで管理自体ができてい

    Dataformでデータ分析基盤を整備した話 - Adwaysエンジニアブログ
    sh19910711
    sh19910711 2022/07/25
    "BigQueryのスケジュールされたクエリで作成したりtableau側のカスタムクエリで作成したりと対応方法がバラバラで管理自体ができていない状態 / どれがレビュー済みのクエリなのか分からないといった事象"
  • 社内向けのデータ基盤から集計結果をReverse ETLしてサービスに組み込んだ話 - Classi開発者ブログ

    こんにちは、データエンジニアの滑川(@tomoyanamekawa)です。 Classiでは2022年5月に学校内のユーザー利用状況を集計し可視化したダッシュボード機能をリリースしました。 この機能のデータ集計は既存の社内用データ基盤からのReverse ETLで実現しました。 そのアーキテクチャの説明と「社内用データ基盤」から「ユーザー影響あるシステムの一部」になったことによる変化について紹介します。 ダッシュボード機能とは 概要 先生のみが利用可能な機能 先生と学年・クラスごとの生徒の利用状況を可視化したダッシュボードを提供する機能 要件・制約 アプリケーションはAWS上で動かす 前日までの利用状況がアプリケーション上で朝8時までに閲覧可能になっていること 学校/学年/クラスごとで集計する 学校を横断した集計はしない 既存の社内用データ基盤とは 社内でのデータ分析を主な用途としているB

    社内向けのデータ基盤から集計結果をReverse ETLしてサービスに組み込んだ話 - Classi開発者ブログ
    sh19910711
    sh19910711 2022/07/25
    "学校内のユーザー利用状況を集計し可視化したダッシュボード機能をリリース / LambdaがBigQueryからのデータ取得・RDSへの書き込み / 課題: 障害時の復旧に時間がかかる + データ基盤での障害発生時に対応できる人が少ない"
  • Terraform で Snowflake の何を管理するべきか

    記事は、Snowflake Advent Calendar 2021 の 25 日目です。 この記事の背景 以前、Terraform(インフラの構成管理ツール)を使って Snowflake のリソースを管理し始めたことを書きました。 Snwoflake のユーザコミュニティである SnowVillage でも、Terraform について発表しました。 Terraform はプラグインアーキテクチャを採用しており、 Snowflake プラグイン もコミュニティベースで開発されています。この Snowflake プラグインを使うと、Snowflake のリソースの構成を Terraform の設定ファイルとして記述し、デプロイを自動化することができます。 記事やコミュニティでの発表をした後、SnowVillage 内のコメントを見ていると、コミュニティでも使っている方がいらっしゃるようで

    Terraform で Snowflake の何を管理するべきか
    sh19910711
    sh19910711 2022/07/18
    "Terraformの表記法を使って記述されたSnowflakeのリソースからSQLを生成 / アナリスト系の人にSQLとは表記が全く異なるTerraformを覚えてもらうのも難しい / SQLが使える dbt などがデータ領域のモデリング・デプロイに良い"
  • Magic Data Apps with Snowflake, Streamlit, and DuckDB

    sh19910711
    sh19910711 2022/07/17
    Snowflake + DuckDB + Streamlit / SnowflakeでCloud Storageに書き出したParquetファイルをDuckDBでWebアプリのデータベースとして利用する事例だ。参照系はPandasを使わなくても `SELECT * FROM read_parquet('temp.parquet')` でいけるのか👀
  • SQL で Matrix Factorization を実装しました - TVer Tech Blog

    こんにちは データを眺めている森藤です TVer ではたくさんのデータがあって、どこをほっくり返してもなんか有用な知見が出てくるので毎日楽しいです。 現状 さて、現状はまだまだこれからなのですが、レコメンドのアルゴリズムや実装について考えるのも仕事の一つです。 レコメンドといえば、いろいろな手法やベースとなる考え方、タイミングなど様々なものがありますが、そのうちの一つとして、協調フィルタリングというものがあります。 これは端的に言うと、「これを見ている人はこれも見ています」的なやつです。 ただ、協調フィルタリングは実世界において適用が難しく、TVer でも多分にもれずそのまま適用するには課題があります。 大きな課題が「ユーザは限られたコンテンツ(エピソード)しか閲覧しないため、これを見た人はこれも見ています」と適用することが難しい、というものです user_id series_id 1 3

    SQL で Matrix Factorization を実装しました - TVer Tech Blog
    sh19910711
    sh19910711 2022/07/14
    "料金体系をいじらずになんとかしたい!と考えた > BigQuery には、 Scripting という、 LOOP とか IF などの制御構文、 DECLARE による変数定義などが使える機能が / SGD とか実装できそうだな、と思い当たってコリコリと実装"
  • お手軽な検索API構築 | メルカリエンジニアリング

    こんにちは、メルペイソリューションチーム所属エンジニアの@orfeonです。 この記事は Merpay Tech Openness Month 2021 5日目の記事です。 メルペイソリューションチームでは、社内向けの技術コンサル技術研修、部門を跨いだ共通の問題を発見して解決するソリューションの提供などを行っています。 自分は主に社内のデータ周りの課題を解決するソリューションを提供しており、一部の成果はOSSとして公開しています。 この記事ではいろいろな場面で必要とされるものの、運用負荷などの問題から導入の敷居が高い検索機能を(条件付きで)簡易に提供するためのソリューションを紹介します。 基的なアイデア 全文検索や位置検索など、検索はいろいろな場面で必要とされる機能です。しかしいざ検索サーバを立てて運用するとなると、データの整合性やモニタリングなど考えないといけないことも多く、利用に二

    お手軽な検索API構築 | メルカリエンジニアリング
    sh19910711
    sh19910711 2022/07/14
    2021 / "Apache Solr + BigQuery + Cloud Run / データの更新をリアルタイムには行わない + サーバ1台で管理できない規模のデータを扱わない / インデックス変更などに伴うマイグレーションなどの面倒なデータの運用を無くします"
  • BigQuery の変更履歴を取得可能になりました(プレビュー) | DevelopersIO

    ウィスキー、シガー、パイプをこよなく愛する大栗です。 日はクラスメソッド株式会社の創立記念日である 7 月 7 日ということで皆がたくさんブログを書いているので、乗るしかない、このビッグウェーブにという事でブログネタを探していたら BigQuery の変更履歴が取得できるようになったというアップデートがあったのでご紹介します。 Work with change history BigQuery の変更履歴は2022年7月7日現在において、プレビューのステータスです。このプロダクトまたは機能は、Google Cloud Platform の利用規約の一般提供前のサービス規約の対象となります。一般提供前のプロダクトと機能では、サポートが制限されることがあります。また、一般提供前のプロダクトや機能に変更が加えられると、他の一般提供前バージョンと互換性がない場合があります。詳細については、リリー

    BigQuery の変更履歴を取得可能になりました(プレビュー) | DevelopersIO
    sh19910711
    sh19910711 2022/07/08
    おっ👀 / "APPENDS テーブル値関数: テーブルに加えられた増分 + 指定された時間の範囲でテーブルに追加されたすべての行のテーブルを返します / データ連携するときに差分だけ取得することも可能になりそう"
  • BigQuery - pokutuna

    sh19910711
    sh19910711 2022/07/08
    欲しい / "CREATE TABLE LIKE ... みたいなのやりたい / temporary table 一覧がほしい"
  • 自社プロダクトのデータ基盤における BigQuery SQLテストシステムについて - Platinum Data Blog by BrainPad

    「データ活用をより多くの人が、より効率的に実施できるようになる取り組み」をエンジニア観点から自発的に実施するカルチャーを持つ、自社開発プロダクト「Rtoaster(アールトースター)」のエンジニアチーム。今回は、データ基盤チームで作成した BigQuery でのテストシステムを紹介します! こんにちは、プロダクトビジネス部開発部の柴内(データ基盤チーム)です。今回は、自社製品である「Rtoaster」プロダクトのデータ基盤チームで作成した BigQuery でのテストシステムについてご紹介します。 背景 データ基盤チームでは、 Rtoaster製品からリアルタイムに連携される、WebやアプリのトラッキングといったデータをGCSや BigQuery に蓄積するデータレイク データレイクにあるデータを BigQuery で加工・変換して利用しやすい形式にしたデータマートやデータウェアハウス

    自社プロダクトのデータ基盤における BigQuery SQLテストシステムについて - Platinum Data Blog by BrainPad
    sh19910711
    sh19910711 2022/07/07
    ジェネレータとCTEの繋ぎこみ良さそう👀 / "SQLで厄介なのはNULLが原因で実行時エラーとなることがほとんどなく、バグがあること自体に気付きにくい / クラスで定義されたテストケースから検査用SQLクエリを生成"
  • デルタ・レイクのすべてをオープンソース化|北原 祐司 / 世界はServiceNowでうまくいく

    下記ブログの翻訳です。6.30.2022 デルタ・レイクはアップル社との共同開発をしたサービスです。それらの開発秘話などが語られています。その後、DatabricksのDelta Lakeではオープンソースに加えて、いくつかの機能が追加されていましたが、今回それらを含めてのすべてをオープンソース化するということを発表しました。 今年のData + AI Summitのテーマは、「レイクハウスでモダンなデータスタックを構築する」というものです。データレイクハウスの基的な要件は、データに信頼性をもたらすことであり、Delta Lakeのようにオープンで、シンプルで、プロダクションレディ(注;すぐに実運用できるという意味)で、プラットフォームに依存しないものであることが必要です。そして、これとともに、Delta Lake 2.0では、Delta Lakeのすべてをオープンソース化するという発表

    デルタ・レイクのすべてをオープンソース化|北原 祐司 / 世界はServiceNowでうまくいく
    sh19910711
    sh19910711 2022/07/06
    "Delta Lake: プロジェクトの発端は、Spark Summit 2018で、Appleの著名なエンジニアであるDominique Brezinskiと、私たちのMichael Armbrust(もともとDelta Lake、Spark SQL、Structured Streamingを作った人)との何気ない会話から始まり"
  • 分析基盤へのデータ同期を約40倍早くしてみた | MoT Lab (GO Inc. Engineering Blog)

    タクシーアプリ「GO」、法人向けサービス「GO BUSINESS」、タクシーデリバリーアプリ「GO Dine」の分析基盤を開発運用している伊田です。DBから分析基盤への連携処理を改善した事例を紹介します。※ 記事の対象読者はETLツールを利用している方を対象にしています はじめに記事では、タクシーアプリ「GO」の DB から分析基盤への同期処理を約7時間から約10分に改善した事例を紹介します。まず、既存の処理および改善前の状況を説明し、次に改善にあたり実施した分析、その分析をもとにチーム内で実施した議論を経て、最終的にどのような実装を行ったのか紹介させて頂きます。 同期処理についてGODB は Cloud SQL 上で構築されており、分析基盤への同期処理は GKE 上で Embulk を起動し、リードレプリカに対してクエリを投げて一度 GCS に結果を格納します。その後、GC

    分析基盤へのデータ同期を約40倍早くしてみた | MoT Lab (GO Inc. Engineering Blog)
    sh19910711
    sh19910711 2022/07/05
    Embulk => Federated Query の事例だ / "Cloud SQL のクロスリージョンレプリカ機能を使うと、マスターインスタンスとは別リージョンにインスタンスを立てられる / federated query 方式: BigQuery にマシンリソースをおまかせできる"