[B! データ基盤] yukiyan_wのブックマーク

GitHub - PRQL/prql: PRQL is a modern language for transforming data — a simple, powerful, pipelined SQL replacement

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

yukiyan_w 2022/06/28

リンク

Overview of The Modern Data Stack / モダンデータスタック概論

顧客に価値を届け続けられるプロダクトであるために ~B2B SaaSにおいてプロダクトビジョン・戦略を改めて策定するまでの道のり~

yukiyan_w 2022/06/08

データ基盤

リンク

Stop Worrying About BigQuery PII: How to Automate Data Governance at Scale.

yukiyan_w 2022/05/14

リンク

GitHub - GoogleCloudPlatform/bigquery-data-importer: A tool to import large datasets to BigQuery with automatic schema detection.

yukiyan_w 2021/08/04

データ基盤

リンク

GitHub - GoogleCloudPlatform/cloud-data-quality: Data Quality Engine for BigQuery

CloudDQ is a cloud-native, declarative, and scala ble Data Quality validation Command-Line Interface (CLI) application for Google BigQuery. CloudDQ allows users to define and schedule custom Data Quality checks across their BigQuery tables. Data Quality validation results will be available in another BigQuery table of their choice. Users can then build dashboards or consume data quality outputs pro

yukiyan_w 2021/08/04

データ基盤

リンク

Dataplex のご紹介 - データ管理を一元化できるインテリジェントなデータファブリック | Google Cloud 公式ブログ

※この投稿は米国時間 2021 年 5 月 26 日に、Google Cloud blog に投稿されたものの抄訳です。エンタープライズデータの現況を俯瞰すると、データは複数のデータレイク、データウェアハウス、データベース、その他の特殊なデータマートに保存され、日増しに分散化が進行しています。データを機能させ、ビジネスの意思決定の基盤としてデータを使用したいと考える企業が増えつつあります。複数のサイロに分散されたデータにアクセスする人とツールが増えるにつれ、分散データ戦略を実施しつつ、分析のため高品質のデータを簡単に検出して利用できるようにすることは、企業にとって日増しに困難になっています。組織はプロセスの構築に際して、データを統合してツールを相互運用できるようにすることと、アジリティを犠牲にしてモノリシックデータシステムにデータを移動することとの間で、妥協を余儀なくされることがし

yukiyan_w 2021/06/21

データ基盤

リンク

Snowflake Data Cloud Summit 2024

EXPLORE THE GEN AI & LLM SESSIONS AT SUMMIT With over 140 sessions on Gen AI and LLMs, you’ll discover how Snowflake empowers teams to use AI in everyday analytics, build models and apps in minutes, and execute custom workflows such as fine-tuning with ease. Breakout sessions start Monday at 1pm! VIEW GEN AI & LLM SESSIONS >> THE YEAR’S CAN’T-MISS EVENT FOR AI, APPS, AND DATA COLLABORATION Snowfla

yukiyan_w 2021/06/18

データ基盤

リンク

リバースETLはデータパイプラインの何を変えるのか - satoshihirose.log

はじめにリバース ETL という概念が提起されて、そのための SaaS も生まれており、面白いと思うので所感をまとめる。 Reverse ETL ? 自分が最初に Reverse ETL という言葉に触れたのは、Redpoint Ventures の Astasia Myers が 2021-02-23 に書いたこの記事だった。 Reverse ETL — A Primer. Data infrastructure has gone through an… | by Astasia Myers | Memory Leak | Medium 彼女はどんなものをリバース ETL と呼んでいるかというと Now teams are adopting yet another new approach, called “reverse ETL,” the process of moving dat

yukiyan_w 2021/06/16

データ基盤

リンク

さようなら、謎の数値ズレ。dbtを活用してデータ品質管理をはじめよう

tl;drすべてのデータを高品質に保とうとしない。事業フェーズやプロダクト仕様、マネタイズ方法に応じて、品質を守るべきデータを明確に定義し、「品質が守られた箱の中の世界」を明確にする。データ品質維持の前提は、Single Source of Truth。SSOTなDWHを構築することとセットな取り組みであることが大切。データ品質管理のHowとしては、dbtがおすすめ。not_nullやrelationshipなどdbtがもつtest機能を活用し、データ品質監視を実現しよう。当然、dbtだけでは品質は守られない。Data Meshのような議論から運用体制を考えていく必要もある。聞こえのよい新しいものに踊らされる前に、着実に必要なデータ品質を守っていこうね。こんにちは、こんばんは。Ubie Discoveryのsotaronです。データエンジニアをやったり、小倉唯さんのファンクラブ会員などを

yukiyan_w 2021/06/15

データ基盤

リンク

bq_sushi #17 にて、「Data Management by dbt」という発表をしました。

yukiyan_w 2021/06/08

データ基盤

リンク

高速な開発とデータ品質のトレードオフを超えるためにできること｜望月駿一 / Ubie Discovery

このnoteでは、事業立ち上げ期の高速な開発とデータ品質の間に発生するトレードオフに、限られたリソースで対処するために取り組んだ内容について紹介します。はじめまして。Ubie Discoveryで機械学習エンジニアをやっている望月(@smochi_pub)です。 Ubieに一人目のデータ人材として入社して、BI的なデータ整備・活用から予測アルゴリズムの開発まで幅広く担当してきました。 Ubieでは、アルゴリズムの検証や学習のために、初期からデータを貯めることを意識して取り組んできました。その過程で、高速にUIや仕様が変わっていくプロダクトを抱えつつ、データを「正しく」貯めることの難しさも体験してきました。高速な開発とデータ品質のトレードオフ開発チームは高速に検証を行うことにフォーカスしているため、UIや仕様もどんどん変わって行きます。実際にユビーでは、toC向けのAI受診相談ユビーでは

yukiyan_w 2021/06/06

データ基盤

リンク

データ分析基盤における個人情報の扱いについて - NRIネットコムBlog

こんにちは佐々木です。誰に望まれた訳でもないですが、データ分析基盤の設計シリーズの第三弾です。今回のテーマは、データ分析基盤における個人情報＆パーソナルデータの扱いについてです。ここを最初に考えておかないと、データ分析基盤は毒入りとなって、扱いづらいものになります。データ分析基盤構築の肝は、データレイクとDWHの分離 - NRIネットコムBlog データレイクはRAWデータレイク・中間データレイク・構造化データレイクの３層構造にすると良い - NRIネットコムBlog 個人情報＆パーソナルデータと匿名加工についてまず最初に個人情報＆パーソナルデータの定義と匿名加工について、サラッと確認しておきましょう。個人情報＆パーソナルデータ個人情報とは、任意の一個人に関する情報であり、かつその情報をもとに個人を特定できるものを指します。代表的な個人情報としては、名前・住所・電話番号・E-ma

yukiyan_w 2021/06/01

データ基盤

リンク

DMMのデータ活用を支えるビッグデータ基盤・ML基盤のクラウド移行 (CUS-40) #AWSSummit | DevelopersIO

本記事は、AWS Summit Japan 2021のセッション動画「CUS-40: AWS移行事例紹介 ~DMM のデータ活用を支えるビッグデータ基盤・ML基盤のクラウド移行 ~」のレポート記事です。概要 "50以上の事業を展開するDMM。年々増えるデータ、バッチ、業務。そんな状況をAWS上での基盤構築を通じて打開した事例紹介" 50以上のビジネスを展開するDMM.comでのデータ活用基盤（データレイク基盤と機械学習基盤）をAWS上に構築した事例を紹介します。データレイク基盤はオンプレ上で動いていた3000以上のJobの完全移行を実施し、よりスケーラブルな分析、データ処理、Single Source of Truth (SSoT)を実現しています。機械学習基盤はArgoなどエコシステムが豊富なAmazon EKS Kubernetesを採用し、機械学習モデルの継続的なデプロイを行う

yukiyan_w 2021/05/30

データ基盤

リンク

Kazutaka Goto ☁ 後藤和貴 on Twitter: "Fast Retailing のお客様の声分析基盤 6ヶ月で実装スゴイな。SNS含むすべての接点データを集めて、全社員が見れる様にしていると。見れるだけじゃなく、当然マスキング処理などデータの扱いもケア。というか、久々に… https://t.co/WJUIi4BQbr"

yukiyan_w 2021/05/25

データ基盤

リンク

AI x IoT利活用SaaSにおけるデータ基盤の構築

yukiyan_w 2021/02/18

データ基盤

リンク

dbtとDataformを比較し、dbtを使うことにした - Attsun blog

TL;DRdbt, Dataformについて簡単に紹介dbtDataform比較対応するプラットフォーム主要な機能外部ツールとの接続性運用時のあれこれ両者のPros/Consまとめ私たちの選択どちらを使うべきなのか？選ばれたのは、dbtでしたまとめ最近、業務でDWH / Datamartの整備やデータ品質の担保を効率的に行いたくなる事情があり、調査したところdbtとDataformがツールとして有力そうだったので、比較してみました。 TL;DRdbtは機能が充実しており、カスタマイズするポイントも多く様々な要件に対応できそうです。反面、理解し使いこなすための学習コストがかかります。DataformはWebビューによる開発体験が非常に良いです。機能もほとんどはわかりやすく、迷うことも少ないです。一方、dbtに比較して融通はききづらいです。どちらも十分な機能は備えている素晴らしいツールだと感じ

yukiyan_w 2021/02/12

データ基盤

リンク

OKIYUKI on Twitter: "Linkedinのデータのメタ情報検索と管理システムのDatahubがOSSになってる。これOSSしたのすげーな... https://t.co/ZrNameKZV1"

yukiyan_w 2020/10/19

データ基盤

リンク

Debezium

Debezium is an open source distributed platform for change data capture. Start it up, point it at your databases, and your apps can start responding to all of the inserts, updates, and deletes that other apps commit to your databases. Debezium is durable and fast, so your apps can respond quickly and never miss an event, even when things go wrong. Try our tutorial Stream changes from your database

yukiyan_w 2020/10/17

CDC(Change Data Capture)パイプライン組むときに使える

データ基盤

リンク

プロダクトチームの自走データ活用を技術で支えるデータ基盤整備エンジニアリングとは - pixiv inside

こんにちは。ピクシブの社内エンジニア職横断組織「エンジニアギルド」マネージャのbashです。主にエンジニア採用プロセスを取りまとめています。ピクシブでは複数の事業部があり、様々な専門性を持ったメンバーが集って事業領域にフォーカスする体制を取っています。各事業部にいる技術のキーパーソンがどのような考えでエンジニアリングを進めているのかを紹介したいと思います。今回はCTO室プラットフォーム開発部に所属しデータに関するエンジニアリングをリードしているtohhyに、データ分野の技術的な取り組みについて話を伺いました。まずは自己紹介をお願いします。 CTO室プラットフォーム開発部データ基盤チームのtohhyと申します。 2017年にピクシブに新卒で入社し、pixivプレミアムの開発チームでサーバサイドのエンジニアとして活動しつつ、並行して数値分析系の仕事を担当していました。その過程で、分析で

yukiyan_w 2020/09/25

データ基盤

リンク

データマネジメントなきMLは、破綻する。 #MLCT / 20200528

データマネジメントなきMLは、破綻する。〜こんなデータじゃ機械学習できねぇよ問題の処方箋〜 Machine Learning Casual Talks #12 の発表資料です。 https://mlct.connpass.com/event/172550/ 参考文献『データマネジメントが30分でわかる本』 https://amazon.co.jp/dp/B085W4YSZJ/

yukiyan_w 2020/05/28

データ基盤

リンク

はてなブックマーク

タグ

関連タグで絞り込む (11)

データ基盤に関するyukiyan_wのブックマーク (47)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス