こんにちは。なんの因果かNTTコミュニケーションズのエバンジェリストをやっている西塚です。 この記事は、NTT Communications Advent Calendar 2021 22日目の記事です。 5分でわかる「Trino」 「Trino」は、異なるデータソースに対しても高速でインタラクティブに分析ができる高性能分散SQLエンジンです。 以下の特徴を持っており、ビッグデータ分析を支える重要なOSS(オープンソースソフトウェア)の1つです。 SQL-on-Anything: Hadoopだけでなく従来のRDBMS(リレーショナルデータベース)やNoSQLまで、標準SQL(ANSI SQL)に準拠したアクセスをワンストップに提供 並列処理でビッグデータに対して容易にスケールアップ しかも高速(hiveの数十倍) Netflix, LinkedIn, Salesforce, Shopif
tl;drすべてのデータを高品質に保とうとしない。事業フェーズやプロダクト仕様、マネタイズ方法に応じて、品質を守るべきデータを明確に定義し、「品質が守られた箱の中の世界」を明確にする。データ品質維持の前提は、Single Source of Truth。SSOTなDWHを構築することとセットな取り組みであることが大切。データ品質管理のHowとしては、dbtがおすすめ。not_nullやrelationshipなどdbtがもつtest機能を活用し、データ品質監視を実現しよう。当然、dbtだけでは品質は守られない。Data Meshのような議論から運用体制を考えていく必要もある。聞こえのよい新しいものに踊らされる前に、着実に必要なデータ品質を守っていこうね。 こんにちは、こんばんは。Ubie Discoveryのsotaronです。データエンジニアをやったり、小倉唯さんのファンクラブ会員などを
差分転送するモチベーション 機械学習を使った情報推薦を行なうために、RDSのテーブルをBigQueryに定期転送しています。細かいことは気にしたくなかったので、一日一回の洗い替え(全データ送信で全部上書き)していましたが、もう少し鮮度を上げたくなりました(新しい情報に対して推薦ができないため)。何も考えずに定期転送の頻度を上げると 1: 転送のためのCPUコスト 2: AWSからGCPへのデータ転送量 が気になってきます。個人の趣味プロジェクトでは、特に2が大きい。先月のAWSの利用料金を見て、涙を流していました...。というわけで、情報の鮮度は上げつつもう少し効率的に定期転送するべく、Embulkでの差分転送をすることにしました。 やり方 差分だけBigQueryに転送する 基本的にはメルカリメソッドそのままです。いつもお世話になっております。 updated_atのような最終更新日時が
成功者がどのようにNew Relicを使用してKubernetesのパフォーマンスを4倍に向上させ、拡張性とスループットを改善したかをご覧ください。
第1回 今求められるデータ基盤とGCP GCPにおけるデータ処理のアーキテクチャーをひもときながら、現在の企業システムで求められるデータ基盤とはどのようなものであるかを整理した上で、それを構築する方法を説明します。 2020.02.17 第2回 BigQueryによるDWHの構築と管理 サーバーレスで柔軟な分析基盤の中心となるデータウエアハウス(DWH)である、BigQueryについて詳しく解説します。どんなものなのかを体感するため、あらかじめBigQueryに用意されたデータを操作してみましょう。 2020.02.17 第3回 BigQueryへのデータ取り込みとメタデータ管理 Google Cloud Platform(GCP)のサーバーレスのDWH(データウエアハウス)であるBigQuery。BigQueryで構築したデータ基盤へのデータの取り込み方法を見ていきましょう。 2020.
「ゼクシィ縁結び・恋結び」の開発現場において、筆者が実際に行ったことを題材として、「データ基盤」の構築事例を紹介する連載。最終回は、「データ活用文化を、どのように組織に装着するか」についてお伝えします。
いかにデータ基盤を活用するか? 組織全体でデータドリブン文化を作り上げるためのスモールステップ:開発現場に“データ文化”を浸透させる「データ基盤」大解剖(終)(1/3 ページ) 「ゼクシィ縁結び・恋結び」の開発現場において、筆者が実際に行ったことを題材として、「データ基盤」の構築事例を紹介する連載。最終回は、「データ活用文化を、どのように組織に装着するか」についてお伝えします。 「使われるデータ基盤」を構築するために筆者が取り組んだ試行錯誤を紹介する本連載『開発現場に“データ文化”を浸透させる「データ基盤」大解剖』。これまで、データ基盤構築の背景(第1回)、システム設計(第2回)、開発プロセス(第3回)について解説してきました。最後となる今回は「データ活用文化を、どのように組織に装着するか」についてお伝えします。 なお、技術要素やツールとしてはJupyter NotebookやBigQue
青木峰郎 情報系(DWH)のSQLバッチ 大量のデータをひたすら集計(一個一個はそんなに重くない) ジョブ数が多くてフローが複雑 1000ジョブ DWH 13000くらいが多いけど、1000は少ない kuroko2 + bricolage http://techlife.cookpad.com/entry/2015/06/27/154407 SQLバッチ専用フレームワーク(OSS) 1ジョブ/1SQL文の強固な思想 よいバッチを作るために必要だから 良いバッチ=運用しやすい 落ちたときに如何に簡単に対処できるか 運用がしにくくなるようであるなら運用を優先したい 美しく壊れる 障害を直しやすい 美しい壊れ方とは どこで壊れたかすぐわかる 続きから実行できる リトライで直せる cf どこで壊れたか分からないプログラムは困る バッチはだいたい長時間実行しているし、処理が複数別れている 9割がた終
大規模データが公開されているサイトについて以下のQuoraでid:makimotoさんが質問していました。Data: Where can I get large datasets open to the public? - Quora以下、紹介されているサイトの一覧です。一部有料のものもあるようです。UCI Machine Learning RepositoryPublic Data Sets : Amazon Web ServicesCRAWDADno titleCity of Chicago | Data PortalGovLoop | Social Data Network for Governmentdata.gov.uk | Opening up governmentData.Medicare.GovData.Seattle.Gov | Seattle’s Data SiteOp
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く