[B! データ][開発] yassan0627のブックマーク

yassan0627 id:yassan0627

データと開発に関するyassan0627のブックマーク (15)

Accelerating Queries on Iceberg Tables with Materialized Views - Cloudera Blog
yassan0627 2024/04/23
データ

開発

Iceberg
リンク
Learning Apache Flink S01E06: The Flink JDBC Driver
yassan0627 2023/11/17
データ

開発

Apache Flink
リンク
Introducing the Apache Iceberg Catalog Migration Tool | Dremio
yassan0627 2023/05/30
データ

開発

hadoop

spark

Iceberg
リンク
高性能分散SQLエンジン「Trino」最速ガイド - NTT Communications Engineers' Blog
こんにちは。なんの因果かNTTコミュニケーションズのエバンジェリストをやっている西塚です。この記事は、NTT Communications Advent Calendar 2021 22日目の記事です。 5分でわかる「Trino」「Trino」は、異なるデータソースに対しても高速でインタラクティブに分析ができる高性能分散SQLエンジンです。以下の特徴を持っており、ビッグデータ分析を支える重要なOSS(オープンソースソフトウェア)の1つです。 SQL-on-Anything: Hadoopだけでなく従来のRDBMS(リレーショナルデータベース)やNoSQLまで、標準SQL(ANSI SQL)に準拠したアクセスをワンストップに提供並列処理でビッグデータに対して容易にスケールアップしかも高速(hiveの数十倍) Netflix, LinkedIn, Salesforce, Shopif
yassan0627 2021/12/24
開発

データ

presto

trino

sql
リンク
さようなら、謎の数値ズレ。dbtを活用してデータ品質管理をはじめよう
tl;drすべてのデータを高品質に保とうとしない。事業フェーズやプロダクト仕様、マネタイズ方法に応じて、品質を守るべきデータを明確に定義し、「品質が守られた箱の中の世界」を明確にする。データ品質維持の前提は、Single Source of Truth。SSOTなDWHを構築することとセットな取り組みであることが大切。データ品質管理のHowとしては、dbtがおすすめ。not_nullやrelationshipなどdbtがもつtest機能を活用し、データ品質監視を実現しよう。当然、dbtだけでは品質は守られない。Data Meshのような議論から運用体制を考えていく必要もある。聞こえのよい新しいものに踊らされる前に、着実に必要なデータ品質を守っていこうね。こんにちは、こんばんは。Ubie Discoveryのsotaronです。データエンジニアをやったり、小倉唯さんのファンクラブ会員などを
yassan0627 2021/06/16
データ

開発
リンク
最近の砂場活動その24: Embulkでのデータ転送を差分転送にする - yasuhisa's blog
差分転送するモチベーション機械学習を使った情報推薦を行なうために、RDSのテーブルをBigQueryに定期転送しています。細かいことは気にしたくなかったので、一日一回の洗い替え(全データ送信で全部上書き)していましたが、もう少し鮮度を上げたくなりました(新しい情報に対して推薦ができないため)。何も考えずに定期転送の頻度を上げると 1: 転送のためのCPUコスト 2: AWSからGCPへのデータ転送量が気になってきます。個人の趣味プロジェクトでは、特に2が大きい。先月のAWSの利用料金を見て、涙を流していました...。というわけで、情報の鮮度は上げつつもう少し効率的に定期転送するべく、Embulkでの差分転送をすることにしました。やり方差分だけBigQueryに転送する基本的にはメルカリメソッドそのままです。いつもお世話になっております。 updated_atのような最終更新日時が
yassan0627 2021/05/31
開発

データ
リンク
大規模システムにおける5つのログ転送パターン
成功者がどのようにNew Relicを使用してKubernetesのパフォーマンスを4倍に向上させ、拡張性とスループットを改善したかをご覧ください。
yassan0627 2021/04/03
ログ

開発

設定

監視

データ
リンク
Googleエンジニアと学ぶGCP［ビッグデータ］
第1回今求められるデータ基盤とGCP GCPにおけるデータ処理のアーキテクチャーをひもときながら、現在の企業システムで求められるデータ基盤とはどのようなものであるかを整理した上で、それを構築する方法を説明します。 2020.02.17 第2回 BigQueryによるDWHの構築と管理サーバーレスで柔軟な分析基盤の中心となるデータウエアハウス（DWH）である、BigQueryについて詳しく解説します。どんなものなのかを体感するため、あらかじめBigQueryに用意されたデータを操作してみましょう。 2020.02.17 第3回 BigQueryへのデータ取り込みとメタデータ管理 Google Cloud Platform（GCP）のサーバーレスのDWH（データウエアハウス）であるBigQuery。BigQueryで構築したデータ基盤へのデータの取り込み方法を見ていきましょう。 2020.
yassan0627 2020/02/17
BigQuery

開発

データ
リンク
GCPで行動ログ基盤を開発している話
Microservices - Where are my Transactions and my Consitency????
yassan0627 2019/10/18
開発

データ

gcp
リンク
drawdata.xyz
drawdata drawdata.xyz Draw your Data and Download. Line Chart Scatter Chart Histogram
yassan0627 2019/10/08
機械学習

開発

データ
リンク
開発現場に“データ文化”を浸透させる「データ基盤」大解剖
「ゼクシィ縁結び・恋結び」の開発現場において、筆者が実際に行ったことを題材として、「データ基盤」の構築事例を紹介する連載。最終回は、「データ活用文化を、どのように組織に装着するか」についてお伝えします。
yassan0627 2018/10/27
データ

データ分析
リンク
いかにデータ基盤を活用するか？　組織全体でデータドリブン文化を作り上げるためのスモールステップ
いかにデータ基盤を活用するか？　組織全体でデータドリブン文化を作り上げるためのスモールステップ：開発現場に“データ文化”を浸透させる「データ基盤」大解剖（終）（1/3 ページ）「ゼクシィ縁結び・恋結び」の開発現場において、筆者が実際に行ったことを題材として、「データ基盤」の構築事例を紹介する連載。最終回は、「データ活用文化を、どのように組織に装着するか」についてお伝えします。「使われるデータ基盤」を構築するために筆者が取り組んだ試行錯誤を紹介する本連載『開発現場に“データ文化”を浸透させる「データ基盤」大解剖』。これまで、データ基盤構築の背景（第1回）、システム設計（第2回）、開発プロセス（第3回）について解説してきました。最後となる今回は「データ活用文化を、どのように組織に装着するか」についてお伝えします。なお、技術要素やツールとしてはJupyter NotebookやBigQue
yassan0627 2018/09/25
データ

開発
リンク
美しいバッチの壊し方 #cookpad_tech_kitchen - by shigemk2
青木峰郎情報系(DWH)のSQLバッチ大量のデータをひたすら集計(一個一個はそんなに重くない) ジョブ数が多くてフローが複雑 1000ジョブ DWH 13000くらいが多いけど、1000は少ない kuroko2 + bricolage http://techlife.cookpad.com/entry/2015/06/27/154407 SQLバッチ専用フレームワーク(OSS) 1ジョブ/1SQL文の強固な思想よいバッチを作るために必要だから良いバッチ=運用しやすい落ちたときに如何に簡単に対処できるか運用がしにくくなるようであるなら運用を優先したい美しく壊れる障害を直しやすい美しい壊れ方とはどこで壊れたかすぐわかる続きから実行できるリトライで直せる cf どこで壊れたか分からないプログラムは困るバッチはだいたい長時間実行しているし、処理が複数別れている 9割がた終
yassan0627 2017/06/07
開発

データ

バッチ
リンク
BigData-JAWS セミナー「Amazon Athena Update」の自分用まとめ
2017年4月6日に開催されたBigData-JAWS セミナー「Amazon Athena Update」に参加して聞いてきたこと。後半の方は、聞き入っていて呟きも無しです
yassan0627 2017/04/08
開発

データ

aws
リンク
大規模データを無料で手に入れることのできるサイトまとめ - nokunoの日記
大規模データが公開されているサイトについて以下のQuoraでid:makimotoさんが質問していました。Data: Where can I get large datasets open to the public? - Quora以下、紹介されているサイトの一覧です。一部有料のものもあるようです。UCI Machine Learning RepositoryPublic Data Sets : Amazon Web ServicesCRAWDADno titleCity of Chicago | Data PortalGovLoop | Social Data Network for Governmentdata.gov.uk | Opening up governmentData.Medicare.GovData.Seattle.Gov | Seattle’s Data SiteOp
yassan0627 2011/06/17
データ

webサービス

開発
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx