タグ

syou6162のブックマーク (9,415)

  • Data Contract CLI から考える Data Contracts ファーストのデータパイプラインの未来

    このポストについて#Data Contract CLI を触ってみたところ、面白かったのとこれからのデータパイプライン開発について思うところがあったので書いてみる。 Data Contract CLI とは?#datacontract/datacontract-cli Data Contract CLI は data contracts を運用するためのオープンソースのコマンドラインツールである。 data contracts の概念については以前の記事で詳しく書いているのでそちらをご参考いただければと。 ただしこちらの記事は1年前のものであり、今回取り上げる Data Contract CLI の登場などを含めて現在では data contracts を取り巻く状況も変わっている可能性があることに注意。 Data Contract CLI は Python で開発されており、pip でイ

    Data Contract CLI から考える Data Contracts ファーストのデータパイプラインの未来
    syou6162
    syou6162 2024/05/09
  • ディメンショナルモデリング勉強会を実施しました - 10X Product Blog

    データ基盤チームに所属しているデータエンジニアの吉田(id:syou6162)です。10X社内のデータマネジメントの仕事をしています。 最近、社内でディメンショナルモデリング勉強会を行なったですが、なぜ勉強会を行なったのか、どのように行なったのか、勉強会を行なった結果何が得られたかについてまとめます。 ディメンショナルモデリング勉強会開催の背景 勉強会の進め方やスコープ 勉強会の参加者 勉強会で学んだ内容 Four-Step Dimensional Design Process キーの設計について 複数スタースキーマを適切に利用し、ファントラップを避ける コンフォームドディメンション まとめ: 勉強会で得られたもの ディメンショナルモデリング勉強会開催の背景 前回のエントリにまとめた通り、10Xのデータマネジメントの課題の中でも「データウェアハウジングとビジネスインテリジェンス」は優先度が

    ディメンショナルモデリング勉強会を実施しました - 10X Product Blog
    syou6162
    syou6162 2024/05/08
    勉強会やりました! 結構基礎的なことだとは思いますが、最近話題のSemantic Layerなどをやっていくためにはこの辺の基盤が整備されているのが大事だと思うので、コツコツやっていきます
  • The Semantic Layer Movement: The Rise & Current State

    syou6162
    syou6162 2024/05/07
  • Google AdSense の広告掲載を全て止めることにしました - しばやん雑記

    タイトルの通りですが、このブログでは長年 Google AdSense を使った広告掲載を行っていましたが、今日から全て止めることにしました。止めるに至った理由はいくつかあるのですが、最近の無茶苦茶な広告の出し方に嫌気が差したのが一番大きいです。 正直これまで自分がブログに AdSense で広告を載せているのだから、広告ブロッカーは使わないようにしていたのですが、最近遭遇したページで以下のような広告をらったので使用を決意しました。いったい何のサイトを開いたのかもわからないぐらいなので酷いですね。 広告ブロッカーのインストールを決意した瞬間であった… pic.twitter.com/tE39ZMxEd2— Tatsuro Shibamura (@shibayan) 2024年5月1日 元々、このブログでお金を稼ぐことは全く考えておらず「はてなブログ Pro 代が出ればいいなー」ぐらいの考

    Google AdSense の広告掲載を全て止めることにしました - しばやん雑記
    syou6162
    syou6162 2024/05/06
    いや、これホント分かる...アドセンスのトップページに「サイトのコンテンツが第一」って書いてあるけど、全然そうなってない
  • サロゲートキーと複合主キー | DBFlute

    一方で、Webサービス系などで論理設計と物理設計をもう一緒くたにやっていくような場合は、 正規化の論理に目の前にあるサロゲートキーを含めないようにすることが大切で、モデリングはナチュラルキーを基軸に考えていくとよいでしょう。 サロゲートキー (代理キー) サロゲートキー + (複合)ユニーク制約 ナチュラルキーをPKにせず、例えば連番となるようなカラムを用意して、それをPKにします。 これがサロゲートキーと言われるものですが、ナチュラルキーには別途ユニーク制約を付与する というのを忘れてはいけません。 ここでは、ナチュラルキーにユニーク制約を付けずにサロゲートキーだけを導入する方式は、業務的・実装的に意味はないと考え、ここでは取り扱いません。 議論の対象にすらしません。ユニーク制約を付けることで業務的なユニーク性を保ちつつサロゲートキーの恩恵を得ることができ、同時にナチュラルキーを明示する

    syou6162
    syou6162 2024/05/04
  • 新規事業立ち上げのアンチパターン|福島良典 | LayerX

    新規事業立ち上げのアンチパターンについて考えてみる。 このアンチパターンは、完全な飛地の新規事業だけではなく、複数プロダクトを経営する中での隣接領域の新規プロダクトの立ち上げのときや、あるセグメントにPMFした状態から次のPMFを探すときも同様のアンチパターンが適用されうる。 ここでのアンチパターンは、1つ目の事業立ち上げ・プロダクト立ち上げで起こることはない。2つ目の事業や2つ目のプロダクトを立ち上げる際に留意する点であり、コンパウンドスタートアップを正しく経営するには必ず頭に入れておきたい内容である。 規模からの逆算と顧客インサイトの軽視新規事業における市場選択のアンチパターンである。 例えば、売上の30%成長を続けるための、計画と現実のギャップを埋めるために新規事業を規模から探してしまうみたいなケースで見られる。 大前提として、市場規模の推定は重要である。実際に事業をやっていると、い

    新規事業立ち上げのアンチパターン|福島良典 | LayerX
    syou6162
    syou6162 2024/05/03
  • Mackerel で行った障害対応演習を紹介します - Hatena Developer Blog

    こんにちは、Mackerel チーム SRE の id:heleeen です。 この記事は、はてなの SRE が毎月交代で書いている SRE 連載の4月号で、先月分は id:taxintt さんのサービスの一般公開前からSLI/SLOと向き合うです。 今回は、先日 Mackerel チームで行った障害対応演習で実施した内容と、どのような学びを得たかについて紹介します。 番障害はできればなくしたいものですが、すべての障害を完全になくし可用性を100%にするのはとても困難です。そのため、障害が発生したときの影響範囲を小さくする仕組みを導入したり、ロールバックを素早く行えるようにしておくなど、影響を抑えるための取り組みが必要になります。 Mackerel では、その一環として、障害対応時のオペレーションの確認やバックアップからの復旧が行えるかの検証などの起きてしまった障害を素早く収束させたり、

    Mackerel で行った障害対応演習を紹介します - Hatena Developer Blog
    syou6162
    syou6162 2024/04/30
    RDS、うっかり消し...たく絶対ない
  • 統一コードの設計 総点検 | Metafindコンサルティング

    2025年の崖※を目前に控えて、どの企業もシステムの再構築を急ピッチで進めています。同時に、DXの旗印のもとデータ活用ニーズの高まりにより、データ統合基盤の構築も盛んに行われています。 これらの活動を背景に、コードを見直す企業がとても多くなってきました。せっかく見直すのであれば業務変化に耐えうる安定的なコード設計を目指したいところです。一方で既存の業務システムへの影響を考慮しながら設計し直すことは容易ではありません。 そこで、今回はコード統一に焦点を当てて、設計時の注意事項をご紹介します。 ※2025年の崖とは、IT人材不足やソフトウェアベンダーのサポート終了といった課題に対し、2025年までにシステム全体の見直しの必要性に直面している状況を表現したもの。この課題を克服できない場合、既存システムの複雑化・ブラックボックス化等によりDXが実現できなくなる。また、システム維持管理費の高額化やシ

    統一コードの設計 総点検 | Metafindコンサルティング
    syou6162
    syou6162 2024/04/30
  • 気象データ高度利用ポータルサイト - 気象庁 Japan Meteorological Agency

    近年ビッグデータ化している気象データは、防災情報に関する様々なコンテンツや産業界において、 IoTやAIといった最新技術との親和性が高く、更なる利活用の可能性を持っています。 このサイトでは様々な産業界の新規開発時などに積極的に活用して頂くなど、幅広い用途で手軽にご利用頂けるよう、 様々な産業の開発シーン等において有用と考えられる気象情報のコンテンツを集約・掲載しています。 [ 2024.03.29 ] GPVサンプルデータの一覧を更新しました。 [ 2024.03.26 ] 「気象データ利用ガイド」の項目を追加しました。 [ 2024.03.05 ] GPVサンプルデータの一覧を更新しました。 [ 2024.02.29 ] 予報区等のGISデータ(シェープファイル形式)を更新しました。 [ 2024.01.10 ] 多言語辞書データ(気象用語等を多言語化したリスト)を更新しました。 [

    syou6162
    syou6162 2024/04/30
  • Weather Data API

    Weather Data APIの特徴 天気予報データ(気象予測・過去実況値、指数情報、気象災害リスク予測)を、 取得できる天気APIです。 WEBサイトやアプリへの表示はもちろん、気象データを使った 各種分析や予測モデルなど、新たなソリューション開発にお使いいただけます。 気候変動に伴い、過去の経験に当てはまらない異常気象のリスクがありますが、 「気象」は企業活動において低減・回避が可能なリスクです。 気象データを活用することでビジネスの味方にできます。 Weather Data APIを用いてビジネスを加速させましょう。

    Weather Data API
    syou6162
    syou6162 2024/04/30
  • 桁違いに読書の質が上がる超簡単な読書法|ふろむだ@分裂勘違い君劇場

    を読んでて、気になるところがあったら、 その要点をテキストファイルに箇条書きにして、整理しながら読書する。 これだけ。 これだけで、読書の質が桁違いに上がります。 これをやると、「普通にを読むだけだと、理解した気になってるだけで、実はろくに理解してなかった」と分かって驚きます。 話はこれで終わりですが、 以下の点が気になる方もいらっしゃるでしょう。 ●どんな人がどんなを読む場合にもそうなるわけじゃないだろ。具体的に、どんな人がどんなを読む場合にそうなるんだ? ●そんなの面倒くさくてやってらんない。手間をかけずにやる方法はないの? ●具体的にどうやるとうまくいくのか、もっとちゃんと説明しろ。 そういう方のために、以下、これらについて補足します。 まず、読書を以下の9種類に分類します。 (1)リアルタイム活用読書読んだ知識を今やっている仕事/生活/趣味にリアルタイムに活用しながら読む方

    桁違いに読書の質が上がる超簡単な読書法|ふろむだ@分裂勘違い君劇場
    syou6162
    syou6162 2024/04/28
  • Webサイトやスマホアプリ上のユーザー行動データを収集・分析できる「Snowplow」を使ってみた | DevelopersIO

    大阪オフィスの玉井です。 今回は、行動データプラットフォームのSnowplowを触ってみました。 Snowplowとは ざっくりいうと、Webサイトやスマホアプリ上のユーザーの行動をトラッキングして、DWH等のサービスに格納できるサービスです。 (おそらく)SaaSとして提供されています。が、実はオープンソース版もあるため、こちらを自分でデプロイ〜運用する分には、無料で利用することが可能です。 ちなみに、2022年6月にシリーズBを達成しているので、なかなか勢いのあるサービスだと思われます。 やってみた やってみた内容の概要 今回はとりあえず超基的な部分だけ(トラッキングの設定→トラッキングしたデータをテキトーに照会)やってみます。 環境とか Snowplowにはいくつかの種別がありますが、お試し向けの「Try Snowplow」を使います。色々制限がついてるSaaS版といった感じで、す

    Webサイトやスマホアプリ上のユーザー行動データを収集・分析できる「Snowplow」を使ってみた | DevelopersIO
    syou6162
    syou6162 2024/04/27
  • Snowplow Behavioral Data Platform - Fuel AI, Analytics, Marketing

    Behavioral Data Platform Create behavioral data at enterprise scale

    Snowplow Behavioral Data Platform - Fuel AI, Analytics, Marketing
    syou6162
    syou6162 2024/04/27
  • Are Data Meshes Really Data Marts with Conformed Dimensions? - DataScienceCentral.com

    syou6162
    syou6162 2024/04/27
  • BigQuery クエリ - pokutuna

    BigQuery 関連: Colaboratory 標準 SQL 語彙の構造  |  BigQuery  |  Google Cloud リテラル等の仕様 その場でデータを作ってクエリする 動作確認に便利 code:struct.sql SELECT MIN(status) FROM UNNEST([ STRUCT('unexamined' AS status), STRUCT('unexamined' AS status), STRUCT('ng' AS status) ]) 型ほしい時は型を書く code:complex_struct.sql SELECT * FROM UNNEST( ARRAY<STRUCT<count INT64, time TIMESTAMP>>[ STRUCT(3, TIMESTAMP "2020-07-01 10:00:00"), STRUCT(5, TIM

    BigQuery クエリ - pokutuna
    syou6162
    syou6162 2024/04/23
  • BigQueryでSaaSのjsonデータを処理するSQLサンプル集 - 下町柚子黄昏記 by @yuzutas0

    この記事の概要 SaaSのデータをBigQueryに統合することで業務改善を促進できる。 しかし、SaaSのデータの中身を見ると、BigQueryの関数では対応しにくい形式になっていることがある。 そこで、稿では「こういうデータ形式だったらこういうSQLを書く」というサンプル集を掲載する。 目次 この記事の概要 目次 宣伝 実現したいこと SaaSデータの処理方法 SQLサンプル1: 純粋な配列だけのケース SQLサンプル2: 配列内にハッシュマップがあるケース SQLサンプル3: 配列宣言ナシでカンマ区切りのハッシュマップが突如始まるケース SQLサンプル4: 配列とハッシュが入り乱れるケース SQLサンプル5: JSONの中に親子構造があるケース SQLサンプル6: Objectを定義したくなるケース 最強のJSONパースの関数は作れるか jsonデータの処理をどこで行うか 最後に

    BigQueryでSaaSのjsonデータを処理するSQLサンプル集 - 下町柚子黄昏記 by @yuzutas0
    syou6162
    syou6162 2024/04/23
  • GitHub Actions の matrix strategy で job を並列に実行する

    はじめに 最近 GitHub Actions の CI を高速化するために、job の並列実行を導入しました。そこで使った jobs.<job_id>.strategy.matrix について紹介します。 matrix とは matrix は、job を複数の変数の組み合わせで実行するための機能です。例えば、以下のように matrix に OS や Node.js のバージョンを指定すると、それぞれの組み合わせで処理が実行されます。 jobs: build: runs-on: ubuntu-latest strategy: matrix: node: [18, 20] env: [dev, prod] steps: - uses: actions/checkout@v2 - uses: actions/setup-node@v2 with: node-version: ${{ matrix

    GitHub Actions の matrix strategy で job を並列に実行する
    syou6162
    syou6162 2024/04/22
  • 入社4ヶ月でBigQueryの課金額を減らすために考えたこと - 弁護士ドットコム株式会社 Creators’ blog

    データ分析基盤室の otobe(𝕏@UC_DBengineer) です。 事業規模が拡大し、大規模なデータの管理が必要になるにつれて、SnowFlake や BigQuery のようなハイパワーな DWH サービスでデータを加工するケースは多いです。 その際、想定外な高額請求が起こる原因のひとつに、クエリが最適化されておらずスキャン量が増大しているケースがあります。 そのため、クエリのスキャン量を監視・管理することが課金額を減らすうえで有効な手段となることがあります。 記事では、前半で BigQuery で課金されるスキャン量を監視・管理するまでのプロセスを振り返り、 後半で BigQuery の課金額を減らすために簡単にチェックできることについてお話しします。 BigQuery クエリにおけるスキャン量を監視・管理するに至った理由 BigQuery の課金額が想定より大幅に増加してい

    入社4ヶ月でBigQueryの課金額を減らすために考えたこと - 弁護士ドットコム株式会社 Creators’ blog
    syou6162
    syou6162 2024/04/20
    「東京 (asia-northeast1) ロケーションを使わない」は自社のリーガルの要件を確かめた上でやりましょう
  • 好きなポッドキャストについてまとめる

    そもそもポッドキャストって何?映像のない YouTube のような存在が ポッドキャストです。 つまり、ラジオのようなものです。 YouTube のように、素人も投稿できる音声 メディアです。 どうやって聞けるの?iOSからであれば、Apple Podcast Androidからであれば、Googleポッドキャスト ※Googleポッドキャストは、YouTube musicに統合の話が出ている 他にSpotify、Amazon music、radikoからも聞けるらしい。 おすすめのポッドキャストヤング日経経済系の番組はおじさんがしゃべっていることが多いが、この番組は若い大学生~大学院生の女の子が最近の経済について 話しており、非常に聞きやすく、軽い気持ちで聞けるのが良い。ポッドキャスト的な流し聞きに向いてる。 日経トレンディ & 日経クロストレンド日経トレンディ及び日経クロストレンドとい

    好きなポッドキャストについてまとめる
    syou6162
    syou6162 2024/04/18
  • RenovateでGitHub Actionsのアクション指定方法にコミットSHAを含める - notebook

    GitHub Actionsのサードパーティアクションのバージョン指定について 自分はRenovateでサードパーティアクションのバージョンを更新している(指定方法は主にv1.1.0というような感じ) しかし、下記ドキュメントで言及されているように、バージョン指定は「コミットSHAで指定するのが安全」となっている GitHub Actions のセキュリティ強化 - GitHub Docs docs.github.com ただコミットSHAだと設定ファイル読んだときに分かりづらいし、ちょっと微妙だなと思っていた コメントとかで該当バージョンの指定があれば運用できるかも?ということで調べてみたらRenovateにオプションが存在した pinDigest Automated Dependency Updates for Github Actions - Renovate Docs | Reno

    RenovateでGitHub Actionsのアクション指定方法にコミットSHAを含める - notebook
    syou6162
    syou6162 2024/04/17