本文「DWH」を検索 - はてなブックマーク

1 - 40 件 / 145件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

DWHの検索結果1 - 40 件 / 145件

複数の企業でデータエンジニアとして求められたスキル - yasuhisa's blog
- 706 users
- www.yasuhisay.info
- テクノロジー
- 2024/04/29
最近「ああ、これ前職でも前々職でもやったことあるなぁ」という仕事があった。データエンジニア(やその関連職種)として働き始めて約5年、3社でフルタイムとして働いてきて「このスキルは業界や組織規模が変わってもデータエンジニアとしてスキルを求められることが多いな」と感じたものをまとめてみることにした。棚卸し的な意味はあるが、特に転職用などではないです。前提どこでも必要とされたスキルデータマネジメントに関する概要レベルの知識と実行力セキュリティや法令に関する知識事業ドメインに関する興味関心他職種とのコミュニケーション能力コスト管理 / コスト削減のスキルソフトウェアエンジニアとしてのスキル DataOpsやアラートのハンドリング能力分析用のSQLを書く力古いテーブルやデータパイプラインを置き換えていくスキルや胆力あるとやりやすいスキル関連部署の動きを何となく把握しておく力
クックパッドを退職することになりました。
- 429 users
- ason.as
- テクノロジー
- 2023/06/07
クックパッドを退職することになりました。 created at: 2023-06-05 00:00:00 +0000 概要クックパッドという会社で2018年から仕事をしていましたが、会社で「人員削減の合理化を実施することになり」僕はその対象となりました。 https://pdf.irpocket.com/C2193/CaoZ/qmSw/IQUI.pdf 時系列としては、16時からの全社ミーティングにて発表されて、17時頃にメールが届きました。その後どうするのか？みたいなことを考えつつも仕事にならないので18時前ぐらい退勤をしたときのツイートがこれ一度しかない人生で会社をクビ（会社都合）になることってあるんだなぁ。宝くじみたい。仕事探してます。 — あそなす (@asonas) June 5, 2023 自分の人生でまさかこうなるとは思ってなくてかなり動揺しつつの帰路でした。最近の通勤時
- 転職
- あとで読む
- 仕事
- 会社
- 開発
- recruit
- ruby
- 退職
- cookpad
- career
市場価値のない無能が勢いでSES企業を辞めたのでご相談
- 220 users
- anond.hatelabo.jp
- 政治と経済
- 2024/04/13
追記(04/14)今時点で頂いているトラバもブコメもすべて目を通しました。はてなの皆さん、増田の皆さんたくさんの反応ありがとうございます。どうしたもんかと悩んでる状況の中で、エージェントの人に話してもあまりピンと来ない反応が返ってくるし、周りに相談出来る人もいないしで、かなり勇気づけられました。とりあえず今時点で返せる分だけお返事返しておこうと思う。フィヨルドブートキャンプやれば？恥ずかしながらこんなサービスがあるのを知りませんでした。今の状況では1000時間学習してから転職ってのは難しいんだけど、転職活動終えたら利用してみたいなという気持ち。開発に夢見すぎ自己評価低いその通り、かもしれない。技術記事とか書いてアウトプットしてる同世代以下の優秀な技術者たち見てて、自分とのスキルギャップに絶望してたところだったんだ。 5年弱ぐらいローコードじゃなくて、コーディングで実務経
- 増田
- あとで読む
- 技術
- 開発
- IT
- 仕事
- work
- 人生
- 企業
- マネジメント
dbtで見やすいER図を生成する - yasuhisa's blog
- 195 users
- www.yasuhisay.info
- テクノロジー
- 2024/02/03
背景: dbtを使っていてもER図は欲しい! どうやってER図を生成するかどうやってER図を見やすくするかまとめ背景: dbtを使っていてもER図は欲しい! dbtはモデル間のリネージなど可視化が得意なツールではありますが、万能なわけではありません。モデルの生成過程などはリネージで担保できますが、分析時に「どれとどのモデルがJOINできて、JOINする際のキーはこれを使って」というER図で扱うような可視化はディフォルトではできません。 DWHを作っている側からすると「このテーブルはあの辺のテーブルと一緒に使うと便利で、いつもあのキーでJOINして」というのが頭の中に入っていることが多いため、ER図がなくてもどうにかなることも多いでしょう。しかし、分析に慣れていない人や分析に慣れている人であっても、普段と異なるドメインのテーブルを触るときはER図が提供してくれる情報は有用です。ちなみに
- dbt
- あとで読む
- 設計
- DB
- markdown
- UML
- database
オブザーバビリティにはお金がかかる - 株式会社ヘンリーエンジニアブログ
- 173 users
- dev.henry.jp
- テクノロジー
- 2023/08/22
tl;dr オブザーバビリティにはあなたの直感よりもお金がかかるかもしれない。でもそれはアジリティを上げるために必要なコストである。同時にオブザーバビリティ関連ベンダーには、それらをリーズナブルに提供してもらうことを期待します。オブザーバビリティ・エンジニアリング輪読会 8月からVPoEになりました。id:Songmuです。社内の勉強会で輪読形式でオブザーバービリティ・エンジニアリングを読んでいます。毎週30分、参加者の中から発表者を割り当て、1~2章を読み進めるスタイルです。ちなみに、ヘンリーではActive Book Dialogue(ADB)というフォーマットも取り入れて輪読会が運営されています。社内で同時並行で数本走っており、先日、CEOの逆瀬川が書いたソフトウェア見積もりに関する輪読会も同様の形式で実施しています。発表者は、事前に社内のNotionにその章のアウトラインや
メール配信システムを SaaS から新規社内システムへ移行した - エムスリーテックブログ
- 164 users
- www.m3tech.blog
- テクノロジー
- 2023/12/20
この記事はエムスリーAdvent Calendar 2023の20日目の記事です。エムスリーエンジニアリングG コンシューマチームの松原(@ma2ge)です。今回はコンシューマチームで利用していたSaaSのメール配信システムを、新規に開発した社内システムに移行した経緯や設計時に意識したことなどについて紹介します。最近使っているキーボードの様子背景今回移行する契機となったのはメールの配信数増加に伴うSaaSの利用料金増です。特に定期的に送るメルマガ配信については、配信量も多く利用コストを押し上げる要因となっていました。そのためメルマガ配信で大量に使用する部分についてのシステム移行検討が始まりました。移行検討 SaaSから移行後のシステムについて試算すると、システムの開発や利用料といったコスト面では社内で構築したシステムの方が大幅にコストが下がることがわかりました。しかしなが
- システム
- あとで読む
- メール
- 運用
- mail
- 設計
- サービス
- 開発
Apache Iceberg とは何か - 流沙河鎮
- 161 users
- bering.hatenadiary.com
- テクノロジー
- 2023/09/24
はじめに概要 Apache Iceberg(アイスバーグ)とは [重要] Icebergの本質はTable Specである Table Spec バージョン Icebergハンズオン Icebergの特徴同時書き込み時の整合性担保読み取り一貫性、Time Travelクエリ、Rollback Schema Evolution Hidden Partitioning Hidden Partitioningの種類時間 truncate[W] bucket[N] Partition Evolution Sort Order Evolution クエリ性能の最適化ユースケース Icebergのアーキテクチャ Iceberg Catalog Iceberg Catalogの選択肢 metadata layer metadata files manifest lists manifest f
- Iceberg
- あとで読む
- apache
- データベース
- DB
- data
- データ
- database
DWHにおけるデータモデリングで大事にしている考え方
- 124 users
- stable.co.jp
- テクノロジー
- 2024/02/02
こんにちは。データエンジニアリングの支援を行っているstable株式会社の代表の宮﨑（@ikki_mz）です。弊社では、クライアント社内のデータウェアハウス（DWH）におけるデータモデリングをサポート...
データウェアハウスのデータモデリングを整理してみた - Qiita
- 116 users
- qiita.com/zumax
- テクノロジー
- 2024/03/03
概要スタースキーマからスノーフレーク、ギャラクシー、そしてデータボールトやアンカーモデリングまで、各スキーマの特徴、利点、そして適用シナリオを掘り下げます。スタースキーマスタースキーマを元に整理します。スタースキーマまたは星型スキーマはデータウェアハウスに利用される最も単純なスキーマである。スタースキーマには唯1つもしくは少数のファクト表と複数のディメンション表が含まれる。スタースキーマはスノーフレークスキーマの一種であるが、多くの用途で利用されている。 DWHに利用される最も単純なスキーマ唯一または少数のファクトテーブルと、複数のディメンションテーブルが含まれるスノーフレークスキーマの一種モデルファクト表はデータウェアハウスでの解析で利用され、複数の異なるディメンションに区分される。ファクト表は主要なデータを持つ一方、ディメンション表は相対的にサイズが小さくディメン
- データ
- あとで読む
- qiita
- data
Lookerライクな新興BIツールの比較検討
- 87 users
- techblog.kazaneya.com
- テクノロジー
- 2023/06/28
風音屋では、データエンジニア、データアナリスト、データコンサルタントを募集しています。書籍執筆者やOSSコントリビューターなど、業界を代表する20名以上のアドバイザーと一緒にベストプラクティスを追求できる環境です。ぜひカジュアルトークをお申し込みください。はじめにこんにちは。廣瀬智史 (@satoshihirose) と申します。 Looker の LookML は便利ですよね。LookML はデータモデリングを抽象化してコードによる管理を可能にし、利便性を向上させました。 LookML については Google Cloud の LookMLの紹介で次のように説明されています。 LookML は SQL データベース内のディメンション、集計、計算、データの関係を記述するための言語です。Looker は LookML で記述されたモデルを使用して、特定のデータベースに対する SQL
- BI
- あとで読む
- データ分析
- ツール
- tool
- SQL
- OSS
- データ
3年間Stripe Connectを運用した経験を共有します - エムスリーテックブログ
- 67 users
- www.m3tech.blog
- テクノロジー
- 2023/12/22
こちらはエムスリー Advent Calendar 2023の22日目の記事です。こんにちは、エムスリーエンジニアリンググループ、デジスマ診療チームの山本 (id:shunyy) です。医療機関向けSaaSであるデジスマ診療は、開発開始からちょうど3年が経ち、現在では予約・問診等、多様な機能を提供していますがリリース当初は決済機能のみを提供していました。そんなデジスマのコア機能である決済機能はStripe Connectを利用しており、今回は3年間運用した学びを共有したいと思います。デジスマ診療のプロダクトの内容は以下のスライドを御覧ください。 speakerdeck.com そもそもStripe Connectとは何なのか Stripe Connectのアカウントタイプ・支払いタイプについてデジスマ診療の全体構成追加開発事例 Amazon AppFlowを利用したBigQuer
- Stripe
- 決済
- あとで読む
- payment
- API
- article
- web
データカタログ特集　データ利活用に向けたアーキテクチャ6選 - Findy Tools
- 58 users
- findy-tools.io
- テクノロジー
- 2024/04/04
整備したデータ基盤を、事業部や会社全体で活用に持っていく中で「データカタログ」の必要性が増々注目を集めています。今回は、データカタログを導入し、データ利活用に挑んでいる6社に、アーキテクチャの工夫ポイントからデータカタログ導入によって得られた効果などを伺いました。 ◆目次株式会社10X 株式会社ビットキー株式会社エブリー株式会社Luup Sansan株式会社株式会社ZOZO 株式会社10X 事業内容 10Xでは「10xを創る」をミッションとし、小売向けECプラットフォーム「Stailer」の提供を通じて、スーパーやドラッグストア等のオンライン事業立ち上げ・運営支援を行っています。Stailerでは業務構築におけるコンサルティングから、必要な商品マスタやお客様アプリ・スタッフ向けのオペレーションシステム等の提供、配達システムの提供、販売促進の支援など、データを分析しながら一気通貫で
クローズしたサービスの管理画面を静的サイトにする - クックパッド開発者ブログ
- 53 users
- techlife.cookpad.com
- テクノロジー
- 2023/09/01
こんにちは、技術部の石川です。ある日、社内の各種アプリケーションを眺めている中で、とあるクローズしたサービスの管理画面を担っていたウェブアプリが今も動いていると気付きました。簡単にヒアリングしたところ、サービス自体はクローズしたものの、保有していたデータが次のチャレンジに生かせるため管理画面だけ残しているとのことでした。一方で、その管理画面へのアクセスはそう多くありませんでした。毎日ちょっとだけのリクエストを処理するためだけにデータベースとサーバーが動いており、少し無駄がある状態になっていました。やや気になったので検討した結果、最終的にこの管理画面アプリを Next.js 製の静的なデータビューワーサイトとしてリニューアルし、社内向けの GitHub Pages として提供されている状態にできました。この記事ではその顛末をご紹介します。技術選定いくつか事前調査をした結果、今回の管
年末だしRedashのクエリ棚卸しでもしましょう (調査用サンプルクエリ付き) - エムスリーテックブログ
- 52 users
- www.m3tech.blog
- テクノロジー
- 2023/12/09
これはエムスリー Advent Calendar 2023の9日目の記事です。前日の記事はSREチーム後藤の「共有会をより効果的にするために考えたあれやこれ」でした。エムスリーエンジニアリンググループデータ基盤チームの木田です。師走です。12月といえば年末に向けて大掃除の季節です。古来日本では12月に宮中で「煤払い」という行事を行う風習があったことが、今日年末の時期に大掃除をする由来とされているそうです。私の自宅はまだ何も手をつけられていませんが、せめてBIツールの中だけでもということでRedashのクエリ棚卸しをした話*1をご紹介します。エムスリーにおけるRedashの活用状況長年の運用の結果起きた性能問題問題の特定と発生原因 Workerの増設クエリの棚卸しと改善使われていない定期実行クエリの停止サンプル1 直近参照なしかつ定期実行クエリクエリの実行時間改善
- redash
- あとで読む
- データ
- 統計
- -
タイミーデータ基盤のモデリング設計について - Timee Product Team Blog
- 50 users
- tech.timee.co.jp
- テクノロジー
- 2023/10/23
はじめにこんにちはokodoonですタイミーのデータ基盤に対してデータモデリングを始めてしばらく経ったので、現状の全体構成を紹介したいと思います全体構成弊社のBigQueryは以下の4層にレイヤリングされていますそれぞれの役割は以下のような切り分けになっていますレイヤー名役割データレイク層複数ソースシステムのデータを未加工の状態でBigQueryにロードする宛先 dbt snapshotによるソースの履歴化ステージング層複数ソースシステムのデータを共通した処理でクレンジングする層 DWH層ソースシステムのデータ形式を分析に適した形に変換する層ディメンショナルモデリング/ログテーブルをイベント単位に分割/その他便利テーブル作成データマート層特定用途に対して1:1で作成されたテーブル群を格納する層ダッシュボード用テーブル/Looker用テーブル/GoogleSh
TerraformとGitHub Actionsで複数のCloud RunをまとめてDevOpsした結果, 開発者体験がいい感じになった話. - Lean Baseball
- 49 users
- shinyorke.hatenablog.com
- テクノロジー
- 2024/04/08
ざっくり言うと「TerraformとGitHub ActionsでGoogle Cloudなマイクロサービスを丸っとDeployする」という話です. Infrastructure as Code（IaC）は個人開発（趣味開発）でもやっておけ開発〜テスト〜デプロイまで一貫性を持たせるCI/CDを設計しよう個人開発（もしくは小規模システム）でどこまでIaCとCI/CDを作り込むかはあなた次第なお, それなりに長いブログです&専門用語やクラウドサービスの解説は必要最小限なのでそこはご了承ください. あらすじ突然ですが, 皆さんはどのリポジトリパターンが好きですか? 「ポリレポ（Polyrepo）」パターン - マイクロサービスを構成するアプリケーションやインフラ資材を意味がある単位*1で分割してリポジトリ化する. 「モノレポ（Monorepo）」パターン - アプリケーションもインフラも
- Terraform
- GitHub
- DevOps
- あとで読む
- GCP
- Git
- techfeed
- 開発
【全2回】AWS Lambda x FastAPIによるPythonモダンAPI開発のすゝめ 2 - RAKSUL TechBlog
- 49 users
- techblog.raksul.com
- テクノロジー
- 2023/06/30
はじめに対象読者あまり説明しないこと前提とするバージョン参考となるレポジトリ 3. アーキテキチャ及びディレクトリ構造オニオンアーキテクチャを採用オニオンアーキテクチャとは誕生の背景依存関係逆転の原則の活用採用理由参考になった記事ディレクトリ構造全体の構成 api schema apiとusecaseの間のデータ構造を提供する役割 schemaはパスオペレーション関数のリクエストとレスポンスの構造を提供する役割 usecase domain infrastructure core container_config exception 参考にしたものまとめはじめにラクスルグループのノバセルで新卒2年目のエンジニアをしています田村(tamtam)です。第1回では、AWS Lambda x FastAPIによるPythonモダンAPI開発を実現する上で役立つであろ
個人的なdbtの推しポイントを書いてみる - yasuhisa's blog
- 49 users
- www.yasuhisay.info
- テクノロジー
- 2024/02/12
dbtや同じ系統のDataformなど、ELTの特にTransform部分に強みを持つツールを使い始めて大体3年になる。主観だけど、それなりに使い倒している部類だと思う。開発効率を計測するデータ基盤の管理にDataformを使ってみた - yasuhisa's blog dbtを触ってみた感想 - yasuhisa's blog dbt カテゴリーの記事一覧 - yasuhisa's blog これらのツールで巷でよく言われるデータリネージの可視化ができるデータに対するテストが簡単に書けるエンジニア以外の人ともコラボレーションしやすいあたりの話は耳にタコができるくらい聞いていると思うので、ニッチではあるもののそれ以外のdbtの個人的に推しなポイントをダラダラと書いてみたいと思う。データエンジニアやデータガバナンスを推進する人には共感してもらえる内容かもしれない。推しポイント:
- dbt
- あとで読む
- db
- data
- ツール
入社４ヶ月でBigQueryの課金額を減らすために考えたこと - 弁護士ドットコム株式会社 Creators’ blog
- 46 users
- creators.bengo4.com
- テクノロジー
- 2024/04/19
データ分析基盤室の otobe（𝕏@UC_DBengineer）です。事業規模が拡大し、大規模なデータの管理が必要になるにつれて、SnowFlake や BigQuery のようなハイパワーな DWH サービスでデータを加工するケースは多いです。その際、想定外な高額請求が起こる原因のひとつに、クエリが最適化されておらずスキャン量が増大しているケースがあります。そのため、クエリのスキャン量を監視・管理することが課金額を減らすうえで有効な手段となることがあります。本記事では、前半で BigQuery で課金されるスキャン量を監視・管理するまでのプロセスを振り返り、後半で BigQuery の課金額を減らすために簡単にチェックできることについてお話しします。 BigQuery クエリにおけるスキャン量を監視・管理するに至った理由 BigQuery の課金額が想定より大幅に増加してい
データマネジメント成熟度アセスメントを実施しました(2024年版) - 10X Product Blog
- 45 users
- product.10x.co.jp
- テクノロジー
- 2024/04/05
データ基盤チームに所属しているデータエンジニアの吉田(id:syou6162)です。10X社内のデータマネジメントの仕事をしています。 10X社内では2022年10月にデータマネジメント成熟度アセスメントを実施していましたが、それから約一年半が経過し、データマネジメント上の課題が進捗 / 変化した箇所が出てきました。そこで、最近の成果を振り返りつつ今後のデータマネジメントの方針を改めて見直すため、データマネジメント成熟度アセスメントを再度行なうことにしました。本エントリではその内容についてまとめます。前回のデータマネジメント成熟度アセスメントへの取り組み今回のデータマネジメント成熟度アセスメントのやり方成熟度アセスメントの実際の結果前回実施時との差分が大きかった項目データセキュリティデータ品質メタデータ優先度が高かったにも関わらずあまり進まなかった項目まとめ前回のデータ
Terraformとdbtを活用してデータ基盤整備の生産性が向上した話
- 42 users
- zenn.dev/shinoki
- テクノロジー
- 2024/03/01
はじめに私が所属しているライフイズテックのデータ基盤グループで、ここ2年ほどでdbtとterraformを活用してDataOpsを進め、データ基盤の整備の生産性が向上した話をまとめます。導入前の状況と課題弊社のデータ基盤ではデータ基盤が綺麗に整備されていることよりも、プロダクトや事業に貢献できているかを重要と考え、まずデータを使える状態にすることを目指したサービスの導入や基盤構築を行いました。考え方としてはこちらの DWHにおけるデータモデリングで大事にしている考え方に書かれている内容に近い考え方になります。そのため、データモデリングの前にRedashやCRM AnalyticsというBIツール向けにデータレイクからデータマートを先に構築していました。 terraformとdbt導入前は、図のような流れで SQLでSnowflake上にDBやスキーマなどを作成 ELTサービスとし
【合格体験記】DB初心者が2か月でSnowPro Coreに合格した - Qiita
- 41 users
- qiita.com/SoySoySoyB
- テクノロジー
- 2023/07/10
はじめに先日DB初心者（DWHですらない）から、2か月の勉強でSnowPro Coreを取得しました。勉強にあたりやってよかったことなどをまとめておきます。資格取得記事は最近無限に生産されているので、あまり他では言及がなさそうなことを中心にしようと思います。こんな方におすすめ SnowPro Coreに興味はあるが、実務経験がないデータエンジニアリングを学んでみたいが、どこから手をつけるといいかわからない簡単なバックグラウンドと経緯 Tableauによるクロス集計中心のデータ分析職（他業務も兼務）から、2023年2月にデータ分析基盤およびBIダッシュボード構築を行うデータアナリストに転職前職では、ほぼ編集してはいけないテキストファイルのSQLを、あるフォルダに格納するとCSVでデータが抽出されるという謎環境だったエンジニアのいない組織だったので実務的には役立たなかったが、Da
- 資格
- あとで読む
- DB
- qiita
- データ
- 勉強
- 資料
チームのデータ基盤技術の審美眼を育てるために取り組んでいること - ann-toque’s diary
- 40 users
- ann-toque.hatenablog.com
- テクノロジー
- 2023/08/20
前提と想定読者本記事の私見以外の情報に関しては、一般に公開されている資料のリンク集のようになっています。取り組んでいる内容は、私が現在勤務している会社に関連していますが、その詳細には触れません。以下に類する方は参考になるかもしれません。データエンジニアやBIエンジニアのように、データ基盤を構築しようとしている方データアナリスト、データサイエンティスト、マーケッターなど、データ基盤を利用する方々で、なぜそのシステムが選ばれているのか考えられるようになりたい方データエンジニアリングチームをマネジメントしており、チームメンバーのスキル向上のための教材を探している方背景 WEB業界で新卒からデータエンジニアとしてキャリアをスタートし、現在はデータストラテジスト/BIエンジニアとして活動中のやすです。現在、私は5-10名規模のチームをマネジメントしており、チームメンバーのほとんどは2
全社データ活用基盤をTreasureDataからBigQueryへ移行しました - Leverages データ戦略ブログ
- 40 users
- analytics.leverages.jp
- テクノロジー
- 2024/05/20
はじめにこんにちは。データエンジニアリンググループの森下です。今回は、私がプロジェクトマネージャーとして約3年間かけて実施した、TreasureDataからBigQueryへの全社データ活用基盤移行プロジェクトについてお話します。このプロジェクトは、全社で1日あたり数千件のクエリが実行されるデータ基盤を移行するという大規模なもので、関係者の数は200〜300人に上りました。プロジェクト期間中は、データ活用基盤の技術調査から始まり、関係者への説明や調整、データ移行、クエリ移行、ETLやReverse ETLに使用する各種ツールの導入など、本当に多くのタスクがありました。プロジェクト背景: TreasureData導入とその課題 TreasureData導入の背景 2024年時点ではGoogle BigQueryを使用していますが、その前の環境が導入された背景を説明します。 2018年12
- データ
- BigQuery
- SQL
- エンジニア
- あとで読む
- 仕事
コミュニティプラットフォームの投稿レコメンド機能を支える機械学習基盤 - Commune Engineer Blog
- 37 users
- tech.commune.co.jp
- テクノロジー
- 2023/09/27
こんにちは，コミューンで一人目の機械学習（ML）エンジニアとして働いている柏木（@asteriam_fp）です．入社して５ヶ月ほど経ちましたが，今回漸く最近の取り組みを紹介できそうです．ML エンジニアは僕一人なので，専らの相談相手は ChatGPT 君の今日この頃です笑はじめにコミューンでは，企業とユーザーが融け合うコミュニティサクセスプラットフォームである commmune を提供しています．今回のブログは先日のプレスリリースでも発表された投稿レコメンド機能を commmune に導入したので，その機能を裏側で支えている機械学習基盤に関する内容を紹介します．エンドユーザーに対して提供される機械学習システムを導入するのは初めての試みになり，まさにゼロからの出発なので，これから徐々に大きく育てて行く予定です！はじめにコミュニティプラットフォームにおける機械学習の可能性投稿レコ
vscode-dbt-power-userでdbtの開発やレビューを効率化する - yasuhisa's blog
- 37 users
- www.yasuhisay.info
- テクノロジー
- 2023/07/09
背景 vscode-dbt-power-userがよかったところ定義にさっと行ける / 戻れる(Go to definitionが使える) VSCode内でモデル間のリネージが見れる VSCode内からdbtのモデルをさっと実行できるモデルファイルの単独の実行も簡単コンパイル済みのSQLファイルをさっとプレビューできるまとめ補足: vscode-dbt-power-userの導入方法背景 dbtは前職時代から含めると二年以上使っていて、SQLでDWHやデータマートの開発をしようと思うともはやこれなしでは生きられないくらいには便利になっている。dbtがあっても大変なクエリは大変ではあるが、大変さは大分緩和してくれる。dbtがなくて、1つのSQLが1000行以上あり、中間クエリがテストもされていない、という状況はもう戻りたくない...。 dbtに限らずであるが、コードは書いていると
- dbt
- VSCode
- SQL
- あとで読む
- 開発
DWH改善に生かす! 入門elementary - yasuhisa's blog
- 36 users
- www.yasuhisay.info
- テクノロジー
- 2024/01/31
前提: これは何? dbtを使ったデータプロダクトを作っている社内のチームメンバー向けに書いた勉強会用のドキュメントです社外に公開できるように少し抽象化して書いてます DWHに限らずdbtを使ったデータプロダクトで生かせる話ですが、分かりやすさのためにDWHを題材にしています 3行まとめ elementaryはdbtを利用しているデータパイプラインに対してData Observabilityを強化するツールであり、付属のリッチなレポートやSlachへのアラート通知が便利ですしかし、実はelementaryが内部で生成している成果物はDWHの改善に役に立つものがたくさんあります本エントリではelementaryの成果物や役に立つ実例を多めに紹介します前提: これは何? 3行まとめ背景: DWHとデータ品質 Observability / Data Observabilityについて
みなさん、データのメタデータ管理ってどうやってますか？ #datatech-jp レポート｜よしむら＠データマネジメント担当
- 32 users
- note.com/datamanagement
- テクノロジー
- 2024/03/29
メタデータの価値と意義データ基盤作ってもメタデータがないと必要なデータを発見するのは難しい。テーブルの物理名とデータの中身だけでは想像はできるけど、意外とわからない。また、データ自体の意味以外にも制約条件とか利用者情報などがあり、そういうメタデータを整備することでデータ活用ができる。メタデータの種類システム基礎系：DDLとかビジネス系：活用方法関連性：リネージやER図統制系：品質情報セキュリティ情報：アクセス権限情報システム運用系：ジョブ実行ログソーシャル系：利用者のレビューやアクセス頻度メタデータの管理とデータカタログメタデータを管理するためのツールとしてはデータカタログがある。データカタログは銀の弾丸だと思われがちで、いいデータカタログがあればだれもが使ってデータ利活用が進むと思われがちだが… 実際データカタログを入れたところで、メタデータは入力されずカタログ・ゴ
データ活用社会で活躍するための、非エンジニアのデータエンジニアリングスキル育成のヒント | gihyo.jp
- 32 users
- gihyo.jp
- テクノロジー
- 2023/08/08
※ちなみに①の状況で、データの統制にはdbtやLookerのLookMLなど、リソースの競合にはDWHのチューニングやシステム変更など、技術面の対応も重要な解決策になりますが、本稿ではその側面は割愛します。これらの①～③のあり方に共通するのは、データ分析基盤を構築するデータエンジニアと、基盤を利用する非エンジニアで連携が取れていないことです。そしてこの間を埋めるものとして、データエンジニアリングスキルがあると考えています。より理解を深めるために、いくつか職種を取り上げて、それぞれがよく陥る問題と、スキルがあることでどういった取り組みができるかを整理してみます。職種別にデータエンジニアリングスキルの価値を考える例1）データアナリストまずは、データエンジニアと最も近い関係で業務をすることの多い、データアナリストです。データエンジニアリングに関連してデータアナリストがしばしば抱える問題
1ヶ月でSnowflakeのPoC検証から報告までを実現した効率化の取り組み - ぐるなびをちょっと良くするエンジニアブログ
- 30 users
- developers.gnavi.co.jp
- テクノロジー
- 2024/01/09
こんにちは。データ・AI戦略部 SREチームの小野です。2020年8月に入社してから早3年。SREエンジニアとして、日々業務改善に励んでいます。私の所属するデータ・AI戦略部は、クラウドやSaaSの活用を積極的に行っています。私自身も「業務に役立ちそうなサービス」を見つけたら上長に相談するようにしています。今回は、「1ヶ月でSnowflakeのPoC検証から導入提案まで行った話」をお伝えしたいと思います。ちなみにこのブログの執筆時点では、Snowflakeの導入はまだ実現していません。 <書くこと> 「PoC検証の取り組み方から提案までの手法」を中心に執筆します。今後ChatGPTのような技術革新がますます活発化した時、新しいサービスの検証や提案を「より高品質」に「よりスピーディ」に行うことが必要になってくると思います。そういったニーズの参考になれば幸いです。 <書かないこと> Sno
ディメンショナルモデリングに入門しよう！Snowflakeとdbt Cloudで「Building a Kimball dimensional model with dbt」をやってみた | DevelopersIO
- 26 users
- dev.classmethod.jp
- テクノロジー
- 2024/01/23
ディメンショナルモデリングに入門しよう！Snowflakeとdbt Cloudで「Building a Kimball dimensional model with dbt」をやってみたさがらです。ここ２年ほどの間にdbtが日本でも急速に拡大し、様々な情報が日本語の記事でも見かけられるようになってきました。 dbtを採用してある程度活用を進めていくと、「より効率よくガバナンスを持ってデータを管理するにはどうすればいいんだろうか」といったデータの管理方法に悩む場面が出てくると思います。そんなときに色々調べていくと、データを効率よく管理する手法として「データモデリング」が必要だとわかり、ディメンショナルモデリングやData Vaultなどの手法に行き着くのではないでしょうか。そしてこれらのデータモデリングの手法の内、ディメンショナルモデリングについてdbtを用いて実践された記事がありま
- dbt
- Snowflake
- データ分析
- 設計
- あとで読む
- data
AWS、Aurora MySQLとRedshiftをほぼリアルタイムに同期する「Amazon Aurora MySQL zero-ETL integration with Amazon Redshift」正式版に。追加料金なしで利用可能
- 26 users
- www.publickey1.jp
- テクノロジー
- 2023/11/13
Amazon Web Services（AWS）は、Aurora MySQLとAmazon Redshiftのあいだでデータをほぼリアルタイムに同期する新サービス「Amazon Aurora MySQL zero-ETL integration with Amazon Redshift」（以下、zero-ETL）が正式版となったことを発表しました。参考：［速報］Amazon AuroraのOLTPとRedshiftのDWHを統合する「Amazon Aurora zero-ETL integration with Amazon Redshift」発表。AWS re:Invent 2022 Amazon Auroraは高速なトランザクション処理を特徴とするリレーショナルデータベースであり、Amazon Redshiftは大規模データの高速分析を特徴とするデータウェアハウスのサービスです。ze
dbtでCIを実現するために、Github ActionsでAWSのVPC越えしたい。 - KAYAC engineers' blog
- 24 users
- techblog.kayac.com
- テクノロジー
- 2023/12/08
この記事はTech KAYAC Advent Calendar 2023の8日目の記事です。こんにちわ。その他事業部SREチームの@mashiikeです。最近、風変わりな記事を連投しているのですが、今回も風変わりです。ひとことで要約すると、私は！Github Actionsから！Redshiftにアクセスしたいんだ！！！です。 TL;DR dbtのCIを実現したい。ローカルのunit-testはできてるんだが、Github ActionsからRedshiftへのアクセスに難がある。 Github ActionsからRedshiftにアクセスするために頑張ってみた。 kayac/ecspressoで踏み台となるECS Taskを立ち上げる。 fujiwara/ecstaでportforwardingする。 mashiike/redshift-credentials で一時認証情報を
- dbt
- CI
- あとで読む
- aws
ディメンショナルモデリング勉強会を実施しました - 10X Product Blog
- 22 users
- product.10x.co.jp
- テクノロジー
- 2024/05/08
データ基盤チームに所属しているデータエンジニアの吉田(id:syou6162)です。10X社内のデータマネジメントの仕事をしています。最近、社内でディメンショナルモデリング勉強会を行なったですが、なぜ勉強会を行なったのか、どのように行なったのか、勉強会を行なった結果何が得られたかについてまとめます。ディメンショナルモデリング勉強会開催の背景勉強会の進め方やスコープ勉強会の参加者勉強会で学んだ内容 Four-Step Dimensional Design Process キーの設計について複数スタースキーマを適切に利用し、ファントラップを避けるコンフォームドディメンションまとめ: 勉強会で得られたものディメンショナルモデリング勉強会開催の背景前回のエントリにまとめた通り、10Xのデータマネジメントの課題の中でも「データウェアハウジングとビジネスインテリジェンス」は優先度が
- あとで読む
最近のデータカタログの各種機能の有無を確認してみた（2024年4月時点） | DevelopersIO
- 18 users
- dev.classmethod.jp
- テクノロジー
- 2024/04/12
さがらです。ここ１～２年は新しい製品のリリースが落ち着いてきた印象ですが、Modern Data Stack界隈ではたくさんのデータカタログ製品が存在しています。私も２年くらい前に色々触って調査したものの、この２年間での各製品のアップデートが凄まじく「どの製品がどの機能を持っているんだっけ…？」と知識が怪しくなってきてしまっている状況です。そこで、今回改めて各製品の公式ドキュメントをベースに、最近のデータカタログの各種機能の有無を確認してみたので、本記事でまとめてみます。 ※注意事項：各製品のアップデートのスピードは本当に早いため、半年も経てば現時点で出来ていなかったことが出来ているようになっている可能性が高いです。最新の情報はご自身で確認の上、本記事は参考程度にご利用ください。比較対象のデータカタログ比較対象としては、以下のデータカタログを比較します。 SaaS Atlan S
私たちはなぜNewSQLを使うのかTiDB選定5社が語る選定理由と活用LT【イベントレポート】 - Findy Tools
- 18 users
- findy-tools.io
- テクノロジー
- 2024/05/27
公開日 2024/05/24更新日 2024/05/24私たちはなぜNewSQLを使うのかTiDB選定5社が語る選定理由と活用LT【イベントレポート】近年データベースが急速に進化し、開発にも大きな影響を与えています。そこでファインディでは「私たちはなぜNewSQLを使うのか TiDBを選定・導入した5社が語る選定と活用」と題したイベントを開催。PingCAPの日下さん、LINEヤフーの佐伯さん、アイスタイルの鈴木さん、DMM .comのpospomeさん、コロプラの曽我さん、さくらインターネットの江草さんをお招きし、NewSQLの一つである TiDBについて語っていただきました。 ■パネリスト日下太智さん / @ksk_tic PingCAP株式会社　プロダクトマネージャー / シニアソリューションアーキテクト SIerにて国内外問わずEC/小売/製造/サービス/メディア/出版など様
「未来の“当たり前”を作る」セキュリティ・SREのスペシャリスト星北斗が今、LayerXを選ぶ理由｜LayerX
- 18 users
- note.layerx.co.jp
- テクノロジー
- 2024/01/09
2024年1月1日。LayerXにまた、新たな仲間が加わりました。クックパッド株式会社でセキュリティエンジニア、SRE (Site Reliability Engineer) として経験を積み、技術本部長を経て2020年にグローバル本社（イギリス）に出向。コーポレートエンジニアリングを中心に海外でのマネジメントを経験したのち、CTO/CISOを務めた星北斗（ほし・ほくと）。人生で初めての転職先がなぜLayerXだったのか。肩書きでキャリアが作られるわけではないと話す彼のこれまでの歩みと、LayerXで成し遂げたいことを聞きました。アルバイトから社員へ。クックパッドで培ったエンジニアとしてのキャリア——これまでのキャリアからお伺いしたいのですが、アルバイトを経てそのままクックパッドに入社されたのですよね。大学3年生のときにアルバイトとして入ったのが最初です。あるとき研究室の先輩から「こ
- セキュリティ
- あとで読む
dbtのモデルとTableau上で使われているWorkbookの依存関係をexposureで表現して、データ管理を効率的に行なおう - yasuhisa's blog
- 18 users
- www.yasuhisay.info
- テクノロジー
- 2023/10/08
3行まとめ dbtのジョブが失敗した際やテーブルの廃止検討の際に、BI上のどのダッシュボードで利用されている(データリネージ)か知るのは重要です TableauのGraphQLのAPIからWorkbookとBigQuery上のモデルの埋め込みの関係を知ることができます dbtのモデルとTableau上で使われているWorkbookの依存関係をexposureとして出力するスクリプトにより、dbtのジョブの失敗やテーブルの廃止がTableauのダッシュボードに与える影響などを調べやすくなりました 3行まとめ背景課題: dbtのexposureとしてダッシュボードを手動で記入し続けるのは難しい解決方法: TableauのGraphQLのAPIを使い、 dbtのexposureを自動生成する発展的話題背景業務において、DWHやデータマートの生成にdbtを、BIツールとしてTablea
- dbt
- tableau
- BigQuery
- あとで読む
- データ
- API
【開催報告】AWSで実践！Analytics Modernization ～事例祭り編～ | Amazon Web Services
- 16 users
- aws.amazon.com
- テクノロジー
- 2023/07/04
Amazon Web Services ブログ【開催報告】AWSで実践！Analytics Modernization ～事例祭り編～ 2023 年 5 月 18 日に「AWS で実践！ Analytics Modernization ～事例祭り編～」を開催しました。今回の事例祭りでは AWS の Analytics サービスをご利用いただいているミーク株式会社様、ニッセイ情報テクノロジー株式会社様、ビットバンク株式会社様、株式会社 Gunosy Gunosy Tech Lab DR&MLOps 様、にご登壇いただきました。本ブログでは当日の各発表内容を紹介いたします。 Amazon OpenSearch Serverless のご紹介アマゾンウェブサービスジャパン合同会社ソリューションアーキテクト深見修平資料ダウンロード AWS の深見からは 2023 年 2 月
分析基盤のテーブルと連携方式｜zono
- 16 users
- note.com/zono_data
- 暮らし
- 2024/04/20
分析基盤においては様々な連携手法があります。これは、データ量が多いか少ないか、データソースが最新か履歴か、によって変わってきます。今回は、連携手法を紹介しながら、その連携に必要なテーブルの特徴について話したいと思います。連携元と連携先のテーブル連携元のテーブルは、最新テーブルになっている場合も履歴テーブル（インサートオンリー）の場合もあります。これはアプリ側の仕様によって異なります。多くの場合は、UPDATEができて、データ量が少なくなる最新テーブルになります。基本的に連携先のテーブル（データレイクやレイクハウス）は、履歴テーブルになっています。これは、分析する上で時系列データを扱えたり、集計時に多くのデータを扱えることができるためです。最新テーブルや履歴テーブルの作り方や必要なカラムについての詳細は下記の記事をご覧下さい。連携方式全件連携全件連携とは、データソースから全てのデ
- architecture
- あとで読む