並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 145件

新着順 人気順

DWHの検索結果1 - 40 件 / 145件

  • 複数の企業でデータエンジニアとして求められたスキル - yasuhisa's blog

    最近「ああ、これ前職でも前々職でもやったことあるなぁ」という仕事があった。データエンジニア(やその関連職種)として働き始めて約5年、3社でフルタイムとして働いてきて「このスキルは業界や組織規模が変わってもデータエンジニアとしてスキルを求められることが多いな」と感じたものをまとめてみることにした。棚卸し的な意味はあるが、特に転職用などではないです。 前提 どこでも必要とされたスキル データマネジメントに関する概要レベルの知識と実行力 セキュリティや法令に関する知識 事業ドメインに関する興味関心 他職種とのコミュニケーション能力 コスト管理 / コスト削減のスキル ソフトウェアエンジニアとしてのスキル DataOpsやアラートのハンドリング能力 分析用のSQLを書く力 古いテーブルやデータパイプラインを置き換えていくスキルや胆力 あるとやりやすいスキル 関連部署の動きを何となく把握しておく力

      複数の企業でデータエンジニアとして求められたスキル - yasuhisa's blog
    • クックパッドを退職することになりました。

      クックパッドを退職することになりました。 created at: 2023-06-05 00:00:00 +0000 概要 クックパッドという会社で2018年から仕事をしていましたが、会社で「人員削減の合理化を実施することになり」僕はその対象となりました。 https://pdf.irpocket.com/C2193/CaoZ/qmSw/IQUI.pdf 時系列としては、16時からの全社ミーティングにて発表されて、17時頃にメールが届きました。その後どうするのか?みたいなことを考えつつも仕事にならないので18時前ぐらい退勤をしたときのツイートがこれ 一度しかない人生で会社をクビ(会社都合)になることってあるんだなぁ。宝くじみたい。仕事探してます。 — あそなす (@asonas) June 5, 2023 自分の人生でまさかこうなるとは思ってなくてかなり動揺しつつの帰路でした。最近の通勤時

        クックパッドを退職することになりました。
      • 市場価値のない無能が勢いでSES企業を辞めたのでご相談

        追記(04/14)今時点で頂いているトラバもブコメもすべて目を通しました。 はてなの皆さん、増田の皆さんたくさんの反応ありがとうございます。 どうしたもんかと悩んでる状況の中で、エージェントの人に話してもあまりピンと来ない反応が返ってくるし、周りに相談出来る人もいないしで、かなり勇気づけられました。 とりあえず今時点で返せる分だけお返事返しておこうと思う。 フィヨルドブートキャンプやれば? 恥ずかしながらこんなサービスがあるのを知りませんでした。 今の状況では1000時間学習してから転職ってのは難しいんだけど、転職活動終えたら利用してみたいなという気持ち。 開発に夢見すぎ 自己評価低い その通り、かもしれない。 技術記事とか書いてアウトプットしてる同世代以下の優秀な技術者たち見てて、自分とのスキルギャップに絶望してたところだったんだ。 5年弱ぐらいローコードじゃなくて、コーディングで実務経

          市場価値のない無能が勢いでSES企業を辞めたのでご相談
        • dbtで見やすいER図を生成する - yasuhisa's blog

          背景: dbtを使っていてもER図は欲しい! どうやってER図を生成するか どうやってER図を見やすくするか まとめ 背景: dbtを使っていてもER図は欲しい! dbtはモデル間のリネージなど可視化が得意なツールではありますが、万能なわけではありません。モデルの生成過程などはリネージで担保できますが、分析時に「どれとどのモデルがJOINできて、JOINする際のキーはこれを使って」というER図で扱うような可視化はディフォルトではできません。 DWHを作っている側からすると「このテーブルはあの辺のテーブルと一緒に使うと便利で、いつもあのキーでJOINして」というのが頭の中に入っていることが多いため、ER図がなくてもどうにかなることも多いでしょう。しかし、分析に慣れていない人や分析に慣れている人であっても、普段と異なるドメインのテーブルを触るときはER図が提供してくれる情報は有用です。ちなみに

            dbtで見やすいER図を生成する - yasuhisa's blog
          • オブザーバビリティにはお金がかかる - 株式会社ヘンリー エンジニアブログ

            tl;dr オブザーバビリティにはあなたの直感よりもお金がかかるかもしれない。でもそれはアジリティを上げるために必要なコストである。同時にオブザーバビリティ関連ベンダーには、それらをリーズナブルに提供してもらうことを期待します。 オブザーバビリティ・エンジニアリング輪読会 8月からVPoEになりました。id:Songmuです。 社内の勉強会で輪読形式でオブザーバービリティ・エンジニアリングを読んでいます。毎週30分、参加者の中から発表者を割り当て、1~2章を読み進めるスタイルです。 ちなみに、ヘンリーではActive Book Dialogue(ADB)というフォーマットも取り入れて輪読会が運営されています。社内で同時並行で数本走っており、先日、CEOの逆瀬川が書いたソフトウェア見積もりに関する輪読会も同様の形式で実施しています。 発表者は、事前に社内のNotionにその章のアウトラインや

              オブザーバビリティにはお金がかかる - 株式会社ヘンリー エンジニアブログ
            • メール配信システムを SaaS から新規社内システムへ移行した - エムスリーテックブログ

              この記事はエムスリーAdvent Calendar 2023の20日目の記事です。 エムスリーエンジニアリングG コンシューマチームの松原(@ma2ge)です。 今回はコンシューマチームで利用していたSaaSのメール配信システムを、新規に開発した社内システムに移行した経緯や設計時に意識したことなどについて紹介します。 最近使っているキーボードの様子 背景 今回移行する契機となったのはメールの配信数増加に伴うSaaSの利用料金増です。 特に定期的に送るメルマガ配信については、配信量も多く利用コストを押し上げる要因となっていました。 そのためメルマガ配信で大量に使用する部分についてのシステム移行検討が始まりました。 移行検討 SaaSから移行後のシステムについて試算すると、システムの開発や利用料といったコスト面では社内で構築したシステムの方が大幅にコストが下がることがわかりました。 しかしなが

                メール配信システムを SaaS から新規社内システムへ移行した - エムスリーテックブログ
              • Apache Iceberg とは何か - 流沙河鎮

                はじめに 概要 Apache Iceberg(アイスバーグ)とは [重要] Icebergの本質はTable Specである Table Spec バージョン Icebergハンズオン Icebergの特徴 同時書き込み時の整合性担保 読み取り一貫性、Time Travelクエリ、Rollback Schema Evolution Hidden Partitioning Hidden Partitioningの種類 時間 truncate[W] bucket[N] Partition Evolution Sort Order Evolution クエリ性能の最適化 ユースケース Icebergのアーキテクチャ Iceberg Catalog Iceberg Catalogの選択肢 metadata layer metadata files manifest lists manifest f

                  Apache Iceberg とは何か - 流沙河鎮
                • DWHにおけるデータモデリングで大事にしている考え方

                  こんにちは。データエンジニアリングの支援を行っているstable株式会社の代表の宮﨑(@ikki_mz)です。弊社では、クライアント社内のデータウェアハウス(DWH)におけるデータモデリングをサポート...

                    DWHにおけるデータモデリングで大事にしている考え方 
                  • データウェアハウスのデータモデリングを整理してみた - Qiita

                    概要 スタースキーマからスノーフレーク、ギャラクシー、そしてデータボールトやアンカーモデリングまで、各スキーマの特徴、利点、そして適用シナリオを掘り下げます。 スタースキーマ スタースキーマを元に整理します。 スタースキーマ または 星型スキーマ はデータウェアハウスに利用される最も単純なスキーマである。スタースキーマには唯1つもしくは少数のファクト表と複数のディメンション表が含まれる。スタースキーマはスノーフレークスキーマの一種であるが、多くの用途で利用されている。 DWHに利用される最も単純なスキーマ 唯一または少数のファクトテーブルと、複数のディメンションテーブルが含まれる スノーフレークスキーマの一種 モデル ファクト表はデータウェアハウスでの解析で利用され、複数の異なるディメンションに区分される。ファクト表は主要なデータを持つ一方、ディメンション表は相対的にサイズが小さくディメン

                      データウェアハウスのデータモデリングを整理してみた - Qiita
                    • Lookerライクな新興BIツールの比較検討

                      風音屋では、データエンジニア、データアナリスト、データコンサルタントを募集しています。 書籍執筆者やOSSコントリビューターなど、業界を代表する20名以上のアドバイザーと一緒にベストプラクティスを追求できる環境です。 ぜひカジュアルトークをお申し込みください。 はじめに こんにちは。廣瀬智史 (@satoshihirose) と申します。 Looker の LookML は便利ですよね。LookML はデータモデリングを抽象化してコードによる管理を可能にし、利便性を向上させました。 LookML については Google Cloud の LookMLの紹介 で次のように説明されています。 LookML は SQL データベース内のディメンション、集計、計算、データの関係を記述するための言語です。Looker は LookML で記述されたモデルを使用して、特定のデータベースに対する SQL

                        Lookerライクな新興BIツールの比較検討
                      • 3年間Stripe Connectを運用した経験を共有します - エムスリーテックブログ

                        こちらはエムスリー Advent Calendar 2023の22日目の記事です。 こんにちは、エムスリーエンジニアリンググループ、デジスマ診療チームの山本 (id:shunyy) です。 医療機関向けSaaSであるデジスマ診療は、開発開始からちょうど3年が経ち、現在では予約・問診等、多様な機能を提供していますがリリース当初は決済機能のみを提供していました。そんなデジスマのコア機能である決済機能はStripe Connectを利用しており、今回は3年間運用した学びを共有したいと思います。 デジスマ診療のプロダクトの内容は以下のスライドを御覧ください。 speakerdeck.com そもそもStripe Connectとは何なのか Stripe Connectのアカウントタイプ・支払いタイプについて デジスマ診療の全体構成 追加開発事例 Amazon AppFlowを利用したBigQuer

                          3年間Stripe Connectを運用した経験を共有します - エムスリーテックブログ
                        • データカタログ特集 データ利活用に向けたアーキテクチャ6選 - Findy Tools

                          整備したデータ基盤を、事業部や会社全体で活用に持っていく中で「データカタログ」の必要性が増々注目を集めています。 今回は、データカタログを導入し、データ利活用に挑んでいる6社に、アーキテクチャの工夫ポイントからデータカタログ導入によって得られた効果などを伺いました。 ◆目次 株式会社10X 株式会社ビットキー 株式会社エブリー 株式会社Luup Sansan株式会社 株式会社ZOZO 株式会社10X 事業内容 10Xでは「10xを創る」をミッションとし、小売向けECプラットフォーム「Stailer」の提供を通じて、スーパーやドラッグストア等のオンライン事業立ち上げ・運営支援を行っています。Stailerでは業務構築におけるコンサルティングから、必要な商品マスタやお客様アプリ・スタッフ向けのオペレーションシステム等の提供、配達システムの提供、販売促進の支援など、データを分析しながら一気通貫で

                            データカタログ特集 データ利活用に向けたアーキテクチャ6選 - Findy Tools
                          • クローズしたサービスの管理画面を静的サイトにする - クックパッド開発者ブログ

                            こんにちは、技術部の石川です。 ある日、社内の各種アプリケーションを眺めている中で、とあるクローズしたサービスの管理画面を担っていたウェブアプリが今も動いていると気付きました。簡単にヒアリングしたところ、サービス自体はクローズしたものの、保有していたデータが次のチャレンジに生かせるため管理画面だけ残しているとのことでした。 一方で、その管理画面へのアクセスはそう多くありませんでした。毎日ちょっとだけのリクエストを処理するためだけにデータベースとサーバーが動いており、少し無駄がある状態になっていました。 やや気になったので検討した結果、最終的にこの管理画面アプリを Next.js 製の静的なデータビューワーサイトとしてリニューアルし、社内向けの GitHub Pages として提供されている状態にできました。この記事ではその顛末をご紹介します。 技術選定 いくつか事前調査をした結果、今回の管

                              クローズしたサービスの管理画面を静的サイトにする - クックパッド開発者ブログ
                            • 年末だしRedashのクエリ棚卸しでもしましょう (調査用サンプルクエリ付き) - エムスリーテックブログ

                              これはエムスリー Advent Calendar 2023の9日目の記事です。 前日の記事はSREチーム後藤の「共有会をより効果的にするために考えたあれやこれ」でした。 エムスリーエンジニアリンググループ データ基盤チームの木田です。 師走です。12月といえば年末に向けて大掃除の季節です。 古来日本では12月に宮中で「煤払い」という行事を行う風習があったことが、今日年末の時期に大掃除をする由来とされているそうです。 私の自宅はまだ何も手をつけられていませんが、せめてBIツールの中だけでもということでRedashのクエリ棚卸しをした話*1をご紹介します。 エムスリーにおけるRedashの活用状況 長年の運用の結果起きた性能問題 問題の特定と発生原因 Workerの増設 クエリの棚卸しと改善 使われていない定期実行クエリの停止 サンプル1 直近参照なしかつ定期実行クエリ クエリの実行時間改善

                                年末だしRedashのクエリ棚卸しでもしましょう (調査用サンプルクエリ付き) - エムスリーテックブログ
                              • タイミーデータ基盤のモデリング設計について - Timee Product Team Blog

                                はじめに こんにちはokodoonです タイミーのデータ基盤に対してデータモデリングを始めてしばらく経ったので、現状の全体構成を紹介したいと思います 全体構成 弊社のBigQueryは以下の4層にレイヤリングされています それぞれの役割は以下のような切り分けになっています レイヤー名 役割 データレイク層 複数ソースシステムのデータを未加工の状態でBigQueryにロードする宛先 dbt snapshotによるソースの履歴化 ステージング層 複数ソースシステムのデータを共通した処理でクレンジングする層 DWH層 ソースシステムのデータ形式を分析に適した形に変換する層 ディメンショナルモデリング/ログテーブルをイベント単位に分割/その他便利テーブル作成 データマート層 特定用途に対して1:1で作成されたテーブル群を格納する層 ダッシュボード用テーブル/Looker用テーブル/GoogleSh

                                  タイミーデータ基盤のモデリング設計について - Timee Product Team Blog
                                • TerraformとGitHub Actionsで複数のCloud RunをまとめてDevOpsした結果, 開発者体験がいい感じになった話. - Lean Baseball

                                  ざっくり言うと「TerraformとGitHub ActionsでGoogle Cloudなマイクロサービスを丸っとDeployする」という話です. Infrastructure as Code(IaC)は個人開発(趣味開発)でもやっておけ 開発〜テスト〜デプロイまで一貫性を持たせるCI/CDを設計しよう 個人開発(もしくは小規模システム)でどこまでIaCとCI/CDを作り込むかはあなた次第 なお, それなりに長いブログです&専門用語やクラウドサービスの解説は必要最小限なのでそこはご了承ください. あらすじ 突然ですが, 皆さんはどのリポジトリパターンが好きですか? 「ポリレポ(Polyrepo)」パターン - マイクロサービスを構成するアプリケーションやインフラ資材を意味がある単位*1で分割してリポジトリ化する. 「モノレポ(Monorepo)」パターン - アプリケーションもインフラも

                                    TerraformとGitHub Actionsで複数のCloud RunをまとめてDevOpsした結果, 開発者体験がいい感じになった話. - Lean Baseball
                                  • 【全2回】AWS Lambda x FastAPIによるPythonモダンAPI開発のすゝめ 2 - RAKSUL TechBlog

                                    はじめに 対象読者 あまり説明しないこと 前提とするバージョン 参考となるレポジトリ 3. アーキテキチャ及びディレクトリ構造 オニオンアーキテクチャを採用 オニオンアーキテクチャとは 誕生の背景 依存関係逆転の原則の活用 採用理由 参考になった記事 ディレクトリ構造 全体の構成 api schema apiとusecaseの間のデータ構造を提供する役割 schemaはパスオペレーション関数のリクエストとレスポンスの構造を提供する役割 usecase domain infrastructure core container_config exception 参考にしたもの まとめ はじめに ラクスルグループのノバセルで新卒2年目のエンジニアをしています田村(tamtam)です。 第1回では、AWS Lambda x FastAPIによるPythonモダンAPI開発を実現する上で役立つであろ

                                      【全2回】AWS Lambda x FastAPIによるPythonモダンAPI開発のすゝめ 2 - RAKSUL TechBlog
                                    • 個人的なdbtの推しポイントを書いてみる - yasuhisa's blog

                                      dbtや同じ系統のDataformなど、ELTの特にTransform部分に強みを持つツールを使い始めて大体3年になる。主観だけど、それなりに使い倒している部類だと思う。 開発効率を計測するデータ基盤の管理にDataformを使ってみた - yasuhisa's blog dbtを触ってみた感想 - yasuhisa's blog dbt カテゴリーの記事一覧 - yasuhisa's blog これらのツールで巷でよく言われる データリネージの可視化ができる データに対するテストが簡単に書ける エンジニア以外の人ともコラボレーションしやすい あたりの話は耳にタコができるくらい聞いていると思うので、ニッチではあるもののそれ以外のdbtの個人的に推しなポイントをダラダラと書いてみたいと思う。データエンジニアやデータガバナンスを推進する人には共感してもらえる内容かもしれない。 推しポイント:

                                        個人的なdbtの推しポイントを書いてみる - yasuhisa's blog
                                      • 入社4ヶ月でBigQueryの課金額を減らすために考えたこと - 弁護士ドットコム株式会社 Creators’ blog

                                        データ分析基盤室の otobe(𝕏@UC_DBengineer) です。 事業規模が拡大し、大規模なデータの管理が必要になるにつれて、SnowFlake や BigQuery のようなハイパワーな DWH サービスでデータを加工するケースは多いです。 その際、想定外な高額請求が起こる原因のひとつに、クエリが最適化されておらずスキャン量が増大しているケースがあります。 そのため、クエリのスキャン量を監視・管理することが課金額を減らすうえで有効な手段となることがあります。 本記事では、前半で BigQuery で課金されるスキャン量を監視・管理するまでのプロセスを振り返り、 後半で BigQuery の課金額を減らすために簡単にチェックできることについてお話しします。 BigQuery クエリにおけるスキャン量を監視・管理するに至った理由 BigQuery の課金額が想定より大幅に増加してい

                                          入社4ヶ月でBigQueryの課金額を減らすために考えたこと - 弁護士ドットコム株式会社 Creators’ blog
                                        • データマネジメント成熟度アセスメントを実施しました(2024年版) - 10X Product Blog

                                          データ基盤チームに所属しているデータエンジニアの吉田(id:syou6162)です。10X社内のデータマネジメントの仕事をしています。 10X社内では2022年10月にデータマネジメント成熟度アセスメントを実施していましたが、それから約一年半が経過し、データマネジメント上の課題が進捗 / 変化した箇所が出てきました。そこで、最近の成果を振り返りつつ今後のデータマネジメントの方針を改めて見直すため、データマネジメント成熟度アセスメントを再度行なうことにしました。本エントリではその内容についてまとめます。 前回のデータマネジメント成熟度アセスメントへの取り組み 今回のデータマネジメント成熟度アセスメントのやり方 成熟度アセスメントの実際の結果 前回実施時との差分が大きかった項目 データセキュリティ データ品質 メタデータ 優先度が高かったにも関わらずあまり進まなかった項目 まとめ 前回のデータ

                                            データマネジメント成熟度アセスメントを実施しました(2024年版) - 10X Product Blog
                                          • Terraformとdbtを活用してデータ基盤整備の生産性が向上した話

                                            はじめに 私が所属しているライフイズテックのデータ基盤グループで、ここ2年ほどでdbtとterraformを活用してDataOpsを進め、データ基盤の整備の生産性が向上した話をまとめます。 導入前の状況と課題 弊社のデータ基盤ではデータ基盤が綺麗に整備されていることよりも、プロダクトや事業に貢献できているかを重要と考え、まずデータを使える状態にすることを目指したサービスの導入や基盤構築を行いました。 考え方としてはこちらの DWHにおけるデータモデリングで大事にしている考え方に書かれている内容に近い考え方になります。 そのため、データモデリングの前にRedashやCRM AnalyticsというBIツール向けにデータレイクからデータマートを先に構築していました。 terraformとdbt導入前は、図のような流れで SQLでSnowflake上にDBやスキーマなどを作成 ELTサービスとし

                                              Terraformとdbtを活用してデータ基盤整備の生産性が向上した話
                                            • 【合格体験記】DB初心者が2か月でSnowPro Coreに合格した - Qiita

                                              はじめに 先日DB初心者(DWHですらない)から、2か月の勉強でSnowPro Coreを取得しました。 勉強にあたりやってよかったことなどをまとめておきます。資格取得記事は最近無限に生産されているので、あまり他では言及がなさそうなことを中心にしようと思います。 こんな方におすすめ SnowPro Coreに興味はあるが、実務経験がない データエンジニアリングを学んでみたいが、どこから手をつけるといいかわからない 簡単なバックグラウンドと経緯 Tableauによるクロス集計中心のデータ分析職(他業務も兼務)から、2023年2月にデータ分析基盤およびBIダッシュボード構築を行うデータアナリストに転職 前職では、ほぼ編集してはいけないテキストファイルのSQLを、あるフォルダに格納するとCSVでデータが抽出されるという謎環境だった エンジニアのいない組織だったので実務的には役立たなかったが、Da

                                                【合格体験記】DB初心者が2か月でSnowPro Coreに合格した - Qiita
                                              • チームのデータ基盤技術の審美眼を育てるために取り組んでいること - ann-toque’s diary

                                                前提と想定読者 本記事の私見以外の情報に関しては、一般に公開されている資料のリンク集のようになっています。 取り組んでいる内容は、私が現在勤務している会社に関連していますが、その詳細には触れません。 以下に類する方は参考になるかもしれません。 データエンジニアやBIエンジニアのように、データ基盤を構築しようとしている方 データアナリスト、データサイエンティスト、マーケッターなど、データ基盤を利用する方々で、なぜそのシステムが選ばれているのか考えられるようになりたい方 データエンジニアリングチームをマネジメントしており、チームメンバーのスキル向上のための教材を探している方 背景 WEB業界で新卒からデータエンジニアとしてキャリアをスタートし、現在はデータストラテジスト/BIエンジニアとして活動中のやすです。 現在、私は5-10名規模のチームをマネジメントしており、チームメンバーのほとんどは2

                                                  チームのデータ基盤技術の審美眼を育てるために取り組んでいること - ann-toque’s diary
                                                • 全社データ活用基盤をTreasureDataからBigQueryへ移行しました - Leverages データ戦略ブログ

                                                  はじめに こんにちは。データエンジニアリンググループの森下です。今回は、私がプロジェクトマネージャーとして約3年間かけて実施した、TreasureDataからBigQueryへの全社データ活用基盤移行プロジェクトについてお話します。このプロジェクトは、全社で1日あたり数千件のクエリが実行されるデータ基盤を移行するという大規模なもので、関係者の数は200〜300人に上りました。プロジェクト期間中は、データ活用基盤の技術調査から始まり、関係者への説明や調整、データ移行、クエリ移行、ETLやReverse ETLに使用する各種ツールの導入など、本当に多くのタスクがありました。 プロジェクト背景: TreasureData導入とその課題 TreasureData導入の背景 2024年時点ではGoogle BigQueryを使用していますが、その前の環境が導入された背景を説明します。 2018年12

                                                    全社データ活用基盤をTreasureDataからBigQueryへ移行しました - Leverages データ戦略ブログ
                                                  • コミュニティプラットフォームの投稿レコメンド機能を支える機械学習基盤 - Commune Engineer Blog

                                                    こんにちは,コミューンで一人目の機械学習(ML)エンジニアとして働いている柏木(@asteriam_fp)です. 入社して5ヶ月ほど経ちましたが,今回漸く最近の取り組みを紹介できそうです.ML エンジニアは僕一人なので,専らの相談相手は ChatGPT 君の今日この頃です笑 はじめに コミューンでは,企業とユーザーが融け合うコミュニティサクセスプラットフォームである commmune を提供しています.今回のブログは先日のプレスリリースでも発表された投稿レコメンド機能を commmune に導入したので,その機能を裏側で支えている機械学習基盤に関する内容を紹介します. エンドユーザーに対して提供される機械学習システムを導入するのは初めての試みになり,まさにゼロからの出発なので,これから徐々に大きく育てて行く予定です! はじめに コミュニティプラットフォームにおける機械学習の可能性 投稿レコ

                                                      コミュニティプラットフォームの投稿レコメンド機能を支える機械学習基盤 - Commune Engineer Blog
                                                    • vscode-dbt-power-userでdbtの開発やレビューを効率化する - yasuhisa's blog

                                                      背景 vscode-dbt-power-userがよかったところ 定義にさっと行ける / 戻れる(Go to definitionが使える) VSCode内でモデル間のリネージが見れる VSCode内からdbtのモデルをさっと実行できる モデルファイルの単独の実行も簡単 コンパイル済みのSQLファイルをさっとプレビューできる まとめ 補足: vscode-dbt-power-userの導入方法 背景 dbtは前職時代から含めると二年以上使っていて、SQLでDWHやデータマートの開発をしようと思うともはやこれなしでは生きられないくらいには便利になっている。dbtがあっても大変なクエリは大変ではあるが、大変さは大分緩和してくれる。dbtがなくて、1つのSQLが1000行以上あり、中間クエリがテストもされていない、という状況はもう戻りたくない...。 dbtに限らずであるが、コードは書いていると

                                                        vscode-dbt-power-userでdbtの開発やレビューを効率化する - yasuhisa's blog
                                                      • DWH改善に生かす! 入門elementary - yasuhisa's blog

                                                        前提: これは何? dbtを使ったデータプロダクトを作っている社内のチームメンバー向けに書いた勉強会用のドキュメントです 社外に公開できるように少し抽象化して書いてます DWHに限らずdbtを使ったデータプロダクトで生かせる話ですが、分かりやすさのためにDWHを題材にしています 3行まとめ elementaryはdbtを利用しているデータパイプラインに対してData Observabilityを強化するツールであり、付属のリッチなレポートやSlachへのアラート通知が便利です しかし、実はelementaryが内部で生成している成果物はDWHの改善に役に立つものがたくさんあります 本エントリではelementaryの成果物や役に立つ実例を多めに紹介します 前提: これは何? 3行まとめ 背景: DWHとデータ品質 Observability / Data Observabilityについて

                                                          DWH改善に生かす! 入門elementary - yasuhisa's blog
                                                        • みなさん、データのメタデータ管理ってどうやってますか? #datatech-jp レポート|よしむら@データマネジメント担当

                                                          メタデータの価値と意義データ基盤作ってもメタデータがないと必要なデータを発見するのは難しい。 テーブルの物理名とデータの中身だけでは想像はできるけど、意外とわからない。 また、データ自体の意味以外にも制約条件とか利用者情報などがあり、そういうメタデータを整備することでデータ活用ができる。 メタデータの種類システム基礎系:DDLとか ビジネス系:活用方法 関連性:リネージやER図 統制系:品質情報 セキュリティ情報:アクセス権限情報 システム運用系:ジョブ実行ログ ソーシャル系:利用者のレビューやアクセス頻度 メタデータの管理とデータカタログメタデータを管理するためのツールとしてはデータカタログがある。 データカタログは銀の弾丸だと思われがちで、いいデータカタログがあればだれもが使ってデータ利活用が進むと思われがちだが… 実際データカタログを入れたところで、メタデータは入力されずカタログ・ゴ

                                                            みなさん、データのメタデータ管理ってどうやってますか? #datatech-jp レポート|よしむら@データマネジメント担当
                                                          • データ活用社会で活躍するための、非エンジニアのデータエンジニアリングスキル育成のヒント | gihyo.jp

                                                            ※ちなみに①の状況で、データの統制にはdbtやLookerのLookMLなど、リソースの競合にはDWHのチューニングやシステム変更など、技術面の対応も重要な解決策になりますが、本稿ではその側面は割愛します。 これらの①~③のあり方に共通するのは、データ分析基盤を構築するデータエンジニアと、基盤を利用する非エンジニアで連携が取れていないことです。そしてこの間を埋めるものとして、データエンジニアリングスキルがあると考えています。 より理解を深めるために、いくつか職種を取り上げて、それぞれがよく陥る問題と、スキルがあることでどういった取り組みができるかを整理してみます。 職種別にデータエンジニアリングスキルの価値を考える 例1)データアナリスト まずは、データエンジニアと最も近い関係で業務をすることの多い、データアナリストです。データエンジニアリングに関連してデータアナリストがしばしば抱える問題

                                                              データ活用社会で活躍するための、非エンジニアのデータエンジニアリングスキル育成のヒント | gihyo.jp
                                                            • 1ヶ月でSnowflakeのPoC検証から報告までを実現した効率化の取り組み - ぐるなびをちょっと良くするエンジニアブログ

                                                              こんにちは。データ・AI戦略部 SREチームの小野です。2020年8月に入社してから早3年。SREエンジニアとして、日々業務改善に励んでいます。 私の所属するデータ・AI戦略部は、クラウドやSaaSの活用を積極的に行っています。私自身も「業務に役立ちそうなサービス」を見つけたら上長に相談するようにしています。 今回は、「1ヶ月でSnowflakeのPoC検証から導入提案まで行った話」をお伝えしたいと思います。ちなみにこのブログの執筆時点では、Snowflakeの導入はまだ実現していません。 <書くこと> 「PoC検証の取り組み方から提案までの手法」を中心に執筆します。今後ChatGPTのような技術革新がますます活発化した時、新しいサービスの検証や提案を「より高品質」に「よりスピーディ」に行うことが必要になってくると思います。そういったニーズの参考になれば幸いです。 <書かないこと> Sno

                                                                1ヶ月でSnowflakeのPoC検証から報告までを実現した効率化の取り組み - ぐるなびをちょっと良くするエンジニアブログ
                                                              • ディメンショナルモデリングに入門しよう!Snowflakeとdbt Cloudで「Building a Kimball dimensional model with dbt」をやってみた | DevelopersIO

                                                                ディメンショナルモデリングに入門しよう!Snowflakeとdbt Cloudで「Building a Kimball dimensional model with dbt」をやってみた さがらです。 ここ2年ほどの間にdbtが日本でも急速に拡大し、様々な情報が日本語の記事でも見かけられるようになってきました。 dbtを採用してある程度活用を進めていくと、「より効率よくガバナンスを持ってデータを管理するにはどうすればいいんだろうか」といったデータの管理方法に悩む場面が出てくると思います。 そんなときに色々調べていくと、データを効率よく管理する手法として「データモデリング」が必要だとわかり、ディメンショナルモデリングやData Vaultなどの手法に行き着くのではないでしょうか。 そしてこれらのデータモデリングの手法の内、ディメンショナルモデリングについてdbtを用いて実践された記事がありま

                                                                  ディメンショナルモデリングに入門しよう!Snowflakeとdbt Cloudで「Building a Kimball dimensional model with dbt」をやってみた | DevelopersIO
                                                                • AWS、Aurora MySQLとRedshiftをほぼリアルタイムに同期する「Amazon Aurora MySQL zero-ETL integration with Amazon Redshift」正式版に。追加料金なしで利用可能

                                                                  Amazon Web Services(AWS)は、Aurora MySQLとAmazon Redshiftのあいだでデータをほぼリアルタイムに同期する新サービス「Amazon Aurora MySQL zero-ETL integration with Amazon Redshift」(以下、zero-ETL)が正式版となったことを発表しました。 参考:[速報]Amazon AuroraのOLTPとRedshiftのDWHを統合する「Amazon Aurora zero-ETL integration with Amazon Redshift」発表。AWS re:Invent 2022 Amazon Auroraは高速なトランザクション処理を特徴とするリレーショナルデータベースであり、Amazon Redshiftは大規模データの高速分析を特徴とするデータウェアハウスのサービスです。ze

                                                                    AWS、Aurora MySQLとRedshiftをほぼリアルタイムに同期する「Amazon Aurora MySQL zero-ETL integration with Amazon Redshift」正式版に。追加料金なしで利用可能
                                                                  • dbtでCIを実現するために、Github ActionsでAWSのVPC越えしたい。 - KAYAC engineers' blog

                                                                    この記事はTech KAYAC Advent Calendar 2023の8日目の記事です。 こんにちわ。その他事業部SREチームの@mashiikeです。 最近、風変わりな記事を連投しているのですが、今回も風変わりです。 ひとことで要約すると、 私は!Github Actionsから!Redshiftにアクセスしたいんだ!!! です。 TL;DR dbtのCIを実現したい。ローカルのunit-testはできてるんだが、Github ActionsからRedshiftへのアクセスに難がある。 Github ActionsからRedshiftにアクセスするために頑張ってみた。 kayac/ecspressoで踏み台となるECS Taskを立ち上げる。 fujiwara/ecstaでportforwardingする。 mashiike/redshift-credentials で一時認証情報を

                                                                      dbtでCIを実現するために、Github ActionsでAWSのVPC越えしたい。 - KAYAC engineers' blog
                                                                    • ディメンショナルモデリング勉強会を実施しました - 10X Product Blog

                                                                      データ基盤チームに所属しているデータエンジニアの吉田(id:syou6162)です。10X社内のデータマネジメントの仕事をしています。 最近、社内でディメンショナルモデリング勉強会を行なったですが、なぜ勉強会を行なったのか、どのように行なったのか、勉強会を行なった結果何が得られたかについてまとめます。 ディメンショナルモデリング勉強会開催の背景 勉強会の進め方やスコープ 勉強会の参加者 勉強会で学んだ内容 Four-Step Dimensional Design Process キーの設計について 複数スタースキーマを適切に利用し、ファントラップを避ける コンフォームドディメンション まとめ: 勉強会で得られたもの ディメンショナルモデリング勉強会開催の背景 前回のエントリにまとめた通り、10Xのデータマネジメントの課題の中でも「データウェアハウジングとビジネスインテリジェンス」は優先度が

                                                                        ディメンショナルモデリング勉強会を実施しました - 10X Product Blog
                                                                      • 最近のデータカタログの各種機能の有無を確認してみた(2024年4月時点) | DevelopersIO

                                                                        さがらです。 ここ1~2年は新しい製品のリリースが落ち着いてきた印象ですが、Modern Data Stack界隈ではたくさんのデータカタログ製品が存在しています。 私も2年くらい前に色々触って調査したものの、この2年間での各製品のアップデートが凄まじく「どの製品がどの機能を持っているんだっけ…?」と知識が怪しくなってきてしまっている状況です。 そこで、今回改めて各製品の公式ドキュメントをベースに、最近のデータカタログの各種機能の有無を確認してみたので、本記事でまとめてみます。 ※注意事項:各製品のアップデートのスピードは本当に早いため、半年も経てば現時点で出来ていなかったことが出来ているようになっている可能性が高いです。最新の情報はご自身で確認の上、本記事は参考程度にご利用ください。 比較対象のデータカタログ 比較対象としては、以下のデータカタログを比較します。 SaaS Atlan S

                                                                          最近のデータカタログの各種機能の有無を確認してみた(2024年4月時点) | DevelopersIO
                                                                        • 私たちはなぜNewSQLを使うのかTiDB選定5社が語る選定理由と活用LT【イベントレポート】 - Findy Tools

                                                                          公開日 2024/05/24更新日 2024/05/24私たちはなぜNewSQLを使うのかTiDB選定5社が語る選定理由と活用LT【イベントレポート】 近年データベースが急速に進化し、開発にも大きな影響を与えています。そこでファインディでは「私たちはなぜNewSQLを使うのか TiDBを選定・導入した5社が語る選定と活用」と題したイベントを開催。PingCAPの日下さん、LINEヤフーの佐伯さん、アイスタイルの鈴木さん、DMM .comのpospomeさん、コロプラの曽我さん、さくらインターネットの江草さんをお招きし、NewSQLの一つである TiDBについて語っていただきました。 ■パネリスト 日下 太智さん / @ksk_tic PingCAP株式会社 プロダクトマネージャー / シニアソリューションアーキテクト SIerにて国内外問わずEC/小売/製造/サービス/メディア/出版など様

                                                                            私たちはなぜNewSQLを使うのかTiDB選定5社が語る選定理由と活用LT【イベントレポート】 - Findy Tools
                                                                          • 「未来の“当たり前”を作る」セキュリティ・SREのスペシャリスト星北斗が今、LayerXを選ぶ理由|LayerX

                                                                            2024年1月1日。LayerXにまた、新たな仲間が加わりました。クックパッド株式会社でセキュリティエンジニア、SRE (Site Reliability Engineer) として経験を積み、技術本部長を経て2020年にグローバル本社(イギリス)に出向。コーポレートエンジニアリングを中心に海外でのマネジメントを経験したのち、CTO/CISOを務めた星北斗(ほし・ほくと)。 人生で初めての転職先がなぜLayerXだったのか。肩書きでキャリアが作られるわけではないと話す彼のこれまでの歩みと、LayerXで成し遂げたいことを聞きました。 アルバイトから社員へ。クックパッドで培ったエンジニアとしてのキャリア——これまでのキャリアからお伺いしたいのですが、アルバイトを経てそのままクックパッドに入社されたのですよね。 大学3年生のときにアルバイトとして入ったのが最初です。あるとき研究室の先輩から「こ

                                                                              「未来の“当たり前”を作る」セキュリティ・SREのスペシャリスト星北斗が今、LayerXを選ぶ理由|LayerX
                                                                            • dbtのモデルとTableau上で使われているWorkbookの依存関係をexposureで表現して、データ管理を効率的に行なおう - yasuhisa's blog

                                                                              3行まとめ dbtのジョブが失敗した際やテーブルの廃止検討の際に、BI上のどのダッシュボードで利用されている(データリネージ)か知るのは重要です TableauのGraphQLのAPIからWorkbookとBigQuery上のモデルの埋め込みの関係を知ることができます dbtのモデルとTableau上で使われているWorkbookの依存関係をexposureとして出力するスクリプトにより、dbtのジョブの失敗やテーブルの廃止がTableauのダッシュボードに与える影響などを調べやすくなりました 3行まとめ 背景 課題: dbtのexposureとしてダッシュボードを手動で記入し続けるのは難しい 解決方法: TableauのGraphQLのAPIを使い、 dbtのexposureを自動生成する 発展的話題 背景 業務において、DWHやデータマートの生成にdbtを、BIツールとしてTablea

                                                                                dbtのモデルとTableau上で使われているWorkbookの依存関係をexposureで表現して、データ管理を効率的に行なおう - yasuhisa's blog
                                                                              • 【開催報告】AWSで実践!Analytics Modernization ~事例祭り編~ | Amazon Web Services

                                                                                Amazon Web Services ブログ 【開催報告】AWSで実践!Analytics Modernization ~事例祭り編~ 2023 年 5 月 18 日に「AWS で実践! Analytics Modernization ~事例祭り編~」を開催しました。今回の事例祭りでは AWS の Analytics サービスをご利用いただいている ミーク株式会社様、ニッセイ情報テクノロジー株式会社様、 ビットバンク株式会社 様、株式会社 Gunosy Gunosy Tech Lab DR&MLOps 様、にご登壇いただきました。本ブログでは当日の各発表内容を紹介いたします。 Amazon OpenSearch Serverless のご紹介 アマゾン ウェブ サービス ジャパン合同会社 ソリューションアーキテクト 深見 修平 資料ダウンロード AWS の深見からは 2023 年 2 月

                                                                                  【開催報告】AWSで実践!Analytics Modernization ~事例祭り編~ | Amazon Web Services
                                                                                • 分析基盤のテーブルと連携方式|zono

                                                                                  分析基盤においては様々な連携手法があります。 これは、データ量が多いか少ないか、データソースが最新か履歴か、によって変わってきます。 今回は、連携手法を紹介しながら、その連携に必要なテーブルの特徴について話したいと思います。 連携元と連携先のテーブル連携元のテーブルは、最新テーブルになっている場合も履歴テーブル(インサートオンリー)の場合もあります。これはアプリ側の仕様によって異なります。多くの場合は、UPDATEができて、データ量が少なくなる最新テーブルになります。 基本的に連携先のテーブル(データレイクやレイクハウス)は、履歴テーブルになっています。これは、分析する上で時系列データを扱えたり、集計時に多くのデータを扱えることができるためです。 最新テーブルや履歴テーブルの作り方や必要なカラムについての詳細は下記の記事をご覧下さい。 連携方式全件連携全件連携とは、データソースから全てのデ

                                                                                    分析基盤のテーブルと連携方式|zono