並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 528件

新着順 人気順

dbtの検索結果1 - 40 件 / 528件

  • デジタル庁のデータ分析基盤「sukuna」|デジタル庁

    はじめまして。デジタル庁ファクト&データユニット所属、データエンジニアの長谷川です。 本記事ではデジタル庁内でデータ活用を推進するための組織と分析基盤についてご紹介します。 これまでのデジタル庁noteと比べると、技術寄りの話題が多い記事となりますが、庁内のデータ活用に興味のある方はぜひご覧ください。 デジタル庁のデータ活用組織「ファクト&データユニット」ファクト&データユニットとはデジタル庁の特徴の一つに、デジタル分野において各種の専門性をもつ「民間専門人材」が多く所属していることが挙げられます。 民間の専門人材は、デザイン、プロダクトマネジメント、エンジニアリングなど、領域ごとに「ユニット」と呼ばれる組織を構成しており(参考:デジタル庁 - 組織情報)、必要に応じてさまざまなプロジェクトにアサインされて業務を遂行する、人材プールのような役割を果たしています。 ファクト&データユニットも

      デジタル庁のデータ分析基盤「sukuna」|デジタル庁
    • データエンジニア道の俺のバイブル

      先人の知恵に学ぶ データエンジニア道で、本当に良かった!読み物を、不定期に追記していく。 A Beginner’s Guide to Data Engineering — Part I データエンジニアをこれから始める人に、必ず薦める記事。データエンジニアの基本を学べるかつ、どういう世界に広がっていくのかまで、一気に学べるのでとても良い。 Functional Data Engineering — a modern paradigm for batch data processing 関数型パラダイムを使ったデータパイプラインの構築方法。これを初めて読んだ時の衝撃は今でも忘れないし、フルスクラッチからdbtを使ったデータパイプラインになっても健在な設計手法。 Engineers Shouldn’t Write ETL: A Guide to Building a High Function

        データエンジニア道の俺のバイブル
      • モデリングはキラキラ技術より地味だが役に立つ / modeling-over-shiny-tech

        # Event データモデリングとデータ基盤の構築・運用 (第14回ちゅらコラボ)CARTA HOLDINGS x ちゅらデータ 合同イベント https://churadata.connpass.com/event/254417/ ぼくのかんがえる最高のレポーティング基盤 https://speakerdeck.com/pei0804/hokufalsekankaeruzui-gao-falserehoteinkuji-pan-at-awsdeshi-jian-analytics-modernization ディメンションモデリングモデリング https://zenn.dev/pei0804/articles/dimensional-modeling スタースキーマ https://zenn.dev/pei0804/articles/star-schema-design コンフォ

          モデリングはキラキラ技術より地味だが役に立つ / modeling-over-shiny-tech
        • Modern Data Stack / モダンデータスタックというトレンドについて - satoshihirose.log

          はじめに Modern Data Stack ? Modern Data Stack の特徴やメリット、関連するトレンド データインフラのクラウドサービス化 / Data infrastructure as a service データ連携サービスの発展 ELT! ELT! ELT! Reverse ETL テンプレート化された SQL and YAML などによるデータの管理 セマンティックレイヤーの凋落と Headless BI 計算フレームワーク (Computation Frameworks) 分析プロセスの民主化、データガバナンスとデータメッシュの試み プロダクト組み込み用データサービス リアルタイム Analytics Engineer の登場 各社ファウンダーが考える Modern Data Stack さいごに Further Readings はじめに Modern Dat

            Modern Data Stack / モダンデータスタックというトレンドについて - satoshihirose.log
          • データ分析基盤まとめ(随時更新)

            はじめに データ分析基盤の資料を力尽きるまで追記していきます。 構成図にあるアイコンや記事の内容から技術要素を調べて記載していますが、不明分は未記載にしています。修正のコメント頂ければ助かります。 あと、この記事追加してっていう要望も歓迎いたします。 テンプレート 記事公開日 : 会社名(サービス名) データソース : データ処理 : アウトプット : 画像 URL 2025年 2024/03/14 : 株式会社エス・エム・エス(カイポケ) データソース : Amazon Aurora データ処理 : Datastream、BigQuery、dbt アウトプット : Looker Studio 2024/03/12 : 株式会社マイナビ データソース : SQL Server、Amazon S3 データ処理 : Embulk、Amazon MWAA、Apache Airflow、Snowf

              データ分析基盤まとめ(随時更新)
            • 分散データシステム入門の決定版『データ指向アプリケーションデザイン』をたった30分で学んでみた #DataEngineeringStudy | DevelopersIO

              基調講演「30分でわかるデータ指向アプリケーションデザイン」 ・ スピーカー 斉藤 太郎氏  Twitter:@taroleo / Github:@xerial Principal Software Engineer , Treasure Data 東京大学理学部情報科学科卒。情報理工学 Ph.D。データベース、大規模ゲノムデータ処理の研究に従事。その後、スタートアップであるTreasure Dataに加わり、アメリカ、シリコンバレーを拠点に活動中。日本データベース学会上林奨励賞受賞。OSSを中心にプログラミングやデータ処理を簡単にするためのプロダクトを作成している。 「30分でわかるデータ指向アプリケーションデザイン」最新の論文にも触れながら、分散データシステムの世界の魅力を伝えていきます。後半、@tagomoris https://t.co/TQ2TnsFIOT… — Taro L.

                分散データシステム入門の決定版『データ指向アプリケーションデザイン』をたった30分で学んでみた #DataEngineeringStudy | DevelopersIO
              • なぜETLではなくELTが流行ってきたのか - Qiita

                概要 troccoの生みの親で、現プロダクト責任者をしている @hiro_koba_jp です。 troccoアドベントカレンダー2022の1記事目書いていきます!(みんなも参加してね) データ分析やデータエンジニアリングにおいてETL(Extract Transform Load)という言葉を耳にしたことがある方は多いのではないでしょうか? 一方、「ETLではなくELT(音楽グループではない)が主流になりつつある」といったような論調も増えてきました。 この記事では、ETLとELTの違いや、なぜELTにシフトしつつあるのか、この先どうなるのか(予想)について、私なりの見解を書いてみようと思います。 一昔前まではETLパターンが多かった Redshiftが登場した2013年頃、人々はデータレイク層はS3上で構築し、データウェアハウス層〜データマート層はRedshift上に組む人が多かったよう

                  なぜETLではなくELTが流行ってきたのか - Qiita
                • 市場価値のない無能が勢いでSES企業を辞めたのでご相談

                  追記(04/14)今時点で頂いているトラバもブコメもすべて目を通しました。 はてなの皆さん、増田の皆さんたくさんの反応ありがとうございます。 どうしたもんかと悩んでる状況の中で、エージェントの人に話してもあまりピンと来ない反応が返ってくるし、周りに相談出来る人もいないしで、かなり勇気づけられました。 とりあえず今時点で返せる分だけお返事返しておこうと思う。 フィヨルドブートキャンプやれば? 恥ずかしながらこんなサービスがあるのを知りませんでした。 今の状況では1000時間学習してから転職ってのは難しいんだけど、転職活動終えたら利用してみたいなという気持ち。 開発に夢見すぎ 自己評価低い その通り、かもしれない。 技術記事とか書いてアウトプットしてる同世代以下の優秀な技術者たち見てて、自分とのスキルギャップに絶望してたところだったんだ。 5年弱ぐらいローコードじゃなくて、コーディングで実務経

                    市場価値のない無能が勢いでSES企業を辞めたのでご相談
                  • SQLを使った監視でデータ基盤の品質を向上させる - MonotaRO Tech Blog

                    こんにちは、データ基盤グループの吉田(id:syou6162)です。データ基盤グループでは安定してデータを利用できるように様々な取り組みを行なっています。本エントリでは、データ品質に問題がある場合にすぐに気付けるようにしたSQLによる監視の仕組みを紹介します。 背景 SQLを使った監視基盤の構築 実際の監視項目例 他チームがdailyで転送しているデータがバッチの失敗により遅れていないか BigQueryのエラーレートが急激に増加していないか 承認済みビューの設定が意図せず消えていないか 今後の展望 背景 データ基盤の運用をしていると、日々様々なトラブルと向き合う必要があります。例えば、以下のようなものがあります。 他チームがdailyで転送しているデータがバッチの失敗により遅れている TerraformなどのIaCで承認済みビューの権限管理を行なっているが、コードの設定ミスで意図せぬ状態

                      SQLを使った監視でデータ基盤の品質を向上させる - MonotaRO Tech Blog
                    • [レポート]みんなの考えた最強のデータアーキテクチャ #datatechjp | DevelopersIO

                      さがらです。 11月8日20時~22時に、datatech-jp(データエンジニアリング関係のコミュニティ)主催でみんなの考えた最強のデータアーキテクチャというイベントが開催されました。 本記事はこのイベントのレポートブログとなります。 イベント概要 ※connpassより引用 datatech-jpで集ったデータエンジニアが、それぞれみんなの考えた最強のデータアーキテクチャを紹介し合うという夢のような企画が実現しました! たくさんの新しいプロダクトが群雄割拠する現在、モダンデータスタックなどという言葉も登場しています。 今こそ、どんなプロダクトを選び、どのようなデータ基盤を作れば、効率的にやりたいことが実現できるのか。 5人の猛者からおすすめの構成をご紹介いただきながら、参加者のみなさんとも一緒に考えていく時間としたいと思います。 おまけ:当イベントの応募者数 このイベントですが、なんと

                        [レポート]みんなの考えた最強のデータアーキテクチャ #datatechjp | DevelopersIO
                      • dbtで見やすいER図を生成する - yasuhisa's blog

                        背景: dbtを使っていてもER図は欲しい! どうやってER図を生成するか どうやってER図を見やすくするか まとめ 背景: dbtを使っていてもER図は欲しい! dbtはモデル間のリネージなど可視化が得意なツールではありますが、万能なわけではありません。モデルの生成過程などはリネージで担保できますが、分析時に「どれとどのモデルがJOINできて、JOINする際のキーはこれを使って」というER図で扱うような可視化はディフォルトではできません。 DWHを作っている側からすると「このテーブルはあの辺のテーブルと一緒に使うと便利で、いつもあのキーでJOINして」というのが頭の中に入っていることが多いため、ER図がなくてもどうにかなることも多いでしょう。しかし、分析に慣れていない人や分析に慣れている人であっても、普段と異なるドメインのテーブルを触るときはER図が提供してくれる情報は有用です。ちなみに

                          dbtで見やすいER図を生成する - yasuhisa's blog
                        • 保守性と生産性を両立する分析用SQL構造化の4原則 〜 構造化プログラミングの考え方をSQLに適用する

                          ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。Yahoo!広告のデータマーケティングソリューション(以下、DMS)を開発しているデータアナリストの薄田です。 みなさんは、中間テーブル同士が複雑に絡み合い変更しようにも影響範囲を推定できず、手がつけられない分析パイプラインの保守で苦労された経験はないでしょうか? 私のチームでは数千行におよぶ分析用SQLをリファクタリングして、保守性と生産性を両立する分析パイプラインに生まれ変わらせることができました。 この記事ではリファクタリングを通して確立した、分析用SQLを構造化するための4原則を紹介します。4原則を意識しながらSQLを書くことで、高凝集・疎結合な分析パイプラインを作ることができます。 この記事では凝集度と結合度

                            保守性と生産性を両立する分析用SQL構造化の4原則 〜 構造化プログラミングの考え方をSQLに適用する
                          • 300万テーブルのデータ流通を支えるエンジニアリング #GoogleCloud #GoogleCloudDay / 20230523

                            テクノロジーカンファレンス「Google Cloud Day ’23 Tour in TOKYO」の登壇資料です。詳細は当社ニュースをご参照ください。 https://kazaneya.com/5a50c1c1bb7b42f1bd9eb7b35d813ba1 --- スモールチームで 300 万テーブル規模のデータ基盤を構築・運用し、社内・社外にデータを提供しています。スケーラブルな仕組みやデータ流通を実現するヒントになればと思います。 具体的には - BigQuery へのマイグレーション - dbt によるデータモデリング - IAM や AnalyticsHub によるデータ共有 - BigQueryML による異常検知 - CS 活動におけるデータ活用 といったテーマを扱います。 ---------------------------------------------------

                              300万テーブルのデータ流通を支えるエンジニアリング #GoogleCloud #GoogleCloudDay / 20230523
                            • 突撃!隣の自宅作業環境 Gunosy 2022 - Gunosy Tech Blog

                              はじめに こんにちは、 Gunosy Tech Lab 所属の m-hamashita です。僕はほとんど全てのエンジニアブログのレビューに参加しているのですが、アドベントカレンダーの時期は大変ですね。 この記事は Gunosy Advent Calendar 2022 の 12 日目の記事です。 11 日目の記事は楠さんの dbt snapshot から学ぶ Slowly Changing Dimension でした。 Slowly Changing Dimension についてわかりやすく書かれている記事でとても面白かったです。 コロナ渦になって、そろそろ 3 年になろうとしており、各社では出社しているところも増えてきていると聞いていますが、皆さんの会社はどうでしょうか? 弊社はまだまだリモートワークが主流で、自分も気が向いたときだけ出社することが多いです。 今回は弊社で恒例になりつつ

                                突撃!隣の自宅作業環境 Gunosy 2022 - Gunosy Tech Blog
                              • ビジネスとエンジニアリングをつなぐ「アナリティクスエンジニア」とは。リクルートが“価値あるデータ整備”のための新たな職種に着目した理由 - はてなニュース

                                世間でデータの利活用やDX(デジタルトランスフォーメーション)の手法が盛んに議論される一方、データの利活用環境やそれを整備するデータ組織・人材について「理想と現実のギャップ」に苦しむ企業は少なくないでしょう。 そうした企業にとって、事業で得られたデータをスピーディーな意思決定につなげたり、そのプロセスを牽引する人材を育成したりすることは、喫緊の課題であるように思います。 データを活用してカスタマー・クライアント双方の「不の解消」を目指すリクルートも例外ではなく、これまでさまざまな課題に直面してきました。そんな中、同社のデータ推進室では2022年、「データに基づく意思決定の実現」を目標に、D3M(Data Driven Decision Making)部を設立。高精度な意思決定を実現すべく、高品質なデータを提供するアナリティクスエンジニアという職種を導入しました。 一般的に、アナリティクスエ

                                  ビジネスとエンジニアリングをつなぐ「アナリティクスエンジニア」とは。リクルートが“価値あるデータ整備”のための新たな職種に着目した理由 - はてなニュース
                                • データ基盤の管理に役立つ監視用のSQLを紹介します - 10X Product Blog

                                  Analytics Engineerの吉田(id:syou6162)です。BigQueryを中心に10X社内のデータ関連の管理をしています。10Xに入社してそろそろ一年になろうかとしていますが、データ基盤を適切に管理 / 運用するためにSQLによる監視を少しずつ取り入れています。この記事では、具体的にどのようなSQLを書いて監視しているのか紹介したいと思います。 なお、SQLを使ったデータ基盤の監視自体については私の前職のTech Blogで詳細に書いていますので、そちらを参照してください。 SQLを使った監視でデータ基盤の品質を向上させる - MonotaRO Tech Blog データ管理に役立つメタデータに関する勉強会を社内外で開催しました - MonotaRO Tech Blog 本エントリはこれをベースに「dbtをフルに活用している10Xの環境向けに入れた監視」や「BigQuer

                                    データ基盤の管理に役立つ監視用のSQLを紹介します - 10X Product Blog
                                  • AWSを退職してYuimediに入社します

                                    こんにちは。@watildeです。 世界で一人目となるDeveloper Relations Engineer(Mobile)として1年半ほど在籍したAWSを3/31にて退職をして、4月より世界で医療データの利活用を広く推進するYuimediへの入社をすることとなりました。AWS在籍中は@akitsukadaをはじめとする、多くの同僚に温かいご支援を頂いて成果を共創できたことを嬉しく思います。 本日にてAWSを退職しました、お世話になりました!これからのお話はブログにてまた書こうと思いますが、ひとまずご挨拶まで。 pic.twitter.com/lbaapJFwvi — Daijiro Wachi (@watilde) March 30, 2022 この記事では、過去・現在・未来の軸で 1) 何をしてきたのか 2) 今月から何を行うのか 3) 今後は何を目指すのか について共有して関係者、

                                      AWSを退職してYuimediに入社します
                                    • 高性能分散SQLエンジン「Trino」最速ガイド - NTT Communications Engineers' Blog

                                      こんにちは。なんの因果かNTTコミュニケーションズのエバンジェリストをやっている西塚です。 この記事は、NTT Communications Advent Calendar 2021 22日目の記事です。 5分でわかる「Trino」 「Trino」は、異なるデータソースに対しても高速でインタラクティブに分析ができる高性能分散SQLエンジンです。 以下の特徴を持っており、ビッグデータ分析を支える重要なOSS(オープンソースソフトウェア)の1つです。 SQL-on-Anything: Hadoopだけでなく従来のRDBMS(リレーショナルデータベース)やNoSQLまで、標準SQL(ANSI SQL)に準拠したアクセスをワンストップに提供 並列処理でビッグデータに対して容易にスケールアップ しかも高速(hiveの数十倍) Netflix, LinkedIn, Salesforce, Shopif

                                        高性能分散SQLエンジン「Trino」最速ガイド - NTT Communications Engineers' Blog
                                      • DWHにおけるデータモデリングで大事にしている考え方

                                        こんにちは。データエンジニアリングの支援を行っているstable株式会社の代表の宮﨑(@ikki_mz)です。弊社では、クライアント社内のデータウェアハウス(DWH)におけるデータモデリングをサポート...

                                          DWHにおけるデータモデリングで大事にしている考え方 
                                        • ネットスーパーにおける商品在庫データのアプリケーション構築事例

                                          テストの完了をゴールにしない! ~仮説検証を繰り返し、開発・QA・ユーザーが交流しながら開発することで見えてくる理想の姿~ - #RSGT2024 #DevSumi / Shift left and Shift right

                                            ネットスーパーにおける商品在庫データのアプリケーション構築事例
                                          • dbt導入によるデータマート整備 - ZOZO TECH BLOG

                                            はじめに こんにちは、ML・データ部推薦基盤ブロックの栁澤(@i_125)です。私はZOZOのデータ基盤におけるデータガバナンス強化を実現するために、Analytics Engineerとして複数の部門を跨ぐプロジェクトチームに参加しています。本記事ではZOZOにおけるデータガバナンス上の課題と、その課題の解決策の1つとしてdbtを導入した話をご紹介します。 目次 はじめに 目次 背景 課題 データマートの乱立 集計定義のばらつき 依存関係の洗い出しが困難 データモデリングツールの比較検討 データ変換に関する要件 データモデリングツールの選定 レイヤリングによる責務の分離 実装方針 今後の展望 dbtモデルを開発する上で工夫したこと 環境の分離 背景 工夫したこと ダミーデータセットの生成 背景 工夫したこと SQLFluffを使ったフォーマット統一 依存モデルを含むテスト dbt Doc

                                              dbt導入によるデータマート整備 - ZOZO TECH BLOG
                                            • データエンジニア / Analytics Engineer向けの権限管理のためのTerraform紹介 - yasuhisa's blog

                                              これは何? 背景: 権限管理とTerraform 権限管理の対象 誰に権限を付与するのか どのスコープで権限を付与するのか どの強さで権限を付与するのか Terraformについて Terraformの概要: 権限管理でTerraformを使うと何がうれしいのか 例: roles/bigquery.jobUserを付与してみる コラム: どこでTerraformを実行するか Terraformでの権限管理の例 例: データセットの作成 例: データセットに対する権限付与 サービスアカウントの管理 iam_member関連の注意点: AdditiveとAuthorativeを意識する Terraformで管理されていなかったリソースをTerraform管理下に置く: terraform import Terraformの登場人物 terraform planやterraform applyの

                                                データエンジニア / Analytics Engineer向けの権限管理のためのTerraform紹介 - yasuhisa's blog
                                              • dbtを導入して小規模チームでも運用可能なデータマネジメント体制を構築した話 - High Link テックブログ

                                                はじめに こんにちは。株式会社High Linkのデータユニットマネージャーの芦川 (@assy) です。 私たちのチームでは、データを強みとした事業価値創出を促進するために、データ基盤の整備やデータマネジメント、全社的なデータ利活用レベルの引き上げに取り組んでいます。 データマネジメントをしていると、「誰が作ったかわからない野良のテーブルが乱立している」ことや「BigQueryコンソール上でviewを定義してしまってコードレビューができない」さらには、「テーブル間の依存関係がわからず削除できない」といった課題にぶつかる方は多いんじゃないでしょうか。 私たちもまさにこのような問題に直面し、導入したのがdbtです。 今回は、dbtの導入に至る経緯や選定の理由、dbtをどう活用しているのかといった話を共有させて頂こうと思います。 私たちのようにデータマネジメントにがっつり人的リソースを割けない

                                                  dbtを導入して小規模チームでも運用可能なデータマネジメント体制を構築した話 - High Link テックブログ
                                                • Lookerライクな新興BIツールの比較検討

                                                  風音屋では、データエンジニア、データアナリスト、データコンサルタントを募集しています。 書籍執筆者やOSSコントリビューターなど、業界を代表する20名以上のアドバイザーと一緒にベストプラクティスを追求できる環境です。 ぜひカジュアルトークをお申し込みください。 はじめに こんにちは。廣瀬智史 (@satoshihirose) と申します。 Looker の LookML は便利ですよね。LookML はデータモデリングを抽象化してコードによる管理を可能にし、利便性を向上させました。 LookML については Google Cloud の LookMLの紹介 で次のように説明されています。 LookML は SQL データベース内のディメンション、集計、計算、データの関係を記述するための言語です。Looker は LookML で記述されたモデルを使用して、特定のデータベースに対する SQL

                                                    Lookerライクな新興BIツールの比較検討
                                                  • 派生先テーブルの参照回数も考慮して安全にテーブルを撤退する - yasuhisa's blog

                                                    3行まとめ テーブルの撤退時にはテーブルの参照回数を見ることが多いと思いますが、テーブル単独の参照回数を見るだけだと不十分なことが多いです 派生先のテーブルの参照回数まで考慮すると、テーブルが撤退できるか安全に判断することができます リネージ上の親子関係をWITH RECURSIVEで考慮しながら、累積参照回数をSQLで導出できるようにし、安全にテーブル撤退を判断できるようにしました 3行まとめ 背景: テーブルの撤退にはテーブル単独の参照回数を見るだけだと不十分 アイディア: 累積参照回数を計算する 実装 テーブル間の親子関係を抽出する WITH RECURSIVEでテーブルの親子関係を辿る テーブルの親子関係を考慮しながら、累積参照回数を計算する まとめ 背景: テーブルの撤退にはテーブル単独の参照回数を見るだけだと不十分 データエンジニアやアナリティクスエンジニアの仕事をしていると、

                                                      派生先テーブルの参照回数も考慮して安全にテーブルを撤退する - yasuhisa's blog
                                                    • Microsoftを忘れてはいけない

                                                      luttig's learningsより。 レドモンドの巨大さを理解することは、クラウドインフラ、スタートアップ戦略、そしてソフトウェアの未来について、貴重な教訓を私たちに教えてくれる。 By ジョン・ルティグ Microsoftは、その規模にもかかわらず、テクノロジー業界で最も見落とされている企業の1つである。 Apple、Facebook、Amazon、Googleのように消費者に愛されるブランドではない。 ベンチャーキャピタルのサクセスストーリーでもない。Microsoftは収益性が高すぎたため、実際のVC資金を調達できず、創業者らはIPO時に70%を所有していた。 FAMGAの中で最も古く、別の州にひっそりと存在している。 しかし、Microsoftには、見かけ以上のものがある。うまくやれば、Microsoftは最初の10兆ドルT企業になることができる。そして、スタートアップの創業

                                                        Microsoftを忘れてはいけない
                                                      • ぼくのかんがえる最高のレポーティング基盤 @AWSで実践!Analytics modernization

                                                        VOYAGE GROUP Zucks DSPレポーティング基盤をどのようにして作ったかの話。 https://pages.awscloud.com/JAPAN-event-OE-20210624-AnalyticsModernization-reg-event.html ディメンションモデリング https://zenn.dev/pei0804/articles/dimensional-modeling スタースキーマ(基礎) https://zenn.dev/pei0804/articles/star-schema-design 複数スタースキーマ https://zenn.dev/pei0804/articles/multiple-star-schema ファン・トラップ https://zenn.dev/pei0804/articles/datawarehouse-fan-trap

                                                          ぼくのかんがえる最高のレポーティング基盤 @AWSで実践!Analytics modernization
                                                        • データマネジメント・データ分析に役立つ情報をまとめる - Qiita

                                                          これは何 データマネジメント・データ分析に関する書籍・記事・ツールをまとめます。 特に価値が高いと思う書籍・記事を上に並べています。 どのような分野が存在するのか概観します。 全て読むのは大変なので、興味があったり業務に関連のある分野から目を通しましょう。 対象読者 データ分析をやってみたいが何から手をつければいいのかわからない人 書籍 webに転がっている記事は断片的です。 まずは書籍を読んで体系だった知識を仕入れて、その後にwebの記事で肉付けするのをおすすめします。 データ分析全般 データ解析の実務プロセス入門 https://www.amazon.co.jp/dp/4627817711/ データマネジメント データマネジメントが30分でわかる本 https://www.amazon.co.jp/dp/B085W4YSZJ 実践的データ基盤への処方箋 https://www.amaz

                                                            データマネジメント・データ分析に役立つ情報をまとめる - Qiita
                                                          • 面倒なドキュメント生成はCIにやらせよう - Gunosy Tech Blog

                                                            こんにちは、koidです。 この記事は Gunosy Advent Calendar 2021 - Adventar の25日目の記事です。 昨日の記事は aitaさんの EKSにJupyterHubを構築した - Gunosy Tech Blog でした。 ドキュメントの更新って面倒だし忘れがち ドキュメントのメンテナンスを自動化しよう コードからドキュメントを自動生成する ツールの利用によるドキュメント生成 CIによるドキュメント生成の自動化 状態からドキュメントを自動生成する ツールの利用によるドキュメント生成 CIによるドキュメント生成の自動化 まとめ ドキュメントの更新って面倒だし忘れがち 本題です。 みなさん、Pull Requestのレビュー時に、 ドキュメント・READMEも修正お願いします! こういったコメントをした/された経験ってありませんか? コメントをする側としても

                                                              面倒なドキュメント生成はCIにやらせよう - Gunosy Tech Blog
                                                            • Databases in 2022: A Year in Review | OtterTune

                                                              OtterTune is an automated optimization service for PostgreSQL and MySQL running on Amazon RDS and Aurora. It uses machine learning to tune your database’s configuration knobs, indexes, and cloud settings. 🦦 Try it now on your first database for free! Another year has gone by, and I’m still alive. As such, it is an excellent time to reflect on what happened in the world of databases last year. It

                                                                Databases in 2022: A Year in Review | OtterTune
                                                              • SQL パイプライン開発に便利な Dataform 7つのお気に入りポイント - FLINTERS Engineer's Blog

                                                                こんにちは。河内です。 最近はデータ基盤の構築も取り組んでいたりします。 社内では他の DWH が使われている事例がありますが、今回の基盤ではデータソースとの親和性や価格面などを考慮し BigQuery で行くことにしました。 BigQuery 上で多くのデータを順次変換してデータを生成するために何らかのワークフローエンジンが必要でした。 社内の他のシステムではワークフローエンジンとして Digdag を採用している例が多いですが、このシステムでは Kubernetes 上でサービスを運用しているため、当初(2020年12月)は Argo Workflow 上でクエリを順次実行することを構想していました。構想中に Dataform が Google に買収され、無料で使えるようになったというニュースが飛び込んできたため、触って感触が良いことを確かめた後、Dataform を使っていくことに

                                                                  SQL パイプライン開発に便利な Dataform 7つのお気に入りポイント - FLINTERS Engineer's Blog
                                                                • リバースETLはデータパイプラインの何を変えるのか - satoshihirose.log

                                                                  はじめに リバース ETL という概念が提起されて、そのための SaaS も生まれており、面白いと思うので所感をまとめる。 Reverse ETL ? 自分が最初に Reverse ETL という言葉に触れたのは、Redpoint Ventures の Astasia Myers が 2021-02-23 に書いたこの記事だった。 Reverse ETL — A Primer. Data infrastructure has gone through an… | by Astasia Myers | Memory Leak | Medium 彼女はどんなものをリバース ETL と呼んでいるかというと Now teams are adopting yet another new approach, called “reverse ETL,” the process of moving dat

                                                                    リバースETLはデータパイプラインの何を変えるのか - satoshihirose.log
                                                                  • バクラク事業におけるデータ組織とデータ基盤 2023 - LayerX エンジニアブログ

                                                                    お世話になっております。LayerXの高際 @shun_tak と申します。現在は、データ分析組織の立ち上げに注力しています。 本記事では、バクラク事業におけるデータ組織とデータ基盤をテーマに取り扱います。データ分析における認知負荷や属人性を解消するための取り組みや、良質なデータを提供するためのデータ基盤の構築について、具体的な技術スタックを交えて解説し、最後に現在の課題と今後の展望について説明します。 また、この記事は 7月はLayerXエンジニアブログを活発にしよう月間 の2日目の記事になります。 1. データ組織について 1.1. チーム設立の背景 1.1.1. 多少間違ったクエリでも正しい意思決定ができれば、それはとても良いこと (余談コラム) 1.2. チーム構成 1.3. 業務内容 2. データ基盤について 2.1. データ基盤の構成 2.1.1. データソース 2.1.2.

                                                                      バクラク事業におけるデータ組織とデータ基盤 2023 - LayerX エンジニアブログ
                                                                    • スプレッドシートを活用して組織横断的にテーブル・カラムの説明文を入力した話 - High Link テックブログ

                                                                      こんにちは。株式会社High Link で業務委託として働いている、データエンジニアのikki(@ikki_mz)です。 私たちデータチームでは、「データの民主化」を推進しており、全社員がデータ利活用を行えるように、dbtを用いた分析基盤の整備に取り組んでいます。 tech.high-link.co.jp データの民主化を推進していくにあたり、テーブル・カラムの説明文は非常に重要な役割を占めます。テーブルやカラムが何を意味しているかの説明は、分析をする上ではとても重要です。 しかし、このテーブルやカラムの説明はなかなか厄介で、データベースを開発した開発エンジニアとコミュニケーションをとらないと、説明文を正確に書くことができません。 そこで私たちは、dbt・スプレッドシートを使って、テーブルやカラムの説明文の入力をするという、組織横断的なプロジェクトを実施しました。 背景と課題 dbt de

                                                                        スプレッドシートを活用して組織横断的にテーブル・カラムの説明文を入力した話 - High Link テックブログ
                                                                      • dbtで始めるデータパイプライン構築〜入門から実践〜

                                                                        事業会社においてBIやレポート用の分析を担当しているが以下のような状況に該当する人に向けたデータパイプライン構築の入門のための資料です 🧑🏻‍🦱「BigQuery等のView機能を活用しているが、データの流れを追うのが困難な状態になってしまっている、クエリの実行に時間がかかりBIツールが使いづらい」 👩🏻「専任のデータエンジニアがおらず、前処理をpython等で処理したりするのがリソース調整的に大変」 👱🏻‍♂️「ロードされたデータに重複があったり、過不足があったりしてデータの品質が担保できていない」 🧑🏻‍🦰「Digdagやluigiといったデータ変換ツールの独自の仕様を理解しきれておらず使いこなせていない」 ※現時点ではBigQueryを中心に記事を構成してあります、SnowflakeやAmazon Redshift等の様々な分析基盤でもdbtは対応可能です

                                                                          dbtで始めるデータパイプライン構築〜入門から実践〜
                                                                        • sqlfmtによって何を解決したいのか

                                                                          これは何 データ基盤の開発にsqlfmtを導入することについて考えてみたものです。 (チームにsqlfmtを導入するために書いてるものになります) sqlfmtによってどのような課題を解決したいのか 大きくはこれに集約されるかなと思います。 ではスタイル周りにある開発者生産性を阻害する要因とはどのようなものかというと: 読みづらいSQLによるバグの発見の遅れ ロジック周りには関係のない箇所のレビューをする必要性 SQLスタイルのスタンスの違いによる衝突 というものがあります。 これをsqlfmtならどう解決できるかを紹介します。 sqlfmtならどう解決できるか 読みづらいSQLによるバグの発見の遅れ これはそもそもformatterを導入していないことにより生じるものを想定しています。 やたらと長い一行、スペースの無い濃密な一行、揃わないインデント、無意味な改行...などにより、不用意に

                                                                            sqlfmtによって何を解決したいのか
                                                                          • dbtを触ってみた感想 - yasuhisa's blog

                                                                            データエンジニア系の勉強会で最近dbtがぱらぱらと話題に出てくるようになった & 4連休ということで、夏休みの自由研究がてらdbtを触ってみました。書いてる人のバックグラウンドは以下の通り。 DWHやデータマートの構築のためのETLツールを模索中(特にTの部分) プライベートではDataformを使っている 前職でも仕事の一部で使っていた 開発効率を計測するデータ基盤の管理にDataformを使ってみた - yasuhisa's blog 定期バッチ処理はArgo Workflows on GKEでやっている 触ってみないと肌感とか自分で運用できるかのイメージが湧かないのでね。 Dataformとの比較 細かいノウハウ 手元や本番環境での動作 Argo Workflowとの連携 環境によってDWHの提供するバージョンを差し替える DWHやデータマートの外の情報をデータリネージに加える 既存

                                                                              dbtを触ってみた感想 - yasuhisa's blog
                                                                            • データカタログ特集 データ利活用に向けたアーキテクチャ6選 - Findy Tools

                                                                              整備したデータ基盤を、事業部や会社全体で活用に持っていく中で「データカタログ」の必要性が増々注目を集めています。 今回は、データカタログを導入し、データ利活用に挑んでいる6社に、アーキテクチャの工夫ポイントからデータカタログ導入によって得られた効果などを伺いました。 ◆目次 株式会社10X 株式会社ビットキー 株式会社エブリー 株式会社Luup Sansan株式会社 株式会社ZOZO 株式会社10X 事業内容 10Xでは「10xを創る」をミッションとし、小売向けECプラットフォーム「Stailer」の提供を通じて、スーパーやドラッグストア等のオンライン事業立ち上げ・運営支援を行っています。Stailerでは業務構築におけるコンサルティングから、必要な商品マスタやお客様アプリ・スタッフ向けのオペレーションシステム等の提供、配達システムの提供、販売促進の支援など、データを分析しながら一気通貫で

                                                                                データカタログ特集 データ利活用に向けたアーキテクチャ6選 - Findy Tools
                                                                              • dbtを使ったELTデータパイプライン構築と運用事例 - DataEngineeringStudy #13

                                                                                DataEngineeringStudy #13に10Xの瀧本が登壇した際の資料です。

                                                                                  dbtを使ったELTデータパイプライン構築と運用事例 - DataEngineeringStudy #13
                                                                                • 株式会社10Xにアナリティクスエンジニアとして入社しました - yasuhisa's blog

                                                                                  3行まとめ 9/15で株式会社MonotaROを退職し、9/16に株式会社10Xに入社しました アナリティクスエンジニアとして、相変らずデータマネジメントやデータエンジニアリングを中心に活動してます 引き続き京都で働いてますし、変わらずオンラインのコミュニティ活動もやっていく予定です 3行まとめ MonotaROはどうだったの? 10Xはどうなの? 入社のきっかけ 入社後の印象 データマネジメントどうなの? MonotaROはどうだったの? 自分のキャリアの中でデータエンジニアとしてMonotaROで働けたのは本当によい経験でした。MonotaROに入る前もデータエンジニアの仕事はしていたものの、社内でデータエンジニア専門として働く人は自分だけ*1だったため、踏み込んだ議論ができる機会はそれほどありませんでした。そのため「きっとこれは筋悪くないやり方のはずなんだけど、イマイチ自信が持てない

                                                                                    株式会社10Xにアナリティクスエンジニアとして入社しました - yasuhisa's blog