並び順

ブックマーク数

期間指定

  • から
  • まで

161 - 200 件 / 233件

新着順 人気順

データ基盤の検索結果161 - 200 件 / 233件

  • オンライン勉強会のリモート登壇とそれらを通して考えたこと - Sansan Tech Blog

    こんにちは。CTO室改めプロダクト戦略開発室*1の鈴木由香です。何度か本ブログにも寄稿していますが、テックブランディングにまつわる仕事をしています。*2 勉強会などを企画運営することも業務のひとつなのですが、2月後半からは COVID-19 の感染拡大を防ぐために全社でオフラインイベントの開催を自粛しています。*3 jp.corp-sansan.com 弊社主催のものだけでなく多くのイベントが中止や延期になっており、必要な判断とはいえ、参加予定だった方や主催者の方、そのほか会場やイベント会社の皆さんなど関係者の残念な気持ちを思うと苦しい気持ちになります。 しかし、一部内容を変更するなどしてオンラインで開催するイベントも見受けられます。短い期間で関係者一丸となって協力し合い、開催にこぎつけようとする明るいエネルギーはこちらにも活力を与えてくれます。 もともとはオフラインでの開催予定だったTE

      オンライン勉強会のリモート登壇とそれらを通して考えたこと - Sansan Tech Blog
    • あの人の自分戦略を聞きたい!2022 #devsumi / 20220218

      Developers Summit 2022【18-A-9】の発表資料です。 https://event.shoeisha.jp/devsumi/20220217/ 「あの人の自分戦略を聞きたい!2022」 https://event.shoeisha.jp/devsumi/20220217/session/3695/ 10年前のデブサミ2012でも大好評だった「あの人の自分戦略を聞きたい!」が帰ってきた! 今回は、デブサミ2022の企画を一緒に作り上げてきたデブサミコンテンツ委員会のみなさんに、キャリア戦略を語っていただきます。これからの10年の自分戦略を考えるヒントになれば幸いです! ---------------------------------------------------------------------------------------- 【PR】一緒に働きましょう

        あの人の自分戦略を聞きたい!2022 #devsumi / 20220218
      • 「DWH・BIツールのこれまでとこれから」Data Engineering Study #1イベントレポート | trocco®(トロッコ)

        データ基盤人材への需要が年々増えていることからも、企業のデータ活用はより注目を集めています。しかしゆずたそ氏によると、そこには「そもそもどのような基盤を作ればいいのか分からない」「基盤を作ったのに全然使われない」という2つの落とし穴があるそうです。そこで、実際に使われるデータ基盤の構築について、「使われるデータ基盤」構築の勘所を学ぶことをゴールに「なぜ作るのか(Why)」「どんな要素が必要なのか(What)」「どのように実現するのか(How)」の3つに分けて語られました。 ゆずたそ氏:「まずなぜ作るのか、この答えの1つは『お客様』のためです。特にレコメンドやAI活用が増えていく中でデータを活用すること自体が顧客の価値提供になっていきます。もう1つは『現場で働く人』のためです。しっかりとデータを見ながら現場の改善活動によって、業務が磨かれていきます。そして『経営』のためです。しっかり会社全体

          「DWH・BIツールのこれまでとこれから」Data Engineering Study #1イベントレポート | trocco®(トロッコ)
        • Airflowをソースコードから起動する

          風音屋では、データエンジニア、データアナリスト、データコンサルタントを募集しています。 書籍執筆者やOSSコントリビューターなど、業界を代表する20名以上のアドバイザーと一緒にベストプラクティスを追求できる環境です。 ぜひカジュアルトークをお申し込みください。 風音屋アドバイザーの渡部徹太郎(@fetarodc) です。 このブログではAirflowをソースコードから起動する方法を説明します。 ソースコードから起動できると、デバッガを刺してデバッグしたり、一部書き換えて動作を検証したりと、色々便利です。 環境 macOS BigSur(11.6.4) Python 3.9.7 virtualenv 20.7.2 Airflow 2.1.3 Docker 20.10.12 Airflowのインストール 作業ディレクトリの準備 作業するディレクトリを作成し、環境変数 WORK_DIR に登録し

            Airflowをソースコードから起動する
          • bq_sushi #17 にて、「Data Management by dbt」という発表をしました。

            bq_sushi #17 にて、「Data Management by dbt」という発表をしました。

              bq_sushi #17 にて、「Data Management by dbt」という発表をしました。
            • 話題のデータパイプラインツール「Dataform」でBigQueryにアクセスしたら何ができるのかを確かめてみた | DevelopersIO

              こんにちは。 データアナリティクス事業本部ソリューション部プリセールススペシャリストの兼本です。 当エントリは『クラスメソッド BigQuery Advent Calendar 2020』11日目のエントリです。 本アドベントカレンダーでは、12月01日から12月25日までの25日間、弊社DA(データアナリィクス)事業本部のメンバーがBigQueryに関連するブログを公開していきます。 クラスメソッド BigQuery Advent Calendar 2020 の記事一覧 | Developers.IO クラスメソッド BigQuery Advent Calendar 2020 - Qiita このエントリでは、2020年12月9日にGoogleによる買収のニュースが話題となったDataformでBigQueryのデータパイプラインを構築する手順についてご紹介します。 Dataformには

                話題のデータパイプラインツール「Dataform」でBigQueryにアクセスしたら何ができるのかを確かめてみた | DevelopersIO
              • データマネジメント・データエンジニアリング特化の「技術顧問」サービスを提供開始

                合同会社風音屋(本社:東京都中央区、代表社員:横山翔)は、データ活用やDX推進に関わる方々を対象に、データマネジメントやデータエンジニアリングに特化した「技術顧問」サービスの一般提供を開始します。 ■背景と目的 データ活用やDXが注目されている一方で、実際にプロジェクトを進めようとすると「必要なデータが入力されていない」「用途を実現できるほどデータ品質が高くない」「具体的にどのようにデータを連携するのか分からない」といった課題が次々と浮上します。 さらに、データ整備に投資をしても「コンサルティング会社や開発ベンダーに任せたがデータ更新が遅延してばかりで改善の兆しがない」「フリーランスのデータエンジニアにシステム構築をお願いしたが、作り逃げされてしまって、残されたシステムの運用に困っている」「内製エンジニア部隊を立ち上げたが、社内にスキルを評価できる管理職がいない」といった組織課題が次々と浮

                  データマネジメント・データエンジニアリング特化の「技術顧問」サービスを提供開始
                • Embulk & Digdag Online Meetup 2020|IT勉強会・イベントならTECH PLAY[テックプレイ]

                  概要 COVID-19の影響でキャンセルとなったEmbulk & Digdag Meetupですが、オンラインで実施することとなりました! Arm Treasure Dataが中心となって開発・提供をしているOSSプロダクトであるEmbulkとDigdagのMeetupを初開催します! Embulk/Digdagのオリジナル開発者である古橋(@frsyuki)や現在のコア開発チームも参加して、EmbulkとDigdagそれぞれの今後のロードマップについて発表します。 さらに、EmbulkとDigdagをプロダクション環境で利用しているZOZO TechnologiesとprimeNumber社の「troccoⓇ」開発チームの2社にも登壇いただき、EmbulkとDigdagの運用やプラグイン開発についてのディープなナレッジを共有します。 Youtube Live経由で配信します。https:

                    Embulk & Digdag Online Meetup 2020|IT勉強会・イベントならTECH PLAY[テックプレイ]
                  • dbt × SQLFluff を GitHub Actions で動かす時の情報漏洩リスクとその対策

                    風音屋では、データエンジニア、データアナリスト、データコンサルタントを募集しています。 書籍執筆者やOSSコントリビューターなど、業界を代表する20名以上のアドバイザーと一緒にベストプラクティスを追求できる環境です。 ぜひカジュアルトークをお申し込みください。 兼業データアナリストの星野(@mochigenmai)です。 今回 dbt を利用したデータパイプラインの開発時に、SQLFluff(Linter) を動作させる GitHub Actions を構築しました。 GitHub Actions で SQLFluff を動作させる手順は kazaneya/sqlfluff-dbt-starterkit に公開しているので、よかったら活用してみてください。 この記事では GitHub Actions の環境構築時に発覚した情報漏洩リスクの原因と対策を dbt compile の仕様と合わせ

                      dbt × SQLFluff を GitHub Actions で動かす時の情報漏洩リスクとその対策
                    • クラシルでのSnowflakeデータパイプラインのお話&活用Tips - dely Tech Blog

                      はじめに はじめまして。 クラシル開発部でデータエンジニアをしておりますharry(@gappy50)です。 この記事は dely Advent Calendar 2021 および Snowflake Advent Calendar 2021の9日目の記事です。 昨日はうっくんさんからのNotionでJiraを作ろう!というとても興味津々話でした!! やっぱりNotionは色々できるのでいいですね◎ それと私のお話で恐縮ですが、昨日はSnowflakeのイベントSnowdayにてクラシルでのSnowflakeを活用したニアリアルタイム分析の事例についてお話をさせていただきました。 www.snowflake.com 今回はSnowdayでお話した内容のデータエンジニア寄りな詳細と、どのようにSnowflake*1を活用しているかを紹介させていただきたいと思います! 最近のクラシルデータ基盤

                        クラシルでのSnowflakeデータパイプラインのお話&活用Tips - dely Tech Blog
                      • モダンデータスタック(Modern Data Stack)とは? データ統合の新しいトレンド

                        モダンデータスタック(Modern Data Stack)とは? データ統合の新しいトレンド:編集部コラム データ統合の分野でMDS(Modern Data Stack)というキーワードが注目を集めています。今までの技術とどんな違いがあるのでしょうか。

                          モダンデータスタック(Modern Data Stack)とは? データ統合の新しいトレンド
                        • バンダイナムコエンターテインメント、DeNA、リクルートテクノロジーズが語ったデータ基盤改革、「何を」「なぜ」「どのように」

                          バンダイナムコエンターテインメント、DeNA、リクルートテクノロジーズが語ったデータ基盤改革、「何を」「なぜ」「どのように」:Google Cloud Data Platform Dayで説明(1/2 ページ) バンダイナムコエンターテインメント、DeNA、リクルートテクノロジーズといった、データを武器にしていかなければならない企業は、データ分析基盤をどのように進化させているか。Google Cloudが2020年3月31日に開催したGoogle Cloud Data Platform Dayで3社が語った、それぞれのデータ基盤改革をお伝えする。 Google Cloudが2020年3月31日にオンライン開催したGoogle Cloud Data Platform Dayでは、バンダイナムコエンターテインメント、DeNA、リクルートテクノロジーズが、それぞれのデータ基盤改革について語った。

                            バンダイナムコエンターテインメント、DeNA、リクルートテクノロジーズが語ったデータ基盤改革、「何を」「なぜ」「どのように」
                          • ディメンショナル モデリング入門 / introduction-to-dimensional-modeling

                            Youtube https://www.youtube.com/watch?v=jRBFXbPh1bM イベントページ https://usergroups.snowflake.com/events/details/snowflake-japan-presents-minnanodetamoderujiang-zuo-jin-hua-bian-deimenshiyonarumoderinguru-men/ ディメショナル・モデリングとは https://zenn.dev/pei0804/articles/dimensional-modeling

                              ディメンショナル モデリング入門 / introduction-to-dimensional-modeling
                            • ディメンショナルモデリングのすすめ

                              Developer Summit 2018 Summer

                                ディメンショナルモデリングのすすめ
                              • 2020-03-31 Google Cloud Data Platform Day #2 #gc_dpday|諏訪真一

                                2020/03/31 に開催された Google Cloud Data Platform Day #2 のイベントレポートです。 ●イベント概要 ビジネスの成長を加速させるクラウド型データ分析プラット フォームとは 企業におけるデータ活用が進む中、データマネジメント、データ分析を支える分析基盤は重要になっています。Google Cloud はフルマネージドで実績のあるデータ分析プロダクト(BigQuery、Cloud Dataproc、Cloud Dataflow など)や、サーバーレスのアプローチでデータ分析基盤の複雑な運用をなくし、ビジネス上の重要な意思決定を迅速かつ効率的に行うことができるプラットフォームを提供しています。 本セミナーでは、データプラットホームとしてオンプレやクラウドをご利用中のお客様に、これからの Data Warehouse、Data Lake、Stream An

                                  2020-03-31 Google Cloud Data Platform Day #2 #gc_dpday|諏訪真一
                                • Netflixはどのようにして自社データ基盤の費用対効果を高めているのか?

                                  企業や公的機関がAWSなどのクラウドサービスを自社のデータ基盤に採用する事例が増えていますが、そうしたクラウドサービスの利用料金は決して安価ではありません。膨大なデータをクラウド上で管理しているNetflixが、自社のデータ基盤運用にかかる費用をどのように圧縮し、費用対効果を高めているのかを説明しています。 Byte Down: Making Netflix’s Data Infrastructure Cost-Effective | by Netflix Technology Blog | Jul, 2020 | Netflix TechBlog https://netflixtechblog.com/byte-down-making-netflixs-data-infrastructure-cost-effective-fee7b3235032 一般的には、データ基盤にかかる費用を管理

                                    Netflixはどのようにして自社データ基盤の費用対効果を高めているのか?
                                  • BigQuery上のメタデータをコード管理する - istyle Tech Blog

                                    こんにちは。 新設されたデータソリューションセンター所属の須賀です。 先日、しんゆうさん主催の第3回 データアーキテクト(データ整備人)を”前向きに”考える会に参加してきました。 オンラインにも拘わらず600人近くが申込み、同じ悩みを抱えている方の多さに驚く共に、登壇者の発表に共感ばかりしていました。 チーム内でも盛り上がった実況スレ! その中で、吉田康久さん(株式会社はてな)の登壇時が、実況スレでも盛り上がりました。 カスタマーサクセスのためのデータ整備人の活動記録 理由としてはいくつかありますが、3つ目のデータカタログの推進をまさに進めていたためです。 スプレッドシートの依存関係があるワークフローへの既視感 意思決定者へのヒアリングなど、泥臭く足で稼ぐことの重要性を体感していたこと メタデータ活用として、データカタログの推進 データカタログというのは、BQ上に存在するテーブルやスキーマ

                                      BigQuery上のメタデータをコード管理する - istyle Tech Blog
                                    • LINEのデータ分析組織の紹介 / Introduction to LINE data analysis organization

                                      LINE株式会社 Data Platform室 Data Solutionsチーム マネージャー 副田俊介 Data Engineering Study #9「企業規模別に見る、データエンジニア組織の作り方」での発表資料です https://forkwell.connpass.com/event/214982/

                                        LINEのデータ分析組織の紹介 / Introduction to LINE data analysis organization
                                      • 高速な開発とデータ品質のトレードオフを超えるためにできること|望月駿一 / Ubie Discovery

                                        このnoteでは、事業立ち上げ期の高速な開発とデータ品質の間に発生するトレードオフに、限られたリソースで対処するために取り組んだ内容について紹介します。 はじめまして。Ubie Discoveryで機械学習エンジニアをやっている望月(@smochi_pub)です。 Ubieに一人目のデータ人材として入社して、BI的なデータ整備・活用から予測アルゴリズムの開発まで幅広く担当してきました。 Ubieでは、アルゴリズムの検証や学習のために、初期からデータを貯めることを意識して取り組んできました。その過程で、高速にUIや仕様が変わっていくプロダクトを抱えつつ、データを「正しく」貯めることの難しさも体験してきました。 高速な開発とデータ品質のトレードオフ開発チームは高速に検証を行うことにフォーカスしているため、UIや仕様もどんどん変わって行きます。実際にユビーでは、toC向けのAI受診相談ユビーでは

                                          高速な開発とデータ品質のトレードオフを超えるためにできること|望月駿一 / Ubie Discovery
                                        • Dataplex のご紹介 - データ管理を一元化できるインテリジェントなデータ ファブリック | Google Cloud 公式ブログ

                                          ※この投稿は米国時間 2021 年 5 月 26 日に、Google Cloud blog に投稿されたものの抄訳です。 エンタープライズ データの現況を俯瞰すると、データは複数のデータレイク、データ ウェアハウス、データベース、その他の特殊なデータマートに保存され、日増しに分散化が進行しています。データを機能させ、ビジネスの意思決定の基盤としてデータを使用したいと考える企業が増えつつあります。複数のサイロに分散されたデータにアクセスする人とツールが増えるにつれ、分散データ戦略を実施しつつ、分析のため高品質のデータを簡単に検出して利用できるようにすることは、企業にとって日増しに困難になっています。組織はプロセスの構築に際して、データを統合してツールを相互運用できるようにすることと、アジリティを犠牲にしてモノリシック データシステムにデータを移動することとの間で、妥協を余儀なくされることがし

                                            Dataplex のご紹介 - データ管理を一元化できるインテリジェントなデータ ファブリック | Google Cloud 公式ブログ
                                          • dbt 開発で使える SQL スタイルガイドを導入した話

                                            風音屋では、データエンジニア、データアナリスト、データコンサルタントを募集しています。 書籍執筆者やOSSコントリビューターなど、業界を代表する20名以上のアドバイザーと一緒にベストプラクティスを追求できる環境です。 ぜひカジュアルトークをお申し込みください。 兼業データアナリストの星野(@mochigenmai)です。 この記事では dbt 開発で使える SQL スタイルガイドを導入した話について紹介します。 SQL スタイルガイドを導入した背景 現在 dbt を利用したデータパイプライン開発が活発になってきています。 データパイプラインは「信頼性の高い分析」を効率的かつ迅速に実現するために構築します。 そのため、データの信頼性を担保する仕組みは積極的に導入したほうが良いと考えられます。 今回は以下のような点でデータの信頼性を担保できると考え、 dbt 開発環境に SQLFluff (L

                                              dbt 開発で使える SQL スタイルガイドを導入した話
                                            • 非エンジニアが会社のデータ基盤整備をする話 - ジンジニアニッキ!

                                              現職に入社してから、データ基盤の整備を担当するチームであれこれやっている。 今回、諸々が一区切りするので、振り返りとまとめのために書いてみる。 自分のバックグラウンド 人材紹介会社→人事→あれこれやる人 というキャリア 職種としては事務職とかバックオフィスとか、そういう括りになると思う 大学も文系出身だし、コンピューターサイエンスの知識が特にあるわけではない 入社してからは (これから書く)データ基盤をなんとかする業 諸々のオペレーションなんとかする業 チームマネジメント 法務と情シスも途中から兼務 その他、間に落ちるいろんなことの諸々全て などをやっている。 全段あれこれ ここでいう、データ基盤 会社のビジネス活動に関するデータのことを主に指している。 いわゆる、「ビジネスファネル」と言われるもの(マーケティング〜営業活動による受注〜その後のフォロー)の一連の流れ部分、それから売上や請求

                                                非エンジニアが会社のデータ基盤整備をする話 - ジンジニアニッキ!
                                              • 2021/03/12 データマネジメント成熟度のフレームワークに何を使えばよいか - /home/by-natures/dev*

                                                データマネジメントについて色々考えている時期で、今日は成熟度について。 様々なフレームワーク とあるプロジェクトでデータマネジメント成熟度を測ろう、となったのですが、成熟度を測るフレームワークにも色々あるようです。 www.cloudtimes.jp こちらの記事で紹介されているのは以下の3つです: CMMI研究所 が定めるもの(DMM) Deloitte 社が提供するもの Data Orchard 社が提供するもの 他にもウェブ検索していたら EWSolutions 社が提供するものも見つけましたが、大半はコンサルティング企業が有償提供するサービスが多いようです。 ちなみに Deloitte 社が提供するものは、アンケートに答えるだけで成熟度が測れるので面白そうです。ちょっと軸が独特な気がしますが。 Data Maturity Benchmark DMBOK の書籍の中に紹介されているの

                                                  2021/03/12 データマネジメント成熟度のフレームワークに何を使えばよいか - /home/by-natures/dev*
                                                • Data Engineering Study #1「DWH・BIツールのこれまでとこれから」 (2020/07/15 19:30〜)

                                                  参加方法 今回のオンライン勉強会は YouTube Live を使用してライブ配信いたします。 また、コメントや感想は Twitter、講演内容に関する質問は Slido へお願いいたします。 下記、各種URLよりご参加くださいませ! ▍イベント視聴用 YouTube Live URL - https://youtu.be/hFYNuuAaiTg ▍質疑応答用 Slido URL - https://sli.do/DataEngineeringStudy ▍ギフト券プレゼントキャンペーン参加用Tweetリンク - https://twitter.com/intent/tweet?hashtags=DataEngineeringStudy,今一番気になっているDWH・BIツール ライブ配信終了後、アーカイブ動画の公開を予定しております。 当日の開催時間にライブ参加できない方も、こちらのページ

                                                    Data Engineering Study #1「DWH・BIツールのこれまでとこれから」 (2020/07/15 19:30〜)
                                                  • データエンジニア2人がデータ整備周りの採用難について考える

                                                    風音屋では、データエンジニア、データアナリスト、データコンサルタントを募集しています。 書籍執筆者やOSSコントリビューターなど、業界を代表する20名以上のアドバイザーと一緒にベストプラクティスを追求できる環境です。 ぜひカジュアルトークをお申し込みください。 風音屋 アドバイザーの “たけっぱ”(@takegue) です。 データを整備できる人材が見つからない、採用できない――。 データ活用を考える多くの企業がぶつかる問題です。 どうすればデータエンジニアに来てもらえるのか。 そもそも「データの整備」はデータエンジニアだけの仕事なのか。 風音屋代表の “ゆずたそ”(@yuzutas0)さん と僕のデータエンジニア2人で考えてみました。 ※この記事は、YouTube動画「データマネジメント.fm」の第2回目「データ整備の人材獲得」 を書き起こし、加筆・修正したものです。 書き起こし・編集:

                                                      データエンジニア2人がデータ整備周りの採用難について考える
                                                    • 1ヶ月でデータ基盤を整え経営の解像度を変えた話

                                                      デブサミ2020 登壇資料

                                                        1ヶ月でデータ基盤を整え経営の解像度を変えた話
                                                      • Redshift Serverless について見かけた課題と対応策 - Qiita

                                                        Redshift Serverless について見かけた課題と対応策(2022年7月19日時点)をまとめました。GitHubリポジトリ「Awesome Redshift JP」にまとめた内容の転記です。 概要 プレビュー料金に見える→金額あってそう 名前空間やワークグループの削除エラー→英語表示 ProvisionedとAPIが違う→ラッパーを使う 時間課金でストリーミング不向き→二台構成 or マイクロバッチ化 Redshift Serverless の料金表が「プレビュー」のままに見える(2022年7月19日時点) 日本語だと「プレビュー」の記載がありますが、英語だとPreviewの記載は外れています。 料金表の内容も同じなので、日本語の翻訳が間に合っていないようです。 日本語の料金表: 英語の料金表: Redshift Serverless の名前空間やワークグループの削除ができない

                                                          Redshift Serverless について見かけた課題と対応策 - Qiita
                                                        • 法人データの取得と活用 #kazaneya / 20230425

                                                          風音屋30分リサーチ#1「法人データの取得と活用」の資料となります。 法人データ利用を検討する際の参考資料としてご活用ください。

                                                            法人データの取得と活用 #kazaneya / 20230425
                                                          • ビッグ データ アーキテクチャ - Azure Architecture Center

                                                            ビッグ データ アーキテクチャは、従来のデータベース システムには多すぎる、または複雑すぎるデータのインジェスト、処理、分析を扱うために設計されています。 組織がビッグ データ領域に入るしきい値は、ユーザーとそのツールの機能によって変わります。 数百 GB のデータを意味する場合もあれば、数百 TB のデータを意味する場合もあります。 ビッグ データ セットを使用するためのツールが進歩するにつれて、ビッグ データの意味も進歩します。 この用語は、厳密にはデータのサイズではなく、高度な分析を介してデータ セットから抽出できる値に関連していますが、このような場合、データはかなり大きくなる傾向にあります。 長年にわたって、データのランドスケープは変化してきました。 データで実行できること、実行できると期待されることは変化しています。 ストレージのコストは大幅に下がりましたが、データを収集する手段

                                                              ビッグ データ アーキテクチャ - Azure Architecture Center
                                                            • DWH: スタースキーマをベースにあらためて考えてみたデータモデリングの9つのこと - プログラマ38の日記

                                                              DWHのデータモデルでとても有名な"スタースキーマ"。 でも、アプライアンスDBを導入したんだからきちんと正規化した方が後々使いやすいといった意見もあったりします。 私は、スタースキーマはとてもシンプルでわかりやすく、そして結合が少なくて使いやすい、何より性能が安定するモデルと考えています。 そこで、自分の思いを踏まえてスタースキーマをベースにしたデータモデリングについて書いていこうと思います。 [いわゆるスタースキーマの絵] ※以前の記事にも同じものを貼っています 真ん中の売上データのテーブルを一般的にファクトテーブル(以下、ファクト)そして、周りのカレンダ、商品、店舗、顧客のテーブルをディメンションテーブル(以下、ディメンション)という名前で呼びます。 1.ディメンションとファクトは、物理的に1:Nで結合する。 2.ディメンションとファクトは、内部結合にする。 3.ヘッダと明細の構成の

                                                                DWH: スタースキーマをベースにあらためて考えてみたデータモデリングの9つのこと - プログラマ38の日記
                                                              • Slackコミュニティで『実践的データ基盤への処方箋』の輪読会を行いました

                                                                風音屋では、データエンジニア、データアナリスト、データコンサルタントを募集しています。 書籍執筆者やOSSコントリビューターなど、業界を代表する20名以上のアドバイザーと一緒にベストプラクティスを追求できる環境です。 ぜひカジュアルトークをお申し込みください。 こんにちわ。風音屋アドバイザーの@nii_yanです。 風音屋の創業者であるゆずたそさんやアドバイザーの渡部徹太郎さんが執筆した書籍『実践的データ基盤への処方箋』の輪読会を行いました! (私も本書のレビュアーとして名前が記載されています!) レビューで少しだけお手伝いさせていただいた 実践的データ基盤への処方箋 献本いただきました!ありがとうございますmm まだすべては読めてないので、これから読むのが楽しみな本です。https://t.co/0G3hn13yd5 pic.twitter.com/nUk1CZykyH — yu yam

                                                                  Slackコミュニティで『実践的データ基盤への処方箋』の輪読会を行いました
                                                                • ログ欠損が発生した時、データエンジニアは現場でどう対応しているか

                                                                  風音屋では、データエンジニア、データアナリスト、データコンサルタントを募集しています。 書籍執筆者やOSSコントリビューターなど、業界を代表する20名以上のアドバイザーと一緒にベストプラクティスを追求できる環境です。 ぜひカジュアルトークをお申し込みください。 風音屋 アドバイザーの “たけっぱ”(@takegue) です。 Webサーバやアプリケーションなどのログが何らかのトラブルで欠損する「ログ欠損」は、データエンジニアが現場でよく遭遇するトラブルです。 しかし本などを見ても、意外と解決方法は載っていません。 そこで風音屋の創業者である “ゆずたそ”(@yuzutas0)さん と、ログ欠損が発生した際、データエンジニアとしてどのような対応をしているかを語り合いました。 ※この記事は、YouTube動画「データマネジメント.fm」の第1回目「ログ欠損が発生した際にどういった対応をしている

                                                                    ログ欠損が発生した時、データエンジニアは現場でどう対応しているか
                                                                  • DevelopersIO 2022 データ活用に注力できるデータ基盤「クラスメソッドのModern Data Stack」について紹介しました #devio2022 | DevelopersIO

                                                                    さがらです。 DevelopersIO 2022 〜技術で心を揺さぶる3日間〜の2日目、2022年7月27日に「データ活用」に注力できるデータ基盤を構築しませんか?~クラスメソッドのModern Data Stackのご紹介~というタイトルで登壇しました。 本ブログではこの登壇内容について、まとめたいと思います。 登壇概要 概要 昨今ビジネスの環境が目まぐるしく変わる中、「これまでの経験」や「前例踏襲」のビジネスのやり方では対応できなくなってきているケースが多くなり、データを活用して、データに基づいた意思決定を行おうとする組織が増えていると思います。 一方で、データを活用するためには「データ基盤」が必要となるのですが、このデータ基盤の構築に苦労し、本来すべきデータ活用に注力できていない組織も多いのではないでしょうか。クラスメソッドでは複数のSaaSを組み合わせて簡単にデータ基盤を構築する「

                                                                      DevelopersIO 2022 データ活用に注力できるデータ基盤「クラスメソッドのModern Data Stack」について紹介しました #devio2022 | DevelopersIO
                                                                    • 「データアーキテクト(データ整備人)を”前向きに”考える会」に参加しました - ★データ解析備忘録★

                                                                      はじめに 11/27に開催された「データアーキテクト(データ整備人)を”前向きに”考える会」にブログ枠として参加させて頂いたのでイベントの様子をレポートとして書きます。 analytics-and-intelligence.connpass.com 会場: 株式会社オプト 私の現在 ブログで報告するほどのことではなかったのですが、9月に大学院を卒業して10月からとある人材系企業でデータ分析組織の立ち上げに関わっています。 データ分析基盤の構築(データレイク、データウェアハウス)、からデータ分析、データサイエンスの啓蒙活動、(ゆくゆくは事業提案も?)など広く関わっています。 そんなこんなで情報収集も兼ねて今回の勉強会に参加しました。 以下は各発表のサマリーになります。 勉強会趣旨 データエンジニアとアナリストの間には色々仕事があるが評価されないことが多く、つらみが溜まっている つらみの共有で

                                                                        「データアーキテクト(データ整備人)を”前向きに”考える会」に参加しました - ★データ解析備忘録★
                                                                      • Cloud Pub/Sub schema evolution is now Generally Available | Google Cloud Blog

                                                                        Pub/Sub schemas are designed to allow safe, structured communication between publishers and subscribers. In particular, the use of schemas provides that guarantee that any message published adheres to a schema and encoding, which the subscriber can rely on when reading the data. Schemas tend to evolve over time. For example, a retailer is capturing web events and sending them to Pub/Sub for downst

                                                                          Cloud Pub/Sub schema evolution is now Generally Available | Google Cloud Blog
                                                                        • データ基盤のアラートにNew Relicを導入しました - TVer Tech Blog

                                                                          はじめまして、エンジニアの黒瀬と申します。 弊社では、これまでバックエンドの監視にNew Relicを利用してきましたが、今回データ基盤にも導入を開始しました。 この記事では、その経緯についてご紹介したいと思います。 背景と課題 弊社ではTVerのサービス利用状況を日々収集し、それをBigQueryを中心としたデータ基盤に集約・可視化することで、日々のサービス改善に活用しています。 このプロセスは、おおむね次のような役割分担となっています。 収集処理:バックエンドを担当するバックエンドチームがAWSに構築 集約処理:データ基盤を担当するデータチームがGCPに構築 これらのうちデータチームでは、集約処理を構成するバッチごとにアラートを実装していましたが、下記のような問題がありました。 バッチごとに異なった方法でアラートを実装していたため、保守がしにくい アラートの通知先が散らばっており、毎回

                                                                            データ基盤のアラートにNew Relicを導入しました - TVer Tech Blog
                                                                          • イベント資料|Embulk & Digdag Online Meetup 2020 - TECH PLAY[テックプレイ]

                                                                            グループを作れば、無料で誰でもイベントページが作成できます。情報発信や交流のためのイベントをTECH PLAY で公開してみませんか?

                                                                              イベント資料|Embulk & Digdag Online Meetup 2020 - TECH PLAY[テックプレイ]
                                                                            • Snowflake Data Cloud Summit 2024

                                                                              EXPLORE THE GEN AI & LLM SESSIONS AT SUMMIT With over 140 sessions on Gen AI and LLMs, you’ll discover how Snowflake empowers teams to use AI in everyday analytics, build models and apps in minutes, and execute custom workflows such as fine-tuning with ease. Breakout sessions start Monday at 1pm! VIEW GEN AI & LLM SESSIONS >> THE YEAR’S CAN’T-MISS EVENT FOR AI, APPS, AND DATA COLLABORATION Snowfla

                                                                                Snowflake Data Cloud Summit 2024
                                                                              • https://www.fujitsu.com/jp/Images/beyond_dmd_data_warehouse.pdf

                                                                                • Redshift Streaming Ingestion の使い方まとめ - Qiita

                                                                                  これは AWS Analytics Advent Calendar 2022 の 8 日目の記事です。 1.はじめに AWS re:Invent 2022 で Redshift の Streaming Ingestion 機能が GA 発表されました。Streaming Ingestion とは Amazon Kinesis Data Streams と Amazon Managed Streaming for Apache Kafka (MSK) からストリーミングデータを 直接 Redshift に リアルタイム で投入することができる機能です。 この機能が出るまで Redshift 上でリアルタイムにデータを入れるには、Amazon Kinesis Data Firehose を使って一旦データを S3 に保存し、そのデータを逐次的に Redshift の COPY 文を使って投入す

                                                                                    Redshift Streaming Ingestion の使い方まとめ - Qiita