並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 192件

新着順 人気順

データ基盤の検索結果1 - 40 件 / 192件

  • データ基盤にありがちな「何を使って作ればよいか?」という問いに対する処方箋を用意してみました. - Lean Baseball

    ちょっと昔まではデータ基盤の管理人・アーキテクト, 現在は思いっきりクラウドアーキを扱うコンサルタントになったマンです. 私自身の経験・スキル・このブログに書いているコンテンツの関係で, 「データ基盤って何を使って作ればいいの?」的なHow(もしくはWhere)の相談. 「Googleのビッグクエリーってやつがいいと聞いたけど何ができるの?」的な個別のサービスに対するご相談. 「ぶっちゃけおいくらかかりますか💸」というHow much?な話. 有り難くもこのようなお話をよくお受けしています. が, (仕事以外の営みにおける)個人としては毎度同じ話をするのはまあまあ疲れるので, データ基盤にありがちな「何を使って作ればよいか?」という問いに対する処方箋 というテーマで, クラウド上でデータ基盤を構築する際のサービスの選び方 (データ基盤に限らず)クラウド料金の基本的な考え方 をGoogle

      データ基盤にありがちな「何を使って作ればよいか?」という問いに対する処方箋を用意してみました. - Lean Baseball
    • エムスリーのデータ基盤を支える設計パターン - エムスリーテックブログ

      こんにちは、エムスリー エンジニアリンググループ の鳥山 (@to_lz1)です。 ソフトウェアエンジニアとして 製薬企業向けプラットフォームチーム / 電子カルテチーム を兼任しています。 ソフトウェアエンジニアという肩書きではありますが、私は製薬企業向けプラットフォームチームで長らくデータ基盤の整備・改善といったいわゆる "データエンジニア" が行う業務にも取り組んできました。 本日はその設計時に考えていること / 考えてきたことをデータ基盤の設計パターンという形でご紹介しようかと思います。多くの企業で必要性が認識されるようになって久しい "データ基盤" ですが、まだまだ確立された知見の少ない領域かと思います。少しでもデータエンジニアリングを行う方の業務の参考になれば幸いです。 データ基盤の全体像 収集部分の構成 RDBデータ ログデータ 活用部分の構成 データマートの実例 「データ基

        エムスリーのデータ基盤を支える設計パターン - エムスリーテックブログ
      • 全社員からデータ基盤への問い合わせが殺到して2人では捌けなくなったので仕組みで解決する話〜datatech-jp Casual Talks #2 登壇後記〜 - MonotaRO Tech Blog

        データ基盤グループの吉本です。 今回は先日開催されたdatatech-jp Casual Talksで登壇した内容について補足も含め紹介します。 datatech-jp.connpass.com 発表資料はこちらです。 データ基盤に関わる問い合わせ対応を仕組みで解決する from 株式会社MonotaRO Tech Team www.slideshare.net 発表内容の背景(問い合わせ対応における課題) 発表したこと 発表の反響 最後に datatech-jpは主にデータエンジニアリングやデータ活用に関わる方が参加するコミュニティで、DWHやデータマネジメント、データエンジニアリングに関わる技術、ツールなどについて知見を共有したり、輪読会やLT会のようなイベントを実施しています。 オーガナイザーとして同社同僚の吉田(id:syou6162)が参加しています。 その中でCasual

          全社員からデータ基盤への問い合わせが殺到して2人では捌けなくなったので仕組みで解決する話〜datatech-jp Casual Talks #2 登壇後記〜 - MonotaRO Tech Blog
        • 新しいデータ基盤アーキテクチャである「データレイクハウス」について調べてみた - Taste of Tech Topics

          最近ソーダストリームを買い、炭酸水を飲むのにはまってます。機械学習エンジニアの@yktm31です。 以前に「AWS Lake Formationでデータレイク体験!」という記事を書いてみて、データ基盤アーキテクチャに興味が湧いてきました。 データレイクハウスは、「データウェアハウス」と「データレイク」を統合したようなアーキテクチャで、 2020年にDatabricks社により提唱され、新しいデータ基盤アーキテクチャとして注目されているようです。 www.databricks.com そこで今回、「データレイクハウス」について調べてみたことをまとめてみたいと思います。 なぜデータレイクハウスが注目されているのか? データウェアハウスの特徴・課題 データレイクの特徴・課題 データレイクハウスの特徴 データレイクハウスのアーキテクチャ Azure Azure Synapse Analyticsを

            新しいデータ基盤アーキテクチャである「データレイクハウス」について調べてみた - Taste of Tech Topics
          • データ基盤による利益最大化と初期構築プロセス / 20220209

            「Data Cross Conference」の登壇資料です。 https://dcc2022.datafluct.com/ データ活用によって億単位の利益を創出してきた登壇者が、データ基盤をこれから構築する方に向けて、費用対効果を最大化するための初期構築プロセスを紹介します。 ----------------------------------------------------------- 【PR】一緒に働きましょう! https://kazaneya.com/kdec -----------------------------------------------------------

              データ基盤による利益最大化と初期構築プロセス / 20220209
            • Data Platform Guide - 事業を成長させるデータ基盤を作るには #DataEngineeringStudy / 20200715

              Data Engineering Study #1 の発表資料です。 https://forkwell.connpass.com/event/179786/ 当日の動画はYoutubeで閲覧可能です。 https://www.youtube.com/watch?v=hFYNuuAaiTg 参考文献 『Software Design (ソフトウェアデザイン) 2020年7月号』 https://amzn.to/30YueL7 『データマネジメントが30分でわかる本』 https://amzn.to/3fmz8Gw

                Data Platform Guide - 事業を成長させるデータ基盤を作るには #DataEngineeringStudy / 20200715
              • MonotaROのデータ基盤10年史(前編) - MonotaRO Tech Blog

                おしらせ:12/23 に後編記事がでました! tech-blog.monotaro.com こんにちは、データ基盤グループの香川です。 現在モノタロウではBigQueryに社内のデータを集約し、データ基盤を構築しています。 およそ全従業員の6割が日々データ基盤を利用しており、利用方法や目的は多岐に渡ります。 データ基盤グループはこれまでデータ基盤システムの開発保守と利用者のサポートを主な業務として取り組んできましたが、これら多岐にわたる社内のデータ利用における課題の解決及びさらなるデータ活用の高度化を目的として、今年の5月よりデータ管理を専門に行う組織として新たに体制を再構築しました。 そこで改めて組織として取り組むべき課題や方向性を決めるために、まず自分たちの現在地を知ることが重要と考え、データ基盤の歴史を振り返り、社内のデータ活用における課題やそれを取り巻く状況がどう変わってきたのかを

                  MonotaROのデータ基盤10年史(前編) - MonotaRO Tech Blog
                • データ基盤チーム0人で運用は回るのか?! 前人未踏チャレンジ・クックパッドデータ基盤のすべて2020 - クックパッド開発者ブログ

                  技術部データ基盤グループの青木です。 ここ1、2年はなぜか成り行きでBFFをでっちあげたり、 成り行きでiOSアプリリニューアルのPMをしたりしていたので あまりデータ基盤の仕事をしていなかったのですが、 今年は久しぶりに本業に戻れたのでその話をします。 突然の1人チーム、そして0人へ…… 今年のデータ基盤チームは消滅の危機から始まりました。 間違いなく去年末は5人のチームだったと思うのですが、 メンバーがイギリスへグローバルのデータ基盤チームを作りに行ったり、 山へ検索システムを直しに行ったり、川へレシピ事業の分析業務をやりに行ったり、 海へ広告のエンジニアリングをしに行ったりするのをホイホイと気前よく全部聞いていたら、 なんと4月から1人だけのチームになってしまいました。 事はそれで終わりません。 恐ろしいことに10月にはわたし自身も育休に入ることになったので、 10月はデータ基盤が0

                    データ基盤チーム0人で運用は回るのか?! 前人未踏チャレンジ・クックパッドデータ基盤のすべて2020 - クックパッド開発者ブログ
                  • SQLを使った監視でデータ基盤の品質を向上させる - MonotaRO Tech Blog

                    こんにちは、データ基盤グループの吉田(id:syou6162)です。データ基盤グループでは安定してデータを利用できるように様々な取り組みを行なっています。本エントリでは、データ品質に問題がある場合にすぐに気付けるようにしたSQLによる監視の仕組みを紹介します。 背景 SQLを使った監視基盤の構築 実際の監視項目例 他チームがdailyで転送しているデータがバッチの失敗により遅れていないか BigQueryのエラーレートが急激に増加していないか 承認済みビューの設定が意図せず消えていないか 今後の展望 背景 データ基盤の運用をしていると、日々様々なトラブルと向き合う必要があります。例えば、以下のようなものがあります。 他チームがdailyで転送しているデータがバッチの失敗により遅れている TerraformなどのIaCで承認済みビューの権限管理を行なっているが、コードの設定ミスで意図せぬ状態

                      SQLを使った監視でデータ基盤の品質を向上させる - MonotaRO Tech Blog
                    • 事業に貢献するデータ基盤を作ろう・考え方編 / data_engineering_study_2

                      Data Engineering Study #2「データ収集基盤とデータ整備のこれまでとこれから」https://forkwell.connpass.com/event/182769/ 作成者 :しんゆう@データ分析とインテリジェンス Twitter:https://twitter.com/data_analyst_

                        事業に貢献するデータ基盤を作ろう・考え方編 / data_engineering_study_2
                      • データ基盤をサーバーレスで構築したので概要を紹介 - Adwaysエンジニアブログ

                        あけましておめでとうございます。本年もよろしくお願いいたします。 久しぶりに登場しました菊池です。 僕は昨年から新しいデータ基盤を構築するプロジェクトを担当しておりまして、最近システムが無事に実稼働してホッと一息したところです。思い起こせば入社時はインフラ担当部署に配属だったのが、広告配信システムの開発をやったり、カジュアルゲーム作ったり。新規事業のスマホアプリを作りつつサーバーサイドの API を作って立ち上げたり、海外向けのサービスを作ったり。いつのまにかメディア運営に関わったりしてきましたが、最近はデータ基盤の開発もやってます。そんなキャリアを歩んできましたが、いつか森の中の開けた草原にあるネット環境の整ったポツンと一軒家で、庭にチャボを放飼にしつつ養蜂をやってみたいと思っています。 話は戻りますが、今回はこの稼働したてホカホカ状態のデータ基盤について概要を紹介したいと思います。よろ

                          データ基盤をサーバーレスで構築したので概要を紹介 - Adwaysエンジニアブログ
                        • 【Team & Project】LINE全社のデータ基盤のミドルウェアやData ingestion pipelineの開発・運用を担当しているチームを紹介します

                          ―― 今のチーム課題と課題解決に向けた取り組みを教えてください。 Wang:私たちのチームでは、主に3つの課題について取り組みを進めています。 まずは1つ目の課題は「マルチテナントのクラスターの運用」についてです。 Hadoopは一般的に、有数のユーザと予測可能なワークロードで運用されていますが、LINEのData OpenによってDAUが700人弱であり、且つワークロードも10万+/日となっています。Isolationがまだ完備されていないので、ユーザ間にリソースの競合が発生している状況です。 2つ目は「Data catalog」についてです。ユーザが自由にデータを生成したり利用したりする環境においては、データのカタログがとても重要です。そのため、Data Lineageを自動的に生成する仕組みが必要となってきます。 そして「大規模のインフラを効率よく運用すること」も私たちの課題です。私

                            【Team & Project】LINE全社のデータ基盤のミドルウェアやData ingestion pipelineの開発・運用を担当しているチームを紹介します
                          • "壊れにくい"データ基盤を構築するためにMackerelチームで実践していること - Hatena Developer Blog

                            こんにちは。MackerelチームにおいてCRE(Customer Reliability Engineer)をしているid:syou6162です。主にカスタマーサクセスを支えるデータ基盤の構築や、データ分析を担当しています。 今回は、壊れにくいデータ基盤を構築するため、Mackerelチームで実践していることを紹介します。 なぜ壊れにくいデータ基盤を構築するのか データ基盤が“壊れている”とはどういうことか 壊れてないだけでなく、壊れたら気付ける 前提とするシステム構成 壊れたことに気付けるよう監視する 1. バッチジョブが失敗したことに気付く 2. 投入されたデータの性質を監視する 3. ビューが壊れてないかを監視する 4. 利用状況を監視する そもそも壊れてない状態を保つ 1. データリネージを元に修正できるようにする 2. 使われていないテーブルやビューは定期的に掃除 おわりに 参

                              "壊れにくい"データ基盤を構築するためにMackerelチームで実践していること - Hatena Developer Blog
                            • 私が妄想している最強のデータ基盤2023

                              新年になったので今年のやりたいことをまとめようと思いたち筆をとっています。単にやりたいこと書いてもただのポエムになってしまうので、私が今時点で妄想している最強のデータ基盤を描いて、その中でまだ触ったことのない技術を今年触っていこうという意気込みを最後に書こうと思います(意気込みだけにならないように頑張りたいです!) まだ触ったことないものもあるので妄想しているレベルです。 アーキテクチャ図 まず最初に結論から書いていきます。 なぜこのアーキテクチャが最強と思うのか データ基盤として機能を分けると以下の6つの領域に分かれると思っています(もう少し細かく分けることもできたりします。例えばDMBOKとかではホイール図で11の領域に分けたりしています) データ基盤の領域 主に関連するDMBOKの知識領域 主担当

                                私が妄想している最強のデータ基盤2023
                              • 次世代データ基盤:データレイクハウスを Google Cloud で実現する

                                はじめに こんにちは、クラウドエース データソリューション部の松本です。 普段はデータ基盤や MLOps の構築をしたり、Google Cloud 認定トレーナーとしてトレーニングを提供しております。また、昨年は Google Cloud Partner Top Engineer 2024 に選出されました。今年も Goodle Cloud 界隈を盛り上げていけるよう頑張っていきたいと思います。 クラウドエース データソリューション部 について クラウドエースのITエンジニアリングを担う システム開発統括部 の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのが データソリューション部 です。 弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があれば エントリー をお待ちしております! 今回は、次世代データ基盤であるデ

                                  次世代データ基盤:データレイクハウスを Google Cloud で実現する
                                • マイクロソフト、「Dataflex」発表。Microsoft Teams向けのローコード向けデータ基盤

                                  マイクロソフト、「Dataflex」発表。Microsoft Teams向けのローコード向けデータ基盤 Dataflexは、Microsoft Teamsでチームごとに利用可能なデータベースです。このデータベースを基盤に、同社のノーコード/ローコード開発ツールであるPower Appsやボット開発ツールであるPower Virtual Agentsなどを使って、チームで共有できるアプリケーションやボットを作ることができます。 下記は「Introducing Microsoft Dataflex, a new low-code data platform for Microsoft Teams」から引用します。 Microsoft Dataflex delivers a built-in, low-code data platform for Teams, and provides rela

                                    マイクロソフト、「Dataflex」発表。Microsoft Teams向けのローコード向けデータ基盤
                                  • データ基盤の管理に役立つ監視用のSQLを紹介します - 10X Product Blog

                                    Analytics Engineerの吉田(id:syou6162)です。BigQueryを中心に10X社内のデータ関連の管理をしています。10Xに入社してそろそろ一年になろうかとしていますが、データ基盤を適切に管理 / 運用するためにSQLによる監視を少しずつ取り入れています。この記事では、具体的にどのようなSQLを書いて監視しているのか紹介したいと思います。 なお、SQLを使ったデータ基盤の監視自体については私の前職のTech Blogで詳細に書いていますので、そちらを参照してください。 SQLを使った監視でデータ基盤の品質を向上させる - MonotaRO Tech Blog データ管理に役立つメタデータに関する勉強会を社内外で開催しました - MonotaRO Tech Blog 本エントリはこれをベースに「dbtをフルに活用している10Xの環境向けに入れた監視」や「BigQuer

                                      データ基盤の管理に役立つ監視用のSQLを紹介します - 10X Product Blog
                                    • ログ一元管理の本質とSIEMの限界 - データ基盤への道 - LayerX エンジニアブログ

                                      三井物産デジタル・アセットマネジメントで、ガバナンス・コンプラエンジニアリングをしている 鈴木 (@ken5scal )です。 いきなりですが、ログ管理はどの職種どの場面でも重要です。セキュリティにおいても、古生代よりサーバー、ネットワーク機器、アプリケーションなどから出力されるログを一元的に収集し、監視や分析を行うことで、セキュリティインシデントの早期発見や対応、コンプライアンス要件の達成が可能になります。 このようなログ一元管理を実現する代表的なソリューションは、そう、皆様よくご存知のSIEM。我らが「Security Information and Event Management」であります。 私はSIEMを、新卒で入社した大手企業でSOC(Security Operation Center)として触れ、その後ユーザー企業でもOSSやAWS GuardDuty(?)などの形で利用す

                                        ログ一元管理の本質とSIEMの限界 - データ基盤への道 - LayerX エンジニアブログ
                                      • データ基盤のメタデータを継続的に管理できる仕組みを作る - Hatena Developer Blog

                                        こんにちは。MackerelチームでCRE(Customer Reliability Engineer)をしているid:syou6162です。 CREチームではカスタマーサクセスを進めるため、最近データ分析により力を入れています(参考1, 参考2)。データ分析を正確に行なうためには、データに関する正確な知識が必要です。今回はより正確なデータ分析を支えるためのメタデータを継続的に管理する仕組みについて書いてみます。 データに対する知識: メタデータ データ分析を正確に行なうためには、データ自身に関する知識(=メタデータ)が必要です。例えば、Mackerelのデータ分析タスクでは以下のような知識が必要とされることが多いです。 このテーブル / カラムは何のためのテーブルなのか 似たようなカラムとの違い 集計条件の違い、など データがどのような値を取り得るか SELECT column, COU

                                          データ基盤のメタデータを継続的に管理できる仕組みを作る - Hatena Developer Blog
                                        • Data Management Guide - 事業成長を支えるデータ基盤のDev&Ops #TechMar / 20211210

                                          ---------------------------------------------------------------------------------------- 【PR】一緒に働きましょう! https://kazaneya.com/kdec ---------------------------------------------------------------------------------------- 「Tech × Marketing Conference 2021 #データマネジメント」基調講演の登壇資料です。 https://techxmarketing.connpass.com/event/229173/ データ活用やDXが注目されている一方で、実際にプロジェクトを進めようとすると「必要なデータが入力されていない」「用途を実現できるほどデータ品質が高

                                            Data Management Guide - 事業成長を支えるデータ基盤のDev&Ops #TechMar / 20211210
                                          • データマネジメント入門 - DX推進を支えるデータ基盤の重要性 / 20240125

                                            デル・テクノロジーズ様ならびにITmedia様が開催する「データ仮想化」セミナーの登壇資料です。 詳細は当社ニュースをご参照ください。 https://kazaneya.com/fdcdfd5026ab4ec6a56484955be98f06 過去登壇資料のショート版となります。フル版は以下をご参照ください。 https://speakerdeck.com/yuzutas0/20211210 <本セミナーについて> - オンデマンド配信URL https://v2.nex-pro.com/campaign/63212/apply - セミナーレポート https://atmarkit.itmedia.co.jp/ait/articles/2403/07/news010.html - 資料ダウンロードのお問い合わせ https://kazaneya.com/contact <風音屋について>

                                              データマネジメント入門 - DX推進を支えるデータ基盤の重要性 / 20240125
                                            • NoSQLデータベースCassandraの紹介 〜 ヤフーのデータ基盤を支える技術

                                              こんにちは! 山下郁矢です。2018年新卒で入社し、現在はNoSQLデータベースエンジニアとして働いています。 サービスを作るにあたってデータベースは必要不可欠ですよね。ヤフーでは100を超えるサービスで毎日生み出される膨大なデータを、データベースを用いてリアルタイムで蓄積し、運用管理しています。 今回は、その中でも利用規模の大きい、NoSQLデータベースの1つであるApache Cassandraを皆様に知ってもらうべく、ヤフーでどのようにして利用されているのかをお伝えしたいと思います。 NoSQLの立ち位置 Cassandraについてご紹介する前に、NoSQLについて軽く説明します。 NoSQLデータベースは一般的に非RDBMSに該当するデータベースのことを指します。 MySQLやOracleのようなRDBMSとはどう違うのでしょうか? RDBMSと比べて、優位性のあるデータベースなの

                                                NoSQLデータベースCassandraの紹介 〜 ヤフーのデータ基盤を支える技術
                                              • データ基盤を支える技術 - ETLフレームワークの実践的な選び方・組み合わせ方 - JX通信社エンジニアブログ

                                                JX通信社シニア・エンジニア兼データ基盤担当大臣の@shinyorke(しんよーく)です. 最近やった「ちょっとした贅沢」は「休日, 自宅で🍺片手に野球を見ながらUberEatsで注文したランチを楽しむ」です. ⚾と飲食を提供してくださる皆さまに心から感謝しております🙏 JX通信社では, 機械学習を用いたプロダクト開発・施策 プロダクト・サービスの改善に関する分析 日々のイベントをメトリクス化して可視化(いわゆるBI的なもの) を円滑かつ効率よく行うため, 昨年からデータ基盤を整備・運用しており, 現在では社員のみならず(スーパー優秀な)インターンの皆さまと一緒に活用し, 成果を出し始めています. ainow.ai なぜデータ基盤が必要か?どういった事をしているのか?...は上記のインタビューに譲るとして, このエントリーでは「データ基盤を支える技術 - ETL編」と称しまして, Py

                                                  データ基盤を支える技術 - ETLフレームワークの実践的な選び方・組み合わせ方 - JX通信社エンジニアブログ
                                                • Rettyのデータ基盤の歴史と統合 - Retty Tech Blog

                                                  書き手:@takegue (分析チーム) Rettyのデータ活用の多くにはBigQueryが現在利用されており、その活用の方法についてこれまでこのブログでもいくつかとりあげさせていただきました。 engineer.retty.me そのほか分析チームの記事一覧 これらの記事はおかげさまで好評いただいております。いつもありがとうございます。 しかしながら、我々が初期からこのようにBigQueryを使い続けてきかというと、実はそうではありません。 事業の成長とともにデータ基盤を変化させてきた経緯があり、今の成果は過去のトライアンドエラーの賜物であり、数多くの苦労を背景にしてできあがっています。 ほんのつい最近まで、Rettyで構築されていたデータ基盤は表立って見える実態よりもかなり複雑なパイプラインで構成されていました(以降で触れますが、4種類のデータパイプラインが共存しているカオスな状態でし

                                                    Rettyのデータ基盤の歴史と統合 - Retty Tech Blog
                                                  • 全社共通データ基盤を廃止して新しいデータ基盤に引越した話 - ZOZO TECH BLOG

                                                    こんにちは、データ基盤の開発、運用をしていた谷口(case-k)です。最近は配信基盤の開発と運用をしています。 ZOZOではオンプレやクラウドにあるデータをBigQueryへ連携し、分析やシステムで活用しています。BigQueryに連携されたテーブルは共通データ基盤として全社的に利用されています。 共通データ基盤は随分前に作られたこともあり、様々な負債を抱えていました。負債を解消しようにも利用者が約300人以上おり、影響範囲が大きく改善したくても改善できずにいました。 本記事では旧データ基盤の課題や新データ基盤の紹介に加え、どのようにリプレイスを進めたかご紹介します。同じような課題を抱えている方や新しくデータ基盤を作ろうとしている方の参考になると嬉しいです。 データ基盤の紹介 旧データ基盤の紹介 旧データ基盤の課題 変更があっても更新されないデータ 性質の異なるテーブルを同じ命名規則で管理

                                                      全社共通データ基盤を廃止して新しいデータ基盤に引越した話 - ZOZO TECH BLOG
                                                    • バクラク事業におけるデータ組織とデータ基盤 2023 - LayerX エンジニアブログ

                                                      お世話になっております。LayerXの高際 @shun_tak と申します。現在は、データ分析組織の立ち上げに注力しています。 本記事では、バクラク事業におけるデータ組織とデータ基盤をテーマに取り扱います。データ分析における認知負荷や属人性を解消するための取り組みや、良質なデータを提供するためのデータ基盤の構築について、具体的な技術スタックを交えて解説し、最後に現在の課題と今後の展望について説明します。 また、この記事は 7月はLayerXエンジニアブログを活発にしよう月間 の2日目の記事になります。 1. データ組織について 1.1. チーム設立の背景 1.1.1. 多少間違ったクエリでも正しい意思決定ができれば、それはとても良いこと (余談コラム) 1.2. チーム構成 1.3. 業務内容 2. データ基盤について 2.1. データ基盤の構成 2.1.1. データソース 2.1.2.

                                                        バクラク事業におけるデータ組織とデータ基盤 2023 - LayerX エンジニアブログ
                                                      • IPAに「デジタル基盤センター」発足、経産省・デジタル庁と連携しデータ基盤整備

                                                        情報処理推進機構(IPA)は組織改編を行い、2023年7月1日付で新組織「デジタル基盤センター」を発足した。経済産業省やデジタル庁と連携して、データ基盤整備などを行う。 デジタル基盤センターは約100人規模からなり、デジタルエンジニアリング部、デジタルトランスフォーメーション部、イノベーション部などから構成される。組織改編により2023年6月30日付で廃止した「社会基盤センター」「IT人材育成センター」の事業の一部を継承するなどの従来業務に加えて、デジタルエンジニアリング部に「データスペースグループ」を新設し、データ戦略の検討に加えて具体的なデータ基盤整備を進める。 同グループでは、欧州など国際動向を踏まえてデータ標準を策定する他、防災やスマートシティ、教育といった領域ごとでのデータ基盤整備を進める。具体的には、IPAが協力しデジタル庁が作成した、異なるシステムを連携するためのデータ整備の

                                                          IPAに「デジタル基盤センター」発足、経産省・デジタル庁と連携しデータ基盤整備
                                                        • 大規模データを扱う現場でどんな変化が? Snowflake導入5社のデータ基盤アーキテクチャと設計意図 - Findy Tools

                                                          公開日 2024/03/11更新日 2024/03/12大規模データを扱う現場でどんな変化が? Snowflake導入5社のデータ基盤アーキテクチャと設計意図 スケーラビリティやデータ活用までのリードタイム、価格面での懸念に応える製品として注目を集めるSnowflake。特に大規模なデータを取り扱う現場では、Snowflake導入によってどんな変化があるのでしょうか。 本記事では、前回の第一弾でご紹介したChatworkさん、delyさん、GENDAさん、スターフェスティバルさんに引き続き、第二弾として大規模データを取り扱う5社に、データ基盤の設計思想やデータチームの方針にも触れながら、Snowflake導入の背景や効果を伺いました。 ■目次 ・株式会社Algoage ・株式会社GROWTH VERSE ・株式会社マイナビ ・ノバセル株式会社 ・株式会社セゾン情報システムズ 株式会社Alg

                                                            大規模データを扱う現場でどんな変化が? Snowflake導入5社のデータ基盤アーキテクチャと設計意図 - Findy Tools
                                                          • 開発効率を計測するデータ基盤の管理にDataformを使ってみた - yasuhisa's blog

                                                            Dataformを初めて使ってみたので、雑に感想を書いておきます。結構よかった。 使ってみようとした背景 Dataformについて 試してみてどうだったか よかった まだまだこれからっぽいところ & 気になり 参考 使ってみようとした背景 今週、社内の開発合宿に参加していた。変更のリードタイムやデプロイ頻度などのFour Keysにあるような指標を計測できるデータ基盤を作るのが目標。様々なチームの開発のパフォーマンスをトラッキングしやすくして、うまくできているチームがなぜうまくいっているのかを明らかにしたり、改善施策を行なった結果指標も改善しているか定量的に確認できるようにして、開発効率を上げる土台を作るというのが目的。この辺の詳しいことは後々別のエントリで書かれると思う。 自分のチームは3人構成で、在宅のオンラインでやっていた。 id:shiba_yu36さん Mackerelチームでも

                                                              開発効率を計測するデータ基盤の管理にDataformを使ってみた - yasuhisa's blog
                                                            • Google Cloudではじめる実践データエンジニアリング入門[業務で使えるデータ基盤構築]

                                                              2021年2月20日紙版発売 2021年2月18日電子版発売 下田倫大,寳野雄太,饗庭秀一郎,吉田啓二 著 B5変形判/440ページ 定価3,740円(本体3,400円+税10%) ISBN 978-4-297-11948-5 Gihyo Direct Amazon 楽天ブックス ヨドバシ.com 電子版 Gihyo Digital Publishing Amazon Kindle ブックライブ 楽天kobo honto この本の概要 AIやIoTが実用化フェーズに入りつつあるのみならず,デジタルトランスフォーメーション(DX)への注目の高まりによって,事業やサービスを取り巻くデータを分析・活用・管理するためのインフラであるデータ基盤の重要性が増しています。 データ基盤を構築するにあたり,先行する事例から,Google Cloud(Google Cloud Platform, GCP)はデ

                                                                Google Cloudではじめる実践データエンジニアリング入門[業務で使えるデータ基盤構築]
                                                              • 安心して使えるデータ基盤を作る

                                                                From Cloud-Native Java and Quarkus 3 with Love @ DevoxxUK 2023 London

                                                                  安心して使えるデータ基盤を作る
                                                                • Digdag + Embulkをクラウド転生させてデータ基盤運用を圧倒的に楽にした話 - エムスリーテックブログ

                                                                  こんにちは、エムスリー エンジニアリンググループ / 製薬企業向けプラットフォームチームの鳥山 (@to_lz1)です。 これは エムスリー Advent Calendar 2020 の19日目の記事です。 エムスリーでは現在、各システムのオンプレ環境からクラウドへの移行を急ピッチで進めているところです(勉強会の配信アーカイブをYouTubeでもご覧いただけます。公式テックチャンネルのご登録、ぜひお願いします!) www.youtube.com これに関連して私のチームでも最近「データ基盤(Digdag + Embulk)のクラウド移行」を行ったため、そのときに考えたことや移行して良かったことを共有したいと思います。 エムスリーのデータ基盤について それまでの構成 クラウド環境でのアーキテクチャ DigdagとEmbulkの分離 Digdag on AWSからBigQueryを操作する 併

                                                                    Digdag + Embulkをクラウド転生させてデータ基盤運用を圧倒的に楽にした話 - エムスリーテックブログ
                                                                  • データ基盤のメタデータを継続的に管理できる仕組みを作る(ペパボ編) / pepabohatena

                                                                    ペパボ・はてな技術大会〜@オンライン https://pepabo.connpass.com/event/174331/

                                                                      データ基盤のメタデータを継続的に管理できる仕組みを作る(ペパボ編) / pepabohatena
                                                                    • 「実践的データ基盤への処方箋」から読み解く「データを扱うビジネスパーソン」のキャリアパス - Lean Baseball

                                                                      なんやかんやで, ITコンサルタント(復帰)生活から半年経ったマンです. マネジメントからアーキテクチャ, はたまた技術的なLTまでやらせてもらえて楽しく過ごしております*1. 昨年の話になりますが, コミュニティーやその他の活動で色々とお世話になってる @yuzutas0さん達が執筆しました, 「実践的データ基盤への処方箋」を頂戴いたしました. 実践的データ基盤への処方箋〜 ビジネス価値創出のためのデータ・システム・ヒトのノウハウ 作者:ゆずたそ,渡部 徹太郎,伊藤 徹郎技術評論社Amazon ひと言で言うと, データ活用のためにこういう本が欲しかったんや!!! というくらい良著で, データ活用に必要な「人・組織・アーキテクチャ」をいい感じに網羅的に扱っていて良きでした(と, 読み終えた時の感想ツイートがそう言ってました). データを扱う人すべてにおすすめしたい一冊です 読み終えた後も,

                                                                        「実践的データ基盤への処方箋」から読み解く「データを扱うビジネスパーソン」のキャリアパス - Lean Baseball
                                                                      • heyの統合データ基盤と今後の展望 - STORES Product Blog

                                                                        はじめに はじめまして、4/1からデータチームでデータエンジニアとして働いている @shoso です。 突然ですが、みなさんデータ基盤って開発したことありますか? 私はheyに来るまでなかったのですが、チームの経験あるメンバーと毎日話しながら(助けてもらいながら)開発する中でようやく少し分かって来たような気がします。 (覚えることが大量にあり大変とても楽しいです!) 今回は、データ基盤開発経験のある方はもちろん、普段サービス開発など他の開発をメインでされている方にも伝わる形で、heyの統合データ基盤と今後やっていきたいことについてご紹介できればと思います。 これまでにも、統合データ基盤のいくつかのトピックについて記事を公開していますが、この記事では統合データ基盤そのものについてより詳細が伝われば幸いです。 統合データ基盤ってなに 一言でいうと、社内に蓄積するあらゆるデータをスムーズ・横断的

                                                                          heyの統合データ基盤と今後の展望 - STORES Product Blog
                                                                        • 全社横断データ基盤へdbt導入を進めている話 - Sansan Tech Blog

                                                                          こんにちは。研究開発部 Architectグループの中村です。 本記事は Sansan Advent Calendar 2023 の16日目の記事です。 今回は、私達のチームで開発&運用している全社横断データ分析基盤のデータレイヤの再設計、及びdbtの導入を進めているという事例について紹介します。 既存のデータ基盤に対して、dbtの導入を検討されている方の参考になれば幸いです。 (本稿ではdbtとはについては触れませんので、ご了承ください) TL;DR 歴史的経緯 全社横断データ基盤が生まれる前 全社横断データ基盤 立ち上げ期 課題 立ち上げ期に作られたデータマートがカオスに・・・ 課題の解決に向けて データレイヤの再設計 Transformツールの選定 dbtへの移行戦略 その他dbt移行におけるTips チームでの開発の標準化 Cosmosの導入検証 データカタログのホスティング まと

                                                                            全社横断データ基盤へdbt導入を進めている話 - Sansan Tech Blog
                                                                          • Webアプリとデータ基盤をサクッと立ち上げるためのプラクティス - Google Cloudとサーバレスなサービスで良しなにやってみた - Lean Baseball

                                                                            個人開発(趣味プロジェクト)でプロダクトを作りながら, 本職の仕事でソリューションアーキテクトっぽいことをしているマンです*1. 最近は個人開発のネタとして, プロ野球選手の成績予測プロジェクト ヘルスケア周りの自分専用プロダクト開発 この2本軸で週末エンジニアリングをしているのですが, これらの事をしているうちに, Webアプリケーション + 分析用のデータ基盤の最小セット, みたいなパターンが見えてきた クラウドにおけるサービスの選び方・スケール(=拡張)するときに気をつけるべき勘所 みたいなのがまとまってきました. せっかくなので, 言語化した上で再現性をもたせよう!という主旨でこのエントリーを書きたいと思います. なお, これだけは強く言っておきます. 参考にするのは自由です&真似ができるようなプラクティスではありますが, ベストプラクティスかどうかは(この記事を読んだ皆様の)状況

                                                                              Webアプリとデータ基盤をサクッと立ち上げるためのプラクティス - Google Cloudとサーバレスなサービスで良しなにやってみた - Lean Baseball
                                                                            • MonotaROのデータ基盤10年史(後編) - MonotaRO Tech Blog

                                                                              こんにちは。データ基盤グループの香川です。 本記事は、MonotaRO のデータ基盤の歴史についての社内での発表の文字起こし記事の後編になります。 前編の記事: tech-blog.monotaro.com 前編では データ基盤の変遷の概要 2010年頃のデータ基盤 販促基盤とDWH(2010~2015) データ基盤構想とBigQueryの導入(2015~2017年) 同期システムの改良とBigQueryデータ基盤の展開(2018) までお話しましたが、後半たる本記事では以下について説明をしていきます。 他システムへのデータ提供とEC基盤の展開(2018) 2020年におけるデータ基盤へのデータ同期と利用状況 データ基盤の課題:データの管理体制の未整備による局所最適化 データ管理のグループ発足、Looker導入・DWH構築 歴史を振り返っての学び 歴史を振り返ることの意義 最後に 最後まで

                                                                                MonotaROのデータ基盤10年史(後編) - MonotaRO Tech Blog
                                                                              • DMMのデータ活用を支えるビッグデータ基盤・ML基盤のクラウド移行 (CUS-40) #AWSSummit | DevelopersIO

                                                                                本記事は、AWS Summit Japan 2021のセッション動画「CUS-40: AWS移行事例紹介 ~DMM のデータ活用を支えるビッグデータ基盤・ML基盤のクラウド移行 ~」のレポート記事です。 概要 "50以上の事業を展開するDMM。年々増えるデータ、バッチ、業務。そんな状況をAWS上での基盤構築を通じて打開した事例紹介" 50以上のビジネスを展開するDMM.comでのデータ活用基盤(データレイク基盤と機械学習基盤)をAWS上に構築した事例を紹介します。 データレイク基盤はオンプレ上で動いていた3000以上のJobの完全移行を実施し、よりスケーラブルな分析、データ処理、Single Source of Truth (SSoT)を実現しています。 機械学習基盤はArgoなどエコシステムが豊富なAmazon EKS Kubernetesを採用し、機械学習モデルの継続的なデプロイを行う

                                                                                  DMMのデータ活用を支えるビッグデータ基盤・ML基盤のクラウド移行 (CUS-40) #AWSSummit | DevelopersIO
                                                                                • ANDPADのデータ基盤の変遷 - ANDPAD Tech Blog

                                                                                  はじめに こんにちは!今回はANDPADの各種ログを分析するためのデータ基盤を担当しているエンジニアからデータ基盤の変遷について紹介させていただきます。ANDPADのデータ基盤に興味がある方はぜひ過去の記事も合わせてご覧ください。 tech.andpad.co.jp tech.andpad.co.jp 本記事では過去のデータ基盤が抱えていた課題と、チームがどうやってその課題を解決してきたか*1について紹介します。 基盤の構成 各種データソースからログを収集し BigQuery に投入する部分が本記事のスコープとなります。 過去の基盤は Amazon EKS 上で Digdag+Embulk を使用していました。 現在の基盤は Amazon ECS 上で Luigi を使用しています。 過去のデータ基盤 新しいデータ基盤 *2 課題 データの量 過去のデータ基盤には処理データ量に比例して処理

                                                                                    ANDPADのデータ基盤の変遷 - ANDPAD Tech Blog