タイトル「データ基盤」を検索 - はてなブックマーク

1 - 40 件 / 192件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

データ基盤の検索結果1 - 40 件 / 192件

データ基盤にありがちな「何を使って作ればよいか？」という問いに対する処方箋を用意してみました. - Lean Baseball
- 398 users
- shinyorke.hatenablog.com
- テクノロジー
- 2022/12/01
ちょっと昔まではデータ基盤の管理人・アーキテクト, 現在は思いっきりクラウドアーキを扱うコンサルタントになったマンです. 私自身の経験・スキル・このブログに書いているコンテンツの関係で, 「データ基盤って何を使って作ればいいの?」的なHow（もしくはWhere）の相談. 「Googleのビッグクエリーってやつがいいと聞いたけど何ができるの?」的な個別のサービスに対するご相談. 「ぶっちゃけおいくらかかりますか💸」というHow much?な話. 有り難くもこのようなお話をよくお受けしています. が, （仕事以外の営みにおける）個人としては毎度同じ話をするのはまあまあ疲れるので, データ基盤にありがちな「何を使って作ればよいか？」という問いに対する処方箋というテーマで, クラウド上でデータ基盤を構築する際のサービスの選び方（データ基盤に限らず）クラウド料金の基本的な考え方をGoogle
- データ
- あとで読む
- gcp
- データ基盤
- aws
- データ分析
- アーキテクチャ
- DWH
- サービス
- cloud
エムスリーのデータ基盤を支える設計パターン - エムスリーテックブログ
- 318 users
- www.m3tech.blog
- テクノロジー
- 2021/10/01
こんにちは、エムスリーエンジニアリンググループの鳥山 (@to_lz1)です。ソフトウェアエンジニアとして製薬企業向けプラットフォームチーム / 電子カルテチームを兼任しています。ソフトウェアエンジニアという肩書きではありますが、私は製薬企業向けプラットフォームチームで長らくデータ基盤の整備・改善といったいわゆる "データエンジニア" が行う業務にも取り組んできました。本日はその設計時に考えていること / 考えてきたことをデータ基盤の設計パターンという形でご紹介しようかと思います。多くの企業で必要性が認識されるようになって久しい "データ基盤" ですが、まだまだ確立された知見の少ない領域かと思います。少しでもデータエンジニアリングを行う方の業務の参考になれば幸いです。データ基盤の全体像収集部分の構成 RDBデータログデータ活用部分の構成データマートの実例「データ基
- 設計
- あとで読む
- データ
- architecture
- データ基盤
- aws
- bigquery
- 分析
- db
- チーム
全社員からデータ基盤への問い合わせが殺到して2人では捌けなくなったので仕組みで解決する話〜datatech-jp Casual Talks #2 登壇後記〜 - MonotaRO Tech Blog
- 305 users
- tech-blog.monotaro.com
- テクノロジー
- 2022/06/23
データ基盤グループの吉本です。今回は先日開催されたdatatech-jp Casual Talksで登壇した内容について補足も含め紹介します。 datatech-jp.connpass.com 発表資料はこちらです。データ基盤に関わる問い合わせ対応を仕組みで解決する from 株式会社MonotaRO Tech Team www.slideshare.net 発表内容の背景（問い合わせ対応における課題）発表したこと発表の反響最後に datatech-jpは主にデータエンジニアリングやデータ活用に関わる方が参加するコミュニティで、DWHやデータマネジメント、データエンジニアリングに関わる技術、ツールなどについて知見を共有したり、輪読会やLT会のようなイベントを実施しています。オーガナイザーとして同社同僚の吉田(id:syou6162)が参加しています。その中でCasual
- データ
- あとで読む
- 資料
- データ基盤
- 分析
- BigQuery
- 技術
- 勉強
- 仕事
- tech
新しいデータ基盤アーキテクチャである「データレイクハウス」について調べてみた - Taste of Tech Topics
- 273 users
- acro-engineer.hatenablog.com
- テクノロジー
- 2022/11/24
最近ソーダストリームを買い、炭酸水を飲むのにはまってます。機械学習エンジニアの@yktm31です。以前に「AWS Lake Formationでデータレイク体験！」という記事を書いてみて、データ基盤アーキテクチャに興味が湧いてきました。データレイクハウスは、「データウェアハウス」と「データレイク」を統合したようなアーキテクチャで、 2020年にDatabricks社により提唱され、新しいデータ基盤アーキテクチャとして注目されているようです。 www.databricks.com そこで今回、「データレイクハウス」について調べてみたことをまとめてみたいと思います。なぜデータレイクハウスが注目されているのか？データウェアハウスの特徴・課題データレイクの特徴・課題データレイクハウスの特徴データレイクハウスのアーキテクチャ Azure Azure Synapse Analyticsを
- アーキテクチャ
- あとで読む
- データ
- datalake
- aws
- Azure
- 機械学習
- architecture
- BI
- tech
データ基盤による利益最大化と初期構築プロセス / 20220209
- 266 users
- speakerdeck.com/yuzutas0
- テクノロジー
- 2022/02/07
「Data Cross Conference」の登壇資料です。 https://dcc2022.datafluct.com/ データ活用によって億単位の利益を創出してきた登壇者が、データ基盤をこれから構築する方に向けて、費用対効果を最大化するための初期構築プロセスを紹介します。 ----------------------------------------------------------- 【PR】一緒に働きましょう！ https://kazaneya.com/kdec -----------------------------------------------------------
Data Platform Guide - 事業を成長させるデータ基盤を作るには #DataEngineeringStudy / 20200715
- 242 users
- speakerdeck.com/yuzutas0
- テクノロジー
- 2020/07/15
Data Engineering Study #1 の発表資料です。 https://forkwell.connpass.com/event/179786/ 当日の動画はYoutubeで閲覧可能です。 https://www.youtube.com/watch?v=hFYNuuAaiTg 参考文献『Software Design (ソフトウェアデザイン) 2020年7月号』 https://amzn.to/30YueL7 『データマネジメントが30分でわかる本』 https://amzn.to/3fmz8Gw
- DWH
- BI
- あとで読む
- データ
- data
- slide
- datalake
- platform
- bigquery
MonotaROのデータ基盤10年史（前編） - MonotaRO Tech Blog
- 238 users
- tech-blog.monotaro.com
- テクノロジー
- 2021/10/26
おしらせ：12/23 に後編記事がでました！ tech-blog.monotaro.com こんにちは、データ基盤グループの香川です。現在モノタロウではBigQueryに社内のデータを集約し、データ基盤を構築しています。およそ全従業員の6割が日々データ基盤を利用しており、利用方法や目的は多岐に渡ります。データ基盤グループはこれまでデータ基盤システムの開発保守と利用者のサポートを主な業務として取り組んできましたが、これら多岐にわたる社内のデータ利用における課題の解決及びさらなるデータ活用の高度化を目的として、今年の5月よりデータ管理を専門に行う組織として新たに体制を再構築しました。そこで改めて組織として取り組むべき課題や方向性を決めるために、まず自分たちの現在地を知ることが重要と考え、データ基盤の歴史を振り返り、社内のデータ活用における課題やそれを取り巻く状況がどう変わってきたのかを
- BigQuery
- あとで読む
- mysql
- データ
- データ基盤
- SQL
- 分析
- database
- data
- 運用
データ基盤チーム0人で運用は回るのか？！前人未踏チャレンジ・クックパッドデータ基盤のすべて2020 - クックパッド開発者ブログ
- 220 users
- techlife.cookpad.com
- テクノロジー
- 2020/12/29
技術部データ基盤グループの青木です。ここ1、2年はなぜか成り行きでBFFをでっちあげたり、成り行きでiOSアプリリニューアルのPMをしたりしていたのであまりデータ基盤の仕事をしていなかったのですが、今年は久しぶりに本業に戻れたのでその話をします。突然の1人チーム、そして0人へ…… 今年のデータ基盤チームは消滅の危機から始まりました。間違いなく去年末は5人のチームだったと思うのですが、メンバーがイギリスへグローバルのデータ基盤チームを作りに行ったり、山へ検索システムを直しに行ったり、川へレシピ事業の分析業務をやりに行ったり、海へ広告のエンジニアリングをしに行ったりするのをホイホイと気前よく全部聞いていたら、なんと4月から1人だけのチームになってしまいました。事はそれで終わりません。恐ろしいことに10月にはわたし自身も育休に入ることになったので、 10月はデータ基盤が0
SQLを使った監視でデータ基盤の品質を向上させる - MonotaRO Tech Blog
- 216 users
- tech-blog.monotaro.com
- テクノロジー
- 2021/08/24
こんにちは、データ基盤グループの吉田(id:syou6162)です。データ基盤グループでは安定してデータを利用できるように様々な取り組みを行なっています。本エントリでは、データ品質に問題がある場合にすぐに気付けるようにしたSQLによる監視の仕組みを紹介します。背景 SQLを使った監視基盤の構築実際の監視項目例他チームがdailyで転送しているデータがバッチの失敗により遅れていないか BigQueryのエラーレートが急激に増加していないか承認済みビューの設定が意図せず消えていないか今後の展望背景データ基盤の運用をしていると、日々様々なトラブルと向き合う必要があります。例えば、以下のようなものがあります。他チームがdailyで転送しているデータがバッチの失敗により遅れている TerraformなどのIaCで承認済みビューの権限管理を行なっているが、コードの設定ミスで意図せぬ状態
- sql
- BigQuery
- あとで読む
- monitoring
- 監視
- データ
- 運用
- cloud
事業に貢献するデータ基盤を作ろう・考え方編 / data_engineering_study_2
- 203 users
- speakerdeck.com/shinu
- テクノロジー
- 2020/08/19
Data Engineering Study #2「データ収集基盤とデータ整備のこれまでとこれから」https://forkwell.connpass.com/event/182769/ 作成者：しんゆう＠データ分析とインテリジェンス Twitter：https://twitter.com/data_analyst_
データ基盤をサーバーレスで構築したので概要を紹介 - Adwaysエンジニアブログ
- 195 users
- blog.engineer.adways.net
- テクノロジー
- 2022/01/07
あけましておめでとうございます。本年もよろしくお願いいたします。久しぶりに登場しました菊池です。僕は昨年から新しいデータ基盤を構築するプロジェクトを担当しておりまして、最近システムが無事に実稼働してホッと一息したところです。思い起こせば入社時はインフラ担当部署に配属だったのが、広告配信システムの開発をやったり、カジュアルゲーム作ったり。新規事業のスマホアプリを作りつつサーバーサイドの API を作って立ち上げたり、海外向けのサービスを作ったり。いつのまにかメディア運営に関わったりしてきましたが、最近はデータ基盤の開発もやってます。そんなキャリアを歩んできましたが、いつか森の中の開けた草原にあるネット環境の整ったポツンと一軒家で、庭にチャボを放飼にしつつ養蜂をやってみたいと思っています。話は戻りますが、今回はこの稼働したてホカホカ状態のデータ基盤について概要を紹介したいと思います。よろ
- データ基盤
- あとで読む
- データ
- BigQuery
- google
- serverless
- cloud
- サーバ
- システム
- api
【Team & Project】LINE全社のデータ基盤のミドルウェアやData ingestion pipelineの開発・運用を担当しているチームを紹介します
- 187 users
- engineering.linecorp.com
- テクノロジー
- 2020/10/22
―― 今のチーム課題と課題解決に向けた取り組みを教えてください。 Wang：私たちのチームでは、主に3つの課題について取り組みを進めています。まずは1つ目の課題は「マルチテナントのクラスターの運用」についてです。 Hadoopは一般的に、有数のユーザと予測可能なワークロードで運用されていますが、LINEのData OpenによってDAUが700人弱であり、且つワークロードも10万+/日となっています。Isolationがまだ完備されていないので、ユーザ間にリソースの競合が発生している状況です。 2つ目は「Data catalog」についてです。ユーザが自由にデータを生成したり利用したりする環境においては、データのカタログがとても重要です。そのため、Data Lineageを自動的に生成する仕組みが必要となってきます。そして「大規模のインフラを効率よく運用すること」も私たちの課題です。私
- データ
- あとで読む
- LINE
- 開発
- 運用
- 技術
- data
- チーム
- アーキテクチャ
- development
"壊れにくい"データ基盤を構築するためにMackerelチームで実践していること - Hatena Developer Blog
- 158 users
- developer.hatenastaff.com
- テクノロジー
- 2020/08/04
こんにちは。MackerelチームにおいてCRE（Customer Reliability Engineer）をしているid:syou6162です。主にカスタマーサクセスを支えるデータ基盤の構築や、データ分析を担当しています。今回は、壊れにくいデータ基盤を構築するため、Mackerelチームで実践していることを紹介します。なぜ壊れにくいデータ基盤を構築するのかデータ基盤が“壊れている”とはどういうことか壊れてないだけでなく、壊れたら気付ける前提とするシステム構成壊れたことに気付けるよう監視する 1. バッチジョブが失敗したことに気付く 2. 投入されたデータの性質を監視する 3. ビューが壊れてないかを監視する 4. 利用状況を監視するそもそも壊れてない状態を保つ 1. データリネージを元に修正できるようにする 2. 使われていないテーブルやビューは定期的に掃除おわりに参
- bigquery
- あとで読む
- Mackerel
- データ
- データ分析
- 監視
- データ基盤
- sql
- monitoring
- チーム
私が妄想している最強のデータ基盤2023
- 154 users
- zenn.dev/jimatomo
- テクノロジー
- 2023/01/08
新年になったので今年のやりたいことをまとめようと思いたち筆をとっています。単にやりたいこと書いてもただのポエムになってしまうので、私が今時点で妄想している最強のデータ基盤を描いて、その中でまだ触ったことのない技術を今年触っていこうという意気込みを最後に書こうと思います（意気込みだけにならないように頑張りたいです！）まだ触ったことないものもあるので妄想しているレベルです。アーキテクチャ図まず最初に結論から書いていきます。なぜこのアーキテクチャが最強と思うのかデータ基盤として機能を分けると以下の6つの領域に分かれると思っています（もう少し細かく分けることもできたりします。例えばDMBOKとかではホイール図で11の領域に分けたりしています）データ基盤の領域主に関連するDMBOKの知識領域主担当
次世代データ基盤：データレイクハウスを Google Cloud で実現する
- 150 users
- zenn.dev/cloud_ace
- テクノロジー
- 2024/02/22
はじめにこんにちは、クラウドエースデータソリューション部の松本です。普段はデータ基盤や MLOps の構築をしたり、Google Cloud 認定トレーナーとしてトレーニングを提供しております。また、昨年は Google Cloud Partner Top Engineer 2024 に選出されました。今年も Goodle Cloud 界隈を盛り上げていけるよう頑張っていきたいと思います。クラウドエースデータソリューション部についてクラウドエースのITエンジニアリングを担うシステム開発統括部の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのがデータソリューション部です。弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があればエントリーをお待ちしております！今回は、次世代データ基盤であるデ
- BigQuery
- あとで読む
- gcp
- データ
- cloud
- Google Cloud
- google
- 分析
- クラウド
- アーキテクチャ
マイクロソフト、「Dataflex」発表。Microsoft Teams向けのローコード向けデータ基盤
- 142 users
- www.publickey1.jp
- テクノロジー
- 2020/07/27
マイクロソフト、「Dataflex」発表。Microsoft Teams向けのローコード向けデータ基盤 Dataflexは、Microsoft Teamsでチームごとに利用可能なデータベースです。このデータベースを基盤に、同社のノーコード／ローコード開発ツールであるPower Appsやボット開発ツールであるPower Virtual Agentsなどを使って、チームで共有できるアプリケーションやボットを作ることができます。下記は「Introducing Microsoft Dataflex, a new low-code data platform for Microsoft Teams」から引用します。 Microsoft Dataflex delivers a built-in, low-code data platform for Teams, and provides rela
- teams
- microsoft
- あとで読む
- 開発
- データベース
- db
- データ
- data
- Publickey
- Apps
データ基盤の管理に役立つ監視用のSQLを紹介します - 10X Product Blog
- 138 users
- product.10x.co.jp
- テクノロジー
- 2023/07/31
Analytics Engineerの吉田(id:syou6162)です。BigQueryを中心に10X社内のデータ関連の管理をしています。10Xに入社してそろそろ一年になろうかとしていますが、データ基盤を適切に管理 / 運用するためにSQLによる監視を少しずつ取り入れています。この記事では、具体的にどのようなSQLを書いて監視しているのか紹介したいと思います。なお、SQLを使ったデータ基盤の監視自体については私の前職のTech Blogで詳細に書いていますので、そちらを参照してください。 SQLを使った監視でデータ基盤の品質を向上させる - MonotaRO Tech Blog データ管理に役立つメタデータに関する勉強会を社内外で開催しました - MonotaRO Tech Blog 本エントリはこれをベースに「dbtをフルに活用している10Xの環境向けに入れた監視」や「BigQuer
- bigquery
- SQL
- あとで読む
- データ
- 監視
- ToDo
- techfeed
- 統計
ログ一元管理の本質とSIEMの限界 - データ基盤への道 - LayerX エンジニアブログ
- 115 users
- tech.layerx.co.jp
- テクノロジー
- 2024/03/29
三井物産デジタル・アセットマネジメントで、ガバナンス・コンプラエンジニアリングをしている鈴木 (@ken5scal )です。いきなりですが、ログ管理はどの職種どの場面でも重要です。セキュリティにおいても、古生代よりサーバー、ネットワーク機器、アプリケーションなどから出力されるログを一元的に収集し、監視や分析を行うことで、セキュリティインシデントの早期発見や対応、コンプライアンス要件の達成が可能になります。このようなログ一元管理を実現する代表的なソリューションは、そう、皆様よくご存知のSIEM。我らが「Security Information and Event Management」であります。私はSIEMを、新卒で入社した大手企業でSOC(Security Operation Center)として触れ、その後ユーザー企業でもOSSやAWS GuardDuty（？）などの形で利用す
- ログ
- あとで読む
- データ
- セキュリティ
- SIEM
- LayerX
- 管理
- security
- 分析
データ基盤のメタデータを継続的に管理できる仕組みを作る - Hatena Developer Blog
- 108 users
- developer.hatenastaff.com
- テクノロジー
- 2020/04/16
こんにちは。MackerelチームでCRE(Customer Reliability Engineer)をしているid:syou6162です。 CREチームではカスタマーサクセスを進めるため、最近データ分析により力を入れています(参考1, 参考2)。データ分析を正確に行なうためには、データに関する正確な知識が必要です。今回はより正確なデータ分析を支えるためのメタデータを継続的に管理する仕組みについて書いてみます。データに対する知識: メタデータデータ分析を正確に行なうためには、データ自身に関する知識(=メタデータ)が必要です。例えば、Mackerelのデータ分析タスクでは以下のような知識が必要とされることが多いです。このテーブル / カラムは何のためのテーブルなのか似たようなカラムとの違い集計条件の違い、などデータがどのような値を取り得るか SELECT column, COU
Data Management Guide - 事業成長を支えるデータ基盤のDev&Ops #TechMar / 20211210
- 103 users
- speakerdeck.com/yuzutas0
- テクノロジー
- 2021/12/10
---------------------------------------------------------------------------------------- 【PR】一緒に働きましょう！ https://kazaneya.com/kdec ---------------------------------------------------------------------------------------- 「Tech × Marketing Conference 2021 #データマネジメント」基調講演の登壇資料です。 https://techxmarketing.connpass.com/event/229173/ データ活用やDXが注目されている一方で、実際にプロジェクトを進めようとすると「必要なデータが入力されていない」「用途を実現できるほどデータ品質が高
データマネジメント入門 - DX推進を支えるデータ基盤の重要性 / 20240125
- 90 users
- speakerdeck.com/kazaneya
- テクノロジー
- 2024/03/07
デル・テクノロジーズ様ならびにITmedia様が開催する「データ仮想化」セミナーの登壇資料です。詳細は当社ニュースをご参照ください。 https://kazaneya.com/fdcdfd5026ab4ec6a56484955be98f06 過去登壇資料のショート版となります。フル版は以下をご参照ください。 https://speakerdeck.com/yuzutas0/20211210 ＜本セミナーについて＞ - オンデマンド配信URL　https://v2.nex-pro.com/campaign/63212/apply - セミナーレポート　https://atmarkit.itmedia.co.jp/ait/articles/2403/07/news010.html - 資料ダウンロードのお問い合わせ　https://kazaneya.com/contact ＜風音屋について＞
NoSQLデータベースCassandraの紹介〜ヤフーのデータ基盤を支える技術
- 87 users
- techblog.yahoo.co.jp
- テクノロジー
- 2020/01/29
こんにちは！　山下郁矢です。2018年新卒で入社し、現在はNoSQLデータベースエンジニアとして働いています。サービスを作るにあたってデータベースは必要不可欠ですよね。ヤフーでは100を超えるサービスで毎日生み出される膨大なデータを、データベースを用いてリアルタイムで蓄積し、運用管理しています。今回は、その中でも利用規模の大きい、NoSQLデータベースの1つであるApache Cassandraを皆様に知ってもらうべく、ヤフーでどのようにして利用されているのかをお伝えしたいと思います。 NoSQLの立ち位置 Cassandraについてご紹介する前に、NoSQLについて軽く説明します。 NoSQLデータベースは一般的に非RDBMSに該当するデータベースのことを指します。 MySQLやOracleのようなRDBMSとはどう違うのでしょうか？　RDBMSと比べて、優位性のあるデータベースなの
- Cassandra
- あとで読む
- データベース
- NoSQL
- techfeed
- OSS
- システム
- db
- yahoo
データ基盤を支える技術 - ETLフレームワークの実践的な選び方・組み合わせ方 - JX通信社エンジニアブログ
- 86 users
- tech.jxpress.net
- テクノロジー
- 2020/07/29
JX通信社シニア・エンジニア兼データ基盤担当大臣の@shinyorke（しんよーく）です. 最近やった「ちょっとした贅沢」は「休日, 自宅で🍺片手に野球を見ながらUberEatsで注文したランチを楽しむ」です. ⚾と飲食を提供してくださる皆さまに心から感謝しております🙏 JX通信社では, 機械学習を用いたプロダクト開発・施策プロダクト・サービスの改善に関する分析日々のイベントをメトリクス化して可視化（いわゆるBI的なもの）を円滑かつ効率よく行うため, 昨年からデータ基盤を整備・運用しており, 現在では社員のみならず（スーパー優秀な）インターンの皆さまと一緒に活用し, 成果を出し始めています. ainow.ai なぜデータ基盤が必要か?どういった事をしているのか?...は上記のインタビューに譲るとして, このエントリーでは「データ基盤を支える技術 - ETL編」と称しまして, Py
- ETL
- データ基盤
- python
- workflow
- コンテナ
- データ
- あとで読む
- 運用
- docker
Rettyのデータ基盤の歴史と統合 - Retty Tech Blog
- 82 users
- engineer.retty.me
- テクノロジー
- 2020/05/27
書き手：@takegue (分析チーム) Rettyのデータ活用の多くにはBigQueryが現在利用されており、その活用の方法についてこれまでこのブログでもいくつかとりあげさせていただきました。 engineer.retty.me そのほか分析チームの記事一覧これらの記事はおかげさまで好評いただいております。いつもありがとうございます。しかしながら、我々が初期からこのようにBigQueryを使い続けてきかというと、実はそうではありません。事業の成長とともにデータ基盤を変化させてきた経緯があり、今の成果は過去のトライアンドエラーの賜物であり、数多くの苦労を背景にしてできあがっています。ほんのつい最近まで、Rettyで構築されていたデータ基盤は表立って見える実態よりもかなり複雑なパイプラインで構成されていました（以降で触れますが、4種類のデータパイプラインが共存しているカオスな状態でし
全社共通データ基盤を廃止して新しいデータ基盤に引越した話 - ZOZO TECH BLOG
- 79 users
- techblog.zozo.com
- テクノロジー
- 2022/09/15
こんにちは、データ基盤の開発、運用をしていた谷口（case-k）です。最近は配信基盤の開発と運用をしています。 ZOZOではオンプレやクラウドにあるデータをBigQueryへ連携し、分析やシステムで活用しています。BigQueryに連携されたテーブルは共通データ基盤として全社的に利用されています。共通データ基盤は随分前に作られたこともあり、様々な負債を抱えていました。負債を解消しようにも利用者が約300人以上おり、影響範囲が大きく改善したくても改善できずにいました。本記事では旧データ基盤の課題や新データ基盤の紹介に加え、どのようにリプレイスを進めたかご紹介します。同じような課題を抱えている方や新しくデータ基盤を作ろうとしている方の参考になると嬉しいです。データ基盤の紹介旧データ基盤の紹介旧データ基盤の課題変更があっても更新されないデータ性質の異なるテーブルを同じ命名規則で管理
- BigQuery
- あとで読む
- データ
- gcp
- 分析
バクラク事業におけるデータ組織とデータ基盤 2023 - LayerX エンジニアブログ
- 65 users
- tech.layerx.co.jp
- テクノロジー
- 2023/07/04
お世話になっております。LayerXの高際 @shun_tak と申します。現在は、データ分析組織の立ち上げに注力しています。本記事では、バクラク事業におけるデータ組織とデータ基盤をテーマに取り扱います。データ分析における認知負荷や属人性を解消するための取り組みや、良質なデータを提供するためのデータ基盤の構築について、具体的な技術スタックを交えて解説し、最後に現在の課題と今後の展望について説明します。また、この記事は 7月はLayerXエンジニアブログを活発にしよう月間の2日目の記事になります。 1. データ組織について 1.1. チーム設立の背景 1.1.1. 多少間違ったクエリでも正しい意思決定ができれば、それはとても良いこと (余談コラム) 1.2. チーム構成 1.3. 業務内容 2. データ基盤について 2.1. データ基盤の構成 2.1.1. データソース 2.1.2.
IPAに「デジタル基盤センター」発足、経産省・デジタル庁と連携しデータ基盤整備
- 64 users
- xtech.nikkei.com
- 政治と経済
- 2023/07/03
情報処理推進機構（IPA）は組織改編を行い、2023年7月1日付で新組織「デジタル基盤センター」を発足した。経済産業省やデジタル庁と連携して、データ基盤整備などを行う。デジタル基盤センターは約100人規模からなり、デジタルエンジニアリング部、デジタルトランスフォーメーション部、イノベーション部などから構成される。組織改編により2023年6月30日付で廃止した「社会基盤センター」「IT人材育成センター」の事業の一部を継承するなどの従来業務に加えて、デジタルエンジニアリング部に「データスペースグループ」を新設し、データ戦略の検討に加えて具体的なデータ基盤整備を進める。同グループでは、欧州など国際動向を踏まえてデータ標準を策定する他、防災やスマートシティ、教育といった領域ごとでのデータ基盤整備を進める。具体的には、IPAが協力しデジタル庁が作成した、異なるシステムを連携するためのデータ整備の
- 行政
- あとで読む
- 技術
- ネット
- 社会
大規模データを扱う現場でどんな変化が？ Snowflake導入5社のデータ基盤アーキテクチャと設計意図 - Findy Tools
- 58 users
- findy-tools.io
- テクノロジー
- 2024/03/12
公開日 2024/03/11更新日 2024/03/12大規模データを扱う現場でどんな変化が？ Snowflake導入5社のデータ基盤アーキテクチャと設計意図スケーラビリティやデータ活用までのリードタイム、価格面での懸念に応える製品として注目を集めるSnowflake。特に大規模なデータを取り扱う現場では、Snowflake導入によってどんな変化があるのでしょうか。本記事では、前回の第一弾でご紹介したChatworkさん、delyさん、GENDAさん、スターフェスティバルさんに引き続き、第二弾として大規模データを取り扱う5社に、データ基盤の設計思想やデータチームの方針にも触れながら、Snowflake導入の背景や効果を伺いました。 ■目次・株式会社Algoage ・株式会社GROWTH VERSE ・株式会社マイナビ・ノバセル株式会社・株式会社セゾン情報システムズ株式会社Alg
開発効率を計測するデータ基盤の管理にDataformを使ってみた - yasuhisa's blog
- 56 users
- www.yasuhisay.info
- テクノロジー
- 2021/01/23
Dataformを初めて使ってみたので、雑に感想を書いておきます。結構よかった。使ってみようとした背景 Dataformについて試してみてどうだったかよかったまだまだこれからっぽいところ & 気になり参考使ってみようとした背景今週、社内の開発合宿に参加していた。変更のリードタイムやデプロイ頻度などのFour Keysにあるような指標を計測できるデータ基盤を作るのが目標。様々なチームの開発のパフォーマンスをトラッキングしやすくして、うまくできているチームがなぜうまくいっているのかを明らかにしたり、改善施策を行なった結果指標も改善しているか定量的に確認できるようにして、開発効率を上げる土台を作るというのが目的。この辺の詳しいことは後々別のエントリで書かれると思う。自分のチームは3人構成で、在宅のオンラインでやっていた。 id:shiba_yu36さん Mackerelチームでも
Google Cloudではじめる実践データエンジニアリング入門［業務で使えるデータ基盤構築］
- 55 users
- gihyo.jp
- テクノロジー
- 2021/01/16
2021年2月20日紙版発売 2021年2月18日電子版発売下田倫大，寳野雄太，饗庭秀一郎，吉田啓二　著 B5変形判／440ページ定価3,740円（本体3,400円＋税10%） ISBN 978-4-297-11948-5 Gihyo Direct Amazon 楽天ブックスヨドバシ.com 電子版 Gihyo Digital Publishing Amazon Kindle ブックライブ楽天kobo honto この本の概要 AIやIoTが実用化フェーズに入りつつあるのみならず，デジタルトランスフォーメーション（DX）への注目の高まりによって，事業やサービスを取り巻くデータを分析・活用・管理するためのインフラであるデータ基盤の重要性が増しています。データ基盤を構築するにあたり，先行する事例から，Google Cloud（Google Cloud Platform, GCP）はデ
- book
- あとで読む
- google
- cloud
- データ
- 書籍
- 技術
安心して使えるデータ基盤を作る
- 55 users
- speakerdeck.com/h_hosokawa
- テクノロジー
- 2020/01/25
From Cloud-Native Java and Quarkus 3 with Love @ DevoxxUK 2023 London
Digdag + Embulkをクラウド転生させてデータ基盤運用を圧倒的に楽にした話 - エムスリーテックブログ
- 55 users
- www.m3tech.blog
- テクノロジー
- 2020/12/19
こんにちは、エムスリーエンジニアリンググループ / 製薬企業向けプラットフォームチームの鳥山 (@to_lz1)です。これはエムスリー Advent Calendar 2020 の19日目の記事です。エムスリーでは現在、各システムのオンプレ環境からクラウドへの移行を急ピッチで進めているところです（勉強会の配信アーカイブをYouTubeでもご覧いただけます。公式テックチャンネルのご登録、ぜひお願いします!） www.youtube.com これに関連して私のチームでも最近「データ基盤（Digdag + Embulk）のクラウド移行」を行ったため、そのときに考えたことや移行して良かったことを共有したいと思います。エムスリーのデータ基盤についてそれまでの構成クラウド環境でのアーキテクチャ DigdagとEmbulkの分離 Digdag on AWSからBigQueryを操作する併
データ基盤のメタデータを継続的に管理できる仕組みを作る（ペパボ編） / pepabohatena
- 54 users
- speakerdeck.com/k1low
- テクノロジー
- 2020/05/14
ペパボ・はてな技術大会〜@オンライン https://pepabo.connpass.com/event/174331/
「実践的データ基盤への処方箋」から読み解く「データを扱うビジネスパーソン」のキャリアパス - Lean Baseball
- 50 users
- shinyorke.hatenablog.com
- テクノロジー
- 2022/04/22
なんやかんやで, ITコンサルタント（復帰）生活から半年経ったマンです. マネジメントからアーキテクチャ, はたまた技術的なLTまでやらせてもらえて楽しく過ごしております*1. 昨年の話になりますが, コミュニティーやその他の活動で色々とお世話になってる @yuzutas0さん達が執筆しました, 「実践的データ基盤への処方箋」を頂戴いたしました. 実践的データ基盤への処方箋〜ビジネス価値創出のためのデータ・システム・ヒトのノウハウ作者:ゆずたそ,渡部徹太郎,伊藤徹郎技術評論社Amazon ひと言で言うと, データ活用のためにこういう本が欲しかったんや！！！というくらい良著で, データ活用に必要な「人・組織・アーキテクチャ」をいい感じに網羅的に扱っていて良きでした（と, 読み終えた時の感想ツイートがそう言ってました）. データを扱う人すべてにおすすめしたい一冊です読み終えた後も,
heyの統合データ基盤と今後の展望 - STORES Product Blog
- 49 users
- product.st.inc
- テクノロジー
- 2021/07/30
はじめにはじめまして、4/1からデータチームでデータエンジニアとして働いている @shoso です。突然ですが、みなさんデータ基盤って開発したことありますか？私はheyに来るまでなかったのですが、チームの経験あるメンバーと毎日話しながら（助けてもらいながら）開発する中でようやく少し分かって来たような気がします。（覚えることが大量にあり大変とても楽しいです！）今回は、データ基盤開発経験のある方はもちろん、普段サービス開発など他の開発をメインでされている方にも伝わる形で、heyの統合データ基盤と今後やっていきたいことについてご紹介できればと思います。これまでにも、統合データ基盤のいくつかのトピックについて記事を公開していますが、この記事では統合データ基盤そのものについてより詳細が伝われば幸いです。統合データ基盤ってなに一言でいうと、社内に蓄積するあらゆるデータをスムーズ・横断的
- データ
- あとで読む
- BigQuery
- 分析
- DB
- architecture
- management
- data
全社横断データ基盤へdbt導入を進めている話 - Sansan Tech Blog
- 48 users
- buildersbox.corp-sansan.com
- テクノロジー
- 2023/12/16
こんにちは。研究開発部 Architectグループの中村です。本記事は Sansan Advent Calendar 2023 の16日目の記事です。今回は、私達のチームで開発&運用している全社横断データ分析基盤のデータレイヤの再設計、及びdbtの導入を進めているという事例について紹介します。既存のデータ基盤に対して、dbtの導入を検討されている方の参考になれば幸いです。（本稿ではdbtとはについては触れませんので、ご了承ください） TL;DR 歴史的経緯全社横断データ基盤が生まれる前全社横断データ基盤立ち上げ期課題立ち上げ期に作られたデータマートがカオスに・・・課題の解決に向けてデータレイヤの再設計 Transformツールの選定 dbtへの移行戦略その他dbt移行におけるTips チームでの開発の標準化 Cosmosの導入検証データカタログのホスティングまと
- dbt
- あとで読む
- data
- データ
- ツール
Webアプリとデータ基盤をサクッと立ち上げるためのプラクティス - Google Cloudとサーバレスなサービスで良しなにやってみた - Lean Baseball
- 46 users
- shinyorke.hatenablog.com
- テクノロジー
- 2022/05/15
個人開発（趣味プロジェクト）でプロダクトを作りながら, 本職の仕事でソリューションアーキテクトっぽいことをしているマンです*1. 最近は個人開発のネタとして, プロ野球選手の成績予測プロジェクトヘルスケア周りの自分専用プロダクト開発この2本軸で週末エンジニアリングをしているのですが, これらの事をしているうちに, Webアプリケーション + 分析用のデータ基盤の最小セット, みたいなパターンが見えてきたクラウドにおけるサービスの選び方・スケール（=拡張）するときに気をつけるべき勘所みたいなのがまとまってきました. せっかくなので, 言語化した上で再現性をもたせよう！という主旨でこのエントリーを書きたいと思います. なお, これだけは強く言っておきます. 参考にするのは自由です&真似ができるようなプラクティスではありますが, ベストプラクティスかどうかは（この記事を読んだ皆様の）状況
- GCP
- あとで読む
- 開発
- google
- cloud
- データ
MonotaROのデータ基盤10年史（後編） - MonotaRO Tech Blog
- 45 users
- tech-blog.monotaro.com
- テクノロジー
- 2021/12/23
こんにちは。データ基盤グループの香川です。本記事は、MonotaRO のデータ基盤の歴史についての社内での発表の文字起こし記事の後編になります。前編の記事： tech-blog.monotaro.com 前編ではデータ基盤の変遷の概要 2010年頃のデータ基盤販促基盤とDWH（2010~2015) データ基盤構想とBigQueryの導入（2015~2017年) 同期システムの改良とBigQueryデータ基盤の展開（2018) までお話しましたが、後半たる本記事では以下について説明をしていきます。他システムへのデータ提供とEC基盤の展開(2018) 2020年におけるデータ基盤へのデータ同期と利用状況データ基盤の課題：データの管理体制の未整備による局所最適化データ管理のグループ発足、Looker導入・DWH構築歴史を振り返っての学び歴史を振り返ることの意義最後に最後まで
DMMのデータ活用を支えるビッグデータ基盤・ML基盤のクラウド移行 (CUS-40) #AWSSummit | DevelopersIO
- 44 users
- dev.classmethod.jp
- テクノロジー
- 2021/05/28
本記事は、AWS Summit Japan 2021のセッション動画「CUS-40: AWS移行事例紹介 ~DMM のデータ活用を支えるビッグデータ基盤・ML基盤のクラウド移行 ~」のレポート記事です。概要 "50以上の事業を展開するDMM。年々増えるデータ、バッチ、業務。そんな状況をAWS上での基盤構築を通じて打開した事例紹介" 50以上のビジネスを展開するDMM.comでのデータ活用基盤（データレイク基盤と機械学習基盤）をAWS上に構築した事例を紹介します。データレイク基盤はオンプレ上で動いていた3000以上のJobの完全移行を実施し、よりスケーラブルな分析、データ処理、Single Source of Truth (SSoT)を実現しています。機械学習基盤はArgoなどエコシステムが豊富なAmazon EKS Kubernetesを採用し、機械学習モデルの継続的なデプロイを行う
ANDPADのデータ基盤の変遷 - ANDPAD Tech Blog
- 43 users
- tech.andpad.co.jp
- テクノロジー
- 2021/12/07
はじめにこんにちは！今回はANDPADの各種ログを分析するためのデータ基盤を担当しているエンジニアからデータ基盤の変遷について紹介させていただきます。ANDPADのデータ基盤に興味がある方はぜひ過去の記事も合わせてご覧ください。 tech.andpad.co.jp tech.andpad.co.jp 本記事では過去のデータ基盤が抱えていた課題と、チームがどうやってその課題を解決してきたか*1について紹介します。基盤の構成各種データソースからログを収集し BigQuery に投入する部分が本記事のスコープとなります。過去の基盤は Amazon EKS 上で Digdag+Embulk を使用していました。現在の基盤は Amazon ECS 上で Luigi を使用しています。過去のデータ基盤新しいデータ基盤 *2 課題データの量過去のデータ基盤には処理データ量に比例して処理
- データ
- あとで読む