データ基盤の人気記事 204件 - はてなブックマーク

1 - 40 件 / 204件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

データ基盤の検索結果1 - 40 件 / 204件

データ基盤に関するエントリは204件あります。データ、分析、データ分析などが関連タグです。人気エントリには『「未経験文系から3ヶ月でデータサイエンティストになって一発逆転」はここで終わり (2020/7/31 更新) - todo-mentor’s diary』などがあります。

「未経験文系から3ヶ月でデータサイエンティストになって一発逆転」はここで終わり (2020/7/31 更新) - todo-mentor’s diary
- 1344 users
- todes-mentor.hatenablog.com
- テクノロジー
- 2020/07/13
データサイエンティストを生業にする手段と実態について述べる。途中、具体例・境界値の例として私個人の話もするが、なるべく一般性のある話をする。この記事で言いたいことは具体的には4つだ。プログラミングスクールをディスるなら代わりの入門方法を提供しようよ。もう「未経験文系から3ヶ月でデータサイエンティストで一発逆転物語」を止めろ。*1 おじさんは人生逆転したいなら真面目にやれ。若者はワンチャンじゃなくて、ちゃんと化け物になれよ。この記事についてはパブリック・ドメインとして転載・改変・リンク記載を自由にしてよいです。 (続き書いた) a. 入門は辛いが… b. 思考停止でプログラミングスクールに通うな。なろう系・始めてみよう系資料一覧（最速・最短ルート用）まずは動かしてみよう。強くてニューゲームが体験出来るぞ！入門以前の本一般向け業界本 (AI業界と展望がわかる本) 技術者入
バッチ処理プラクティス
- 1062 users
- www.yamarkz.com
- テクノロジー
- 2021/12/15
バッチ処理は既に先人の方々が多くのナレッジを公開してくれていますが、それでもなお難しさが変わらないテーマだと思っています。この記事は、筆者がこれまでの開発経験で気づいたバッチ処理の実装ナレッジを整理し、体系化を目指して文章にしました。ここでの内容が、より良い課題解決に貢献できれば幸いです。自身の断片的な思考整理(メモ書き)の延長で内容を整理したため、一部書き振りが統一されておらず、読みにくいかもしれません。ご了承ください。🙏 バッチ処理の難しさバッチ処理は難しい。人によっては簡単なテーマかもしれませんが、自分は難しいテーマだと思っています。「難しさの根源は何か？」を考えると、1. 考慮点が多様にあること 2. 解決する課題によって答えが大きく変わることに整理できました。この2点は、どのソフトウェア開発にも当てはまる項目ではありますが、ことバッチ処理においては顕著に現れます。
Pythonを学ぶときに読むべき本2020年版 - 初心者からプロになるために - Lean Baseball
- 975 users
- shinyorke.hatenablog.com
- テクノロジー
- 2019/12/24
※最新版（2021年バージョン）がこちらにありますので合わせてご覧ください！毎年恒例, Python本と学び方の総まとめです！*1 プログラミング, エンジニアリングに機械学習と今年（2019年）もPythonにとって賑やかな一年となりました. 今年もたくさん出てきたPythonの書籍や事例などを元に, 初心者向けの書籍・学び方仕事にする方（中級者）へのオススメ書籍プロを目指す・もうプロな人でキャリアチェンジを考えている方へのオススメを余す所無くご紹介します. 来年（2020年）に向けての準備の参考になれば幸いです. ※ちなみに過去に2019, 2018, 2017と3回ほどやってます*2. このエントリーの著者&免責事項 Shinichi Nakagawa（@shinyorke）株式会社JX通信社シニア・エンジニア, 主にデータ基盤・分析を担当. Python歴はおおよそ9年
文春オンラインの記事分析を支える爆速ダッシュボードを作るまで｜Shota Tajima
- 906 users
- note.com/shota_tjm
- テクノロジー
- 2022/04/04
従来のGoogleアナリティクスである、ユニバーサルアナリティクス（以下UA）のサポートがいよいよ2023年7月に終了することが、先日アナウンスされました（※）。昨年対比やトレンドをチェックすることを考えると、2022年内できるだけ早めに次世代のGoogleアナリティクス（以下GA4）へ移行したいWebメディア運営者も多いかと思います。新しいツールの勉強や、既存システムの改修が必要な問題ではありますが、この機会を、データ収集・可視化の設計を見直し、日々の意思決定の共通言語としてデータを使いやすくするチャンスと捉えてみてはいかがでしょうか。 ※ Google、ユニバーサルアナリティクスのサポートを2023年7月1日に終了。早めのGA4移行を推奨このnoteでは、前半でダッシュボードによるデータの可視化にコストをかけるべき理由を整理します。後半では、2021年秋に文春オンラインのダッシュ

データ変更を伴うバッチ処理を書く時に考慮していること - shallowな暮らし
- 527 users
- shallow1729.hatenablog.com
- テクノロジー
- 2022/03/19
こんにちは、id:shallow1729です。最近はインフラ寄りなお仕事をよくやっていますがこれまでにいくつかデータ移行やデータ基盤構築などのバッチ処理のお仕事をしてきました。以前にも一度そういった経験を元に記事を書いたのですが、MySQLやシステムに関する知識が以前よりも増えた今もう一度書き直したいなと思いました。なので今回はバッチ処理を書く時のテクニック2022版という感じです。今の仕事の関係でMySQLやrailsを前提にしている話が多いですが、おそらく他のデータベースを使っている人にも役に立つ話が多いのではないかと思います。ただ、今回の記事は経験に基づくものが多く、あまりよくないアイデアもあるかもしれません。改善点や間違いなどあればご指摘ください。冪等性を持つように冪等性とは端的に言えばある操作を複数回実行しても一回しか実行しなかった時と同じ結果になる性質の事です。長時間かか
- DB
- あとで読む
- batch
- プログラミング
- mysql
- バッチ
- 設計
- データ
- programming
- バッチ処理
DXを妨げる要因と実現へのアプローチ by @yuzutas0 / 20211022
- 442 users
- speakerdeck.com/yuzutas0
- テクノロジー
- 2021/11/02
株式会社商船三井様の社内セミナーで用いた資料です。関係者の許諾を得て公開しています。関連記事「DXに関する私的な殴り書き」 https://yuzutas0.hatenablog.com/entry/2020/06/02/110000 関連スライド「民間企業におけるDXの事例と課題」 https://speakerdeck.com/yuzutas0/20210623 合同会社風音屋 https://kazaneya.com/
- DX
- あとで読む
- 仕事
- ビジネス
- UX
- IT
- アジャイル
- デザイン
- データ分析
- slide
データエンジニア道の俺のバイブル
- 437 users
- zenn.dev/pei0804
- テクノロジー
- 2023/01/03
先人の知恵に学ぶデータエンジニア道で、本当に良かった！読み物を、不定期に追記していく。 A Beginner’s Guide to Data Engineering — Part I データエンジニアをこれから始める人に、必ず薦める記事。データエンジニアの基本を学べるかつ、どういう世界に広がっていくのかまで、一気に学べるのでとても良い。 Functional Data Engineering — a modern paradigm for batch data processing 関数型パラダイムを使ったデータパイプラインの構築方法。これを初めて読んだ時の衝撃は今でも忘れないし、フルスクラッチからdbtを使ったデータパイプラインになっても健在な設計手法。 Engineers Shouldn’t Write ETL: A Guide to Building a High Function
モデリングはキラキラ技術より地味だが役に立つ / modeling-over-shiny-tech
- 419 users
- speakerdeck.com/pei0804
- テクノロジー
- 2022/08/19
# Event データモデリングとデータ基盤の構築・運用（第14回ちゅらコラボ）CARTA HOLDINGS x ちゅらデータ合同イベント https://churadata.connpass.com/event/254417/ ぼくのかんがえる最高のレポーティング基盤 https://speakerdeck.com/pei0804/hokufalsekankaeruzui-gao-falserehoteinkuji-pan-at-awsdeshi-jian-analytics-modernization ディメンションモデリングモデリング https://zenn.dev/pei0804/articles/dimensional-modeling スタースキーマ https://zenn.dev/pei0804/articles/star-schema-design コンフォ
近年のデータ分析基盤構築における失敗はBigQueryを採用しなかったことに全て起因している - データエンジニアの酩酊日記
- 401 users
- uma66.hateblo.jp
- テクノロジー
- 2019/10/17
久しぶりにペラペラな思いつきを書き捨てて、寝ます。 2、3年前ぐらいにSIerやコンサルでTreasure Dataとか使ってマネージドDWH作ろうぜっていう風潮が流行って、今は運用フェーズに入ってどこも結構苦しんでるってのが僕のすごく狭い観測範囲での印象。 AWSのReadshiftしかり。なぜ苦しんでるかっていうと、言うほどスケールしないからであり、言うほどマネージドじゃないから。 Treasure Dataは基本的に割当メモリが固定でオートスケールしないので、ピーク時に合わせて必要なメモリを確保しておかないといけない。そうなるとメモリ使用量とか負荷とかをモニタリングしないといけないわけだけど、Saasだから内部のアーキテクチャが隠蔽されていていちいちサポートに問い合わせないといけなかったりする。 Redshiftの場合はそもそも自前でクラスタ管理しなくちゃいけないのでそれが大変って
- BigQuery
- あとで読む
- アーキテクチャ
- aws
- 運用
- データ基盤
- 分析
- データ
- GCP
- エンジニア
データ基盤にありがちな「何を使って作ればよいか？」という問いに対する処方箋を用意してみました. - Lean Baseball
- 397 users
- shinyorke.hatenablog.com
- テクノロジー
- 2022/12/01
ちょっと昔まではデータ基盤の管理人・アーキテクト, 現在は思いっきりクラウドアーキを扱うコンサルタントになったマンです. 私自身の経験・スキル・このブログに書いているコンテンツの関係で, 「データ基盤って何を使って作ればいいの?」的なHow（もしくはWhere）の相談. 「Googleのビッグクエリーってやつがいいと聞いたけど何ができるの?」的な個別のサービスに対するご相談. 「ぶっちゃけおいくらかかりますか💸」というHow much?な話. 有り難くもこのようなお話をよくお受けしています. が, （仕事以外の営みにおける）個人としては毎度同じ話をするのはまあまあ疲れるので, データ基盤にありがちな「何を使って作ればよいか？」という問いに対する処方箋というテーマで, クラウド上でデータ基盤を構築する際のサービスの選び方（データ基盤に限らず）クラウド料金の基本的な考え方をGoogle
- データ
- あとで読む
- gcp
- データ基盤
- aws
- データ分析
- アーキテクチャ
- DWH
- サービス
- cloud
アプリケーションにおけるデータ不整合との戦い - blog.syfm
- 355 users
- syfm.hatenablog.com
- テクノロジー
- 2019/12/15
これは Aizu Advent Calendar 2019 の 15 日目の記事です。14 日目は uzimaru0000 さん、16 日目は kacky__917 さんです。はじめに世の中には日々たくさんの価値ある Web サービスが生まれていますが、その価値を正しく提供するにはアプリケーションが正しく動かなければなりません。たとえばアプリケーションは適切なユーザに適切なリソースを提供しなければならず、エラーを返す際は十分に定義された仕様に沿って返し、UI 側ではユーザに適切なメッセージを表示しなければなりません。実際のところ、これらを厳密に実現するのは非常に困難ですが、アプリケーションにはこれら以上に複雑な問題が常につきまといます。現在の Web アプリケーションはほとんどが分散システムの一形態です。例えばクライアントとサーバや、サーバとデータベースがネットワークを介して接続
データの民主化とこれからのAI組織｜ばんくし
- 332 users
- note.com/vaaaaanquish
- テクノロジー
- 2023/03/14
はじめにStable DiffusionだとかChatGPT、LLMみたいな「大規模モデル」って考え方が機械学習業界から出て、スケーリング則に基づいてまだまだ精度が上がるとされている昨今。（スケーリング則はどうのこうの諸説あるが）さておき、「マルチモーダルに」「あらゆるデータを学習した」「大規模なモデル」が今後数年リードしていく事は間違いないと思う。そんな中で、我々機械学習エンジニアやデータサイエンティスト、アナリスト、データエンジニア、MLOpsエンジニアみたいな、いわゆるAI屋として働いている人たち、皆が所属するAI組織ってどうなっていくのかな、という話を書いてみる。データの民主化AIの民主化とデータの民主化AI業界では「AIの民主化」というワードがある。便宜的にAIというワードが広く使われるようになった辺りで出てきたワードで、OSSやプラットフォーム、ハードの発展によって「A
- AI
- あとで読む
- 機械学習
- ChatGPT
- データ
- 人工知能
- 開発
- techfeed
- モデル
- 学習
エムスリーのデータ基盤を支える設計パターン - エムスリーテックブログ
- 318 users
- www.m3tech.blog
- テクノロジー
- 2021/10/01
こんにちは、エムスリーエンジニアリンググループの鳥山 (@to_lz1)です。ソフトウェアエンジニアとして製薬企業向けプラットフォームチーム / 電子カルテチームを兼任しています。ソフトウェアエンジニアという肩書きではありますが、私は製薬企業向けプラットフォームチームで長らくデータ基盤の整備・改善といったいわゆる "データエンジニア" が行う業務にも取り組んできました。本日はその設計時に考えていること / 考えてきたことをデータ基盤の設計パターンという形でご紹介しようかと思います。多くの企業で必要性が認識されるようになって久しい "データ基盤" ですが、まだまだ確立された知見の少ない領域かと思います。少しでもデータエンジニアリングを行う方の業務の参考になれば幸いです。データ基盤の全体像収集部分の構成 RDBデータログデータ活用部分の構成データマートの実例「データ基
- 設計
- あとで読む
- データ
- architecture
- データ基盤
- aws
- bigquery
- 分析
- db
- チーム
全社員からデータ基盤への問い合わせが殺到して2人では捌けなくなったので仕組みで解決する話〜datatech-jp Casual Talks #2 登壇後記〜 - MonotaRO Tech Blog
- 305 users
- tech-blog.monotaro.com
- テクノロジー
- 2022/06/23
データ基盤グループの吉本です。今回は先日開催されたdatatech-jp Casual Talksで登壇した内容について補足も含め紹介します。 datatech-jp.connpass.com 発表資料はこちらです。データ基盤に関わる問い合わせ対応を仕組みで解決する from 株式会社MonotaRO Tech Team www.slideshare.net 発表内容の背景（問い合わせ対応における課題）発表したこと発表の反響最後に datatech-jpは主にデータエンジニアリングやデータ活用に関わる方が参加するコミュニティで、DWHやデータマネジメント、データエンジニアリングに関わる技術、ツールなどについて知見を共有したり、輪読会やLT会のようなイベントを実施しています。オーガナイザーとして同社同僚の吉田(id:syou6162)が参加しています。その中でCasual
- データ
- あとで読む
- 資料
- データ基盤
- 分析
- BigQuery
- 技術
- 勉強
- 仕事
- tech
Modern Data Stack / モダンデータスタックというトレンドについて - satoshihirose.log
- 302 users
- satoshihirose.hateblo.jp
- テクノロジー
- 2021/11/20
はじめに Modern Data Stack ? Modern Data Stack の特徴やメリット、関連するトレンドデータインフラのクラウドサービス化 / Data infrastructure as a service データ連携サービスの発展 ELT! ELT! ELT! Reverse ETL テンプレート化された SQL and YAML などによるデータの管理セマンティックレイヤーの凋落と Headless BI 計算フレームワーク (Computation Frameworks) 分析プロセスの民主化、データガバナンスとデータメッシュの試みプロダクト組み込み用データサービスリアルタイム Analytics Engineer の登場各社ファウンダーが考える Modern Data Stack さいごに Further Readings はじめに Modern Dat
- data
- あとで読む
- データ
- SQL
- architecture
- データ基盤
- 統計
- dataManagement
- ツール
- DWH
データ分析基盤まとめ（随時更新）
- 291 users
- zenn.dev/yuichi_dev
- テクノロジー
- 2024/03/15
はじめにデータ分析基盤の資料を力尽きるまで追記していきます。構成図にあるアイコンや記事の内容から技術要素を調べて記載していますが、不明分は未記載にしています。修正のコメント頂ければ助かります。あと、この記事追加してっていう要望も歓迎いたします。テンプレート記事公開日 : 会社名（サービス名）データソース : データ処理 : アウトプット : 画像 URL 2025年 2024/03/14 : 株式会社エス・エム・エス（カイポケ）データソース : Amazon Aurora データ処理 : Datastream、BigQuery、dbt アウトプット : Looker Studio 2024/03/12 : 株式会社マイナビデータソース : SQL Server、Amazon S3 データ処理 : Embulk、Amazon MWAA、Apache Airflow、Snowf
- データ分析
- あとで読む
- データ
- 分析
- データ基盤
- 基盤
- BigQuery
- AWS
- まとめ
- インフラ
データ基盤による利益最大化と初期構築プロセス / 20220209
- 265 users
- speakerdeck.com/yuzutas0
- テクノロジー
- 2022/02/07
「Data Cross Conference」の登壇資料です。 https://dcc2022.datafluct.com/ データ活用によって億単位の利益を創出してきた登壇者が、データ基盤をこれから構築する方に向けて、費用対効果を最大化するための初期構築プロセスを紹介します。 ----------------------------------------------------------- 【PR】一緒に働きましょう！ https://kazaneya.com/kdec -----------------------------------------------------------
データ管理に役立つメタデータに関する勉強会を社内外で開催しました - MonotaRO Tech Blog
- 261 users
- tech-blog.monotaro.com
- テクノロジー
- 2022/03/04
こんにちは、データ基盤グループの吉田(id:syou6162)です。先日、モノタロウ社内で「データ管理に役立つメタデータ」に関する勉強会を開催しました。BigQueryのINFORMATION_SCHEMAを中心とした実例を豊富に盛り込んだ内容について話したのですが、社内に限らず有用な内容であると思うので、広く公開します。開催に至った背景モノタロウ社内では広くデータ活用が進んでおり、GCPのプロジェクトは数百以上運用され、その中の多くのプロジェクトでBigQueryも使われています。社内に広く提供するDWHやセキュリティなど全社的なデータ基盤に関することはデータ基盤グループが運用/管理を行なっていますが、社内のGCPプロジェクト全てのデータ管理にデータ基盤グループが深く関わっていくのは工数的に困難です*1。 INFORMATION_SCHEMAなどデータ管理に役に立つメタデータのノウハ
メルカリのデータ分析チームでやったことの振り返り｜樫田光 | Hikaru Kashida
- 254 users
- note.com/hik0107
- 暮らし
- 2022/03/23
こんにちは。データアナリスト兼チームのマネージャとしてメルカリという会社に4年ほど勤めていたのですが、色々やった気はするが、思い返してみると結局の所何をしたんだっけ？という気持ちに突然なりました。僕は忘れっぽいので、今後もこういう瞬間は何度も訪れそうな気がしています。ということで、この4月から新しいことを始めるこのモーメントに自分が何をしたのかをちゃんと書き残しておくことにしました。自分自身の記憶のアーカイブの役割とともに、誰かの参考になれば望外の喜びです。大体2016−2019年くらいの話です（今のメルカリのデータ分析チームはもっと進化していますのであしからず。） LTVの概念を導入した2022年現在となってみると非常に不可解ではあるが、私がメルカリに入社した2016年頃には、社内では「LTVを見る」という概念はなかった。ゆえに、投資がリクープ（回収）できているかどうかを
- データ
- あとで読む
- 分析
- メルカリ
- 統計
- 仕事
- KPI
- note
- マーケティング
- チーム
ソーシャルゲームの運用に欠かせないデータ分析基盤の作り方
- 245 users
- blog.applibot.co.jp
- テクノロジー
- 2019/05/31
はじめに初めまして、バックエンドエンジニアの伊藤皓程です。2015年にサイバーエージェントに入社してからソーシャルゲーム2本、その後アドテクで広告配信システムの開発に携わりました。以前のプロジェクトではデイリーで数TBのログを収集と分析を行なっていた経験があり、また個人でAWS AthenaのTypeScript・Node.js用のクライアントライブラリ1を公開しています。今回は今年にリリースしたアプリボットの新データ分析基盤についてご紹介したいと思います。経緯アプリボットではゲームの運用の改善のためにユーザの行動ログの分析に力をいれており、Redshiftを利用したデータ分析基盤2がありました。一方でゲームの運用年数や運用タイトルの増加などにより以下のような課題がありました。 Redshiftのストレージ容量の枯渇デイリーのレポート集計バッチの実行時間の増加データ分析基盤の運用
AWSで“データのサイロ化”を防げ　すべてのデータを1ヶ所に集めるデータレイクの作り方
- 242 users
- logmi.jp
- テクノロジー
- 2021/04/26
リーガルテック領域のリーディングカンパニーである株式会社LegalForceが、「検索インフラTechTalk!」を開催しました。インフラ領域の中でも「検索インフラ」にフォーカスした今回は、検索インフラに関する具体的な事例や取り組みについて各スピーカーから発表がありました。野口真吾氏は、AWSを用いたデータレイクの基礎について紹介しました。企業規模に関係なく起こるデータのサイロ化野口真吾氏（以下、野口）：みなさんこんばんは。本日は「検索インフラ Tech Talk!」ということで、検索インフラから少し広げた話題にはなるんですが、「AWSを用いたデータレイクの基礎」というお話をします。よろしくお願いします。最初に簡単に自己紹介します。アマゾンウェブサービスジャパンでスタートアップ担当のソリューションアーキテクトをしている野口真吾と申します。Twitterでは＠nogというIDを使って活
- aws
- あとで読む
- データ
- データレイク
- インフラ
- DB
- data
データモデルはドメインモデルに先行する - 設計者の発言
- 241 users
- watanabek.cocolog-nifty.com
- テクノロジー
- 2022/07/03
関わっているあるプロジェクトで、Javaでのコンポーネントベース開発を進めるためのクラス図が出来上がりつつある。DDD（ドメイン駆動設計）に関心を持つ技術者にとってお手本になるような端正なドメインモデルだ。それを眺めながら関係者がしみじみと感じていることがある。どんなに優秀なドメインエキスパートと組んだとしても、DDDにもとづいてこのモデルを「先に」生み出すことは不可能だっただろう。どういうことか。我々はまず、泥臭い分析と設計を重ね、あるべきデータモデルを完成させた。そのうえで実装方式の専門家の協力を仰ぎ、クラス図が出来上がった。つまり、データモデルからドメインモデルが導かれたのであって、その逆ではない。じっさい、ドメインモデルからデータモデルを導くことが不可能であったことは、両者を並べたら一目瞭然なのであった。これは重要な論点だ。データモデリングとドメインモデリングのどちらを先行させ
- 設計
- あとで読む
- DDD
- db
- 開発
- 言語
- ドメイン
- development
- programming
- データベース
MonotaROのデータ基盤10年史（前編） - MonotaRO Tech Blog
- 238 users
- tech-blog.monotaro.com
- テクノロジー
- 2021/10/26
おしらせ：12/23 に後編記事がでました！ tech-blog.monotaro.com こんにちは、データ基盤グループの香川です。現在モノタロウではBigQueryに社内のデータを集約し、データ基盤を構築しています。およそ全従業員の6割が日々データ基盤を利用しており、利用方法や目的は多岐に渡ります。データ基盤グループはこれまでデータ基盤システムの開発保守と利用者のサポートを主な業務として取り組んできましたが、これら多岐にわたる社内のデータ利用における課題の解決及びさらなるデータ活用の高度化を目的として、今年の5月よりデータ管理を専門に行う組織として新たに体制を再構築しました。そこで改めて組織として取り組むべき課題や方向性を決めるために、まず自分たちの現在地を知ることが重要と考え、データ基盤の歴史を振り返り、社内のデータ活用における課題やそれを取り巻く状況がどう変わってきたのかを
- BigQuery
- あとで読む
- mysql
- データ
- データ基盤
- SQL
- 分析
- database
- data
- 運用
データ基盤チーム0人で運用は回るのか？！前人未踏チャレンジ・クックパッドデータ基盤のすべて2020 - クックパッド開発者ブログ
- 222 users
- techlife.cookpad.com
- テクノロジー
- 2020/12/29
技術部データ基盤グループの青木です。ここ1、2年はなぜか成り行きでBFFをでっちあげたり、成り行きでiOSアプリリニューアルのPMをしたりしていたのであまりデータ基盤の仕事をしていなかったのですが、今年は久しぶりに本業に戻れたのでその話をします。突然の1人チーム、そして0人へ…… 今年のデータ基盤チームは消滅の危機から始まりました。間違いなく去年末は5人のチームだったと思うのですが、メンバーがイギリスへグローバルのデータ基盤チームを作りに行ったり、山へ検索システムを直しに行ったり、川へレシピ事業の分析業務をやりに行ったり、海へ広告のエンジニアリングをしに行ったりするのをホイホイと気前よく全部聞いていたら、なんと4月から1人だけのチームになってしまいました。事はそれで終わりません。恐ろしいことに10月にはわたし自身も育休に入ることになったので、 10月はデータ基盤が0
SQLを使った監視でデータ基盤の品質を向上させる - MonotaRO Tech Blog
- 216 users
- tech-blog.monotaro.com
- テクノロジー
- 2021/08/24
こんにちは、データ基盤グループの吉田(id:syou6162)です。データ基盤グループでは安定してデータを利用できるように様々な取り組みを行なっています。本エントリでは、データ品質に問題がある場合にすぐに気付けるようにしたSQLによる監視の仕組みを紹介します。背景 SQLを使った監視基盤の構築実際の監視項目例他チームがdailyで転送しているデータがバッチの失敗により遅れていないか BigQueryのエラーレートが急激に増加していないか承認済みビューの設定が意図せず消えていないか今後の展望背景データ基盤の運用をしていると、日々様々なトラブルと向き合う必要があります。例えば、以下のようなものがあります。他チームがdailyで転送しているデータがバッチの失敗により遅れている TerraformなどのIaCで承認済みビューの権限管理を行なっているが、コードの設定ミスで意図せぬ状態
- sql
- BigQuery
- あとで読む
- monitoring
- 監視
- データ
- 運用
- cloud
コロナ禍での転職活動(データエンジニア)についてのメモ - yasuhisa's blog
- 206 users
- www.yasuhisay.info
- テクノロジー
- 2021/03/21
Twitterでは先に言っていましたが、現職のはてなを3月末で退職します。3/19が最終出社日でした。はてなでの思い出はこちらに書きました。そのため、転職活動をしたわけですが、コロナ禍での転職活動は平常時と異なる部分も結構ありました。また、データエンジニアとしての転職は初めての経験でした。誰かの参考になるかもしれないので、私が考えたことや感じたことをメモ書きとして残しておきます。在宅勤務と就業可能な地域 Web上でのアウトプットデータエンジニアという職種の多様性転職にあたって重視したこと魅力に感じた点当然、不安もある在宅勤務と就業可能な地域カジュアル面談させてもらった企業さんは、ほぼ在宅勤務に移行済みだった隔週や月一で物理出社という会社も半々くらい? 緊急自体宣言が出ていない時期(夏〜秋)にカジュアル面談させてもらったので、今は状況が違うかもカジュアル面談、採用面談もz
- 転職
- あとで読む
- エンジニア
- データ
- 会社
- engineer
- career
事業に貢献するデータ基盤を作ろう・考え方編 / data_engineering_study_2
- 203 users
- speakerdeck.com/shinu
- テクノロジー
- 2020/08/19
Data Engineering Study #2「データ収集基盤とデータ整備のこれまでとこれから」https://forkwell.connpass.com/event/182769/ 作成者：しんゆう＠データ分析とインテリジェンス Twitter：https://twitter.com/data_analyst_
データ職種の課題図書リストを作りたい - 下町柚子黄昏記 by @yuzutas0
- 202 users
- yuzutas0.hatenablog.com
- テクノロジー
- 2023/12/04
この記事は datatech-jp Advent Calendar 2023 3日目の記事です。背景・趣旨筆者（@yuzutas0）は風音屋（@Kazaneya_PR）という会社を経営しており、データ職種の採用・育成に関心を持っています。複数企業で少ない専門家を奪い合って疲弊するような採用活動ではなく、マーケット全体がより豊かになるような動き方はできないだろうかと模索しています。 1つの実験として、MENTAで「第2新卒が3ヶ月でデータ職種への転職を目指す講座」というトレーニングを提供し、ありがたいことに30名以上の方々に受講いただきました。ちなみにこの講座は今では風音屋の社内研修になっています。 MENTAの受講者が30名を突破しました🎉 卒業生が風音屋に入社したり、スキルアップして「社内で提案が通るようになった」「現職で活躍できるようになった」という感想もいただいています。
GCPで構築する、これからの変化に対応出来るデータ分析基盤の作り方
- 199 users
- speakerdeck.com/rtechkouhou
- テクノロジー
- 2021/03/04
2020/3/31 Google Cloud Data Platform Dayでの、山田、佐伯、白鳥の講演資料になります
- GCP
- あとで読む
- BigQuery
- データ分析
- Kubernetes
- データ
- cloud
- DB
- クラウド
これからのZOZOを支えるログ収集基盤を設計した話 / Log collection infrastructure to support ZOZO in the future
- 197 users
- speakerdeck.com/shiozaki
- テクノロジー
- 2021/12/27
これからのZOZOを支えるログ収集基盤を設計した話 / Log collection infrastructure to support ZOZO in the future
- ログ
- あとで読む
- BigQuery
- データ基盤
- 運用
- ZOZO
- logging
- infrastructure
- log
- 設計
データ基盤をサーバーレスで構築したので概要を紹介 - Adwaysエンジニアブログ
- 195 users
- blog.engineer.adways.net
- テクノロジー
- 2022/01/07
あけましておめでとうございます。本年もよろしくお願いいたします。久しぶりに登場しました菊池です。僕は昨年から新しいデータ基盤を構築するプロジェクトを担当しておりまして、最近システムが無事に実稼働してホッと一息したところです。思い起こせば入社時はインフラ担当部署に配属だったのが、広告配信システムの開発をやったり、カジュアルゲーム作ったり。新規事業のスマホアプリを作りつつサーバーサイドの API を作って立ち上げたり、海外向けのサービスを作ったり。いつのまにかメディア運営に関わったりしてきましたが、最近はデータ基盤の開発もやってます。そんなキャリアを歩んできましたが、いつか森の中の開けた草原にあるネット環境の整ったポツンと一軒家で、庭にチャボを放飼にしつつ養蜂をやってみたいと思っています。話は戻りますが、今回はこの稼働したてホカホカ状態のデータ基盤について概要を紹介したいと思います。よろ
- データ基盤
- あとで読む
- データ
- BigQuery
- google
- serverless
- cloud
- サーバ
- システム
- api
ぼくのかんがえる最高のデータ分析基盤 / strongest-data-architecture-discussion
- 192 users
- speakerdeck.com/pei0804
- テクノロジー
- 2022/11/08
# みんなの考えた最強のデータアーキテクチャ https://datatech-jp.connpass.com/event/258157/ ## イベント説明 datatech-jpで集ったデータエンジニアが、それぞれみんなの考えた最強のデータアーキテクチャを紹介し合うという夢のような企画が実現しました！たくさんの新しいプロダクトが群雄割拠する現在、モダンデータスタックなどという言葉も登場しています。今こそ、どんなプロダクトを選び、どのようなデータ基盤を作れば、効率的にやりたいことが実現できるのか。 5人の猛者からおすすめの構成をご紹介いただきながら、参加者のみなさんとも一緒に考えていく時間としたいと思います。ぜひ奮ってご参加ください！ ## 発表概要広告配信システムで発生する大量で多種多様のデータ。そして、人間の多種多様なデータへのニーズに耐えるために至ったデータアーキテクチャに
Software Design連載 2022年1月号運用監視の解像度アップとサービス横断的なログ基盤の整備 - MonotaRO Tech Blog
- 188 users
- tech-blog.monotaro.com
- テクノロジー
- 2022/02/08
こんにちは。中山(id:yoichi22) です Software Designに連載させていただいております「Pythonモダン化計画」では、モノタロウの社内事例から読者の皆様のお役に立ちそうな取り組みを紹介させていただいています。のですが、社内でも隣のチームがやってた取り組みを記事で初めて知ることもあって、私も読者として楽しませてもらっています。隣の執筆者さんありがとうございます。今回は、運用にまつわる監視とログの話題です。本記事の初出は、Software Design2022年1月号「Pythonモダン化計画（第6回）」になります。過去の連載記事は以下を参照ください。第1回 Software Design連載 2021年8月号 Python製のレガシー＆大規模システムをどうリファクタリングするか第2回 Software Design連載 2021年9月号「テストが無い」からの
- 監視
- あとで読む
- ログ
- インフラ
- datadog
- 運用
- サーバ
- サービス
【Team & Project】LINE全社のデータ基盤のミドルウェアやData ingestion pipelineの開発・運用を担当しているチームを紹介します
- 187 users
- engineering.linecorp.com
- テクノロジー
- 2020/10/22
【Team & Project】LINE全社のデータ基盤のミドルウェアやData ingestion pipelineの開発・運用を担当しているチームを紹介します LINEの開発組織のそれぞれの部門やプロジェクトについて、その役割や体制、技術スタック、今後の課題やロードマップなどを具体的に紹介していく「Team & Project」シリーズ。今回は、LINEグループ全体のデータ関連業務で根幹になる戦略づくりや開発業務を担当しているData Platform室から、データ基盤の開発をしている「Data Infrastructureチーム」とData ingestion pipelineを開発する「Ingestion Pipelineチーム」をご紹介します。Wang Tianyiと齋藤智之に話を聞きました。 LINEのプラットフォーム上では、多様なサービスの中から、非常に多くの種類の大量の
- データ
- あとで読む
- LINE
- 開発
- 運用
- 技術
- data
- チーム
- アーキテクチャ
- development
保守性と生産性を両立する分析用SQL構造化の4原則〜構造化プログラミングの考え方をSQLに適用する
- 184 users
- techblog.yahoo.co.jp
- テクノロジー
- 2022/12/18
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。Yahoo!広告のデータマーケティングソリューション（以下、DMS）を開発しているデータアナリストの薄田です。みなさんは、中間テーブル同士が複雑に絡み合い変更しようにも影響範囲を推定できず、手がつけられない分析パイプラインの保守で苦労された経験はないでしょうか？私のチームでは数千行におよぶ分析用SQLをリファクタリングして、保守性と生産性を両立する分析パイプラインに生まれ変わらせることができました。この記事ではリファクタリングを通して確立した、分析用SQLを構造化するための4原則を紹介します。4原則を意識しながらSQLを書くことで、高凝集・疎結合な分析パイプラインを作ることができます。この記事では凝集度と結合度
2024年版：データエンジニア向け推薦本リスト｜zono
- 180 users
- note.com/zono_data
- テクノロジー
- 2024/01/08
世間ではデータエンジニアリングが流行しており、エンジニアからは人気が出て、企業からはその能力が求められています。データエンジニアは、データの収集、蓄積、分析、活用に必要なデータ基盤を構築・運用する職種です。データエンジニアとして活躍するためには、非常に幅広い知識と能力が求められます。データベースプログラミングシステム開発クラウドサービスデータ分析 etc……. 私は多少データエンジニアとして経験を積んできており、業務を行う上で読んで良かったと心から思える本があったのでこちらで紹介します。どなたかの一助になれば幸いです。初級向けデータエンジニアリング本ではありませんが、データエンジニアリングに必要な知識がスライドやPDFに綺麗にまとまっています。初めて学ぶ方には適しています。後半はAzure製品について記載されているので、前半のデータエンジニアリングの箇所だけ参考にして下さい
"壊れにくい"データ基盤を構築するためにMackerelチームで実践していること - Hatena Developer Blog
- 158 users
- developer.hatenastaff.com
- テクノロジー
- 2020/08/04
こんにちは。MackerelチームにおいてCRE（Customer Reliability Engineer）をしているid:syou6162です。主にカスタマーサクセスを支えるデータ基盤の構築や、データ分析を担当しています。今回は、壊れにくいデータ基盤を構築するため、Mackerelチームで実践していることを紹介します。なぜ壊れにくいデータ基盤を構築するのかデータ基盤が“壊れている”とはどういうことか壊れてないだけでなく、壊れたら気付ける前提とするシステム構成壊れたことに気付けるよう監視する 1. バッチジョブが失敗したことに気付く 2. 投入されたデータの性質を監視する 3. ビューが壊れてないかを監視する 4. 利用状況を監視するそもそも壊れてない状態を保つ 1. データリネージを元に修正できるようにする 2. 使われていないテーブルやビューは定期的に掃除おわりに参
- bigquery
- あとで読む
- Mackerel
- データ
- データ分析
- 監視
- データ基盤
- sql
- monitoring
- チーム
“生産性向上に投資するため”のデータの可視化　生産性測定から組織の仕組み作りをサポート
- 158 users
- logmi.jp
- テクノロジー
- 2021/08/03
オリジナルグッズ作成・販売サービス「SUZURI」に関わるエンジニアメンバーや事業部長が登壇し、SUZURIの開発の今や、現在の課題・今後の取り組みについて話す「43万人超のクリエイターの表現活動を支える！ECプラットフォームSUZURIの開発の裏側」。ここで技術部の近藤氏が登壇。生産性をすることになった背景と、具体的な測定方法を紹介します。自己紹介近藤宇智朗氏（以下、近藤）：では、お願いします。「生産性を可視化したい」と題して発表します。ということで、自己紹介します。私は技術部に所属している、近藤といいます。ふだん、インターネットなどでは“うづら”と呼ばれているので、お気軽にうづらと呼んでください。現在、技術基盤チーム兼データ基盤チームという感じで働いていて、SUZURIの事業部には直接所属していませんが、お手伝いという感じで今回はお話しします。ちなみに、福岡市のエンジニアカフェと
- データ
- あとで読む
- DevOps
- 開発
- 組織
BigQuery と Snowflake を徹底比較
- 156 users
- speakerdeck.com/fetaro
- テクノロジー
- 2022/12/21
最初にBigQueryとSnowflakeの概要と、登場の背景を説明します。その後、ユーザにとっての使い勝手と、管理者にとっての使い勝手を、ベンダーフリーな立場でそれぞれします。最後に、BigQueryとSnowflakeどっちが速いのか？といった疑問に対して、アーキテクチャをもとに考察します。
私が妄想している最強のデータ基盤2023
- 154 users
- zenn.dev/jimatomo
- テクノロジー
- 2023/01/08
新年になったので今年のやりたいことをまとめようと思いたち筆をとっています。単にやりたいこと書いてもただのポエムになってしまうので、私が今時点で妄想している最強のデータ基盤を描いて、その中でまだ触ったことのない技術を今年触っていこうという意気込みを最後に書こうと思います（意気込みだけにならないように頑張りたいです！）まだ触ったことないものもあるので妄想しているレベルです。アーキテクチャ図まず最初に結論から書いていきます。なぜこのアーキテクチャが最強と思うのかデータ基盤として機能を分けると以下の6つの領域に分かれると思っています（もう少し細かく分けることもできたりします。例えばDMBOKとかではホイール図で11の領域に分けたりしています）データ基盤の領域主に関連するDMBOKの知識領域主担当