データ基盤の最新人気記事 206件 - はてなブックマーク

1 - 40 件 / 206件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

データ基盤の検索結果1 - 40 件 / 206件

データ基盤を支える技術
- 189 users
- speakerdeck.com/chanyou0311
- テクノロジー
- 2024/05/10
主にクラウドの話してます - 広島での登壇資料です。 https://omoni-cloud.connpass.com/event/315682/
クラスメソッドデータアナリティクス通信(AWSデータ分析編) – 2024年5月号 | DevelopersIO
- 3 users
- dev.classmethod.jp
- テクノロジー
- 2024/05/09
Amazon RedshiftはZero-ETL統合のMulti-AZデプロイメント、Amazon Athenaのフェデレーテッドクエリパススルー機能、Amazon QuickSightのAWS PrivateLinkのサポートとIAMアイデンティティセンターのアカウントインスタンスを新たに統合など。はじめにクラスメソッドの石川です。日々AWSのアナリティクス関連サービスのアップデートとそのブログをご紹介します。今月は、Amazon RedshiftはZero-ETL統合のMulti-AZデプロイメントで高可用性を実現し、ダウンタイムなしの分析を可能に。Amazon Athenaのフェデレーテッドのクエリパススルー機能で、BigQueryやSnowflakeなどの外部データソースへの直接アクセスが可能になり、データ処理の効率が飛躍的に向上。さらに、Amazon QuickSightは
- AWS
プロダクトの機能・データについて理解を深める「輪テーブル会」の紹介 - Techtouch Developers Blog
- 27 users
- tech.techtouch.jp
- テクノロジー
- 2024/05/07
はじめまして、テックタッチで DataEnabling チームのエンジニアマネージャーをしているtaker です。 DataEnabling チームでは、社内の様々な組織のデータ活用をより推進し、プロダクト開発やカスタマサクセスを強化するためデータ基盤の改善や社内からの様々な依頼について日々取り組んでいます。この記事ではそんな私達のチームが、チーム内でデータに関する知識を共有するプラクティスについて共有させていただくため、一筆したためました。はじめに取組内容について進める上で気をつけている点実施した結果良かったこと終わりにはじめにデータ活用を進める上では、プロダクトのデータ構造や機能とデータの対応関係について精通している必要があります。例えば、カスタマーサクセス（CS）から「 xx の機能を有効にしている顧客数を知りたい」という問い合わせがあった際「 xx の機能」が「ど
クラスメソッドデータアナリティクス通信(AWSデータ分析編) – 2024年4月号 | DevelopersIO
- 3 users
- dev.classmethod.jp
- テクノロジー
- 2024/04/01
クラスメソッドの石川です。日々AWSのアナリティクス関連サービスのアップデートとそのブログをご紹介します。今月は、Amazon RedshiftのZero-ETL統合が待望のデータフィルタリングをサポートしました。このアップデートで、必要なテーブルをピンポイントかつRedshiftにニアリアルタイムで同期できるようになり、実用性が向上しました。また、re:Invent2023でアナウンスのあったAmazon DataZoneのディスクリプションに対する AIリコメンデーションなどがサポートされました。放置されがちなメタデータをAIがいい感じで自動設定してくれます。Amazon DataZoneのAmazon Redshiftに対する機能強化もあります。他にもアップデートがあるので紹介します！ Amazon Redshift 新機能・アップデート 2024/03/18 - AWS Se
- AWS
データ分析基盤まとめ（随時更新）
- 295 users
- zenn.dev/yuichi_dev
- テクノロジー
- 2024/03/15
はじめにデータ分析基盤の資料を力尽きるまで追記していきます。構成図にあるアイコンや記事の内容から技術要素を調べて記載していますが、不明分は未記載にしています。修正のコメント頂ければ助かります。あと、この記事追加してっていう要望も歓迎いたします。テンプレート記事公開日 : 会社名（サービス名）データソース : データ処理 : アウトプット : 画像 URL 2025年 2024/03/14 : 株式会社エス・エム・エス（カイポケ）データソース : Amazon Aurora データ処理 : Datastream、BigQuery、dbt アウトプット : Looker Studio 2024/03/12 : 株式会社マイナビデータソース : SQL Server、Amazon S3 データ処理 : Embulk、Amazon MWAA、Apache Airflow、Snowf
- データ分析
- あとで読む
- データ
- 分析
- データ基盤
- 基盤
- まとめ
- 統計
- BigQuery
- AWS
CyberMates チャットAI教育テキスト無償配布プログラム - CyberMates (サイバーメイツ)
- 15 users
- cyber-mates.net
- テクノロジー
- 2024/03/13
CyberMates チャットAI教育テキスト無償配布プログラムは、チャットAIを軸に「AIの仕組みや危険性、正しい使い方を広めること」を通じて、「AIに関連する危険な事故や事件を未然に防ぎ、正しく規制や改善を行える環境作りを行い、AIを安全かつ便利に使えるようにすること。」を目的に、チャットAIの教育テキストを無償配布するプログラムです。プログラムの内容チャットAI 教育テキストを無償配布プログラムの趣旨・チャットAIの仕組みや危険性、正しい使い方を周知する。・チャットAIを使用することや、使用されることによる事故や事件を未然に防ぐ。・AI全体の規制や未来について考えるための前提的な知識を広める。プログラムの実施期間 2024年3月9日～終了日未定プログラムの対象次の全てに該当し・営利を目的としない・本プログラムの趣旨に賛同する・本プログラムの条件、注意事項に同意
- AI
- 教育
- 機械学習
- プログラム
- 本
- あとで読む
メタ株が急落、「フェイスブックは国民の敵」とトランプ発言で | Forbes JAPAN 公式サイト（フォーブスジャパン）
- 44 users
- forbesjapan.com
- テクノロジー
- 2024/03/12
フェイスブックとインスタグラムの親会社であるメタの株価は3月11日、トランプ前大統領がフェイスブックを「国民の敵」と酷評したことを受けて急落した。メタの株価は11日、約4.5％下落して先月末以来の安値の484ドル弱に沈み、昨年7月20日以降で最悪のパフォーマンスを記録した。この急落は、トランプの11日朝のCNBCの番組でのコメントを受けてのものだ。彼は、国家の安全保障上の懸念から中国バイトダンスのTikTokを米国政府が禁止すれば「米国民の敵であるフェイスブック」に大きな追い風を与えることになると発言した。メタの株価は、今から2カ月足らず前の1月19日に史上最高値を更新した後にさらに上昇しており、2月1日に開示した2023年第4四半期の売上高と純利益はともに過去最高を記録していた。同社の株価は、年初から29％近く上昇しており、拡張現実（AR）と仮想現実（VR）への取り組みに起因する損
https://b.hatena.ne.jp/entry/4740555098778625231 - rag_en のブックマーク / はてなブックマーク
- 10 users
- b.hatena.ne.jp
- テクノロジー
- 2024/03/10
<blockquote class="hatena-bookmark-comment"><a class="comment-info" href="https://b.hatena.ne.jp/entry/4750413716620172320/comment/rag_en" data-user-id="rag_en" data-entry-url="https://b.hatena.ne.jp/entry/s/b.hatena.ne.jp/entry/4750378486597579968/comment/esbee" data-original-href="https://b.hatena.ne.jp/entry/4750378486597579968/comment/esbee" data-entry-favicon="https://cdn-ak2.favicon.st-haten
Devcontainer がデバッグ環境構築のハードルを一気に下げるお話
- 137 users
- zenn.dev/spacemarket
- テクノロジー
- 2024/03/09
起動確認いつもの初期設定 VSCode左下の><をクリック開発コンテナー構成ファイルを追加ワークスペースに構成を追加するこちらを選択することでGit上で構成ファイルを管理出来ます。定義済みのコンテナー構成定義から Node.js & TypeSctipt 導入する、言語などを選択してください。バージョンを指定してください。お好きな拡張機能を追加してください。 .devcontainer/devcontainer.jsonに以下の様なファイルが出来上がります。 // For format details, see https://aka.ms/devcontainer.json. For config options, see the // README at: https://github.com/devcontainers/templates/tree/main/src/
- VSCode
- あとで読む
- コンテナ
- JSON
- docker
- development
Cloud RunとCloud PubSubでサーバレスなデータ基盤2024 with Terraform / Cloud Run and PubSub with Terraform
- 36 users
- speakerdeck.com/shinyorke
- テクノロジー
- 2024/03/08
Google Cloudのサーバレスなサービスでデータ基盤を作った話.
- Terraform
- GCP
- slide
- あとで読む
- データ
クライアントから「業者扱い」されないために | 株式会社THE MOLTS
- 34 users
- moltsinc.co.jp
- テクノロジー
- 2024/03/07
最近、他の支援会社ではたらく後輩たちから「クライアントから “業者扱い” されてしまう」という相談をたびたび受けました。私も支援会社歴が長いので、「業者扱いされたくない」という気持ちはよくわかります。クライアントが上・支援会社が下というコミュニケーションが続けば、担当者はどんどん疲弊してしまう。しかも、問題はそれだけじゃありません。業者扱いされると、支援会社もつい「指示されたことだけをやればいい」モードに入りがちです。いつしかクライアントの「御用聞き」と化してしまう。そうなれば、期待以上の大きな成果なんて生まれません。それに「御用聞き」ならいくらでも替えがきくので、取引も長くは続かない。このような、クライアントも支援会社もハッピーじゃない案件をいくつか見てきました。 THE MOLTSという支援会社でクライアントの成果に向き合ってきた自分の経験上、「クライアントと支援会社が協働し、物事
- あとで読む
- 仕事
dbt導入によるデータマート整備 - ZOZO TECH BLOG
- 103 users
- techblog.zozo.com
- テクノロジー
- 2024/03/05
はじめにこんにちは、ML・データ部推薦基盤ブロックの栁澤（@i_125）です。私はZOZOのデータ基盤におけるデータガバナンス強化を実現するために、Analytics Engineerとして複数の部門を跨ぐプロジェクトチームに参加しています。本記事ではZOZOにおけるデータガバナンス上の課題と、その課題の解決策の1つとしてdbtを導入した話をご紹介します。目次はじめに目次背景課題データマートの乱立集計定義のばらつき依存関係の洗い出しが困難データモデリングツールの比較検討データ変換に関する要件データモデリングツールの選定レイヤリングによる責務の分離実装方針今後の展望 dbtモデルを開発する上で工夫したこと環境の分離背景工夫したことダミーデータセットの生成背景工夫したこと SQLFluffを使ったフォーマット統一依存モデルを含むテスト dbt Doc
- dbt
- あとで読む
- ZOZO
- data
- development
- ツール
データウェアハウスのデータモデリングを整理してみた - Qiita
- 115 users
- qiita.com/zumax
- テクノロジー
- 2024/03/03
概要スタースキーマからスノーフレーク、ギャラクシー、そしてデータボールトやアンカーモデリングまで、各スキーマの特徴、利点、そして適用シナリオを掘り下げます。スタースキーマスタースキーマを元に整理します。スタースキーマまたは星型スキーマはデータウェアハウスに利用される最も単純なスキーマである。スタースキーマには唯1つもしくは少数のファクト表と複数のディメンション表が含まれる。スタースキーマはスノーフレークスキーマの一種であるが、多くの用途で利用されている。 DWHに利用される最も単純なスキーマ唯一または少数のファクトテーブルと、複数のディメンションテーブルが含まれるスノーフレークスキーマの一種モデルファクト表はデータウェアハウスでの解析で利用され、複数の異なるディメンションに区分される。ファクト表は主要なデータを持つ一方、ディメンション表は相対的にサイズが小さくディメン
- データ
- あとで読む
- qiita
- data
データエンジニアリングの基礎
- 80 users
- www.oreilly.co.jp
- テクノロジー
- 2024/03/01
データエンジニアリングとは、組織内外で日々生成されるデータを蓄積し分析するためのデータシステムを構築し維持管理することであり、急速に注目を集めている分野です。近年ではデータエンジニアリングを支えるツールやクラウドサービスが成熟し、組織へのデータ利活用の導入は容易になりましたが、明確な指針のないままデータシステムの構築を進めると費用と時間を無駄に費やすことになります。本書は「データエンジニアリングライフサイクル」を軸にデータシステムの要件を整理することで、組織の「データ成熟度」に応じたデータシステム構築の指針を与えます。またデータエンジニアの立ち位置を明確にし、組織内でデータエンジニアが果たすべき役割を示します。まえがき Ⅰ部　データエンジニアリングの基礎と構成要素 1章　データエンジニアリング概説 1.1　データエンジニアリングとは何か 1.1.1　データエンジニアリングの定義 1.1.
Terraformとdbtを活用してデータ基盤整備の生産性が向上した話
- 42 users
- zenn.dev/shinoki
- テクノロジー
- 2024/03/01
はじめに私が所属しているライフイズテックのデータ基盤グループで、ここ2年ほどでdbtとterraformを活用してDataOpsを進め、データ基盤の整備の生産性が向上した話をまとめます。導入前の状況と課題弊社のデータ基盤ではデータ基盤が綺麗に整備されていることよりも、プロダクトや事業に貢献できているかを重要と考え、まずデータを使える状態にすることを目指したサービスの導入や基盤構築を行いました。考え方としてはこちらの DWHにおけるデータモデリングで大事にしている考え方に書かれている内容に近い考え方になります。そのため、データモデリングの前にRedashやCRM AnalyticsというBIツール向けにデータレイクからデータマートを先に構築していました。 terraformとdbt導入前は、図のような流れで SQLでSnowflake上にDBやスキーマなどを作成 ELTサービスとし
次世代データ基盤：データレイクハウスを Google Cloud で実現する
- 150 users
- zenn.dev/cloud_ace
- テクノロジー
- 2024/02/22
はじめにこんにちは、クラウドエースデータソリューション部の松本です。普段はデータ基盤や MLOps の構築をしたり、Google Cloud 認定トレーナーとしてトレーニングを提供しております。また、昨年は Google Cloud Partner Top Engineer 2024 に選出されました。今年も Goodle Cloud 界隈を盛り上げていけるよう頑張っていきたいと思います。クラウドエースデータソリューション部についてクラウドエースのITエンジニアリングを担うシステム開発統括部の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのがデータソリューション部です。弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があればエントリーをお待ちしております！今回は、次世代データ基盤であるデ
- BigQuery
- あとで読む
- gcp
- データ
- cloud
- Google Cloud
- google
- 分析
- クラウド
- アーキテクチャ
個人的なdbtの推しポイントを書いてみる - yasuhisa's blog
- 49 users
- www.yasuhisay.info
- テクノロジー
- 2024/02/12
dbtや同じ系統のDataformなど、ELTの特にTransform部分に強みを持つツールを使い始めて大体3年になる。主観だけど、それなりに使い倒している部類だと思う。開発効率を計測するデータ基盤の管理にDataformを使ってみた - yasuhisa's blog dbtを触ってみた感想 - yasuhisa's blog dbt カテゴリーの記事一覧 - yasuhisa's blog これらのツールで巷でよく言われるデータリネージの可視化ができるデータに対するテストが簡単に書けるエンジニア以外の人ともコラボレーションしやすいあたりの話は耳にタコができるくらい聞いていると思うので、ニッチではあるもののそれ以外のdbtの個人的に推しなポイントをダラダラと書いてみたいと思う。データエンジニアやデータガバナンスを推進する人には共感してもらえる内容かもしれない。推しポイント:
- dbt
- あとで読む
- db
- data
- ツール
社内勉強会「Modern Data Stack入門」の内容をブログ化しました - PLAID engineer blog
- 19 users
- tech.plaid.co.jp
- テクノロジー
- 2024/01/26
プレイドの社内向けに行ったModern Data Stack勉強会の内容が好評だったので、データ基盤に携わる方に向けてModern Data Stackの概要、主要サービス、重要だと思うトレンドをまとめました。
- database
今さら聞けないdbtの基本LT
- 24 users
- speakerdeck.com/gak_t12
- テクノロジー
- 2024/01/24
dbt（data build tool）はもはやデータ領域ではデファクトスタンダードになりつつありますここ1〜2年ぐらいで急速に発展したdbtですが、なんで使ってるの？なんでデファクト？とかって疑問あるかと思います。なので社内勉強会向けに作ったdbtの基本のき　的なLTを作りましたので放流します！
- dbt
- elt
- データ分析
- あとで読む
- データ
- ツール
ディメンショナルモデリングに入門しよう！Snowflakeとdbt Cloudで「Building a Kimball dimensional model with dbt」をやってみた | DevelopersIO
- 26 users
- dev.classmethod.jp
- テクノロジー
- 2024/01/23
ディメンショナルモデリングに入門しよう！Snowflakeとdbt Cloudで「Building a Kimball dimensional model with dbt」をやってみたさがらです。ここ２年ほどの間にdbtが日本でも急速に拡大し、様々な情報が日本語の記事でも見かけられるようになってきました。 dbtを採用してある程度活用を進めていくと、「より効率よくガバナンスを持ってデータを管理するにはどうすればいいんだろうか」といったデータの管理方法に悩む場面が出てくると思います。そんなときに色々調べていくと、データを効率よく管理する手法として「データモデリング」が必要だとわかり、ディメンショナルモデリングやData Vaultなどの手法に行き着くのではないでしょうか。そしてこれらのデータモデリングの手法の内、ディメンショナルモデリングについてdbtを用いて実践された記事がありま
- dbt
- Snowflake
- データ分析
- 設計
- あとで読む
- data
2024年版：データエンジニア向け推薦本リスト｜zono
- 181 users
- note.com/zono_data
- テクノロジー
- 2024/01/08
世間ではデータエンジニアリングが流行しており、エンジニアからは人気が出て、企業からはその能力が求められています。データエンジニアは、データの収集、蓄積、分析、活用に必要なデータ基盤を構築・運用する職種です。データエンジニアとして活躍するためには、非常に幅広い知識と能力が求められます。データベースプログラミングシステム開発クラウドサービスデータ分析 etc……. 私は多少データエンジニアとして経験を積んできており、業務を行う上で読んで良かったと心から思える本があったのでこちらで紹介します。どなたかの一助になれば幸いです。初級向けデータエンジニアリング本ではありませんが、データエンジニアリングに必要な知識がスライドやPDFに綺麗にまとまっています。初めて学ぶ方には適しています。後半はAzure製品について記載されているので、前半のデータエンジニアリングの箇所だけ参考にして下さい
SaaSがオワコン化した2023年
- 96 users
- tamuramble.theletter.jp
- テクノロジー
- 2024/01/01
過去最速のスピードでユーザーも売上も獲得したChatGPTは、SaaSのGTM通念を根本から覆した。当ニュースレター含め、業界の老害たちは「いやいやProduct Led Growthとかカッコイイけどね、結局はエンタープライズをやるなら営業組織を作らな…えええFortune 500企業の9割がもうChatGPT使ってるの⁉︎」と泡を食うこととなった。そんなChatGPTにもハプニングがあった。製造元OpenAIが11月に前代未聞のお家騒動を引き起こし、コーポレートガバナンス的アキレス腱を露呈した。キッシンジャー元米国国務長官も、11月末大往生する直前までAIが孕む地政的リスクを懸念していたが、技術の製品化スピードに、それ以外の側面が追いついていないことは明々白々である。EUはいち早くAIを規制する包括的法案を可決したが、その保守的すぎる姿勢は、引き続きシリコンバレーにおいて嘲笑の的とな
- techfeed
- あとで読む
- AI
- it
- business
データ職種の課題図書リストを作りたい - 下町柚子黄昏記 by @yuzutas0
- 206 users
- yuzutas0.hatenablog.com
- テクノロジー
- 2023/12/04
この記事は datatech-jp Advent Calendar 2023 3日目の記事です。背景・趣旨筆者（@yuzutas0）は風音屋（@Kazaneya_PR）という会社を経営しており、データ職種の採用・育成に関心を持っています。複数企業で少ない専門家を奪い合って疲弊するような採用活動ではなく、マーケット全体がより豊かになるような動き方はできないだろうかと模索しています。 1つの実験として、MENTAで「第2新卒が3ヶ月でデータ職種への転職を目指す講座」というトレーニングを提供し、ありがたいことに30名以上の方々に受講いただきました。ちなみにこの講座は今では風音屋の社内研修になっています。 MENTAの受講者が30名を突破しました🎉 卒業生が風音屋に入社したり、スキルアップして「社内で提案が通るようになった」「現職で活躍できるようになった」という感想もいただいています。
BigQuery や Google Workspace のログを使って分析環境を管理する｜Mercari Analytics Blog
- 22 users
- note.com/mercari_data
- テクノロジー
- 2023/09/05
BI Product チームの野本です。メルカリでは Google BigQuery 監査ログと Google Workspace ログイベントを BigQuery にエクスポートして、データ分析環境の管理に活用しています。アクセス履歴を詳細に調べられる BigQuery 監査ログは、分析環境のコスト最適化やテーブルの変更時の影響範囲調査などの管理業務にとても便利です。 BigQuery の利用が増えてくると、過剰に高頻度なクエリジョブや、使われずに放置されたテーブルなどにかかる無駄なコストも増大していきます。これらの使われていないジョブやテーブルを抽出し削減することで、BigQuery の計算やデータの保管にかかるコストを削減することができます。メルカリでは、BigQuery 監査ログ、Google Workspace ログイベントを活用して、分析環境の管理業務に役立てていますので、
ディメンショナルモデリング入門 / introduction-to-dimensional-modeling
- 6 users
- speakerdeck.com/pei0804
- テクノロジー
- 2023/08/31
Youtube https://www.youtube.com/watch?v=jRBFXbPh1bM イベントページ https://usergroups.snowflake.com/events/details/snowflake-japan-presents-minnanodetamoderujiang-zuo-jin-hua-bian-deimenshiyonarumoderinguru-men/ ディメショナル・モデリングとは https://zenn.dev/pei0804/articles/dimensional-modeling
- データ基盤
BigQuery上のデータマートをクラスタ化したらクエリコストが９割カットできた話 - エムスリーテックブログ
- 45 users
- www.m3tech.blog
- テクノロジー
- 2023/07/07
こんにちは、エンジニアリンググループ、データ基盤チームの木田です。最近我が家では手作りピザがブームになっており、週末になると度々生地をこねては家庭内ピザパーティーを開催しております。息子が盛り付けた手作りピザ (本文とは特に関係ありません) さて、エムスリーではBigQueryをメインのデータウェアハウスとして活用していますが、費用最適化の取り組みの 1つとして一部のデータマートでクラスタ化テーブルの活用を始めました。本日はその導入効果をご紹介できればと思います。この記事は【データ基盤チームブログリレー4日目】です。データ基盤チーム設立の経緯についてはブログリレー1日目の鳥山の記事をぜひご覧ください。 www.m3tech.blog はじめに費用最適化のアプローチクラスタ化テーブルとはクラスタ化テーブルの作成方法実際に速く・安くなるのか複合キーによるクラスタリングクラス
- bigquery
- あとで読む
- コンピュータ・IT
- DB
- techfeed
- -
- Google
法人データの取得と活用 #kazaneya / 20230425
- 4 users
- speakerdeck.com/kazaneya
- テクノロジー
- 2023/04/25
風音屋30分リサーチ#1「法人データの取得と活用」の資料となります。法人データ利用を検討する際の参考資料としてご活用ください。
dbt 開発で使える SQL スタイルガイドを導入した話
- 5 users
- techblog.kazaneya.com
- テクノロジー
- 2023/04/21
風音屋では、データエンジニア、データアナリスト、データコンサルタントを募集しています。書籍執筆者やOSSコントリビューターなど、業界を代表する20名以上のアドバイザーと一緒にベストプラクティスを追求できる環境です。ぜひカジュアルトークをお申し込みください。兼業データアナリストの星野（@mochigenmai）です。この記事では dbt 開発で使える SQL スタイルガイドを導入した話について紹介します。 SQL スタイルガイドを導入した背景現在 dbt を利用したデータパイプライン開発が活発になってきています。データパイプラインは「信頼性の高い分析」を効率的かつ迅速に実現するために構築します。そのため、データの信頼性を担保する仕組みは積極的に導入したほうが良いと考えられます。今回は以下のような点でデータの信頼性を担保できると考え、 dbt 開発環境に SQLFluff (L
dbt × SQLFluff を GitHub Actions で動かす時の情報漏洩リスクとその対策
- 6 users
- techblog.kazaneya.com
- テクノロジー
- 2023/04/17
風音屋では、データエンジニア、データアナリスト、データコンサルタントを募集しています。書籍執筆者やOSSコントリビューターなど、業界を代表する20名以上のアドバイザーと一緒にベストプラクティスを追求できる環境です。ぜひカジュアルトークをお申し込みください。兼業データアナリストの星野（@mochigenmai）です。今回 dbt を利用したデータパイプラインの開発時に、SQLFluff(Linter) を動作させる GitHub Actions を構築しました。 GitHub Actions で SQLFluff を動作させる手順は kazaneya/sqlfluff-dbt-starterkit に公開しているので、よかったら活用してみてください。この記事では GitHub Actions の環境構築時に発覚した情報漏洩リスクの原因と対策を dbt compile の仕様と合わせ
データエンジニア2人がデータ整備周りの採用難について考える
- 5 users
- techblog.kazaneya.com
- テクノロジー
- 2023/04/15
風音屋では、データエンジニア、データアナリスト、データコンサルタントを募集しています。書籍執筆者やOSSコントリビューターなど、業界を代表する20名以上のアドバイザーと一緒にベストプラクティスを追求できる環境です。ぜひカジュアルトークをお申し込みください。風音屋アドバイザーの “たけっぱ”（@takegue）です。データを整備できる人材が見つからない、採用できない――。データ活用を考える多くの企業がぶつかる問題です。どうすればデータエンジニアに来てもらえるのか。そもそも「データの整備」はデータエンジニアだけの仕事なのか。風音屋代表の “ゆずたそ”（@yuzutas0）さんと僕のデータエンジニア2人で考えてみました。 ※この記事は、YouTube動画「データマネジメント.fm」の第2回目「データ整備の人材獲得」を書き起こし、加筆・修正したものです。書き起こし・編集：
Cloud Pub/Sub schema evolution is now Generally Available | Google Cloud Blog
- 3 users
- cloud.google.com
- テクノロジー
- 2023/03/20
Pub/Sub schemas are designed to allow safe, structured communication between publishers and subscribers. In particular, the use of schemas provides that guarantee that any message published adheres to a schema and encoding, which the subscriber can rely on when reading the data. Schemas tend to evolve over time. For example, a retailer is capturing web events and sending them to Pub/Sub for downst
- cloud
データの民主化とこれからのAI組織｜ばんくし
- 332 users
- note.com/vaaaaanquish
- テクノロジー
- 2023/03/14
はじめにStable DiffusionだとかChatGPT、LLMみたいな「大規模モデル」って考え方が機械学習業界から出て、スケーリング則に基づいてまだまだ精度が上がるとされている昨今。（スケーリング則はどうのこうの諸説あるが）さておき、「マルチモーダルに」「あらゆるデータを学習した」「大規模なモデル」が今後数年リードしていく事は間違いないと思う。そんな中で、我々機械学習エンジニアやデータサイエンティスト、アナリスト、データエンジニア、MLOpsエンジニアみたいな、いわゆるAI屋として働いている人たち、皆が所属するAI組織ってどうなっていくのかな、という話を書いてみる。データの民主化AIの民主化とデータの民主化AI業界では「AIの民主化」というワードがある。便宜的にAIというワードが広く使われるようになった辺りで出てきたワードで、OSSやプラットフォーム、ハードの発展によって「A
- AI
- あとで読む
- 機械学習
- ChatGPT
- データ
- 人工知能
- 開発
- techfeed
- モデル
- 学習
Denodoによって開発工数の削減と拡張性の高い状態を実現！法人顧客データ基盤構築プロジェクト技術編 - techtekt
- 41 users
- techtekt.persol-career.co.jp
- テクノロジー
- 2023/02/25
各事業部ごとに、それぞれが担当する法人向けサービスのデータを保有しているパーソルキャリア。垣根を越えてデータ活用を実現すべく、顧客データ基盤を構築したプロジェクトがスタートし、前回は取り組みの全体概要について詳しく話を聞きました。本プロジェクトでは、データ仮想化・統合ツール「Denodo」を採用してこれまでのデータ統合における課題を解決し、開発工数の削減や拡張性の向上を実現したのだといいます。パーソルキャリアでは初となる「Denodo」活用の裏側には、どのようなポイントがあったのでしょうか。データとテクノロジーを司るデジタルテクノロジー統括部のエンジニアである寺本、井上、渡邉に話を聞きました。 ETL処理やトラブル時の調査にかかる時間・コストの削減を目指し、「Denodo」の導入を決断 “データマネジメントについて会話しやすい環境” ができ、次のステップに進めた ETL処理やトラブル時
データアナリストからアナリティクスエンジニアへのすゝめ｜OKIYUKI｜note
- 24 users
- note.com/okiyuki
- 暮らし
- 2023/01/16
こんにちは。おきゆき (@okiyuki99) です。最近はアナリティクスエンジニア：データアナリスト = 80：20でやっています。数年前まではデータアナリスト・データサイエンティスト成分が多めだったのですが、逆転してきました。アナリティクスエンジニアというポジションは昨年くらいから急激に見るようになったと思いますが、この記事ではデータアナリストのネクストキャリアとして、アナリティクスエンジニアはいいぞ！という話をします。ちなみに、dbtの開発者ブログのこの内容にインスパイアされて、自分なりの考えを書いてみようと思いました。アナリティクスエンジニアとはあらためてアナリティクスエンジニアについて簡単におさらい。dbtのアナリティクスエンジニアリングガイドに書かれているアナリティクスエンジニアの役割を意訳すると以下のように書いています。データを使って解きたい問いを持つエンドユーザが分
私が妄想している最強のデータ基盤2023
- 154 users
- zenn.dev/jimatomo
- テクノロジー
- 2023/01/08
新年になったので今年のやりたいことをまとめようと思いたち筆をとっています。単にやりたいこと書いてもただのポエムになってしまうので、私が今時点で妄想している最強のデータ基盤を描いて、その中でまだ触ったことのない技術を今年触っていこうという意気込みを最後に書こうと思います（意気込みだけにならないように頑張りたいです！）まだ触ったことないものもあるので妄想しているレベルです。アーキテクチャ図まず最初に結論から書いていきます。なぜこのアーキテクチャが最強と思うのかデータ基盤として機能を分けると以下の6つの領域に分かれると思っています（もう少し細かく分けることもできたりします。例えばDMBOKとかではホイール図で11の領域に分けたりしています）データ基盤の領域主に関連するDMBOKの知識領域主担当
データエンジニア道の俺のバイブル
- 437 users
- zenn.dev/pei0804
- テクノロジー
- 2023/01/03
先人の知恵に学ぶデータエンジニア道で、本当に良かった！読み物を、不定期に追記していく。 A Beginner’s Guide to Data Engineering — Part I データエンジニアをこれから始める人に、必ず薦める記事。データエンジニアの基本を学べるかつ、どういう世界に広がっていくのかまで、一気に学べるのでとても良い。 Functional Data Engineering — a modern paradigm for batch data processing 関数型パラダイムを使ったデータパイプラインの構築方法。これを初めて読んだ時の衝撃は今でも忘れないし、フルスクラッチからdbtを使ったデータパイプラインになっても健在な設計手法。 Engineers Shouldn’t Write ETL: A Guide to Building a High Function
論文から垣間見るAmazon Redshiftの進化と深化 2022 #jawsug #bdjaws | DevelopersIO
- 27 users
- dev.classmethod.jp
- テクノロジー
- 2022/12/24
データアナリティクス事業本部のコンサルティングチームの石川です。本日は、2022年5月に発表された論文「Amazon Redshift re-invented」を実際に読み、難しいところや弊社が実際に検証をした点を補足して解説します。普段はRedshiftの機能や使い方の解説が多く、あまり触れられることの少ないUnder the hoods 的なお話しようと思います。本エントリはAWS Analytics Advent Calendar 2022の12/24（土）の記事です。論文の詳細については、2022/12/19のBigData JAWS #22にて、登壇した資料をご覧ください。ブログの中では、紹介した機能についてのブログを紹介しています。このブログをおすすめする人オライリーの「データ指向アプリケーションデザイン」や「詳説データベース」とかを読むと、Redshiftの内部が
- aws
- あとで読む
- 論文
- データ
BigQuery と Snowflake を徹底比較
- 156 users
- speakerdeck.com/fetaro
- テクノロジー
- 2022/12/21
最初にBigQueryとSnowflakeの概要と、登場の背景を説明します。その後、ユーザにとっての使い勝手と、管理者にとっての使い勝手を、ベンダーフリーな立場でそれぞれします。最後に、BigQueryとSnowflakeどっちが速いのか？といった疑問に対して、アーキテクチャをもとに考察します。
保守性と生産性を両立する分析用SQL構造化の4原則〜構造化プログラミングの考え方をSQLに適用する
- 184 users
- techblog.yahoo.co.jp
- テクノロジー
- 2022/12/18
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。Yahoo!広告のデータマーケティングソリューション（以下、DMS）を開発しているデータアナリストの薄田です。みなさんは、中間テーブル同士が複雑に絡み合い変更しようにも影響範囲を推定できず、手がつけられない分析パイプラインの保守で苦労された経験はないでしょうか？私のチームでは数千行におよぶ分析用SQLをリファクタリングして、保守性と生産性を両立する分析パイプラインに生まれ変わらせることができました。この記事ではリファクタリングを通して確立した、分析用SQLを構造化するための4原則を紹介します。4原則を意識しながらSQLを書くことで、高凝集・疎結合な分析パイプラインを作ることができます。この記事では凝集度と結合度
dbt snapshot から学ぶ Slowly Changing Dimension - Gunosyデータ分析ブログ
- 20 users
- data.gunosy.io
- テクノロジー
- 2022/12/11
こんにちは、Gunosy Tech Lab DR&MLOps チームの楠です。この記事は Gunosy Advent Calendar 2022 の 11 日目の記事です。昨日の記事は UT@mocyuto さんの『RailsのフロントをReactへリファクタしたとき、スキーマをOpenAPIベースの自動生成にした話』でした。この記事では、ELT パイプラインにおける Transformation ツールである dbt の snapshot という機能について紹介した後、snapshot の手法を一般化したディメンションモデリングにおける概念である Slowly Changing Dimension を包括的に紹介します。はじめに dbt とは？ dbt についての参考資料 dbt snapshot とは？どんなときに使える？ dbt snapshot のまとめ dbt snap