並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 128件

新着順 人気順

datalakeの検索結果41 - 80 件 / 128件

  • Apache Arrowの最新情報(2020年7月版) - 2020-07-31 - ククログ

    Apache ArrowのPMC(Project Management Commitee、プロジェクト管理チームみたいな感じ)のメンバーの須藤です。 みなさんはApache Arrowを知っていますか?最近、ついに1.0.0がリリースされたんですよ。私がApache Arrowの最新情報をまとめた2018年9月から毎年「今年中に1.0.0がでるぞ!」と言っていた1.0.0がついにリリースされたんです! 1.0.0を機に安心して使えるようになります。(どう安心なのかは後で説明します。) Apache Arrowはすでにデータ処理界隈で重要なコンポーネントになりつつありますが、数年後にはもっと重要になっているだろうプロジェクトです。データ処理界隈に興味がある人は知っておくと役に立つはずなので毎年Apache Arrowの最新情報をまとめています。1.0.0がリリースされたので2020年7月現在

      Apache Arrowの最新情報(2020年7月版) - 2020-07-31 - ククログ
    • 分析基盤へのデータ同期を約40倍早くしてみた | MoT Lab (GO Inc. Engineering Blog)

      タクシーアプリ「GO」、法人向けサービス「GO BUSINESS」、タクシーデリバリーアプリ「GO Dine」の分析基盤を開発運用している伊田です。本番DBから分析基盤への連携処理を改善した事例を紹介します。※ 本記事の対象読者はETLツールを利用している方を対象にしています はじめに本記事では、タクシーアプリ「GO」の DB から分析基盤への同期処理を約7時間から約10分に改善した事例を紹介します。まず、既存の処理および改善前の状況を説明し、次に改善にあたり実施した分析、その分析をもとにチーム内で実施した議論を経て、最終的にどのような実装を行ったのか紹介させて頂きます。 同期処理についてGO の DB は Cloud SQL 上で構築されており、分析基盤への同期処理は GKE 上で Embulk を起動し、リードレプリカに対してクエリを投げて一度 GCS に結果を格納します。その後、GC

        分析基盤へのデータ同期を約40倍早くしてみた | MoT Lab (GO Inc. Engineering Blog)
      • アクティブメタデータの所感|Rytm / Quollio

        冒頭2022年現在、データ界隈で良く聞く概念の一つに、Active Metadataがある。最も、日本では未だ広く浸透していない概念ではあるが、北米ではData MeshやData Fablic、Metrics Layer等のバズワード(?)と同じように界隈を賑わしているものであり、こと ”データが資源” である21世紀の企業経営においては(現時点で少なくとも北米においては)最重要トピックの一つであると言って過言でない。 本日は、データの最前線を賑わしているアクティブメタデータについて、まだ日本語での記事も多くないので、思うところを書いてみることにした。 背景ときっかけ既にご存知の方も多いと思うが;象徴となったのは、Gartner社が2021年8月にMagic Quadrant for Metadata Managementの廃止を宣言し、代わりに Market Guide for Act

          アクティブメタデータの所感|Rytm / Quollio
        • AWS Lake Formationでのデータレイク登録からデータアクセスまで - NTT Communications Engineers' Blog

          AWS Lake Formationでのデータレイク登録からデータアクセスまで この記事は NTTコミュニケーションズ Advent Calendar 2021 の16日目の記事です。 はじめに はじめまして!BS本部SS部の荒井です。データマネジメントに関するプリセールスを担当しています。 今回はアドベントカレンダー企画ということで、AWS Lake Formationに関する記事を投稿をさせていただきます。 データレイクとAWS Lake Formation 近年データ分析の盛り上がりなどから、散逸している様々な形式のデータを一元管理できるレポジトリ、いわゆるデータレイクを導入するケースが増えてきています(参考:データレイクとは)。 例えばシステムごとに保存されていた「会員データ」「購入履歴」「問合せ履歴」などのデータをデータレイクに集約することでシステム横断の顧客分析を手軽に行うこと

            AWS Lake Formationでのデータレイク登録からデータアクセスまで - NTT Communications Engineers' Blog
          • Developers.IO 2019 Tokyoで「Effective Datalake 〜基礎からわかるデータレイクの定義と実践〜」というタイトルで発表してきました #cmdevio | DevelopersIO

            クラスメソッドの石川です。 先日開催いたしましたDevelopers.IO 2019 in TOKYOにお越し頂きましてありがとうございました。 表題の通り、データレイクについてお話をさせて頂きました。 スライド こちらがスライドになります。 こんな事を話してた はじめに データレイクとは AWS Glue Aamzon Athena / Redshift Spectrum データ設計のベストプラクティス Redshiftからデータレイクの移行 AWS Lake Formation まとめ まとめ Glue/Athena/Redshift Spectrumで始まったAWSのデータレイクは、Lake Formationによって統合され大きな進化を遂げました。その過程を私なりの解釈と定義に基づいて、現在に至る基礎的なサービスとその動作原理、データ設計のベストプラクティスについ

              Developers.IO 2019 Tokyoで「Effective Datalake 〜基礎からわかるデータレイクの定義と実践〜」というタイトルで発表してきました #cmdevio | DevelopersIO
            • Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話

              ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。データ統括本部でYahoo!広告のデータエンジニアをしている江島です。 本記事では、Yahoo!広告のデータ分析環境であるデータレイク上のデータを、Apache Hudi を用いてレコード単位で削除可能にした事例を紹介します。 Yahoo!広告のデータ分析環境 Yahoo!広告における データマーケティングソリューション では、ヤフーの持つ圧倒的な量と質のデータを活用し、消費者理解や広告効果分析を目的としたさまざまな商品を提供しています。 これらの商品を提供するための裏側には広告に関する膨大なログや多種多様なサービスのログを使ってデータ分析や機械学習を行うためのデータ基盤が必要です。データマーケティングソリューションで

                Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話
              • dbtを活用したデータ基盤の 論理・物理設計の現在地と振り返り / data warehouse logic design by using dbt

                dbtを活用したデータ基盤の 論理・物理設計の現在地と振り返り / data warehouse logic design by using dbt

                  dbtを活用したデータ基盤の 論理・物理設計の現在地と振り返り / data warehouse logic design by using dbt
                • データレイクの新しいカタチ:Open Table Formatの紹介 - 流沙河鎮

                  はじめに Open Table Formatは次世代のデータレイクの基盤となり得る技術で、徐々に導入事例(末尾に列挙)が増えてきているものの、日本での認知度は発展途上な印象がある。本記事ではOpen Table Format登場の背景を紹介する。執筆にあたって、Apache Iceberg: An Architectural Look Under the CoversとAWSにおける Hudi/Iceberg/Delta Lake の 使いどころと違いについてを特に参考にした。 Open Table Formatとは? Open Table Formatとは、従来のデータレイクの技術的な課題&ユースケースの要請に応える形で登場した、データレイクに最適化されたテーブルフォーマットを指す概念で、上手く活用することでクエリプランニング、実行性能の最適化、効率的なUpdateやDelete、タイム

                    データレイクの新しいカタチ:Open Table Formatの紹介 - 流沙河鎮
                  • Gunosyでのデータ分析 新卒編 - Gunosyデータ分析ブログ

                    はじめに こんにちは、今年の4月に新卒として入社しグノシー事業部に配属されました齊藤です。 自分は現在グノシー事業部でグノシー(アプリ)の分析を専任しています。データ分析部の方はニュースパスやオトクル等複数のアプリを横断的に分析、ロジック開発を担当しています。 今回は各アプリの分析担当がどんなことをやっているのか、2ヶ月間どのような事を学んだかを新卒エンジニアの立場から紹介していこうと思います。もう働き始めてから2ヶ月経ったのか・・・ 分析 分析とだけ書くとやたら広い意味になりますが、主にプロモ指標などを作成、集計し部署の人が見やすい形に整えたり、キャンペーンや特集タブに関する集計、UI変更時のA/Bテスト*1などを行っています。RedashでSQLクエリを書いて可視化したり、以下の記事のようにGASでSlackへの通知を作ったりすることもあります。 data.gunosy.io 分析業務

                      Gunosyでのデータ分析 新卒編 - Gunosyデータ分析ブログ
                    • カケハシがDatabricksを導入した背景と技術選定のポイント - KAKEHASHI Tech Blog

                      初めまして、カケハシのデータ基盤チームでデータエンジニアしている大木と申します。 この度カケハシでは、全社的なデータ活用基盤のプラットフォームとしてDatabricksを採用し、2022/07より本格導入することとなりました。 当記事では、カケハシがDatabricksを採用するに至った技術選定の背景について紹介させていただきます。 ※カケハシのデータ基盤の組成のお話はこちらの記事で詳しく紹介されておりますので良ければご覧ください。 カケハシのデータ基盤アーキテクチャと課題 まずカケハシのデータ基盤のアーキテクチャと抱えている課題について紹介します。 Databricks導入に伴い現在は一部変更が入りつつあるのですが、導入前のアーキテクチャとしては以下のような構成になっていました。 様々なデータソースから収集した生データをAWSのS3に集約 Glue、Athena等のETLサービス、分散処

                        カケハシがDatabricksを導入した背景と技術選定のポイント - KAKEHASHI Tech Blog
                      • 社内勉強会「Modern Data Stack入門」の内容をブログ化しました - PLAID engineer blog

                        プレイドの社内向けに行ったModern Data Stack勉強会の内容が好評だったので、データ基盤に携わる方に向けてModern Data Stackの概要、主要サービス、重要だと思うトレンドをまとめました。

                          社内勉強会「Modern Data Stack入門」の内容をブログ化しました - PLAID engineer blog
                        • チーム開発のためのデータウェアハウスアーキテクチャ - Retty Tech Blog

                          昨日は、西村さんよりAurora移行大全#2 でした。ドキドキの移行が無事成功して嬉しいですね。 engineer.retty.me Retty Advent Calendar も終わりが近づいてきました。 24日目の本日はデータ基盤について紹介します data-platform-meetup.connpass.com 今回の記事は、先日登壇した以下のイベントで発表を行いました。 コミュニティの盛り上がりを感じる良いミートアップだったと思います。 この記事では発表ではお話しできなかったことの補足も含め、 我々のデータ基盤を取り巻く構成と その背景となる考え方について紹介したいと思います。 誰のためのデザイン? データの民主化と基盤開発 Rettyにおけるデータウェアハウジング データ基盤開発の標準化 効果的なプラクティスの導入 データウェアハウシングのための実践的なレイヤ構成 データ置き場

                            チーム開発のためのデータウェアハウスアーキテクチャ - Retty Tech Blog
                          • noteの機械学習フローを共通化してレコメンデーションで成果をあげた話|やすけん / yskn67

                            こんにちは.noteの基盤開発グループ機械学習チームに所属している安井です.普段は機械学習を活用したシステムの開発から運用までトータルでおこなっています. noteでは記事の分類やレコメンデーションに機械学習を用いて作成されたモデルが使われています.いくつか例を挙げますと,noteに投稿された記事をカテゴリごとにまとめて見るために,記事をカテゴリごとに機械学習で分類しています.また,”あなたへのおすすめ”としてユーザごとにパーソナライズされたおすすめ記事をとどけるためにも機械学習が活用されています. (図1)noteにおける機械学習の活用箇所それらサービスで活用されている複数の機械学習モデルには記事の内容から分散表現を獲得する似たような仕組みが存在しました.今回はそれらを共通コンポーネントとして切り出し,分散表現を推論・保存まで行う仕組みを構築しました.また,その分散表現を活用したレコメン

                              noteの機械学習フローを共通化してレコメンデーションで成果をあげた話|やすけん / yskn67
                            • 今こそ注目!DWHにおけるデータモデリングとその歴史

                              近年、最新技術を用いた華々しいデータ活用が注目される一方で、データ活用のための基本的かつ重要な技術である「データモデリング」について、その重要性が再認識されつつある。 本稿では、DWHをとりまく歴史を踏まえ、様々なデータモデリング技法を紹介する。 目次なぜ今、データモデリングに注目すべきなのかDWHの誕生と発展に貢献した二人の偉大なアーキテクトクラウドDWH時代の最新データモデリングDX時代にデータを使いこなすためになぜ今、データモデリングに注目すべきなのかAIやBI、データドリブン、データ民主化、DX、デジタルサクセス。データ活用業界には様々なトレンドが渦巻いています。しかし、これらの根本を支える技術として、不変のものもあります。リレーショナルモデルとSQLです。 NoSQLやデータレイクの流行によって隅に追いやられていた時代もありましたが、データを分かりやすく扱う上で未だにリレーショナ

                                今こそ注目!DWHにおけるデータモデリングとその歴史
                              • Data Meshとは何か?

                                Aboutこの記事は、「Data Mesh」について書かれたものです。参考文献に記載された内容をベースとして、個人的な感想や意見を加えたものです。 事例ではありません。 TL;DRData Mesh はデータ基盤の新しいアーキテクチャ原則であり、現在主流である中央集中型のデータ基盤と、そこから起こる問題への解決策です。Data Mesh はマイクロサービスと DDD から着想を得ており、データの生成・管理・提供を中央ではなくドメインごとに管理します。管理が分散することでスケーラビリティ・自律性を確保しつつ、統一的なガバナンスを保持できるアイデアです。主な想定読者Data Mesh が気になる方データ基盤を開発・保守するデータエンジニアデータマネジメントをより洗練させたいと感じている方Data Mesh の登場した背景 (WHY)詳細に入る前に、Data Mesh が前提に置く現代のデータ基

                                  Data Meshとは何か?
                                • DevelopersIO 2022 Snowflakeトーク&ディスカッション~Snowflake Summit’22の最新情報を現地参戦できなかった二人のData Superheroと一緒に学ぼう!#devio2022 | DevelopersIO

                                  さがらです。 DevelopersIO 2022 〜技術で心を揺さぶる3日間〜の2日目、2022年7月27日にSnowflakeトーク&ディスカッション~Snowflake Summit'22の最新情報を現地参戦できなかった二人のData Superheroと一緒に学ぼう!というタイトルで、Snowflake社のKTさん、弊社クラスメソッドの甲木、さがら、の3人で登壇しました。 本ブログではこの登壇内容について、紹介のあったSnowflakeの新機能を中心にまとめたいと思います。 登壇概要 概要 Snowflake社の最大のユーザーカンファレンスイベントである「Snowflake Summit」がラスベガスにて2022年6月13~16日の日程で開催されました。本セッションではSnowflake社のKT氏をお招きし、イベントに現地参戦できなかったData Supeheroesであるクラスメソ

                                    DevelopersIO 2022 Snowflakeトーク&ディスカッション~Snowflake Summit’22の最新情報を現地参戦できなかった二人のData Superheroと一緒に学ぼう!#devio2022 | DevelopersIO
                                  • Dataplex: data governance

                                    Centrally discover, manage, monitor, and govern data and AI artifacts across your data platform, providing access to trusted data and powering analytics and AI at scale.

                                      Dataplex: data governance
                                    • BigQuery のデータセットとテーブルを整理整頓する - キカガク プラットフォームブログ

                                      前提 状況 整理整頓 Step0: 前提知識 Step1: 整理の軸を決める Step2: 仕様を整理する Step3: 手段の整理 結論 おわりに こんにちは、開発事業部で PM をしている丸山です。 キカガクでは昨年夏に GCP を中心としたデータ基盤へ移行しました。 データ基盤では現在次のように複数ソースのデータを BigQuery へ集約し、加工していくような構成を取っています。 infra 半年程度運用してデータパイプラインの管理のつらさが表面に浮かんでくる中で、上図にも記載があるワークフロー管理ツールの導入に踏み切ったのですが、その際に無秩序となっていた BigQuery のデータセット/テーブル構成に関してもテコ入れをしましたので、そちらの内容を書いていこうと思います。 前提 本題に入る前に、前提として今回扱っているデータ基盤は下記の規模感のものとなります。 扱うデータソース

                                        BigQuery のデータセットとテーブルを整理整頓する - キカガク プラットフォームブログ
                                      • プロダクト中心のデータ駆動を推進していくために必要なこと

                                        プロダクト開発メンバー主導の民主的なデータ活用を目指すとどの企業でも直面することになるであろういくつかの課題と、それらに対するピクシブ株式会社データ駆動推進室の取り組みをご紹介します。 Data Platform Meetup 【vol.2】の発表資料です。 https://data-platform-meetup.connpass.com/event/155073/ ピクシブ株式会社について: https://www.pixiv.co.jp/

                                          プロダクト中心のデータ駆動を推進していくために必要なこと
                                        • Eurekaの DataPlatform開発状況と再現性の実現

                                          使われないものを作るな!出口から作るデータ分析基盤 / Data Platform Development Starting from the User Needs

                                            Eurekaの DataPlatform開発状況と再現性の実現
                                          • 更新できるデータレイクを作る 〜Apache Hudiを用いたユーザデータ基盤の刷新〜 - Gunosy Tech Blog

                                            広告技術部のUT@mocyutoです。 こちらの記事はGunosy Advent Calendar 2021の4日目の記事です。 昨日は内田さんの その設定、pyproject.tomlに全部書けます - Gunosyデータ分析ブログ でした 今回はApache Hudiを用いたユーザデータ基盤の刷新を紹介します。 背景 仕組み 課題 対応策 データの持ち方を変える Apache Hudiとは 構成 Glue + PySpark Athenaによる抽出 移行し終えて 背景 Gunosyの広告システムではユーザに対して最適な広告を届けるために、接触済みのユーザに対して何度も同じ広告を出さないようにする仕組みを提供しています。 例えば、すでにある広告Aをクリックしたユーザには広告Aは再度配信しないのような設定です。 仕組み この仕組みを実現するためには以下のようなアーキテクチャになっていました

                                              更新できるデータレイクを作る 〜Apache Hudiを用いたユーザデータ基盤の刷新〜 - Gunosy Tech Blog
                                            • Tonamelのデータ基盤 ~データモデリング編~

                                              #nakanoshima_dev 9/22 18:30~ https://nakanoshima-dev.connpass.com/event/221243/ nakanoshima.dev #21 LED!! (Let's enjoy データ分析!!)の発表資料です。

                                                Tonamelのデータ基盤 ~データモデリング編~
                                              • データ品質を重視したデータ基盤プロダクト開発

                                                データ基盤アーキテクチャトレンド 2023 LTとパネルで学ぶ (https://findy.connpass.com/event/278140/) の登壇資料になります。

                                                  データ品質を重視したデータ基盤プロダクト開発
                                                • 2年間のデータ基盤アーキテクチャ改善活動 | 株式会社ヌーラボ(Nulab inc.)

                                                  はじめに どうもこんにちは。鶴田です。 ヌーラボではいわゆる縦割りの組織ではなくフラットな組織という考え方で組織活動が行われています。 フラットというと勘違いしそうですが、誰でも役員やプロダクトマネージャに好き勝手に物事を言えたり、やりたいことを強行できたりということではありません。フラットだからこそしっかりと他者へ説明する義務が発生し、同時に自分の発言や行動に責任を持つことが必要です。 こうして他者にフォロワーとなってもらい後押しを受けるということが前提で、誰にでも自分の考えを発信したり、やりたいことを実現する道が開けているということです。 そのための仮説検証を行うため、誰でも必要な情報にアクセスできるという環境はフラットな組織の前提となります。 この記事は、必要な情報に誰でもアクセスできるという環境を整えるために、2年ほど前から行ったAWS上でのデータ基盤の構築とその改善活動について段

                                                    2年間のデータ基盤アーキテクチャ改善活動 | 株式会社ヌーラボ(Nulab inc.)
                                                  • データマネジメントにおけるメタデータ管理についてまとめてみた | DevelopersIO

                                                    どーも、データアナリティクス事業本部コンサルティングチームのsutoです。 データマネジメントに関する知識を体系立ててまとめた「DMBOK」(ここでは第2版であるDMBOK2)には、広範なデータマネジメントの概念として11個の知識領域が定義されています。 その中に「メタデータ」の管理に関する記述があります。増え続けるデータの種類と量の全体像を把握しやすくする目的として、 業務用語とその利用法に関する組織の理解を提供する 様々なソースのメタデータを収集し統合する メタデータにアクセスするための標準的な方法を提供する メタデータの品質とセキュリティを確保する ことをゴールとしてメタデータの管理を考えることの必要性を謳っています。 じゃあ具体的に、『自分たちの組織の組織と照らし合わせてどんな方針で考えて整備していけばよいのだろう』という疑問に対して、「とりあえずメタデータ管理できるツールを入れれ

                                                      データマネジメントにおけるメタデータ管理についてまとめてみた | DevelopersIO
                                                    • ジモティーのデータ活用フローのご紹介 - ジモティー Tech Blog

                                                      ジモティーiOSチーム所属のエンジニアの橋本です。 普段はiOSアプリの開発に従事していますが、 Webやネイティブアプリ(iOS/Android)の各種計測データの収集や社内への展開などの業務にも従事しています。 今回は、自分が担当しているデーター活用周りでの取り組みのご紹介をしたいと思います。 組織のコンディション判断と意思決定に利用されるデータ Webアプリやネイティブアプリ(iOS/Android)が生み出す様々なデータは 収集・蓄積・加工 ▶ 分析・活用 という過程を経るわけですが、その利用目的は大きくは2つです。 ジモティーというサービスの現状がどうなのか、 サービスのコンディションの善し悪しを判断するための利用 ユーザーの利用状況の傾向を把握し、次の打ち手を決める判断材料としての利用 この利用目的を達成するためにデータをどのように利用者に届けるかが重要となります。 エンジニア

                                                        ジモティーのデータ活用フローのご紹介 - ジモティー Tech Blog
                                                      • グロービスにおけるデータ基盤のアーキテクチャについて|グロービス・デジタル・プラットフォーム

                                                        はじめにはじめまして!! 株式会社グロービスのデジタル・プラットフォーム部門、データサイエンスチーム、データエンジニアリングユニットにてソフトウェアエンジニアをしております、爲岡 (ためおか) と申します。 (肩書きが長くてすみません。) グロービスには当初、機械学習エンジニアとして入社しましたが、現在は機械学習や分析に利用するためのデータ基盤の開発・運用をメインで担当しています。 この記事では、グロービスのデータエンジニアリングユニットが運用しているデータ基盤のアーキテクチャについてご紹介できればと思います。 グロービスについて突然ですが、皆様はグロービスに対してどのようなイメージをお持ちですか? 特にテクノロジーの領域で働く方々にとって、そもそもグロービスという企業を知らない、という方が大半なのではないか、と思っています。 また、もしご存じだとしても、経営大学院や研修事業など、テクノロ

                                                          グロービスにおけるデータ基盤のアーキテクチャについて|グロービス・デジタル・プラットフォーム
                                                        • Nature のデータ基盤のご紹介 - Nature Engineering Blog

                                                          Nature でデータエンジニアをしている原( @toohsk )です。 データ分析を行う一方で、Nature に所属しているメンバーが幅広くデータの参照、分析ができるようになるためにデータ分析基盤の構築も行っています。 今回は、Nature で構築しているデータ分析基盤を紹介したいと思います。 どのようなデータ基盤にしたいのか Nature の重要なカルチャーでもありますが、Nature においてProduct Driven で事業が進みます。 speakerdeck.com Nature におけるプロダクトは、スマートフォンのアプリのみならず、ハードウェアやファームウェアなどの開発が含まれます。したがって、一重にエンジニアといえど、得意な技術領域は幅広くなります。また、エンジニア以外のメンバーも含めてサービスのデータにアクセスし、ファクトベースに意思決定できる環境を用意したいと考えてい

                                                            Nature のデータ基盤のご紹介 - Nature Engineering Blog
                                                          • Amazon Athena Apache IcebergテーブルフォーマットによるACID Transactionを試してみました! #reinvent | DevelopersIO

                                                            Icebergの強みを活かす INSERT INTOで300万レコードのデータコピー 普通のAthenaのテーブルと比較して、オーバヘッドが生じることが確認できました。上記では、1レコードINSERTでも7秒かかったりしたので、300万レコードをINSERT INTOしたときの時間がどうなるのかを確認したいと思います。 上記のテーブルからパーティションを取り除いて、INSERT INTOでデータのコピー先のテーブルを作成します。 CREATE TABLE iceberg_table ( id int, data string, category string) LOCATION 's3://<mybucket>/iceberg_table/' TBLPROPERTIES ( 'table_type'='ICEBERG', 'format'='parquet', 'compaction_bi

                                                              Amazon Athena Apache IcebergテーブルフォーマットによるACID Transactionを試してみました! #reinvent | DevelopersIO
                                                            • Delta LakeとLakehouseプラットフォームによるデータウェアハウス設計 - every Tech Blog

                                                              Delta LakeとLakehouseプラットフォームによるデータウェアハウス設計 こんにちは。ビッグデータ処理基盤の物理レイヤーから論理レイヤーの設計実装、データエンジニアやデータサイエンティストのタスク管理全般を担当している、Data/AI部門の何でも屋マネージャの @smdmts です。 この記事は、弊社のデータ基盤の大部分を支えるDelta LakeとLakehouseプラットフォームによるデータウェアハウス設計の紹介です。 Databricks社が主体となり開発しているDelta Lakeをご存じでしょうか? Delta Lakeは、Apache Sparkを利用したLakehouseプラットフォームを実装可能とするオープンソースです。 Lakehouseプラットフォームの詳細は、こちらの論文に記載されています。 Lakehouseプラットフォームとは、一つのデータレイクのプラ

                                                                Delta LakeとLakehouseプラットフォームによるデータウェアハウス設計 - every Tech Blog
                                                              • データアナリストが育てるDWH

                                                                [オンライン開催] Retty ✕ Mercari Analyst Talk Night! 登壇資料 https://mercari.connpass.com/event/218848/

                                                                  データアナリストが育てるDWH
                                                                • Fluentd向けApache Arrowプラグインについて - KaiGaiの俺メモ

                                                                  構想は半年ほど前?ここ一ヶ月ほど集中して開発に取り組んでいた、Fluentd向けApache Arrowプラグインがようやく動くようになったので、今回はこちらのモジュールについてご紹介します。 そもそもPG-Stromは、IoT/M2M領域で大量に発生するデータを高速に処理できますというのがセールスポイントで、GPU-Direct SQLはじめ、各種の機能によってそれを実現しているワケですが、実際に運用する際には、発生したデータを『どうやってSQLで処理できるようDBにインポートするか?』という問題があります。 例えば、PostgreSQLに一行ずつINSERTするというのも一つの解です。ただし、単純なI/Oに比べると、DBへの書き込みはどうしても処理ボトルネックになりがちです。 そこで、大量に収集するログデータを、少ない時間ロスで(つまり一時ファイルに保存したデータを再度DBにインポート

                                                                    Fluentd向けApache Arrowプラグインについて - KaiGaiの俺メモ
                                                                  • スケールし続ける組織におけるデータマネジメント|ササキエア@マネーフォワード

                                                                    お久しぶりです。マネーフォワード分析推進室で日々データマネジメントに勤しんでいるササキです。他の方が書いた記事内にはちょこちょこ登場したりもしていたのですが、自分で記事を書くのはだいぶお久しぶりになってしまいました。 今回はマネーフォワードでなぜLookerを導入したかという話を軸に、マネーフォワードにおけるデータマネジメントについて整理してみたいと思います。後述しますが、マネーフォワードは組織の人数も事業の数もものすごいスピードで増えており、そういった環境下でのデータマネジメントに求められることを発信することで似た悩みを抱えている or 今後抱えそうな組織の助けになれることを期待しています。 前段:マネーフォワードの組織と事業領域は拡大している👆さて、本編に入る前にまずはマネーフォワードという会社全体の動きについて、IR資料を引用しつつ紹介させてください。 マネーフォワードが大切にして

                                                                      スケールし続ける組織におけるデータマネジメント|ササキエア@マネーフォワード
                                                                    • 【レポート】最新の DWH およびデータレイク動向について(AWS-36) #AWSSummit | DevelopersIO

                                                                      みなさんこんにちは、杉金です。 今回は 2022 年 5 月 25 - 26 日の 2 日間開催された AWS Summit Onlineのセッションレポートをしていきます。セッションのサマリーを理解し、興味があるセッションをチェックすることにご活用ください。また、セッションのアーカイブも公開されておりますので、詳細が気になった方は是非そちらをチェックして下さい。 セッション概要 生成されるデータ量は増え続け、データ分析のニーズも多様化が進んでいます。従来の方法でこれらの要件を全て満たそうとすると、システムやその管理は複雑化しがちですが、AWS の分析サービスではモダンデータ戦略というアプローチでこの課題に対する様々な解決策を提供しています。本セッションでは、Amazon Redshift を中心に、データレイクと連携した様々な目的別分析サービスを簡単に組み合わせて、それぞれの分析ニーズに

                                                                        【レポート】最新の DWH およびデータレイク動向について(AWS-36) #AWSSummit | DevelopersIO
                                                                      • Redshiftの利用状況を可視化して不要なテーブルをお掃除した話 - LIVESENSE ENGINEER BLOG

                                                                        これは Livesense Advent Calendar 2022 DAY 10 の記事です。 年末のお掃除捗っていますか?我が家では窓掃除にWV1が大活躍しています。 データエンジニアの毛利です。サービス横断のデータ分析基盤であるLivesense Analytics(以降LA)の開発、運用を行っています。 背景 データ利用状況の可視化 テーブルの利用状況 Redshiftユーザーの利用状況 運用してみてわかったこと 最後に 背景 データを提供したものの、気がつくとほとんど使われていない、というのはよくある話だと思います。 LAでも様々なデータを提供できるように機能追加してきた結果、日々データは増え続け、システムの保守コストも徐々に膨れ上がってきました。システムは拡張する一方で、人が運用できる範囲には限度があります。いくつか解決方法があるかと思いますが、今回はデータの整理にフォーカスし

                                                                          Redshiftの利用状況を可視化して不要なテーブルをお掃除した話 - LIVESENSE ENGINEER BLOG
                                                                        • PyCPA: 会計データ基盤の話

                                                                          6 月 4 日に PyCPA という勉強会で大規模サービスにおける会計データ基盤について話した。 https://pycpa.connpass.com/event/246420/ MAU 1,000 万人超の消費者向け大規模サービスにおいて、会計データの収集・集計を目的とした社内向けシステムの開発運用に携わった経験をもとに、会計データを処理するシステムに特有の課題、およびその解決方法の選択肢とトレードオフについてお話しします。 人数の制限や当日の都合で参加できなかった方のために、話した内容とその背景、補足をここに書き残しておく。随分と時間が経ってしまってすみません。 より詳しく聞きたいという方がいたらご連絡ください。 概要 複雑な「お金の動き」を伴うサービスを開発・運用するとき、それをどのような方法で正確・迅速に捕捉し財務会計や管理会計に必要なデータとして収集・保存・集計するべきかという課

                                                                            PyCPA: 会計データ基盤の話
                                                                          • 社内向けのデータ基盤から集計結果をReverse ETLしてサービスに組み込んだ話 - Classi開発者ブログ

                                                                            こんにちは、データエンジニアの滑川(@tomoyanamekawa)です。 Classiでは2022年5月に学校内のユーザー利用状況を集計し可視化したダッシュボード機能をリリースしました。 この機能のデータ集計は既存の社内用データ基盤からのReverse ETLで実現しました。 そのアーキテクチャの説明と「社内用データ基盤」から「ユーザー影響あるシステムの一部」になったことによる変化について紹介します。 ダッシュボード機能とは 概要 先生のみが利用可能な機能 先生と学年・クラスごとの生徒の利用状況を可視化したダッシュボードを提供する機能 要件・制約 アプリケーションはAWS上で動かす 前日までの利用状況がアプリケーション上で朝8時までに閲覧可能になっていること 学校/学年/クラスごとで集計する 学校を横断した集計はしない 既存の社内用データ基盤とは 社内でのデータ分析を主な用途としているB

                                                                              社内向けのデータ基盤から集計結果をReverse ETLしてサービスに組み込んだ話 - Classi開発者ブログ
                                                                            • How Amazon is solving big-data challenges with data lakes

                                                                              How Amazon is solving big-data challenges with data lakesJanuary 20, 2020 • 2157 words Back when Jeff Bezos filled orders in his garage and drove packages to the post office himself, crunching the numbers on costs, tracking inventory, and forecasting future demand was relatively simple. Fast-forward 25 years, Amazon's retail business has more than 175 fulfillment centers (FC) worldwide with over 2

                                                                                How Amazon is solving big-data challenges with data lakes
                                                                              • データエンジニアとデータアナリストを兼任して良かったこと

                                                                                第2回 データアーキテクト(データ整備人)を”前向きに”考える会でトークをさせて頂きました https://analytics-and-intelligence.connpass.com/event/161997/ -- JapanTaxi, Inc. All Rights Reserved 102-0094 東京都千代田区紀尾井町3-12 3-12 TEL 03-6265-6265 FAX 03-3239-8115 https://japantaxi.co.jp/ 文章·画像等の内容の無断転載及び複製等の行為はご遠慮ください。 Proprietary and Confidential ©2020 JapanTaxi, Inc. All Rights ReservedRead less

                                                                                  データエンジニアとデータアナリストを兼任して良かったこと
                                                                                • Apache Arrowの統計情報を使ったログ検索の爆速化 - KaiGaiの俺メモ

                                                                                  PostgreSQLにはBRINインデックス(Block Range Index)という機能があり、ログデータに付属するタイムスタンプ値など、近しい値を持ったデータが物理的に近接するという特徴を持っているとき、検索範囲を効率的に絞り込むために使用する事ができる。 この機能はPG-Stromでも対応しており、その詳細は以前のエントリでも解説している。 kaigai.hatenablog.com かいつまんで説明すると、時系列のログデータのように大半が追記(Insert-Only)であり、かつタイムスタンプ値のように近しい値同士が近接している場合、1MBのブロック((pages_per_rangeがデフォルトの128の場合、8kB * 128 = 1MB))ごとにその最小値/最大値を記録しておくことで『明らかに検索条件にマッチしない範囲』を読み飛ばす事ができる。 例えば以下の例であれば、WHE

                                                                                    Apache Arrowの統計情報を使ったログ検索の爆速化 - KaiGaiの俺メモ