並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 95件

新着順 人気順

DataLakeの検索結果1 - 40 件 / 95件

  • Kubernetesをゲーム感覚で腕試しできるサイト「Game of PODs」で遊ばないと年を越せない・2021冬

    この記事はFixer Advent Calendar 9日目の記事です。 はじめに 最近CKADの受験して一旗上げようと画策しているなむゆです。 Kubernetesについて学ぶ中で、腕試しに使えそうな面白そうなサイトを見つけたので紹介してみようという回です。 Game of PODsとは Game of PODsとは、無料で遊べるKubernetesの問題集です。 Kubernetesクラスターにアプリケーションを展開したり、クラスターで起きている問題を解決することを通してそれらの方法を学ぶことができます。 この問題集はKodeKloudというサービスに提供されている教材のひとつで、KataKodaという教材用環境サービス内でホストされている仮想環境にアクセスしてハンズオン形式で課題を解くことができることが特徴です。 問題の内容としては、あるアーキテクチャが与えられて、「このアプリケーシ

      Kubernetesをゲーム感覚で腕試しできるサイト「Game of PODs」で遊ばないと年を越せない・2021冬
    • データ基盤にありがちな「何を使って作ればよいか?」という問いに対する処方箋を用意してみました. - Lean Baseball

      ちょっと昔まではデータ基盤の管理人・アーキテクト, 現在は思いっきりクラウドアーキを扱うコンサルタントになったマンです. 私自身の経験・スキル・このブログに書いているコンテンツの関係で, 「データ基盤って何を使って作ればいいの?」的なHow(もしくはWhere)の相談. 「Googleのビッグクエリーってやつがいいと聞いたけど何ができるの?」的な個別のサービスに対するご相談. 「ぶっちゃけおいくらかかりますか💸」というHow much?な話. 有り難くもこのようなお話をよくお受けしています. が, (仕事以外の営みにおける)個人としては毎度同じ話をするのはまあまあ疲れるので, データ基盤にありがちな「何を使って作ればよいか?」という問いに対する処方箋 というテーマで, クラウド上でデータ基盤を構築する際のサービスの選び方 (データ基盤に限らず)クラウド料金の基本的な考え方 をGoogle

        データ基盤にありがちな「何を使って作ればよいか?」という問いに対する処方箋を用意してみました. - Lean Baseball
      • PayPayがAWSを使い続ける理由 日本No.1のQR決済サービスを支えるインフラ構成

        ZOZO×一休×PayPay AWS Nightは、2020年7月22日に開催されたZOZOテクノロジーズ・一休・PayPayの3社による合同イベントです。各社それぞれAWSの活用事例を紹介します。PayPay株式会社プラットフォームチームの西中氏がPayPayのインフラの概要について話しました(記事内の情報はイベント開催時点のもの)。 日本のNo.1 QRコード決済サービス 西中智樹氏(以下、西中):「PayPayでのAWS活用事例について」と題して、PayPay Platformチーム・西中が発表いたします。 簡単に自己紹介します。西中智樹と申します。2018年12月よりPayPayで仕事をしていまして、現在、AWSなどのPayPayのインフラを所管するPlatformのチームに所属しています。好きなAWSサービスはEKSです。 本日のセッションのアジェンダになります。この順番でお話を

          PayPayがAWSを使い続ける理由 日本No.1のQR決済サービスを支えるインフラ構成
        • LINEの新しいセルフサービス型バッチデータ収集システム「Frey」の導入

          こんにちは、Data Platform室Data Engineering 1チームの徐です。 Data Platform室では、大規模なHadoopクラスタを運用し、データ収集、分析、活用するためのプラットフォームを提供しています。Data Engineering 1チームのミッションの一つは、様々なストレージからのdata ingestionシステムを構築、運用することです。 本記事では、バッチ処理でデータ収集を行うシステムの概要を説明した後に、LINEのセルフサービスツールであるFreyをご紹介します。 課題: このシステムでもデータ収集のバッチ処理を実行・管理するという目的は果たせましたし、ユーザーとタスクの規模が小〜中程度であれば問題はありませんでした。しかし、LINEの全てのプロダクトまでスコープを広げるにつれ、次のような問題に躓くことが増えていきました。 コード記述(ステップ1

            LINEの新しいセルフサービス型バッチデータ収集システム「Frey」の導入
          • 今後は「データ指向アプリケーションデザイン」を考えよう(Red Hat Forum講演フォローアップ記事) - 赤帽エンジニアブログ

            Red Hatの須江です。 本記事は赤帽エンジニア Advent Calendar 2019の10日目です。 子供を皮膚科に連れて行ったりなんだりで、気づいたら12/11になってますが、細かいことは気にせず進めます。 セッション資料と動画 redhat.lookbookhq.com redhat.lookbookhq.com 「データ指向アプリケーションデザイン」をメインテーマに選んだわけ デジタルトランスフォーメーション(DX)がバズワード化して久しいですが、自分は常に「DXは目的ではなく手段なので、DXしたあとにどうありたいかのビジョンを持ち、そこから逆算していまやることを考える」ことが重要だと考えています。 ビジョンを持つためには、まずDX後の世界がどうなっているのかをイメージできるようになる必要があります。 そこで、2019/6/20に開催された「DX&Open Hybrid Cl

              今後は「データ指向アプリケーションデザイン」を考えよう(Red Hat Forum講演フォローアップ記事) - 赤帽エンジニアブログ
            • PythonとGoogle Cloudを使って年間70万球の野球データをいい感じに可視化・分析するダッシュボードを作った - Lean Baseball

              日本で言えば同じ学年のレジェンド, アルバート・プホルスが通算700号本塁打を打って驚いている人です. ここ最近, (休んでいる間のリハビリがてら*1)PyCon JP 2022の準備および, 来年以降のMLBを楽しく見るために野球データ基盤(ちなみにメジャーリーグです)を作っていたのですが, それがいい感じに完成しました. アプリとデータ基盤をどのように作ったのか どのような処理, どのようなユースケースで動かしているのか これらをどのようなアーキテクチャで実現したのか 以上の内容をこのエントリーに書き残したいと思います. なおこのエントリーは, PyCon JP 2022のトーク「Python使いのためのスポーツデータ解析のきほん - PySparkとメジャーリーグデータを添えて(2022/10/15 16:00-16:30)」の予告編でもあります. なので, 後日のトークをお楽しみに

                PythonとGoogle Cloudを使って年間70万球の野球データをいい感じに可視化・分析するダッシュボードを作った - Lean Baseball
              • LINEの多様なサービスを支える機械学習のプラットフォームと開発事例

                2020年6月24日に、LINEの「Data Labs」のオンライン採用説明会が開催されました。Data Labsは、データ分析や機械学習の活用によって、LINEのすべてのサービスの価値向上を目指す、データの分析・研究を行う専門の開発組織です。説明会の後半は、Machine Learning1チーム/マネージャーの菊地悠氏とフェローの並川淳氏が登壇し、機械学習エンジニアチームの仕事内容や事例を紹介しました。1記事目はこちら Machine Learningチームのミッション 菊地悠氏:Machine Learning1チームの菊地と申します。よろしくお願いします。今日の内容は以下のような順で話をしていきたいと思います。 まず最初にミッションです。多種多様なサービスがあるので、機械学習を適用する領域はいろいろあります。そういう中で、我々のチームは各事業組織から独立しています。LINEのさまざ

                  LINEの多様なサービスを支える機械学習のプラットフォームと開発事例
                • Webアプリとデータ基盤をサクッと立ち上げるためのプラクティス - Google Cloudとサーバレスなサービスで良しなにやってみた - Lean Baseball

                  個人開発(趣味プロジェクト)でプロダクトを作りながら, 本職の仕事でソリューションアーキテクトっぽいことをしているマンです*1. 最近は個人開発のネタとして, プロ野球選手の成績予測プロジェクト ヘルスケア周りの自分専用プロダクト開発 この2本軸で週末エンジニアリングをしているのですが, これらの事をしているうちに, Webアプリケーション + 分析用のデータ基盤の最小セット, みたいなパターンが見えてきた クラウドにおけるサービスの選び方・スケール(=拡張)するときに気をつけるべき勘所 みたいなのがまとまってきました. せっかくなので, 言語化した上で再現性をもたせよう!という主旨でこのエントリーを書きたいと思います. なお, これだけは強く言っておきます. 参考にするのは自由です&真似ができるようなプラクティスではありますが, ベストプラクティスかどうかは(この記事を読んだ皆様の)状況

                    Webアプリとデータ基盤をサクッと立ち上げるためのプラクティス - Google Cloudとサーバレスなサービスで良しなにやってみた - Lean Baseball
                  • DataWareHouse,DataMartを整備して分析がやりやすくなった話 - ANDPAD Tech Blog

                    こんにちは、データ基盤チームの大洞です。 2021年4月にANDPADにジョインしてから、データ基盤やデータ分析にかかわってきました。 今回は、データ分析を効率的にするために、DataWareHouse、DataMartを整備した話を紹介したいと思います。 データ基盤の全体像 まずは、簡単にデータ基盤の全体像を紹介します。 左から順に説明していきます。 ① SaaS Data 実際に稼働しているANDPADのDBやSalesforceなどの業務で利用しているサービスです。ここからデータを出力し、S3に保存します。 ②ETL Stack 分析はBigQueryで行っているので、ここからGCSに移動させます。 ③Analytics Stack GCSに移動されたファイルをBigqueryにロードします。 ④Anatytics 用途に応じて、Jupyter、Metabase、スプレッドシートなど

                      DataWareHouse,DataMartを整備して分析がやりやすくなった話 - ANDPAD Tech Blog
                    • 自社プロダクトのデータ基盤における BigQuery SQLテストシステムについて - Platinum Data Blog by BrainPad

                      「データ活用をより多くの人が、より効率的に実施できるようになる取り組み」をエンジニア観点から自発的に実施するカルチャーを持つ、自社開発プロダクト「Rtoaster(アールトースター)」のエンジニアチーム。今回は、データ基盤チームで作成した BigQuery でのテストシステムを紹介します! こんにちは、プロダクトビジネス本部開発部の柴内(データ基盤チーム)です。今回は、自社製品である「Rtoaster」プロダクトのデータ基盤チームで作成した BigQuery でのテストシステムについてご紹介します。 背景 データ基盤チームでは、 Rtoaster製品からリアルタイムに連携される、WebやアプリのトラッキングといったデータをGCSや BigQuery に蓄積するデータレイク データレイクにあるデータを BigQuery で加工・変換して利用しやすい形式にしたデータマートやデータウェアハウス

                        自社プロダクトのデータ基盤における BigQuery SQLテストシステムについて - Platinum Data Blog by BrainPad
                      • 分断された多数のデータをひとつのプラットフォームに統合。データ分析基盤構築の道のり

                        LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog 2021年11月10日・11日の2日間にわたり、LINEのオンライン技術カンファレンス「LINE DEVELOPER DAY 2021」が開催されました。特別連載企画「 DEVDAY21 +Interview 」では、発表内容をさらに深堀りし、発表では触れられなかった内容や裏話について登壇者たちにインタビューします。今回の対象セッションは「分断されてしまったデータを2000台を超えるひとつのデータプラットフォームに統合した話」です。 LINEでは現在、200ペタバイトを超えるデータ分析基盤を運用しています。このデータプラットフォームはInformation Universe(以下、IU)と呼ばれており、LINEで扱うすべてのデ

                          分断された多数のデータをひとつのプラットフォームに統合。データ分析基盤構築の道のり
                        • ABEJA Insight for Retailの技術スタックを公開します (2021年10月版) - ABEJA Tech Blog

                          初めに 会社・事業紹介 ABEJA Insight for Retailについて 技術スタック 全体アーキテクチャ図 ① 映像録画・解析システム ②データ基盤部分 ③ Webダッシュボード その他 (全体共通部分) 一緒に働く仲間を募集中! 最後に 初めに こんにちわ。大田黒(おおたぐろ)です。暑い日が落ち着いてきて、秋(冬?)が来たなぁと感じるこの頃です。皆様いかがおすごしでしょうか。前回の「ABEJAの技術スタックを公開します (2019年11月版)」が公開されてからしばらく経ちました。 引き続きエンジニアの方とお話させていただく中で、 「ABEJAってよく聞くけど...実際どんなことやってるのかよくわからない」 「AIのお硬いSIerって感じなんでしょ?」 「社内は機械学習エンジニアばっかりなんでしょ...??」 といったご質問をいただくことが多いです。 今回の記事では、最新の会社や

                            ABEJA Insight for Retailの技術スタックを公開します (2021年10月版) - ABEJA Tech Blog
                          • 【書評】データレイク構築・運用のノウハウを網羅的に学び始められる! 『AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門』 | DevelopersIO

                            先日2020年07月09日、書籍『AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門』が発売されました!個人的に興味関心の強いテーマを取り上げた内容がてんこ盛りの書籍でしたので、簡単ではありますが書籍の内容について紹介させて頂きたいと思います。 「AWSではじめるデータレイク」がついに https://t.co/FvuHWrYlwH 上で予約可能になりました!7月9日発売予定です。どうかよろしくお願いいたします。 - https://t.co/do0ZeLrlrn #aws #datalake — Akira Shimosako (@simosako) June 23, 2020 テッキーメディア - BOOTH 【電子書籍版】AWSではじめるデータレイク - テッキーメディア - BOOTH AWSではじめるデータレイク - テッキーメディア - BOOTH 目

                              【書評】データレイク構築・運用のノウハウを網羅的に学び始められる! 『AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門』 | DevelopersIO
                            • BlueTeam CheatSheet * Log4Shell* | Last updated: 2021-12-20 2238 UTC

                              20211210-TLP-WHITE_LOG4J.md Security Advisories / Bulletins / vendors Responses linked to Log4Shell (CVE-2021-44228) Errors, typos, something to say ? If you want to add a link, comment or send it to me Feel free to report any mistake directly below in the comment or in DM on Twitter @SwitHak Other great resources Royce Williams list sorted by vendors responses Royce List Very detailed list NCSC-N

                                BlueTeam CheatSheet * Log4Shell* | Last updated: 2021-12-20 2238 UTC
                              • Developers.IO 2019 Tokyoで「Effective Datalake 〜基礎からわかるデータレイクの定義と実践〜」というタイトルで発表してきました #cmdevio | DevelopersIO

                                クラスメソッドの石川です。 先日開催いたしましたDevelopers.IO 2019 in TOKYOにお越し頂きましてありがとうございました。 表題の通り、データレイクについてお話をさせて頂きました。 スライド こちらがスライドになります。 こんな事を話してた はじめに データレイクとは AWS Glue Aamzon Athena / Redshift Spectrum データ設計のベストプラクティス Redshiftからデータレイクの移行 AWS Lake Formation まとめ まとめ Glue/Athena/Redshift Spectrumで始まったAWSのデータレイクは、Lake Formationによって統合され大きな進化を遂げました。その過程を私なりの解釈と定義に基づいて、現在に至る基礎的なサービスとその動作原理、データ設計のベストプラクティスについ

                                  Developers.IO 2019 Tokyoで「Effective Datalake 〜基礎からわかるデータレイクの定義と実践〜」というタイトルで発表してきました #cmdevio | DevelopersIO
                                • 【初データレイク体験】AWS Loft Osakaで DataLake ハンズオンを受けてきた(公開資料URLあり) | DevelopersIO

                                  大阪オフィスのちゃだいんです。 本日はAWS Pop-Up Loft Osakaにて、ハンズオンに参加してきました。 今回はそのハンズオンの内容をご紹介したいと思います。 その前に、 AWS Pop-Up Loft Osakaは期間限定でオープンしており、本日が最終日でした...(涙) 大阪のど真ん中一等地に、無料でコーヒーももらえるコワーキングスペース。中之島の高層ビル26階からの眺めを楽しみながら、優雅にパソコンパチパチできる稀有な場所でした。 どんな場所だったのかは、このブログをご覧ください。 【AWS Loftが大阪に期間限定オープン!】オープンしたてのAWS Pop-Up Loft Osakaで早速リモートワークしてみた #awsloft ハンズオン概要 DataLake ハンズオン OCT 31,2019 About the event(上記ページより抜粋) 幅広いデータソース

                                    【初データレイク体験】AWS Loft Osakaで DataLake ハンズオンを受けてきた(公開資料URLあり) | DevelopersIO
                                  • 【AWS Data Lake】ニアリアルタイムデータ分析環境・スピードレイヤを構築してみた(ハンズオン1) | DevelopersIO

                                    こんにちは。DA事業本部の春田です。 管理のしやすさや拡張性の高さで注目を集めている、次世代のデータ分析基盤Data Lakeについて、ハンズオンにトライしてみました。 Datalake Handson 本記事では、Lab1~Lab3のニアリアルタイムデータ分析環境(スピードレイヤ)を構築していきます。 Lab1: はじめの準備 Lab1: はじめの準備 はじめにハンズオン共通で使用するVPC、EC2、IAM Roleを設定していきます。まずEC2で使用するキーペアを作成します。 上で作成したキーペア datalake-handson-haruta を用いて、CloudFormationからEC2インスタンスを作成します。 EC2の構築が完了したら、 datalake-handson-haruta の公開鍵でSSHログインし、 /root/es-demo/testapp.log にログが吐

                                      【AWS Data Lake】ニアリアルタイムデータ分析環境・スピードレイヤを構築してみた(ハンズオン1) | DevelopersIO
                                    • データレイクの新しいカタチ:Open Table Formatの紹介 - 流沙河鎮

                                      はじめに Open Table Formatは次世代のデータレイクの基盤となり得る技術で、徐々に導入事例(末尾に列挙)が増えてきているものの、日本での認知度は発展途上な印象がある。本記事ではOpen Table Format登場の背景を紹介する。執筆にあたって、Apache Iceberg: An Architectural Look Under the CoversとAWSにおける Hudi/Iceberg/Delta Lake の 使いどころと違いについてを特に参考にした。 Open Table Formatとは? Open Table Formatとは、従来のデータレイクの技術的な課題&ユースケースの要請に応える形で登場した、データレイクに最適化されたテーブルフォーマットを指す概念で、上手く活用することでクエリプランニング、実行性能の最適化、効率的なUpdateやDelete、タイム

                                        データレイクの新しいカタチ:Open Table Formatの紹介 - 流沙河鎮
                                      • Raspberrypi zero WとABEJA Platformを活用した侵入者通知アプリを作る - Y's note

                                        やりたいこと 家庭で簡単に防犯カメラを作りたいと思い、下記のアイテムを利用して作ってみました。 僕の家はマンションの1階にあり、5〜6畳分の庭が付いています。庭内には植物・野菜を栽培したり洗濯物を干しているので、1階に住む住人としては不審者が入ってこないかどうかが気になったりします。そこで、Raspberrypi zero W, camera module, ABEJA Platform, LINE Messaging APIを用いて、不審者が庭内で検出された場合にLINEに通知が来る仕組みを作りたいと思います。LINEに通知するのは極力リアルタイムで検知したいというのと、写真で証拠を記録し通報に利用できるというメリットがあります。家庭のセキュリティサービスを展開しているものもありますが、初期工事費用や月額でそれなりにするので、もっと簡易な防災通知ができたらと思って試してみました。今回のR

                                          Raspberrypi zero WとABEJA Platformを活用した侵入者通知アプリを作る - Y's note
                                        • Apache Airflowで実装するDAG間の実行タイミング同期処理 - エニグモ開発者ブログ

                                          こんにちは。 今年4月にエニグモに入社したデータエンジニアの谷元です。 この記事は Enigmo Advent Calendar 2020 の20日目の記事です。 目次 はじめに そもそも同期処理とは? Airflowによる同期処理 検証時のコード サンプルをAirflow画面で見ると? 同期遅延なし時のAirflowログ 同期遅延あり時のAirflowログ 同期タイムアウト時のAirflowログ 所感 最後に はじめに コロナ禍の中、皆さんどのようにお過ごしでしょうか。 私はリモートワークを続けてますが、自宅のリモートデスクワーク環境をすぐに整えなかったため、薄いクッションで座りながらローテーブルで3ヶ月経過した頃に身体の節々で悲鳴をあげました。猫背も加速... さて、エニグモでの仕事も半年以上経過し、データ分析基盤の開発運用保守やBI上でのデータ整備などを対応をさせていただいてますが、

                                            Apache Airflowで実装するDAG間の実行タイミング同期処理 - エニグモ開発者ブログ
                                          • 【週刊 Ask An Expert #10】サーバーレス化を検討している?そこは AWS Amplify でしょ。 AWS Loft Tokyo で受けた質問まとめ #AWSLoft | Amazon Web Services

                                            AWS Startup ブログ 【週刊 Ask An Expert #10】サーバーレス化を検討している?そこは AWS Amplify でしょ。 AWS Loft Tokyo で受けた質問まとめ #AWSLoft こんにちは、スタートアップ ソリューションアーキテクトの松田 (@mats16k) です。 だんだん暑くなってきましたが、いかがお過ごしでしょうか。私は半ズボンでの出勤を解禁しました(スタートアップなら普通ですよね?)。今回は週刊 Ask An Expert 記念すべき第10回目をお届けしたいと思います。「参考になった!」「いい内容だ!」と思っていただけたら、ぜひハッシュタグ #AWSLoft を付けてシェアしてください。もちろん、改善点・ご要望もお待ちしております。 Ask An Expert ? さて、皆さん AWS Loft Tokyo はご存知でしょうか? 目黒セントラ

                                              【週刊 Ask An Expert #10】サーバーレス化を検討している?そこは AWS Amplify でしょ。 AWS Loft Tokyo で受けた質問まとめ #AWSLoft | Amazon Web Services
                                            • bashスクリプトのエラー処理のベストプラクティス – marketechlabo

                                              データ処理バッチでシェルスクリプトは便利 データ処理などでバッチプログラムを書くことは多い。Pythonなどのプログラム言語を使って全部記述する方法もあるし、最近ではGUIのワークフローを描けるツールも出てきている。 ただシェルスクリプトは依然として強い。シェルスクリプトは概して動作が高速で、イレギュラー処理に対しても柔軟に対応できる。gcloudやawscliなどのコマンドを使って記述できるので、できないことはない。機能がなければコマンドをインストールすることも可能。困ったときにも確実にゴールにたどり着くメリットがある。プログラム言語だとライブラリの出来に依存するし、ワークフロー系のツールは機能が実装されていないと詰む。イレギュラー処理を扱えない場合がある。 便利なツールが出てきている時代ではあるが、シェルスクリプトを覚えておくのはおすすめである。バッチ処理ではエラーハンドリングが必須だ

                                              • 「AWSではじめるデータレイク」出版記念 データレイクはじめの一歩.pdf

                                                1 「AWSではじめるデータレイク」出版記念 データレイクはじめの一歩 2020年5月28日 アマゾン ウェブ サービス ジャパン 株式会社 シニアソリューションアーキテクト 下佐粉 昭(しもさこ あきら) @simosako 2020年6月発売予定! 2 AWSオンラインセミナーへようこそ ご質問を受け付けております! • 書き込んだ質問は主催者にしか見えません • 最後のQ&A時間で、いただいたご質問から ピックアップしてご回答をさせていただき ます ① 吹き出しをクリック ② 質問を入力 ③ Sendをクリック 終了後にアンケートの記入をお願いいたします https://bit.ly/2TFPbps アンケートにお答えいただいた方には本日の資料を後日ご提供させていただきます。 3 自己紹介 下佐粉 昭(しもさこ あきら) 所属: アマゾン ウェブ サービス ジャパン シニアソリューシ

                                                • タイミーのデータ基盤品質。これまでとこれから。 - Timee Product Team Blog

                                                  はじめに 以前のデータ基盤 3つの問題解決と振り返り 問題1: データパイプラインの更新遅延 解決策 実装 振り返り 問題2: 分析チームへのクエリ修正依頼の増加 解決策 実装 振り返り 問題3: ETLパイプラインにおける加工処理の負債 解決策 実装 振り返り これからの品質に関する改善 はじめに 初めまして、タイミーのDRE (Data Reliability Engineering) チームの土川(@tvtg_24)です。 本記事ではデータ品質の保守に着目してここ1年くらいで試行錯誤したことを振り返っていきたいと思います。 対象にしている読者は以下の方々です。 データ品質について考えている方 データ分析の品質担保に困っている方 ETLからELTへの基盤移行を考えている方 この記事は Data Engineering Study #11「6社のデータエンジニアが振り返る2021」 -

                                                    タイミーのデータ基盤品質。これまでとこれから。 - Timee Product Team Blog
                                                  • Data Meshとは何か?

                                                    Aboutこの記事は、「Data Mesh」について書かれたものです。参考文献に記載された内容をベースとして、個人的な感想や意見を加えたものです。 事例ではありません。 TL;DRData Mesh はデータ基盤の新しいアーキテクチャ原則であり、現在主流である中央集中型のデータ基盤と、そこから起こる問題への解決策です。Data Mesh はマイクロサービスと DDD から着想を得ており、データの生成・管理・提供を中央ではなくドメインごとに管理します。管理が分散することでスケーラビリティ・自律性を確保しつつ、統一的なガバナンスを保持できるアイデアです。主な想定読者Data Mesh が気になる方データ基盤を開発・保守するデータエンジニアデータマネジメントをより洗練させたいと感じている方Data Mesh の登場した背景 (WHY)詳細に入る前に、Data Mesh が前提に置く現代のデータ基

                                                      Data Meshとは何か?
                                                    • ラーメン二郎分類器 : ABEJA Platformを使ってサービス公開するぞ - Y's note

                                                      ラーメン二郎分類器 引用 : ラーメン二郎 三田本店 (らーめんじろう) - 三田/ラーメン | 食べログ @yutakikuchi_です。 皆さん、ラーメン二郎は好きですか? 好きですよね? 僕は大学の目の前にラーメン二郎があったので足繁く通っていました。しかし、ラーメン二郎初心者にとっては、麺の画像を見て、それが「ラーメン二郎」なのか「長崎ちゃんぽん」なのかが見分けが付きづらいと思います。よってDeepLearningを用いて、それらの分類を自動化する仕組みをABEJA Platformを使って実装する方法について記載します。データのcrawlingなどの実装は必要ですが、学習に関してはtemplateという機能を利用するとノンプログラミングでもモデル作成が可能なので、以下の作業時間はおおよそ10分で完了できます。 既にABEJA Platform、ABEJA Platform Ann

                                                        ラーメン二郎分類器 : ABEJA Platformを使ってサービス公開するぞ - Y's note
                                                      • Data lakeとは?データ分析基盤をゼロから作るプロセス - Qiita

                                                        はじめまして、Newspicksでエンジニアしています、Hoàngです。 新卒で入社し、現在はNewspicksを支えるデータ分析基盤を作っています。そのノウハウをシェアできればと思い、この記事を書きました。 なぜData lakeが必要なのか? (AWSより引用) サービスに機械学習、AIを導入したい思ったことがありますでしょうか。あるいは、ユーザーがどのようにサービスを利用しているかを分析したいと思ったことがありますか。 ユーザ分析や機械学習をするために本番のデータベースにアクセスしたり、クエリを投げたりしてはいけません。分析、機械学習の用途で本番サービスに負荷を与えると、最悪の場合本番サービスを停止させてしまうこともあります。本番データと完全に同期されたデータ基盤があれば、このような問題にも対処できます。 また、データ分析はSQLを使うのですが、SQLではDynamoDB, Mong

                                                          Data lakeとは?データ分析基盤をゼロから作るプロセス - Qiita
                                                        • Query any data source with Amazon Athena’s new federated query | Amazon Web Services

                                                          AWS Big Data Blog Query any data source with Amazon Athena’s new federated query April 2024: This post was reviewed for accuracy. Organizations today use data stores that are the best fit for the applications they build. For example, for an organization building a social network, a graph database such as Amazon Neptune is likely the best fit when compared to a relational database. Similarly, for w

                                                            Query any data source with Amazon Athena’s new federated query | Amazon Web Services
                                                          • Google AnalyticsのBigQuery Exportを使って検索ログデータ分析基盤を構築した - エムスリーテックブログ

                                                            エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(@po3rin) です。 好きな言語はGo。仕事では主に検索周りを担当しています。 Overview 医師に質問ができるサービスであるAskDoctorsではユーザーが質問を検索できる機能があり、今回は検索改善タスクのために検索ログデータ分析基盤を構築したお話をします。これにより改善サイクルを回せるようになったり、検索ログを使った各種アルゴリズムが利用可能になりました。 データ基盤構築では他チームとの連携が必要不可欠であり、コミュニケーションで工夫した点などもお話できればと思います。 Overview なぜ検索ログデータ分析基盤が必要なのか 検索を監視して改善サイクルを回したい 各種アルゴリズムに利用できるデータを取得したい データ分析に利用したい データアーキテクチャを書き出す イベントとデー

                                                              Google AnalyticsのBigQuery Exportを使って検索ログデータ分析基盤を構築した - エムスリーテックブログ
                                                            • Moving from DynamoDB to tiered storage with MySQL+S3

                                                              Originally we implemented a feature to persist an event-stream into DynamoDB to allow customers to retrieve them. This proved effective, serving as a strong use case for a key/value storage, yet the drawback was its high cost. Moving to provisioned billing-mode reduced cost by ~50%, but that was not going to be sustainable as we scaled to more customers. We also kept multiplying the cost each time

                                                                Moving from DynamoDB to tiered storage with MySQL+S3
                                                              • AWS Lakeformationを使ってData Lakeを構成してみた | DevelopersIO

                                                                データアナリティクス事業本部のnkhrです。今回のブログでは、Data Lakeのアクセス管理やデータ管理を行うLake Formation機能を検証します。 Lake Formationを使うメリット Data Lakeアーキテクチャでデータ格納・加工・クエリを実施するためには、複数のAWSサービスを組み合わせる必要があります。 たとえば、Lake Formationを利用せずに、以下のようなAWSサービスを組み合わせる場合、IAM PolicyとBucket Policyを用いて、どのデータに対して誰がアクセスしてよいかを制御(データガバナンス)する必要があり、ポリシーの管理は複雑になります。 S3(データ格納) Gule Data Catalog (S3データのSchema定義) Glue Data Brew or Glue ETL(データ加工/ジョブ) Step Function

                                                                  AWS Lakeformationを使ってData Lakeを構成してみた | DevelopersIO
                                                                • データレイクハンズオンでデータレイクを実感してみる | DevelopersIO

                                                                  前回のAWS Innovateで、データレイクのハンズオンが掲載されていました。データレイクのイメージを掴むのに有益になればと思いましたのでご紹介します。 AWS Innovateのサイトは既にクローズされていますが、ハンズオン資料のサイトはありますので参考にしてください。 amazon-s3-datalake-handson 本ハンズオンのゴール 以下、ハンズオン資料から引用 幅広いデータソースからの構造化データまたは非構造化データの集中リポジトリとして使用できる Data Lake は、データの保存と分析の方法として多くの企業に取り入れられています。 AWS のビッグデータ関連サービスを使用して実際に分析パイプラインを構築することを通して、 Data Lake とビッグデータ分析基盤構築の実感を持って頂くことをゴールとしています。 ということで、データレイクを実感するにはとても良いハン

                                                                    データレイクハンズオンでデータレイクを実感してみる | DevelopersIO
                                                                  • New for Amazon Redshift – Data Lake Export and Federated Query | Amazon Web Services

                                                                    AWS News Blog New for Amazon Redshift – Data Lake Export and Federated Query A data warehouse is a database optimized to analyze relational data coming from transactional systems and line of business applications. Amazon Redshift is a fast, fully managed data warehouse that makes it simple and cost-effective to analyze data using standard SQL and existing Business Intelligence (BI) tools. To get i

                                                                      New for Amazon Redshift – Data Lake Export and Federated Query | Amazon Web Services
                                                                    • Gaudiy、データ分析チームを立ち上げました。 - Gaudiy Tech Blog

                                                                      こんにちは!エンタメ領域のDXを推進するブロックチェーンスタートアップ、Gaudiyでアナリティクスエンジニア兼データアナリストをしている星野(@mochigenmai)です。 年初に公開したブログでお伝えさせていただきましたが、Gaudiyは今年から「プロダクト主導型の組織づくり」を進めています。 techblog.gaudiy.com プロダクト主導型の組織には、データドリブンな意思決定が欠かせません。そこでGaudiyでは、データを元にしたプロダクト改善を行い、ユーザへの適切な価値提供をしていくために、1月にデータ分析チームを立ち上げました。 今回のブログでは、データ分析チームを立ち上げた背景や、立ち上げ時の課題や取り組み、データアナリストの役割などについてお伝えします! スタートアップで同じようにデータ分析チームの立ち上げを担っている方や、データ分析チームの役割に興味のある方にご参

                                                                        Gaudiy、データ分析チームを立ち上げました。 - Gaudiy Tech Blog
                                                                      • AzureとAWSの自動機械学習 - ecbeing labs(イーシービーイング・ラボ)

                                                                        はじめに 初めまして。おとです。 ecbeingに入社して1年ちょっと、日々データサイエンスや機械学習について学びつつ業務に勤しんでおります。 機械学習について学び始めてから半年ほど経ちます。その中で、 ・Microsoftが提供するAzure Machine Learning ・AWSが提供するAmazon SageMaker 2つの機械学習サービスのチュートリアルを何度か行いました。 その中でも自動機械学習機能が機械学習初心者である私にとってとても便利だと感じたのでご紹介したいと思います。 はじめに 自動機械学習 Azure Machine Learning の自動機械学習 データの選択 ジョブの構成 タスクと設定の選択 検証とテスト 実験 モデルデプロイ エンドポイント Amazon SageMaker の自動機械学習 実験 モデル エンドポイント おわりに 自動機械学習 通常、機械

                                                                          AzureとAWSの自動機械学習 - ecbeing labs(イーシービーイング・ラボ)
                                                                        • 急成長する《現場》の、データエンジニアというお仕事。 - Qiita

                                                                          なんの話? 三行で。 サービスが急成長しデータ量が増えた際にデータエンジニアリングは必要とされる。 エンジニアリングに必要なスキルセットは比較的明確で、駆け出しエンジニアにもポジションあるよ。 データエンジニアリング業務を経て、データサイエンティストなど他職種にランクアップすることは可能。 [おまけ1] "data+engineer+positionでググる"と、主に海外のData Engineer(DE職)のお仕事が入門者レベルからエキスパートレベルまで見つかるよ...Tokyoをつけると、東京でのDE職も見つかる。転職活動で普通に有用。 *[おまけ2] 末尾におまけとして、現在私が取り組んでいる『2020年代のデータ分析基盤の基本設計』に関して日々調べていることを、公開できる範囲で書いておきたい(内容はコメント欄に随時更新)。実際のデータエンジニアリング実務の一端を知ってもらう意味で。

                                                                            急成長する《現場》の、データエンジニアというお仕事。 - Qiita
                                                                          • BigQueryとAirflowを活用したDataPlatform運用の10のケース・スタディ

                                                                            この記事は Eureka Advent Calendar 2019 11日目の記事です。 10日目は スーパーCompSREエンジニア恩田による「AWSのマルチアカウント管理におけるIAMマネジメントで試行錯誤した話」でした。 こんにちは。BIチームのデータアナリストの栗村(@t-kurimura)です。主にPairsの機能に関する分析を行っていますが、最近は分析を行うまでのデータを整えるデータアーキテクト的お仕事の比率も増えてきています。 さて、この記事では弊社のDataPlatform運用において、試行錯誤してきた中での運用の学びをケース・スタディ的にご紹介します。 エウレカのDataPlatformの現状前提として、弊社では3つの層にわけて、アプリケーションログやマーケティングに関連するデータをより分析しやすいデータへと加工しています。 Dataをほぼそのまま保存しているDataLa

                                                                              BigQueryとAirflowを活用したDataPlatform運用の10のケース・スタディ
                                                                            • Awesome AWS Workshops - Build On!

                                                                              Awesome AWS Workshops¶ (Unofficial) Curated list of awesome workshops found around in the internet. As we all have been there, finding that workshop that you have just attended shouldn't be hard. The idea is to provide an easy central repository, in a collaborative way. Contributing¶ Your contributions are always welcome! Please take a look at the contribution guidelines first. We will keep pull r

                                                                                Awesome AWS Workshops - Build On!
                                                                              • 【BigQuery】クエリの単体テストを書こうと思ったけど壁が厚くてどうしようか悩んでいる話 - St_Hakky’s blog

                                                                                こんにちは。 久しぶりのブログ投稿になってしまったのですが、今日は「クエリの単体テストを書こうと思ったけど、壁が厚くてどうしようかなと思った話」を書きたいと思います。 はじめに言っておきますが、この記事は特に何か解決策があるわけでもなんでもなく、「ただ、クエリの単体テストを書こうとするとこんな問題にぶち当たって、それに対してこうしたらいいとは思ったけど、誰か最高のソリューションない?笑」って聞きたかったから書いただけの記事です笑*1 この記事のモチベ 最近、BigQueryを使ったデータ分析基盤とやらを開発しているのですが、「テスト書いてないとかお前それ @t_wada さんの前でも同じこと言えんの?」って言う状態になり、「これ真面目にやろうとするとどうなるんだ」って言うことで真面目に対峙してみました*2。 ここで言う「真面目に」と言うのは、「入り得る全パターンのデータに対する集計があって

                                                                                  【BigQuery】クエリの単体テストを書こうと思ったけど壁が厚くてどうしようか悩んでいる話 - St_Hakky’s blog
                                                                                • 医療データレイクで分析基盤の構築 / JAWS DAYS 2021 JMDC DATALAKE

                                                                                  JAWS DAYS 2021-03-20の登壇資料。 株式会社JMDCのデータレイクの取扱いについて紹介します。 https://jawsdays2021.jaws-ug.jp/timetable/track-d-1100/

                                                                                    医療データレイクで分析基盤の構築 / JAWS DAYS 2021 JMDC DATALAKE