本文「DataLake」を検索 - はてなブックマーク

1 - 40 件 / 95件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

DataLakeの検索結果1 - 40 件 / 95件

Kubernetesをゲーム感覚で腕試しできるサイト「Game of PODs」で遊ばないと年を越せない・2021冬
- 675 users
- ascii.jp
- テクノロジー
- 2021/12/22
この記事はFixer Advent Calendar 9日目の記事です。はじめに最近CKADの受験して一旗上げようと画策しているなむゆです。 Kubernetesについて学ぶ中で、腕試しに使えそうな面白そうなサイトを見つけたので紹介してみようという回です。 Game of PODsとは Game of PODsとは、無料で遊べるKubernetesの問題集です。 Kubernetesクラスターにアプリケーションを展開したり、クラスターで起きている問題を解決することを通してそれらの方法を学ぶことができます。この問題集はKodeKloudというサービスに提供されている教材のひとつで、KataKodaという教材用環境サービス内でホストされている仮想環境にアクセスしてハンズオン形式で課題を解くことができることが特徴です。問題の内容としては、あるアーキテクチャが与えられて、「このアプリケーシ
- kubernetes
- あとで読む
- 学習
- k8s
- game
- ゲーム
- 勉強
- docker
- インフラ
- アーキテクチャ
データ基盤にありがちな「何を使って作ればよいか？」という問いに対する処方箋を用意してみました. - Lean Baseball
- 398 users
- shinyorke.hatenablog.com
- テクノロジー
- 2022/12/01
ちょっと昔まではデータ基盤の管理人・アーキテクト, 現在は思いっきりクラウドアーキを扱うコンサルタントになったマンです. 私自身の経験・スキル・このブログに書いているコンテンツの関係で, 「データ基盤って何を使って作ればいいの?」的なHow（もしくはWhere）の相談. 「Googleのビッグクエリーってやつがいいと聞いたけど何ができるの?」的な個別のサービスに対するご相談. 「ぶっちゃけおいくらかかりますか💸」というHow much?な話. 有り難くもこのようなお話をよくお受けしています. が, （仕事以外の営みにおける）個人としては毎度同じ話をするのはまあまあ疲れるので, データ基盤にありがちな「何を使って作ればよいか？」という問いに対する処方箋というテーマで, クラウド上でデータ基盤を構築する際のサービスの選び方（データ基盤に限らず）クラウド料金の基本的な考え方をGoogle
- データ
- あとで読む
- gcp
- データ基盤
- aws
- データ分析
- アーキテクチャ
- DWH
- サービス
- cloud
PayPayがAWSを使い続ける理由　日本No.1のQR決済サービスを支えるインフラ構成
- 300 users
- logmi.jp
- テクノロジー
- 2021/04/06
ZOZO×一休×PayPay AWS Nightは、2020年7月22日に開催されたZOZOテクノロジーズ・一休・PayPayの3社による合同イベントです。各社それぞれAWSの活用事例を紹介します。PayPay株式会社プラットフォームチームの西中氏がPayPayのインフラの概要について話しました（記事内の情報はイベント開催時点のもの）。日本のNo.1 QRコード決済サービス西中智樹氏（以下、西中）：「PayPayでのAWS活用事例について」と題して、PayPay Platformチーム・西中が発表いたします。簡単に自己紹介します。西中智樹と申します。2018年12月よりPayPayで仕事をしていまして、現在、AWSなどのPayPayのインフラを所管するPlatformのチームに所属しています。好きなAWSサービスはEKSです。本日のセッションのアジェンダになります。この順番でお話を
- aws
- PayPay
- あとで読む
- インフラ
- kubernetes
- 運用
- 事例
- 決済
- EKS
- webサービス
LINEの新しいセルフサービス型バッチデータ収集システム「Frey」の導入
- 106 users
- engineering.linecorp.com
- テクノロジー
- 2021/02/03
こんにちは、Data Platform室Data Engineering 1チームの徐です。 Data Platform室では、大規模なHadoopクラスタを運用し、データ収集、分析、活用するためのプラットフォームを提供しています。Data Engineering 1チームのミッションの一つは、様々なストレージからのdata ingestionシステムを構築、運用することです。本記事では、バッチ処理でデータ収集を行うシステムの概要を説明した後に、LINEのセルフサービスツールであるFreyをご紹介します。課題：このシステムでもデータ収集のバッチ処理を実行・管理するという目的は果たせましたし、ユーザーとタスクの規模が小〜中程度であれば問題はありませんでした。しかし、LINEの全てのプロダクトまでスコープを広げるにつれ、次のような問題に躓くことが増えていきました。コード記述（ステップ1
- LINE
- あとで読む
- batch
- データ
- タスク
- engineering
- システム
- data
今後は「データ指向アプリケーションデザイン」を考えよう(Red Hat Forum講演フォローアップ記事) - 赤帽エンジニアブログ
- 99 users
- rheb.hatenablog.com
- テクノロジー
- 2019/12/11
Red Hatの須江です。本記事は赤帽エンジニア Advent Calendar 2019の10日目です。子供を皮膚科に連れて行ったりなんだりで、気づいたら12/11になってますが、細かいことは気にせず進めます。セッション資料と動画 redhat.lookbookhq.com redhat.lookbookhq.com 「データ指向アプリケーションデザイン」をメインテーマに選んだわけデジタルトランスフォーメーション(DX)がバズワード化して久しいですが、自分は常に「DXは目的ではなく手段なので、DXしたあとにどうありたいかのビジョンを持ち、そこから逆算していまやることを考える」ことが重要だと考えています。ビジョンを持つためには、まずDX後の世界がどうなっているのかをイメージできるようになる必要があります。そこで、2019/6/20に開催された「DX&Open Hybrid Cl
PythonとGoogle Cloudを使って年間70万球の野球データをいい感じに可視化・分析するダッシュボードを作った - Lean Baseball
- 57 users
- shinyorke.hatenablog.com
- テクノロジー
- 2022/09/24
日本で言えば同じ学年のレジェンド, アルバート・プホルスが通算700号本塁打を打って驚いている人です. ここ最近, （休んでいる間のリハビリがてら*1）PyCon JP 2022の準備および, 来年以降のMLBを楽しく見るために野球データ基盤（ちなみにメジャーリーグです）を作っていたのですが, それがいい感じに完成しました. アプリとデータ基盤をどのように作ったのかどのような処理, どのようなユースケースで動かしているのかこれらをどのようなアーキテクチャで実現したのか以上の内容をこのエントリーに書き残したいと思います. なおこのエントリーは, PyCon JP 2022のトーク「Python使いのためのスポーツデータ解析のきほん - PySparkとメジャーリーグデータを添えて（2022/10/15 16:00-16:30）」の予告編でもあります. なので, 後日のトークをお楽しみに
LINEの多様なサービスを支える機械学習のプラットフォームと開発事例
- 50 users
- logmi.jp
- テクノロジー
- 2020/07/22
2020年6月24日に、LINEの「Data Labs」のオンライン採用説明会が開催されました。Data Labsは、データ分析や機械学習の活用によって、LINEのすべてのサービスの価値向上を目指す、データの分析・研究を行う専門の開発組織です。説明会の後半は、Machine Learning1チーム/マネージャーの菊地悠氏とフェローの並川淳氏が登壇し、機械学習エンジニアチームの仕事内容や事例を紹介しました。1記事目はこちら Machine Learningチームのミッション菊地悠氏：Machine Learning1チームの菊地と申します。よろしくお願いします。今日の内容は以下のような順で話をしていきたいと思います。まず最初にミッションです。多種多様なサービスがあるので、機械学習を適用する領域はいろいろあります。そういう中で、我々のチームは各事業組織から独立しています。LINEのさまざ
Webアプリとデータ基盤をサクッと立ち上げるためのプラクティス - Google Cloudとサーバレスなサービスで良しなにやってみた - Lean Baseball
- 46 users
- shinyorke.hatenablog.com
- テクノロジー
- 2022/05/15
個人開発（趣味プロジェクト）でプロダクトを作りながら, 本職の仕事でソリューションアーキテクトっぽいことをしているマンです*1. 最近は個人開発のネタとして, プロ野球選手の成績予測プロジェクトヘルスケア周りの自分専用プロダクト開発この2本軸で週末エンジニアリングをしているのですが, これらの事をしているうちに, Webアプリケーション + 分析用のデータ基盤の最小セット, みたいなパターンが見えてきたクラウドにおけるサービスの選び方・スケール（=拡張）するときに気をつけるべき勘所みたいなのがまとまってきました. せっかくなので, 言語化した上で再現性をもたせよう！という主旨でこのエントリーを書きたいと思います. なお, これだけは強く言っておきます. 参考にするのは自由です&真似ができるようなプラクティスではありますが, ベストプラクティスかどうかは（この記事を読んだ皆様の）状況
- GCP
- あとで読む
- 開発
- google
- cloud
- データ
DataWareHouse,DataMartを整備して分析がやりやすくなった話 - ANDPAD Tech Blog
- 46 users
- tech.andpad.co.jp
- テクノロジー
- 2021/10/15
こんにちは、データ基盤チームの大洞です。 2021年4月にANDPADにジョインしてから、データ基盤やデータ分析にかかわってきました。今回は、データ分析を効率的にするために、DataWareHouse、DataMartを整備した話を紹介したいと思います。データ基盤の全体像まずは、簡単にデータ基盤の全体像を紹介します。左から順に説明していきます。 ① SaaS Data 実際に稼働しているANDPADのDBやSalesforceなどの業務で利用しているサービスです。ここからデータを出力し、S3に保存します。 ②ETL Stack 分析はBigQueryで行っているので、ここからGCSに移動させます。 ③Analytics Stack GCSに移動されたファイルをBigqueryにロードします。 ④Anatytics 用途に応じて、Jupyter、Metabase、スプレッドシートなど
自社プロダクトのデータ基盤における BigQuery SQLテストシステムについて - Platinum Data Blog by BrainPad
- 39 users
- blog.brainpad.co.jp
- テクノロジー
- 2022/07/07
「データ活用をより多くの人が、より効率的に実施できるようになる取り組み」をエンジニア観点から自発的に実施するカルチャーを持つ、自社開発プロダクト「Rtoaster（アールトースター）」のエンジニアチーム。今回は、データ基盤チームで作成した BigQuery でのテストシステムを紹介します！こんにちは、プロダクトビジネス本部開発部の柴内（データ基盤チーム）です。今回は、自社製品である「Rtoaster」プロダクトのデータ基盤チームで作成した BigQuery でのテストシステムについてご紹介します。背景データ基盤チームでは、 Rtoaster製品からリアルタイムに連携される、WebやアプリのトラッキングといったデータをGCSや BigQuery に蓄積するデータレイクデータレイクにあるデータを BigQuery で加工・変換して利用しやすい形式にしたデータマートやデータウェアハウス
- BigQuery
- SQL
- データ
- あとで読む
- Test
- data
分断された多数のデータをひとつのプラットフォームに統合。データ分析基盤構築の道のり
- 38 users
- engineering.linecorp.com
- テクノロジー
- 2022/01/31
LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog 2021年11月10日・11日の2日間にわたり、LINEのオンライン技術カンファレンス「LINE DEVELOPER DAY 2021」が開催されました。特別連載企画「 DEVDAY21 +Interview 」では、発表内容をさらに深堀りし、発表では触れられなかった内容や裏話について登壇者たちにインタビューします。今回の対象セッションは「分断されてしまったデータを2000台を超えるひとつのデータプラットフォームに統合した話」です。 LINEでは現在、200ペタバイトを超えるデータ分析基盤を運用しています。このデータプラットフォームはInformation Universe（以下、IU）と呼ばれており、LINEで扱うすべてのデ
- 分析
- あとで読む
- データ
- 組織
- tech
ABEJA Insight for Retailの技術スタックを公開します (2021年10月版） - ABEJA Tech Blog
- 33 users
- tech-blog.abeja.asia
- テクノロジー
- 2021/10/22
初めに会社・事業紹介 ABEJA Insight for Retailについて技術スタック全体アーキテクチャ図 ① 映像録画・解析システム ②データ基盤部分 ③ Webダッシュボードその他 (全体共通部分) 一緒に働く仲間を募集中！最後に初めにこんにちわ。大田黒（おおたぐろ）です。暑い日が落ち着いてきて、秋(冬？）が来たなぁと感じるこの頃です。皆様いかがおすごしでしょうか。前回の「ABEJAの技術スタックを公開します (2019年11月版)」が公開されてからしばらく経ちました。引き続きエンジニアの方とお話させていただく中で、「ABEJAってよく聞くけど...実際どんなことやってるのかよくわからない」「AIのお硬いSIerって感じなんでしょ？」「社内は機械学習エンジニアばっかりなんでしょ...??」といったご質問をいただくことが多いです。今回の記事では､最新の会社や
- 開発
- あとで読む
【書評】データレイク構築・運用のノウハウを網羅的に学び始められる！『AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門』 | DevelopersIO
- 31 users
- dev.classmethod.jp
- テクノロジー
- 2020/07/21
先日2020年07月09日、書籍『AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門』が発売されました！個人的に興味関心の強いテーマを取り上げた内容がてんこ盛りの書籍でしたので、簡単ではありますが書籍の内容について紹介させて頂きたいと思います。「AWSではじめるデータレイク」がついに https://t.co/FvuHWrYlwH 上で予約可能になりました！7月9日発売予定です。どうかよろしくお願いいたします。 - https://t.co/do0ZeLrlrn #aws #datalake — Akira Shimosako (@simosako) June 23, 2020 テッキーメディア - BOOTH 【電子書籍版】AWSではじめるデータレイク - テッキーメディア - BOOTH AWSではじめるデータレイク - テッキーメディア - BOOTH 目
BlueTeam CheatSheet * Log4Shell* | Last updated: 2021-12-20 2238 UTC
- 31 users
- gist.github.com/SwitHak
- テクノロジー
- 2021/12/11
20211210-TLP-WHITE_LOG4J.md Security Advisories / Bulletins / vendors Responses linked to Log4Shell (CVE-2021-44228) Errors, typos, something to say ? If you want to add a link, comment or send it to me Feel free to report any mistake directly below in the comment or in DM on Twitter @SwitHak Other great resources Royce Williams list sorted by vendors responses Royce List Very detailed list NCSC-N
Developers.IO 2019 Tokyoで「Effective Datalake 〜基礎からわかるデータレイクの定義と実践〜」というタイトルで発表してきました #cmdevio | DevelopersIO
- 25 users
- dev.classmethod.jp
- テクノロジー
- 2019/11/04
クラスメソッドの石川です。先日開催いたしましたDevelopers.IO 2019 in TOKYOにお越し頂きましてありがとうございました。表題の通り、データレイクについてお話をさせて頂きました。スライドこちらがスライドになります。こんな事を話してたはじめにデータレイクとは AWS Glue Aamzon Athena / Redshift Spectrum データ設計のベストプラクティス Redshiftからデータレイクの移行 AWS Lake Formation まとめまとめ Glue/Athena/Redshift Spectrumで始まったAWSのデータレイクは、Lake Formationによって統合され大きな進化を遂げました。その過程を私なりの解釈と定義に基づいて、現在に至る基礎的なサービスとその動作原理、データ設計のベストプラクティスについ
- AWS
- あとで読む
【初データレイク体験】AWS Loft Osakaで DataLake ハンズオンを受けてきた（公開資料URLあり） | DevelopersIO
- 23 users
- dev.classmethod.jp
- テクノロジー
- 2019/10/31
大阪オフィスのちゃだいんです。本日はAWS Pop-Up Loft Osakaにて、ハンズオンに参加してきました。今回はそのハンズオンの内容をご紹介したいと思います。その前に、 AWS Pop-Up Loft Osakaは期間限定でオープンしており、本日が最終日でした...（涙）大阪のど真ん中一等地に、無料でコーヒーももらえるコワーキングスペース。中之島の高層ビル２６階からの眺めを楽しみながら、優雅にパソコンパチパチできる稀有な場所でした。どんな場所だったのかは、このブログをご覧ください。【AWS Loftが大阪に期間限定オープン！】オープンしたてのAWS Pop-Up Loft Osakaで早速リモートワークしてみた #awsloft ハンズオン概要 DataLake ハンズオン OCT 31,2019 About the event（上記ページより抜粋）幅広いデータソース
- aws
- あとで読む
【AWS Data Lake】ニアリアルタイムデータ分析環境・スピードレイヤを構築してみた（ハンズオン1） | DevelopersIO
- 23 users
- dev.classmethod.jp
- テクノロジー
- 2019/10/07
こんにちは。DA事業本部の春田です。管理のしやすさや拡張性の高さで注目を集めている、次世代のデータ分析基盤Data Lakeについて、ハンズオンにトライしてみました。 Datalake Handson 本記事では、Lab1~Lab3のニアリアルタイムデータ分析環境（スピードレイヤ）を構築していきます。 Lab1: はじめの準備 Lab1: はじめの準備はじめにハンズオン共通で使用するVPC、EC2、IAM Roleを設定していきます。まずEC2で使用するキーペアを作成します。上で作成したキーペア datalake-handson-haruta を用いて、CloudFormationからEC2インスタンスを作成します。 EC2の構築が完了したら、 datalake-handson-haruta の公開鍵でSSHログインし、 /root/es-demo/testapp.log にログが吐
- aws
- あとで読む
データレイクの新しいカタチ：Open Table Formatの紹介 - 流沙河鎮
- 21 users
- bering.hatenadiary.com
- テクノロジー
- 2023/07/18
はじめに Open Table Formatは次世代のデータレイクの基盤となり得る技術で、徐々に導入事例(末尾に列挙)が増えてきているものの、日本での認知度は発展途上な印象がある。本記事ではOpen Table Format登場の背景を紹介する。執筆にあたって、Apache Iceberg: An Architectural Look Under the CoversとAWSにおける Hudi/Iceberg/Delta Lake の使いどころと違いについてを特に参考にした。 Open Table Formatとは？ Open Table Formatとは、従来のデータレイクの技術的な課題&ユースケースの要請に応える形で登場した、データレイクに最適化されたテーブルフォーマットを指す概念で、上手く活用することでクエリプランニング、実行性能の最適化、効率的なUpdateやDelete、タイム
Raspberrypi zero WとABEJA Platformを活用した侵入者通知アプリを作る - Y's note
- 19 users
- yut.hatenablog.com
- テクノロジー
- 2019/08/26
やりたいこと家庭で簡単に防犯カメラを作りたいと思い、下記のアイテムを利用して作ってみました。僕の家はマンションの１階にあり、5〜6畳分の庭が付いています。庭内には植物・野菜を栽培したり洗濯物を干しているので、1階に住む住人としては不審者が入ってこないかどうかが気になったりします。そこで、Raspberrypi zero W, camera module, ABEJA Platform, LINE Messaging APIを用いて、不審者が庭内で検出された場合にLINEに通知が来る仕組みを作りたいと思います。LINEに通知するのは極力リアルタイムで検知したいというのと、写真で証拠を記録し通報に利用できるというメリットがあります。家庭のセキュリティサービスを展開しているものもありますが、初期工事費用や月額でそれなりにするので、もっと簡易な防災通知ができたらと思って試してみました。今回のR
Apache Airflowで実装するDAG間の実行タイミング同期処理 - エニグモ開発者ブログ
- 19 users
- tech.enigmo.co.jp
- テクノロジー
- 2020/12/20
こんにちは。今年4月にエニグモに入社したデータエンジニアの谷元です。この記事は Enigmo Advent Calendar 2020 の20日目の記事です。目次はじめにそもそも同期処理とは？ Airflowによる同期処理検証時のコードサンプルをAirflow画面で見ると？同期遅延なし時のAirflowログ同期遅延あり時のAirflowログ同期タイムアウト時のAirflowログ所感最後にはじめにコロナ禍の中、皆さんどのようにお過ごしでしょうか。私はリモートワークを続けてますが、自宅のリモートデスクワーク環境をすぐに整えなかったため、薄いクッションで座りながらローテーブルで3ヶ月経過した頃に身体の節々で悲鳴をあげました。猫背も加速... さて、エニグモでの仕事も半年以上経過し、データ分析基盤の開発運用保守やBI上でのデータ整備などを対応をさせていただいてますが、
- DB
- あとで読む
- 開発
- ブログ
【週刊 Ask An Expert #10】サーバーレス化を検討している？そこは AWS Amplify でしょ。 AWS Loft Tokyo で受けた質問まとめ #AWSLoft | Amazon Web Services
- 18 users
- aws.amazon.com
- テクノロジー
- 2019/06/25
AWS Startup ブログ【週刊 Ask An Expert #10】サーバーレス化を検討している？そこは AWS Amplify でしょ。 AWS Loft Tokyo で受けた質問まとめ #AWSLoft こんにちは、スタートアップソリューションアーキテクトの松田 (@mats16k) です。だんだん暑くなってきましたが、いかがお過ごしでしょうか。私は半ズボンでの出勤を解禁しました（スタートアップなら普通ですよね？）。今回は週刊 Ask An Expert 記念すべき第10回目をお届けしたいと思います。「参考になった！」「いい内容だ！」と思っていただけたら、ぜひハッシュタグ #AWSLoft を付けてシェアしてください。もちろん、改善点・ご要望もお待ちしております。 Ask An Expert ? さて、皆さん AWS Loft Tokyo はご存知でしょうか？目黒セントラ
bashスクリプトのエラー処理のベストプラクティス – marketechlabo
- 18 users
- www.marketechlabo.com
- テクノロジー
- 2020/02/06
データ処理バッチでシェルスクリプトは便利データ処理などでバッチプログラムを書くことは多い。Pythonなどのプログラム言語を使って全部記述する方法もあるし、最近ではGUIのワークフローを描けるツールも出てきている。ただシェルスクリプトは依然として強い。シェルスクリプトは概して動作が高速で、イレギュラー処理に対しても柔軟に対応できる。gcloudやawscliなどのコマンドを使って記述できるので、できないことはない。機能がなければコマンドをインストールすることも可能。困ったときにも確実にゴールにたどり着くメリットがある。プログラム言語だとライブラリの出来に依存するし、ワークフロー系のツールは機能が実装されていないと詰む。イレギュラー処理を扱えない場合がある。便利なツールが出てきている時代ではあるが、シェルスクリプトを覚えておくのはおすすめである。バッチ処理ではエラーハンドリングが必須だ
「AWSではじめるデータレイク」出版記念データレイクはじめの一歩.pdf
- 17 users
- pages.awscloud.com
- テクノロジー
- 2020/06/20
1 「AWSではじめるデータレイク」出版記念データレイクはじめの一歩 2020年5月28日アマゾンウェブサービスジャパン株式会社シニアソリューションアーキテクト下佐粉昭（しもさこあきら） @simosako 2020年6月発売予定！ 2 AWSオンラインセミナーへようこそご質問を受け付けております！ • 書き込んだ質問は主催者にしか見えません • 最後のQ&A時間で、いただいたご質問からピックアップしてご回答をさせていただきます ① 吹き出しをクリック ② 質問を入力 ③ Sendをクリック終了後にアンケートの記入をお願いいたします https://bit.ly/2TFPbps アンケートにお答えいただいた方には本日の資料を後日ご提供させていただきます。 3 自己紹介下佐粉昭（しもさこあきら）所属：アマゾンウェブサービスジャパンシニアソリューシ
タイミーのデータ基盤品質。これまでとこれから。 - Timee Product Team Blog
- 17 users
- tech.timee.co.jp
- テクノロジー
- 2022/01/24
はじめに以前のデータ基盤 3つの問題解決と振り返り問題1: データパイプラインの更新遅延解決策実装振り返り問題2: 分析チームへのクエリ修正依頼の増加解決策実装振り返り問題3: ETLパイプラインにおける加工処理の負債解決策実装振り返りこれからの品質に関する改善はじめに初めまして、タイミーのDRE (Data Reliability Engineering) チームの土川(@tvtg_24)です。本記事ではデータ品質の保守に着目してここ1年くらいで試行錯誤したことを振り返っていきたいと思います。対象にしている読者は以下の方々です。データ品質について考えている方データ分析の品質担保に困っている方 ETLからELTへの基盤移行を考えている方この記事は Data Engineering Study #11「6社のデータエンジニアが振り返る2021」 -
- dbt
- あとで読む
Data Meshとは何か？
- 15 users
- attsun1031.github.io
- テクノロジー
- 2021/06/09
Aboutこの記事は、「Data Mesh」について書かれたものです。参考文献に記載された内容をベースとして、個人的な感想や意見を加えたものです。事例ではありません。 TL;DRData Mesh はデータ基盤の新しいアーキテクチャ原則であり、現在主流である中央集中型のデータ基盤と、そこから起こる問題への解決策です。Data Mesh はマイクロサービスと DDD から着想を得ており、データの生成・管理・提供を中央ではなくドメインごとに管理します。管理が分散することでスケーラビリティ・自律性を確保しつつ、統一的なガバナンスを保持できるアイデアです。主な想定読者Data Mesh が気になる方データ基盤を開発・保守するデータエンジニアデータマネジメントをより洗練させたいと感じている方Data Mesh の登場した背景 (WHY)詳細に入る前に、Data Mesh が前提に置く現代のデータ基
- DataMesh
- データ基盤
ラーメン二郎分類器 : ABEJA Platformを使ってサービス公開するぞ - Y's note
- 14 users
- yut.hatenablog.com
- 暮らし
- 2019/07/08
ラーメン二郎分類器引用 : ラーメン二郎三田本店（らーめんじろう） - 三田/ラーメン | 食べログ @yutakikuchi_です。皆さん、ラーメン二郎は好きですか？好きですよね？僕は大学の目の前にラーメン二郎があったので足繁く通っていました。しかし、ラーメン二郎初心者にとっては、麺の画像を見て、それが「ラーメン二郎」なのか「長崎ちゃんぽん」なのかが見分けが付きづらいと思います。よってDeepLearningを用いて、それらの分類を自動化する仕組みをABEJA Platformを使って実装する方法について記載します。データのcrawlingなどの実装は必要ですが、学習に関してはtemplateという機能を利用するとノンプログラミングでもモデル作成が可能なので、以下の作業時間はおおよそ10分で完了できます。既にABEJA Platform、ABEJA Platform Ann
- 機械学習
- AI
Data lakeとは？データ分析基盤をゼロから作るプロセス - Qiita
- 13 users
- qiita.com/blacksun174
- テクノロジー
- 2019/12/02
はじめまして、Newspicksでエンジニアしています、Hoàngです。新卒で入社し、現在はNewspicksを支えるデータ分析基盤を作っています。そのノウハウをシェアできればと思い、この記事を書きました。なぜData lakeが必要なのか？ (AWSより引用) サービスに機械学習、AIを導入したい思ったことがありますでしょうか。あるいは、ユーザーがどのようにサービスを利用しているかを分析したいと思ったことがありますか。ユーザ分析や機械学習をするために本番のデータベースにアクセスしたり、クエリを投げたりしてはいけません。分析、機械学習の用途で本番サービスに負荷を与えると、最悪の場合本番サービスを停止させてしまうこともあります。本番データと完全に同期されたデータ基盤があれば、このような問題にも対処できます。また、データ分析はSQLを使うのですが、SQLではDynamoDB, Mong
Query any data source with Amazon Athena’s new federated query | Amazon Web Services
- 13 users
- aws.amazon.com
- テクノロジー
- 2019/11/28
AWS Big Data Blog Query any data source with Amazon Athena’s new federated query April 2024: This post was reviewed for accuracy. Organizations today use data stores that are the best fit for the applications they build. For example, for an organization building a social network, a graph database such as Amazon Neptune is likely the best fit when compared to a relational database. Similarly, for w
- aws
- あとで読む
Google AnalyticsのBigQuery Exportを使って検索ログデータ分析基盤を構築した - エムスリーテックブログ
- 12 users
- www.m3tech.blog
- テクノロジー
- 2021/05/26
エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(@po3rin) です。好きな言語はGo。仕事では主に検索周りを担当しています。 Overview 医師に質問ができるサービスであるAskDoctorsではユーザーが質問を検索できる機能があり、今回は検索改善タスクのために検索ログデータ分析基盤を構築したお話をします。これにより改善サイクルを回せるようになったり、検索ログを使った各種アルゴリズムが利用可能になりました。データ基盤構築では他チームとの連携が必要不可欠であり、コミュニケーションで工夫した点などもお話できればと思います。 Overview なぜ検索ログデータ分析基盤が必要なのか検索を監視して改善サイクルを回したい各種アルゴリズムに利用できるデータを取得したいデータ分析に利用したいデータアーキテクチャを書き出すイベントとデー
Moving from DynamoDB to tiered storage with MySQL+S3
- 12 users
- zendesk.engineering
- テクノロジー
- 2024/02/06
Originally we implemented a feature to persist an event-stream into DynamoDB to allow customers to retrieve them. This proved effective, serving as a strong use case for a key/value storage, yet the drawback was its high cost. Moving to provisioned billing-mode reduced cost by ~50%, but that was not going to be sustainable as we scaled to more customers. We also kept multiplying the cost each time
- DynamoDB
- aws
- performance
AWS Lakeformationを使ってData Lakeを構成してみた | DevelopersIO
- 11 users
- dev.classmethod.jp
- テクノロジー
- 2022/01/10
データアナリティクス事業本部のnkhrです。今回のブログでは、Data Lakeのアクセス管理やデータ管理を行うLake Formation機能を検証します。 Lake Formationを使うメリット Data Lakeアーキテクチャでデータ格納・加工・クエリを実施するためには、複数のAWSサービスを組み合わせる必要があります。たとえば、Lake Formationを利用せずに、以下のようなAWSサービスを組み合わせる場合、IAM PolicyとBucket Policyを用いて、どのデータに対して誰がアクセスしてよいかを制御（データガバナンス）する必要があり、ポリシーの管理は複雑になります。 S3（データ格納） Gule Data Catalog (S3データのSchema定義） Glue Data Brew or Glue ETL（データ加工/ジョブ） Step Function
- AWS
- あとで読む
データレイクハンズオンでデータレイクを実感してみる | DevelopersIO
- 10 users
- dev.classmethod.jp
- テクノロジー
- 2020/06/02
前回のAWS Innovateで、データレイクのハンズオンが掲載されていました。データレイクのイメージを掴むのに有益になればと思いましたのでご紹介します。 AWS Innovateのサイトは既にクローズされていますが、ハンズオン資料のサイトはありますので参考にしてください。 amazon-s3-datalake-handson 本ハンズオンのゴール以下、ハンズオン資料から引用幅広いデータソースからの構造化データまたは非構造化データの集中リポジトリとして使用できる Data Lake は、データの保存と分析の方法として多くの企業に取り入れられています。 AWS のビッグデータ関連サービスを使用して実際に分析パイプラインを構築することを通して、 Data Lake とビッグデータ分析基盤構築の実感を持って頂くことをゴールとしています。ということで、データレイクを実感するにはとても良いハン
- あとで読む
New for Amazon Redshift – Data Lake Export and Federated Query | Amazon Web Services
- 10 users
- aws.amazon.com
- テクノロジー
- 2019/12/04
AWS News Blog New for Amazon Redshift – Data Lake Export and Federated Query A data warehouse is a database optimized to analyze relational data coming from transactional systems and line of business applications. Amazon Redshift is a fast, fully managed data warehouse that makes it simple and cost-effective to analyze data using standard SQL and existing Business Intelligence (BI) tools. To get i
- aws
- data
- amazon
- blog
- news
- あとで読む
Gaudiy、データ分析チームを立ち上げました。 - Gaudiy Tech Blog
- 10 users
- techblog.gaudiy.com
- テクノロジー
- 2022/03/18
こんにちは！エンタメ領域のDXを推進するブロックチェーンスタートアップ、Gaudiyでアナリティクスエンジニア兼データアナリストをしている星野（@mochigenmai）です。年初に公開したブログでお伝えさせていただきましたが、Gaudiyは今年から「プロダクト主導型の組織づくり」を進めています。 techblog.gaudiy.com プロダクト主導型の組織には、データドリブンな意思決定が欠かせません。そこでGaudiyでは、データを元にしたプロダクト改善を行い、ユーザへの適切な価値提供をしていくために、1月にデータ分析チームを立ち上げました。今回のブログでは、データ分析チームを立ち上げた背景や、立ち上げ時の課題や取り組み、データアナリストの役割などについてお伝えします！スタートアップで同じようにデータ分析チームの立ち上げを担っている方や、データ分析チームの役割に興味のある方にご参
- あとで読む
AzureとAWSの自動機械学習 - ecbeing labs（イーシービーイング・ラボ）
- 9 users
- blog.ecbeing.tech
- テクノロジー
- 2022/06/24
はじめに初めまして。おとです。 ecbeingに入社して1年ちょっと、日々データサイエンスや機械学習について学びつつ業務に勤しんでおります。機械学習について学び始めてから半年ほど経ちます。その中で、・Microsoftが提供するAzure Machine Learning ・AWSが提供するAmazon SageMaker 2つの機械学習サービスのチュートリアルを何度か行いました。その中でも自動機械学習機能が機械学習初心者である私にとってとても便利だと感じたのでご紹介したいと思います。はじめに自動機械学習 Azure Machine Learning の自動機械学習データの選択ジョブの構成タスクと設定の選択検証とテスト実験モデルデプロイエンドポイント Amazon SageMaker の自動機械学習実験モデルエンドポイントおわりに自動機械学習通常、機械
- Azure
- 機械学習
- AWS
急成長する《現場》の、データエンジニアというお仕事。 - Qiita
- 9 users
- qiita.com/e-a-st
- テクノロジー
- 2020/02/02
なんの話？三行で。サービスが急成長しデータ量が増えた際にデータエンジニアリングは必要とされる。エンジニアリングに必要なスキルセットは比較的明確で、駆け出しエンジニアにもポジションあるよ。データエンジニアリング業務を経て、データサイエンティストなど他職種にランクアップすることは可能。 [おまけ1]　"data+engineer+positionでググる"と、主に海外のData Engineer(DE職)のお仕事が入門者レベルからエキスパートレベルまで見つかるよ...Tokyoをつけると、東京でのDE職も見つかる。転職活動で普通に有用。 *[おまけ2]　末尾におまけとして、現在私が取り組んでいる『2020年代のデータ分析基盤の基本設計』に関して日々調べていることを、公開できる範囲で書いておきたい(内容はコメント欄に随時更新)。実際のデータエンジニアリング実務の一端を知ってもらう意味で。
- あとで読む
BigQueryとAirflowを活用したDataPlatform運用の10のケース・スタディ
- 9 users
- medium.com
- テクノロジー
- 2019/12/11
この記事は Eureka Advent Calendar 2019 11日目の記事です。 10日目はスーパーCompSREエンジニア恩田による「AWSのマルチアカウント管理におけるIAMマネジメントで試行錯誤した話」でした。こんにちは。BIチームのデータアナリストの栗村(@t-kurimura)です。主にPairsの機能に関する分析を行っていますが、最近は分析を行うまでのデータを整えるデータアーキテクト的お仕事の比率も増えてきています。さて、この記事では弊社のDataPlatform運用において、試行錯誤してきた中での運用の学びをケース・スタディ的にご紹介します。エウレカのDataPlatformの現状前提として、弊社では3つの層にわけて、アプリケーションログやマーケティングに関連するデータをより分析しやすいデータへと加工しています。 Dataをほぼそのまま保存しているDataLa
Awesome AWS Workshops - Build On!
- 9 users
- awesome-aws-workshops.com
- テクノロジー
- 2020/05/12
Awesome AWS Workshops¶ (Unofficial) Curated list of awesome workshops found around in the internet. As we all have been there, finding that workshop that you have just attended shouldn't be hard. The idea is to provide an easy central repository, in a collaborative way. Contributing¶ Your contributions are always welcome! Please take a look at the contribution guidelines first. We will keep pull r
【BigQuery】クエリの単体テストを書こうと思ったけど壁が厚くてどうしようか悩んでいる話 - St_Hakky’s blog
- 8 users
- www.st-hakky-blog.com
- テクノロジー
- 2021/09/13
こんにちは。久しぶりのブログ投稿になってしまったのですが、今日は「クエリの単体テストを書こうと思ったけど、壁が厚くてどうしようかなと思った話」を書きたいと思います。はじめに言っておきますが、この記事は特に何か解決策があるわけでもなんでもなく、「ただ、クエリの単体テストを書こうとするとこんな問題にぶち当たって、それに対してこうしたらいいとは思ったけど、誰か最高のソリューションない？笑」って聞きたかったから書いただけの記事です笑*1 この記事のモチベ最近、BigQueryを使ったデータ分析基盤とやらを開発しているのですが、「テスト書いてないとかお前それ @t_wada さんの前でも同じこと言えんの？」って言う状態になり、「これ真面目にやろうとするとどうなるんだ」って言うことで真面目に対峙してみました*2。ここで言う「真面目に」と言うのは、「入り得る全パターンのデータに対する集計があって
医療データレイクで分析基盤の構築 / JAWS DAYS 2021 JMDC DATALAKE
- 7 users
- speakerdeck.com/komoriya
- テクノロジー
- 2021/03/22
JAWS DAYS 2021-03-20の登壇資料。株式会社JMDCのデータレイクの取扱いについて紹介します。 https://jawsdays2021.jaws-ug.jp/timetable/track-d-1100/