DWHの人気記事 701件 - はてなブックマーク

1 - 40 件 / 701件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

DWHの検索結果1 - 40 件 / 701件

NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
- 1898 users
- shiumachi.hatenablog.com
- 暮らし
- 2010/09/28
業界トップのエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成２１年度産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発（分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業）」という
- hadoop
- クラウド
- 資料
- サーバ
- 開発
- cloud
- 運用
- ソフトウェア
- development
- あとで読む
「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
- 818 users
- shiumachi.hatenablog.com
- テクノロジー
- 2017/07/10
Hadoopの時代は終わった、という言説をたまに見かけるようになりました。もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。本記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。以上をご了承の上、読み進めてください。要約データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが
- hadoop
- mapreduce
- あとで読む
- spark
- db
- ストレージ
- history
- storage
- 歴史
- データ
Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita
- 636 users
- qiita.com/kazunori279
- テクノロジー
- 2014/05/19
「BigQueryは120億行を5秒でフルスキャン可能」は本当か？先日、kaheiさんがGoogle BigQuery（Googleクラウドの大規模クエリサービス）について、こんなエントリを書いていた。とにかくパフォーマンスがすごい。（Fluentd Meetupでの）プレゼン中のデモで、ディスクに収められた5億件のデータをSQLでフルスキャンするのに3秒しかかからない。9億件のデータを正規表現を含んだSQLでスキャンしても、7秒で終わる（これ、記憶がちょっとあいまい。もう少しかかったかも）。これには驚いた。佐藤さんがGoogleに入社して一番驚いた技術が、一般公開される前のBigQueryだったと言っていたが、その気持ちはわかる。 From Fluentd Meetupに行ってきましたこれを読んだ時、BigQueryの検索スピードについてちょっと補足したくなった。確かにFluent
- bigquery
- fluentd
- google
- hadoop
- bigdata
- gcpja
- データベース
- fluend
- クエリ
- sql
みんなビックデータビックデータって言ってるけど名寄せとかどうしてんの？
- 562 users
- www.slideshare.net/send_
- テクノロジー
- 2013/10/05
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
データベースドキュメント管理システム dmemo のご案内 - クックパッド開発者ブログ
- 454 users
- techlife.cookpad.com
- テクノロジー
- 2016/08/08
こんにちは、みんなのウェディングに出向中の小室 (id:hogelog) です。今回はクックパッドとみんなのウェディングで利用しているデータベースドキュメント管理システム dmemo を紹介します。 https://github.com/hogelog/dmemo dmemo を作成し導入した経緯私は2016年3月頃からみんなのウェディングで Redshift, bricolage, embulk, re:dash 等を利用したデータ分析基盤の構築を進めています。 (みんなのウェディングのデータ分析基盤の現状 - みんなのウェディングエンジニアリングブログ) 社内の誰でも扱えるデータベース、データの集約・計算・加工、ダッシュボードの作成、クエリの共有などは上記ブログ記事でも書いたように Redshift, bricolage, embulk, re:dash 等を組み合わせることで実現
- database
- cookpad
- データベース
- db
- あとで読む
- document
- postgresql
- データ
- RedShift
- Embulk
Treasure Data - naoyaのはてなダイアリー
- 443 users
- naoya-2.hatenadiary.org
- テクノロジー
- 2013/03/22
少し前にログの話を書いた http://d.hatena.ne.jp/naoya/20130219/1361262854 ときに、Treasure Data については後日にもう少し詳細に書くと言ったので書くとしよう。近頃 Treasure Data (以下、時折 TD) という名前をちらほら聞いたことがある人は多いのではないかと思います。「ビッグデータのクラウドサービスである」とか「日本人が創業したシリコンバレーのベンチャー」、あるいは Yahoo! 創業者の Jerry Yang が投資したとか、Fluentd と何か関係があるといった文脈などなど。けど、具体的に Treasure Data がどういうサービスで、どういう機能を持っていて、どんな場面で利用されるものなのかはまだあまり良く知られていないかもしれない･･･ようにも見える。今日はその辺から少し紹介していこうかなと思う。
- treasuredata
- fluentd
- bigdata
- hadoop
- Treasure Data
- MapReduce
- log
- ログ
- data
- クラウド
近年のデータ分析基盤構築における失敗はBigQueryを採用しなかったことに全て起因している - データエンジニアの酩酊日記
- 400 users
- uma66.hateblo.jp
- テクノロジー
- 2019/10/17
久しぶりにペラペラな思いつきを書き捨てて、寝ます。 2、3年前ぐらいにSIerやコンサルでTreasure Dataとか使ってマネージドDWH作ろうぜっていう風潮が流行って、今は運用フェーズに入ってどこも結構苦しんでるってのが僕のすごく狭い観測範囲での印象。 AWSのReadshiftしかり。なぜ苦しんでるかっていうと、言うほどスケールしないからであり、言うほどマネージドじゃないから。 Treasure Dataは基本的に割当メモリが固定でオートスケールしないので、ピーク時に合わせて必要なメモリを確保しておかないといけない。そうなるとメモリ使用量とか負荷とかをモニタリングしないといけないわけだけど、Saasだから内部のアーキテクチャが隠蔽されていていちいちサポートに問い合わせないといけなかったりする。 Redshiftの場合はそもそも自前でクラスタ管理しなくちゃいけないのでそれが大変って
- BigQuery
- あとで読む
- アーキテクチャ
- aws
- 運用
- データ基盤
- 分析
- データ
- GCP
- エンジニア
データ基盤にありがちな「何を使って作ればよいか？」という問いに対する処方箋を用意してみました. - Lean Baseball
- 398 users
- shinyorke.hatenablog.com
- テクノロジー
- 2022/12/01
ちょっと昔まではデータ基盤の管理人・アーキテクト, 現在は思いっきりクラウドアーキを扱うコンサルタントになったマンです. 私自身の経験・スキル・このブログに書いているコンテンツの関係で, 「データ基盤って何を使って作ればいいの?」的なHow（もしくはWhere）の相談. 「Googleのビッグクエリーってやつがいいと聞いたけど何ができるの?」的な個別のサービスに対するご相談. 「ぶっちゃけおいくらかかりますか💸」というHow much?な話. 有り難くもこのようなお話をよくお受けしています. が, （仕事以外の営みにおける）個人としては毎度同じ話をするのはまあまあ疲れるので, データ基盤にありがちな「何を使って作ればよいか？」という問いに対する処方箋というテーマで, クラウド上でデータ基盤を構築する際のサービスの選び方（データ基盤に限らず）クラウド料金の基本的な考え方をGoogle
- データ
- あとで読む
- gcp
- データ基盤
- aws
- データ分析
- アーキテクチャ
- DWH
- サービス
- cloud
楽天カードのシステム障害とオラクルの誤算 - orangeitems’s diary
- 382 users
- www.orangeitems.com
- テクノロジー
- 2018/03/07
楽天カードのシステム障害については既報のとおりである。これはこれで収束に向かいつつあるが、気になることがある。楽天カードのことを調べると大量にオラクルのコマーシャル記事が出てくることである。「会員に長期に渡って安心・安全な利用環境を提供したい」楽天カードがクラウド基盤にオラクルを選んだ理由 - ITmedia NEWS 楽天カード株式会社 Oracle Cloud at Customerの導入でビジネスのスピードアップと急成長を盤石なものに | Oracle 日本メインフレームから全面移行--楽天カードのクレジットカード業務 - ZDNet Japan クレジットカード業務の基幹システムを全面刷新、Oracle Cloud at Customerを採用（楽天カード/日本オラクル） « ペイメントナビ - カード決済、PCI DSS、ICカード・ポイントカードの啓蒙ポータルサイト楽
- oracle
- あとで読む
- クラウド
- 楽天
- システム障害
- 楽天カード
- cloud
- システム
- trouble
- 障害
データベースのスケーラビリティをどうやって向上させるか
- 339 users
- www.publickey1.jp
- 暮らし
- 2011/06/22
これまでPublickeyではデータベースのスケーラビリティに関するさまざまなトピックを取り上げてきました。クラウド時代にはスケーラブルなデータベースのニーズがこれまでになく高まっているためです。この記事では、これまで取り上げてきたデータベースのスケーラビリティに関する技術を少しまとめて紹介しようと思います。従来のリレーショナルを拡張従来のリレーショナルデータベースに対して、技術的工夫を凝らすことでスケーラブルなデータベースを実現しようというアプローチにも、さまざまなものがあります。データベース研究者の大御所、マイケル・ストーンブレイカー氏は、リレーショナルデータベースは決して遅くないと主張。リレーショナルデータベースが遅い原因はロック、ラッチ、リソース管理にあるとして、それらを極力排除した「VoltDB」を開発しています。 NoSQLを上回る性能のVoltDB、そのアーキテクチャ
- DB
- データベース
- NoSQL
- database
- mysql
- パフォーマンス
- クラウド
- まとめ
- RDBMS
- Publickey
クックパッドのログをいい感じにしているアーキテクチャ / Logging architecture at Cookpad
- 332 users
- speakerdeck.com/kanny
- テクノロジー
- 2017/07/27
Cookpad Tech Kitchen #9 https://cookpad.connpass.com/event/60831/
- ログ
- fluentd
- cookpad
- log
- logging
- アーキテクチャ
- あとで読む
- architecture
- slide
- クックパッド
広告システムエンジニアは絶対におもしろいと思う理由 - 最速配信研究会(@yamaz)
- 330 users
- yamaz.hatenablog.com
- 暮らし
- 2008/12/27
少し前からだけど,Cookpadやはてなが広告システムエンジニアを募集している. クックパッド｜採用情報: 【技術部】アドシステムエンジニア http://info.cookpad.com/?page_id=113 求人情報：広告システムエンジニア - はてな http://www.hatena.ne.jp/company/staff/accountengineer 私個人の経験から,オンライン広告システムというのは検索やインフラ系と並び,インターネット系のシステムの中でもっともエキサイティングな分野の一つだと思っている.それにもかかわらず,狙って応募してくる人はあまりおらず,いつもいつも悔しい思いをしてきていたので,広告システムがいかにおもしろいかをちょっと述べてみたいと思う. その会社で一番アクセスを受けるところなのでおもしろい. 広告システムはそのサイトの全サービス上に配信する必要が
- 広告
- ad
- marketing
- マーケティング
- 仕事
- web
- work
- development
- business
- ビジネス
クックパッドのデータ活用基盤 - クックパッド開発者ブログ
- 318 users
- techlife.cookpad.com
- テクノロジー
- 2017/10/06
インフラ部 & 技術部の青木峰郎です。クックパッドでは全社的にAmazon Redshiftを中心としたデータ活用基盤を構築しています。今日はその全体像についてお話ししたいと思います。データ活用基盤の全体像まず、以下にクックパッドのデータ活用基盤の全体像を示します。大きく分けると入力が2系統、内部処理が1系統、出力が3系統あります。入力はMySQLからのインポートとログのロードがあり、どちらも独自に構築したシステムで行われています。 DB内部のデータ処理はSQLバッチのみです。そして出力は管理画面やBIツールからのアクセスとバッチ処理によるエクスポートに大別できます。以下1つずつ説明していきましょう。入力その1: MySQLインポートシステム MySQLからRedshiftへのマスターテーブル取り込みにも独自のインポートシステムを使っています。このインポート処理には、つ
- redshift
- cookpad
- MySQL
- あとで読む
- クックパッド
- aws
- BI
- dwh
- analytics
- ログ
DMM inside
- 314 users
- tsuchinoko.dmmlabs.com
- テクノロジー
- 2015/02/23
日本アニメ初の快挙！海外アニメ賞を受賞した『スキップとローファー』海外ライセンス部長&プロデューサーが語る、奮闘の舞台裏
- bigquery
- hadoop
- tagomoris
- データ分析
- dmm
- cloud
- スタートアップ
- データ
- システム構成
- 技術
Modern Data Stack / モダンデータスタックというトレンドについて - satoshihirose.log
- 302 users
- satoshihirose.hateblo.jp
- テクノロジー
- 2021/11/20
はじめに Modern Data Stack ? Modern Data Stack の特徴やメリット、関連するトレンドデータインフラのクラウドサービス化 / Data infrastructure as a service データ連携サービスの発展 ELT! ELT! ELT! Reverse ETL テンプレート化された SQL and YAML などによるデータの管理セマンティックレイヤーの凋落と Headless BI 計算フレームワーク (Computation Frameworks) 分析プロセスの民主化、データガバナンスとデータメッシュの試みプロダクト組み込み用データサービスリアルタイム Analytics Engineer の登場各社ファウンダーが考える Modern Data Stack さいごに Further Readings はじめに Modern Dat
- data
- あとで読む
- データ
- SQL
- architecture
- データ基盤
- 統計
- dataManagement
- ツール
- DWH
ムック「データベース徹底攻略」 - MySQL/Redis/MongoDB/Redshift
- 292 users
- opendatabaselife.blogspot.com
- テクノロジー
- 2014/03/24
最近発売された技術評論社のムック「データベース徹底攻略」に寄稿しました。この本は、データベースのための本ということで、データベース設計、SQL、MySQL、Redis、MongoDB、Redshiftという代表的な要素技術についてのまとめとなっています。各プロダクト(MySQL、Redis、MongoDB、Redshift)については、現場で実際に本格的に使われている方々による記事なので大いに参考になると思います。私は冒頭のまとめ記事を寄稿しました。詳細はぜひお手に取って読んでくださればと思います。ここでも自分が各技術を現時点でどのようにとらえているか、本ではいささか書きづらい内容について、最近流行りの言葉でもある「技術的負債」という観点も踏まえて書いておこうと思います。・MySQL (RDBMS) 私はMySQLの中の人でもありましたし、これまで至るところで話してきたので省略します
- mongodb
- mysql
- redis
- database
- redshift
- db
- RDBMS
- データベース
- aws
- book
［速報］Amazonクラウド、新サービス「Redshift」発表。データウェアハウスの価格破壊へ
- 291 users
- www.publickey1.jp
- テクノロジー
- 2012/11/29
Amazonクラウドを運営する米Amazon Web Services（AWS）は初めての大型カンファレンス「re:Invent」をラスベガスで開催。初日の基調講演で、クラウド上でデータウェアハウスを提供する新サービス「Redshift」を発表しました。基調講演では企業向けにクラウドの有効性を説くことに焦点が当てられ、そのハイライトがこのRedshiftの発表でした。Redshiftの発表はAWSにとって、企業向けクラウドサービスを充実させる点で非常に大きな一歩だといえます。従来のデータウェアハウスは高価で複雑 Amazon Web Services、シニアバイスプレジデント Andy Jassy氏。既存のデータウェアハウスは、高価な上に複雑だという問題を抱えている。ガートナーの調査によると、平均でデータウェアハウスあたり3人から4人のアドミニストレーターがいるという。この状況に対
- amazon
- aws
- DWH
- RedShift
- クラウド
- cloud
- column oriented database
- service
- BI
- Publickey
Cloud Computing Services - Amazon Web Services (AWS)
- 274 users
- aws.amazon.com
- テクノロジー
- 2006/07/28
Whether you're looking for compute power, database storage, content delivery, or other functionality, AWS has the services to help you build sophisticated applications with increased flexibility, scalability and reliability
- aws
- amazon
- クラウド
- API
- cloud
- development
- web
- webservice
- webサービス
- サーバ
論理プログラミング言語Logicaでデータサイエンス100本ノック
- 267 users
- zenn.dev/koji_mats
- テクノロジー
- 2021/06/25
Googleが発表したOSSプロジェクトである論理プログラミング言語Logicaを使って、データサイエンス100本ノック(構造化データ加工編)の設問を解きながらどのような言語かを確認していく。 (BigQueryのクエリとして実行していく) 最初に、プログラミング言語Logicaの特徴を纏めておく。論理型プログラミング言語: このカテゴリではPrologが有名 SQLにコンパイルされる: 現状BigQueryとPostgreSQLに対応モジュール機構がある: SQLと比較した強みコンパイラはPythonで書かれている: Jupyter NotebookやGoogle Colabですぐ始められる Colabでチュートリアルが用意されているので、まずこちらからやると良いと思う。コードの見た目は関係論理の記述に似ている。事前に、データサイエンス100本ノックのテーブルデータをBigQu
OTN Japan マニュアル
- 263 users
- www.oracle.com
- 暮らし
- 2005/02/25
- Oracle
- java
- jvm
- 資料
- invokedynamic
- db
- Java7
- javaee
- Oracle Database
- 2015
快適スケールアウト生活への第一歩。SPIDERストレージエンジンを使ってみよう！
- 263 users
- nippondanji.blogspot.com
- 暮らし
- 2010/04/13
先月、Not Only NoSQL!! 驚異的なまでにWRITE性能をスケールさせるSPIDERストレージエンジンというエントリでSPIDERストレージエンジンによるスケールアウトが凄い！という話を書いた。SPIDERストレージエンジンは凄いヤツだが、ノウハウがあまりウェブ上で見つからない。唯一見つかる日本語の記事は、ウノウラボによる「国産MySQLストレージエンジン「Spider」の作者、斯波健徳氏に聞く」だけである。SPIDERストレージエンジンは斯波氏による単独の作品であるため、斯波氏は開発だけで手いっぱいであり、使い方の紹介記事を書くことまでは手が回らないのであろう。こんな凄いストレージエンジンをドキュメントが足りないせいで使って貰えないなんて勿体ない！！というわけで、今日はSPIDERストレージエンジンの基本的な使い方について紹介する。少し長いエントリであるが、最後までお付き
- mysql
- spider
- db
- scalability
- NoSQL
- database
- 設定
- storage
- ストレージエンジン
- データベース
MySQLによるデータウェアハウス構築
- 255 users
- techblog.yahoo.co.jp
- 暮らし
- 2009/02/10
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、オークション事業部のWangです。データウェアハウス（以下DWH）という言葉になじみのない方は検索していただいたほうがよいかもしれません。検索するのがめんどい、という方は、かみ砕いた表現ができなくて恐縮ですが、基幹系システムから抽出したデータを目的をもって再構成し、使用可能な状態に保管されたデータの集合体、とお考えください。オークションでは、具体的には出品、入札、落札などのトランザクションデータや、それをいろいろな単位で集計したデータなどが該当します。ここでいう単位というのはたとえば、日ごと、週ごと、月ごとや、以前の記事でも紹介されているカテゴリといったものになります。こういったデータは、運用、運営、
- mysql
- DWH
- db
- database
- yahoo
- データベース
- myisam
- プログラミング
- development
- 資料
BigQueryでクエリ一撃で29万円溶かしたけど助かった人の顔
- 252 users
- futurismo.biz
- テクノロジー
- 2024/01/29
SolanaのPublic DataをBigQueryで取得したかった# えー、お笑いを一席. ブロックチェーンSolanaのデータがGoogle Cloud BigQueryで使えるようになったというニュースをたまたまネット推薦記事でみかけた1. おや, 面白そうだ. ちょっとやってみようかな… BigQueryはさわるのが１年以上つかってないかも, どうやるんだっけ… とりあえずカラムとかサンプルでちょっとデータをみたいよな, こんな感じだっけか？とりあえず動かしてみよう, ポチッとな. … 5秒でレスポンスが帰ってくる. おー、速い. えーっと, あれ課金データ309TB？！いちげきひっさつ、ハサンギロチン2. BigQueryでクエリ一撃5 秒で29万円溶かした人の顔# 話題の画像生成AI, DALL･Eをつかって BigQueryでお金溶かした人の顔を表現してもらった3. あ
- bigquery
- あとで読む
- google
- SQL
- コスト
- cloud
- データ
- GCP
コールセンターの担当者もSQLを叩く。モノタロウのデータドリブンな文化に惚れた｜株式会社MonotaRO（モノタロウ）
- 250 users
- note.com/monotaro_note
- テクノロジー
- 2021/06/04
※本記事の内容は取材時のものであり、組織名や役職等は取材時点のものを掲載しております。モノタロウの継続的なビジネス成長に伴い、月間セッション数や注文数は大幅な増加を続けています。指数関数的に増えるデータを扱いやすくするための技術的探求は尽きません。なかでもデータハブの整理・構築を中心に技術開発・研究に携わるのが、エンジニアの中村さん（ECシステムエンジニアリング部門 EC基盤グループコアロジックチーム）です。データ領域で「冒険したかった」という彼が、モノタロウを選んだ理由や技術的な面白さ、今後の展望について話を聞きました。データが“いくらでも増え続ける”サービスでのチャレンジ ——はじめに、現在の業務について教えてください。主にデータハブの整理や構築です。実際のデータからバッチ処理でデータを作り、API化していく手法を開発・研究しています。プラクティスを他の開発者に展開するなど、
- SQL
- あとで読む
- DX
- 仕事
Dockerでデプロイ、60ノードまでスケールアウト、Sparkで分析　テラバイト・クラスの集計処理もあっさり返すdashDB LocalでDWHを構築する - はてなニュース
- 247 users
- hatenanews.com
- テクノロジー
- 2017/05/29
日本アイ・ビー・エム（以下、日本IBM）の「IBM dashDB Local」は、プライベートクラウド/ハイブリッドクラウドに最適な構成を持つデータウェアハウス（DWH）向けの製品である。Dockerコンテナとしてデプロイ、スケールアウト（規模拡大）でき、データ量や処理負荷の急増に柔軟に対応できる。インメモリの列指向データベースと並列処理により検索処理を高速に実行する。システムの成長に柔軟に対応できるライセンス体系を備えている。構成はITジャーナリストの星暁雄です。記事の最後にはプレゼントのお知らせもあります。（※この記事は、日本アイ・ビー・エム株式会社提供によるPR記事です） ▽ IBM dashDB Local - ハイブリッド・データウェアハウスを実現する Software-Defined DWH - Japan プライベートクラウド上でソフトウェアで定義されたスケーラブルなデ
- docker
- あとで読む
- データ
- IBM
- bigdata
- spark
- 技術
- 日本
- データベース
- dwh
まるで魔法のようなストレージエンジン？？VP for MySQLによる驚愕のテーブル操作テクニック。
- 246 users
- nippondanji.blogspot.com
- 暮らし
- 2010/04/20
先日、SPIDERストレージエンジンについて2度に渡り本ブログで紹介した（その１：Not Only NoSQL!! 驚異的なまでにWRITE性能をスケールさせるSPIDERストレージエンジン、その２：快適スケールアウト生活への第一歩。SPIDERストレージエンジンを使ってみよう！）が、SPIDERの作者である斯波氏は、実はもう一つ驚くべきストレージエンジンを開発している。その名も、VPストレージエンジンだ。ちょっと地味な名前だが、VPとは、Vertical Partitioning（垂直パーティショニング）の略で、複数のテーブルの上にVPストレージエンジンを被せて、垂直パーティショニング（カラムごとにデータを格納する領域を分ける）を実現するというものだ。他のテーブルの上に被せるアーキテクチャをとっているという点では、VPとSPIDERの発想は同じである。以下は、VPストレージエンジンの動作
- mysql
- vp
- spider
- db
- database
- storage
- データベース
- ストレージエンジン
- partitioning
- あとで読む
Data Platform Guide - 事業を成長させるデータ基盤を作るには #DataEngineeringStudy / 20200715
- 242 users
- speakerdeck.com/yuzutas0
- テクノロジー
- 2020/07/15
Data Engineering Study #1 の発表資料です。 https://forkwell.connpass.com/event/179786/ 当日の動画はYoutubeで閲覧可能です。 https://www.youtube.com/watch?v=hFYNuuAaiTg 参考文献『Software Design (ソフトウェアデザイン) 2020年7月号』 https://amzn.to/30YueL7 『データマネジメントが30分でわかる本』 https://amzn.to/3fmz8Gw
- DWH
- BI
- あとで読む
- データ
- data
- slide
- datalake
- platform
- bigquery
MonotaROのデータ基盤10年史（前編） - MonotaRO Tech Blog
- 238 users
- tech-blog.monotaro.com
- テクノロジー
- 2021/10/26
おしらせ：12/23 に後編記事がでました！ tech-blog.monotaro.com こんにちは、データ基盤グループの香川です。現在モノタロウではBigQueryに社内のデータを集約し、データ基盤を構築しています。およそ全従業員の6割が日々データ基盤を利用しており、利用方法や目的は多岐に渡ります。データ基盤グループはこれまでデータ基盤システムの開発保守と利用者のサポートを主な業務として取り組んできましたが、これら多岐にわたる社内のデータ利用における課題の解決及びさらなるデータ活用の高度化を目的として、今年の5月よりデータ管理を専門に行う組織として新たに体制を再構築しました。そこで改めて組織として取り組むべき課題や方向性を決めるために、まず自分たちの現在地を知ることが重要と考え、データ基盤の歴史を振り返り、社内のデータ活用における課題やそれを取り巻く状況がどう変わってきたのかを
- BigQuery
- あとで読む
- mysql
- データ
- データ基盤
- SQL
- 分析
- database
- data
- 運用
データ基盤エンジニアの面白さ - 下町柚子黄昏記 by @yuzutas0
- 235 users
- yuzutas0.hatenablog.com
- テクノロジー
- 2018/10/25
データ基盤エンジニアという仕事の魅力について、質問を受ける機会がありました。何が魅力なのか。どういう面白さがあるのか。どこにモチベーションがあるのか。せっかくなので自分なりに考えをまとめてみます。 5つの面白さざっくりまとめると、データ基盤エンジニア（あるいは：分析基盤エンジニア・データエンジニア）というのは、「主体的に働きやすく」「スキルを(伸ばし/広げ)やすく」「キャリアアップに繋げやすい」仕事だと思います。 1. データ活用担当への第一歩としてデータ分析や機械学習を仕事としてやりたい。だけど、職務経歴としてはアプリケーション開発やインフラに強みがある。この立場の人がキャリアをピボットするための踊り場として、データ基盤の担当になることがあります。持ち前のスキルを活かしてデータ基盤の構築・運用に関わるところから始めます。データ仕様に詳しくなっていき、徐々に活用側へと染み出し
なぜETLではなくELTが流行ってきたのか - Qiita
- 225 users
- qiita.com/hiro_koba_jp
- テクノロジー
- 2022/12/05
概要 troccoの生みの親で、現プロダクト責任者をしている @hiro_koba_jp です。 troccoアドベントカレンダー2022の1記事目書いていきます！（みんなも参加してね）データ分析やデータエンジニアリングにおいてETL(Extract Transform Load)という言葉を耳にしたことがある方は多いのではないでしょうか？一方、「ETLではなくELT（音楽グループではない）が主流になりつつある」といったような論調も増えてきました。この記事では、ETLとELTの違いや、なぜELTにシフトしつつあるのか、この先どうなるのか（予想）について、私なりの見解を書いてみようと思います。一昔前まではETLパターンが多かった Redshiftが登場した2013年頃、人々はデータレイク層はS3上で構築し、データウェアハウス層〜データマート層はRedshift上に組む人が多かったよう
- BigQuery
- あとで読む
- データ
- データ分析
- etl
- ELT
- architecture
- SQL
- CPU
SQLを使った監視でデータ基盤の品質を向上させる - MonotaRO Tech Blog
- 216 users
- tech-blog.monotaro.com
- テクノロジー
- 2021/08/24
こんにちは、データ基盤グループの吉田(id:syou6162)です。データ基盤グループでは安定してデータを利用できるように様々な取り組みを行なっています。本エントリでは、データ品質に問題がある場合にすぐに気付けるようにしたSQLによる監視の仕組みを紹介します。背景 SQLを使った監視基盤の構築実際の監視項目例他チームがdailyで転送しているデータがバッチの失敗により遅れていないか BigQueryのエラーレートが急激に増加していないか承認済みビューの設定が意図せず消えていないか今後の展望背景データ基盤の運用をしていると、日々様々なトラブルと向き合う必要があります。例えば、以下のようなものがあります。他チームがdailyで転送しているデータがバッチの失敗により遅れている TerraformなどのIaCで承認済みビューの権限管理を行なっているが、コードの設定ミスで意図せぬ状態
- sql
- BigQuery
- あとで読む
- monitoring
- 監視
- データ
- 運用
- cloud
第９回データマイニング+WEB 勉強会＠東京 ( #TokyoWebmining #9) −2nd Week−方法論・ソーシャル祭り− を開催しました - hamadakoichi blog
- 214 users
- hamadakoichi.hatenadiary.org
- 暮らし
- 2011/01/23
2011/01/23 "第９回データマイニング+WEB 勉強会＠東京−2nd Week−方法論・ソーシャル祭り−"を開催しました。第９回データマイニング+WEB 勉強会＠東京　( TokyoWebmining 9)−2ndW−方法論・ソーシャル祭り−: ATND Google グループ ※会場参加者ID写真（id:bob3 さんに感謝) 1st Week内容まとめ：第９回データマイニング+WEB 勉強会＠東京 ( #TokyoWebmining #9) −1st Week− 大規模解析・機械学習・クオンツ祭り− を開催しました - hamadakoichi blog 会場提供し運営を手伝って下さったニフティ株式会社のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思ってい
並列データベースシステムの概念と原理
- 207 users
- www.slideshare.net/myui
- テクノロジー
- 2014/02/02
2014/01/30 筑波大学情報システム特別講義Dの講義資料です。 join関係はNAIST時代の宮崎先生のデータ工学Ⅱの内容を参考にしてます。 animation有効なビデオはこちら https://vimeo.com/85598907
- database
- MapReduce
- DB
- concurrent
- parallel
- データベース
- Hadoop
- bigdata
- 並列処理
- Distributed
［速報］「Amazon Redshift Spectrum」発表。Amazon S3にデータを保存したまま複雑なクエリを高速で実行可能に。AWS Summit 2017 San Francisco
- 206 users
- www.publickey1.jp
- テクノロジー
- 2017/04/20
［速報］「Amazon Redshift Spectrum」発表。Amazon S3にデータを保存したまま複雑なクエリを高速で実行可能に。AWS Summit 2017 San Francisco Amazon Web Servicesは、サンフランシスコでイベント「AWS Summit 2017 San Francisco」を開催。データウェアハウスの新サービス「Amazon Redshift Spectrum」を発表しました。 Amazon S3にデータを保存したままデータウェアハウスで分析可能 Amazon.com CTOのWerner Vogels氏。多くの顧客で、ペタバイトから多い場合にはエクサバイトクラスの生データがAmazon S3に保存されており、これをAmazon Redshiftへ取り込むのは時間やコストの制約で難しいと考えられていると。そこで「Amazon Red
- AWS
- RedShift
- amazon
- s3
- あとで読む
- Amazon S3
- Amazon Redshift
- DB
- Publickey
みんなのウェディングのデータ分析基盤の現状 — みんなのウェディングエンジニアリングブログ
- 199 users
- blog.mwed.info
- テクノロジー
- 2016/06/03
こんにちは、みんなのウェディングの小室 (id:hogelog) です。今回はみんなのウェディングにおけるデータ分析基盤の現状についてご報告させていただきます。三行まとめ忙しい人のために先に結論を書くと bricolage と embulk で Redshift に集めて re:dash で分析です。データ収集データ収集は bricolage のジョブネット機構を用いて bricolage の各種ジョブや embulk を連携させ、Redshift にデータを取り込んでいます。参考までに https://github.com/hogelog/dwh-example に簡単な構成例を準備しました。 MySQL → Redshift みんなのウェディング http://www.mwed.jp/ のデータベースとしては MySQL を利用しています。 MySQL から Redshi
- RedShift
- embulk
- AWS
- 分析
- ログ
- あとで読む
- analysis
- dwh
- mysql
- データ
[レポート]みんなの考えた最強のデータアーキテクチャ #datatechjp | DevelopersIO
- 198 users
- dev.classmethod.jp
- テクノロジー
- 2022/11/08
さがらです。 11月8日20時～22時に、datatech-jp(データエンジニアリング関係のコミュニティ)主催でみんなの考えた最強のデータアーキテクチャというイベントが開催されました。本記事はこのイベントのレポートブログとなります。イベント概要 ※connpassより引用 datatech-jpで集ったデータエンジニアが、それぞれみんなの考えた最強のデータアーキテクチャを紹介し合うという夢のような企画が実現しました！たくさんの新しいプロダクトが群雄割拠する現在、モダンデータスタックなどという言葉も登場しています。今こそ、どんなプロダクトを選び、どのようなデータ基盤を作れば、効率的にやりたいことが実現できるのか。 5人の猛者からおすすめの構成をご紹介いただきながら、参加者のみなさんとも一緒に考えていく時間としたいと思います。おまけ：当イベントの応募者数このイベントですが、なんと
dbtで見やすいER図を生成する - yasuhisa's blog
- 195 users
- www.yasuhisay.info
- テクノロジー
- 2024/02/03
背景: dbtを使っていてもER図は欲しい! どうやってER図を生成するかどうやってER図を見やすくするかまとめ背景: dbtを使っていてもER図は欲しい! dbtはモデル間のリネージなど可視化が得意なツールではありますが、万能なわけではありません。モデルの生成過程などはリネージで担保できますが、分析時に「どれとどのモデルがJOINできて、JOINする際のキーはこれを使って」というER図で扱うような可視化はディフォルトではできません。 DWHを作っている側からすると「このテーブルはあの辺のテーブルと一緒に使うと便利で、いつもあのキーでJOINして」というのが頭の中に入っていることが多いため、ER図がなくてもどうにかなることも多いでしょう。しかし、分析に慣れていない人や分析に慣れている人であっても、普段と異なるドメインのテーブルを触るときはER図が提供してくれる情報は有用です。ちなみに
- dbt
- あとで読む
- 設計
- DB
- markdown
- UML
- database
Hadoop＋Hive検証環境を構築してみる
- 192 users
- atmarkit.itmedia.co.jp
- 暮らし
- 2009/02/27
Hadoop＋Hive検証環境を構築してみる：Hive――RDB使いのためのHadoopガイド（前編）（1/3 ページ） Hadoop HiveはHadoop上でSQLライクなクエリ操作が可能なDWH向けのプロダクトです。SQLに近い操作が可能なため、HBaseよりもデータベースに慣れ親しんだみなさんには使い勝手がいいかもしれません。本稿ではこのHiveの使い方とレビューを行っていきます。
- hadoop
- hive
- MapReduce
- database
- db
- java
- oss
- cloud
- DWH
- google
DMBOKを用いたアセスメントでデータマネジメントを加速させる - MonotaRO Tech Blog
- 192 users
- tech-blog.monotaro.com
- テクノロジー
- 2022/07/27
こんにちは、データ基盤グループの吉田(id:syou6162)です。データ基盤やデータマネジメントに興味を持たれている方はDMBOKを持っている / 読んだことがあるという方も多いのではないでしょうか。このエントリではDMBOK中に紹介されているデータマネジメント成熟度アセスメント(以下、アセスメントと省略)をモノタロウでどう活用しているかについて紹介します。背景初手: 自社のデータ基盤の歴史を振り返るアセスメントの実施データ活用者 / システム提供者 / 意思決定者へのヒアリングの実施アセスメントを実施した結果最後に背景まず、モノタロウでなぜアセスメントを行なったかについて説明します。モノタロウは20年以上歴史のある企業であり、データ基盤自体も10年以上の歴史があります。単一事業ではあるものの、受注 / 売上 / 商品 / 在庫 / 顧客 / 行動履歴など、対象となるドメ
我が家の BigQuery による台所事情分析 - nownab.log
- 186 users
- blog.nownabe.com
- テクノロジー
- 2021/07/17
弊家では銀行やクレジットカードの明細を BigQuery に取り込んでダッシュボードを作ったりしています。また、そのために作った BigQuery 向けの Go 製 ETL フレームワークを OSS として公開しました。本記事ではざっくりどんなもんかを紹介して、どう作るのかを説明します。 Google Cloud Platform Advent Calendar 2020 の 13 日目の記事です。 Google Cloud Japan の Customer Engineer の Advent Calendar もぜひご覧ください。 TL; DR 明細が BigQuery にあると、可視化もできるしアラートも出せるし、まぁなんでもできて便利銀行明細レベルのデータならほぼ無料で保存、ETL、分析できる ETL フレームワーク bqloader を OSS として公開したから使ってくれよ
- BigQuery
- GCP
- あとで読む
- 家計簿
- 分析
- クラウド