並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 701件

新着順 人気順

DWHの検索結果1 - 40 件 / 701件

  • NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

    業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という

      NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
    • 「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮

      Hadoopの時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。 本記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。 中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。 以上をご了承の上、読み進めてください。 要約 データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが

        「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
      • Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita

        「BigQueryは120億行を5秒でフルスキャン可能」は本当か? 先日、kaheiさんがGoogle BigQuery(Googleクラウドの大規模クエリサービス)について、こんなエントリを書いていた。 とにかくパフォーマンスがすごい。(Fluentd Meetupでの)プレゼン中のデモで、ディスクに収められた5億件のデータをSQLでフルスキャンするのに3秒しかかからない。9億件のデータを正規表現を含んだSQLでスキャンしても、7秒で終わる(これ、記憶がちょっとあいまい。もう少しかかったかも)。これには驚いた。佐藤さんがGoogleに入社して一番驚いた技術が、一般公開される前のBigQueryだったと言っていたが、その気持ちはわかる。 From Fluentd Meetupに行ってきました これを読んだ時、BigQueryの検索スピードについてちょっと補足したくなった。確かにFluent

          Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita
        • みんなビックデータビックデータって言ってるけど 名寄せとかどうしてんの?

          Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)

            みんなビックデータビックデータって言ってるけど 名寄せとかどうしてんの?
          • データベースドキュメント管理システム dmemo のご案内 - クックパッド開発者ブログ

            こんにちは、みんなのウェディングに出向中の小室 (id:hogelog) です。 今回はクックパッドとみんなのウェディングで利用しているデータベースドキュメント管理システム dmemo を紹介します。 https://github.com/hogelog/dmemo dmemo を作成し導入した経緯 私は2016年3月頃からみんなのウェディングで Redshift, bricolage, embulk, re:dash 等を利用したデータ分析基盤の構築を進めています。 (みんなのウェディングのデータ分析基盤の現状 - みんなのウェディングエンジニアリングブログ) 社内の誰でも扱えるデータベース、データの集約・計算・加工、ダッシュボードの作成、クエリの共有などは上記ブログ記事でも書いたように Redshift, bricolage, embulk, re:dash 等を組み合わせることで実現

              データベースドキュメント管理システム dmemo のご案内 - クックパッド開発者ブログ
            • Treasure Data - naoyaのはてなダイアリー

              少し前にログの話を書いた http://d.hatena.ne.jp/naoya/20130219/1361262854 ときに、Treasure Data については後日にもう少し詳細に書くと言ったので書くとしよう。 近頃 Treasure Data (以下、時折 TD) という名前をちらほら聞いたことがある人は多いのではないかと思います。「ビッグデータのクラウドサービスである」とか「日本人が創業したシリコンバレーのベンチャー」、あるいは Yahoo! 創業者の Jerry Yang が投資したとか、Fluentd と何か関係があるといった文脈などなど。 けど、具体的に Treasure Data がどういうサービスで、どういう機能を持っていて、どんな場面で利用されるものなのかはまだあまり良く知られていないかもしれない・・・ようにも見える。今日はその辺から少し紹介していこうかなと思う。

                Treasure Data - naoyaのはてなダイアリー
              • 近年のデータ分析基盤構築における失敗はBigQueryを採用しなかったことに全て起因している - データエンジニアの酩酊日記

                久しぶりにペラペラな思いつきを書き捨てて、寝ます。 2、3年前ぐらいにSIerやコンサルでTreasure Dataとか使ってマネージドDWH作ろうぜっていう風潮が流行って、今は運用フェーズに入ってどこも結構苦しんでるってのが僕のすごく狭い観測範囲での印象。 AWSのReadshiftしかり。 なぜ苦しんでるかっていうと、言うほどスケールしないからであり、言うほどマネージドじゃないから。 Treasure Dataは基本的に割当メモリが固定でオートスケールしないので、ピーク時に合わせて必要なメモリを確保しておかないといけない。そうなるとメモリ使用量とか負荷とかをモニタリングしないといけないわけだけど、Saasだから内部のアーキテクチャが隠蔽されていていちいちサポートに問い合わせないといけなかったりする。 Redshiftの場合はそもそも自前でクラスタ管理しなくちゃいけないのでそれが大変って

                  近年のデータ分析基盤構築における失敗はBigQueryを採用しなかったことに全て起因している - データエンジニアの酩酊日記
                • データ基盤にありがちな「何を使って作ればよいか?」という問いに対する処方箋を用意してみました. - Lean Baseball

                  ちょっと昔まではデータ基盤の管理人・アーキテクト, 現在は思いっきりクラウドアーキを扱うコンサルタントになったマンです. 私自身の経験・スキル・このブログに書いているコンテンツの関係で, 「データ基盤って何を使って作ればいいの?」的なHow(もしくはWhere)の相談. 「Googleのビッグクエリーってやつがいいと聞いたけど何ができるの?」的な個別のサービスに対するご相談. 「ぶっちゃけおいくらかかりますか💸」というHow much?な話. 有り難くもこのようなお話をよくお受けしています. が, (仕事以外の営みにおける)個人としては毎度同じ話をするのはまあまあ疲れるので, データ基盤にありがちな「何を使って作ればよいか?」という問いに対する処方箋 というテーマで, クラウド上でデータ基盤を構築する際のサービスの選び方 (データ基盤に限らず)クラウド料金の基本的な考え方 をGoogle

                    データ基盤にありがちな「何を使って作ればよいか?」という問いに対する処方箋を用意してみました. - Lean Baseball
                  • 楽天カードのシステム障害とオラクルの誤算 - orangeitems’s diary

                    楽天カードのシステム障害については既報のとおりである。 これはこれで収束に向かいつつあるが、気になることがある。楽天カードのことを調べると大量にオラクルのコマーシャル記事が出てくることである。 「会員に長期に渡って安心・安全な利用環境を提供したい」 楽天カードがクラウド基盤にオラクルを選んだ理由 - ITmedia NEWS 楽天カード株式会社 Oracle Cloud at Customerの導入でビジネスのスピードアップと急成長を盤石なものに | Oracle 日本 メインフレームから全面移行--楽天カードのクレジットカード業務 - ZDNet Japan クレジットカード業務の基幹システムを全面刷新、Oracle Cloud at Customerを採用(楽天カード/日本オラクル) « ペイメントナビ - カード決済、PCI DSS、ICカード・ポイントカードの啓蒙ポータルサイト 楽

                      楽天カードのシステム障害とオラクルの誤算 - orangeitems’s diary
                    • データベースのスケーラビリティをどうやって向上させるか

                      これまでPublickeyではデータベースのスケーラビリティに関するさまざまなトピックを取り上げてきました。クラウド時代にはスケーラブルなデータベースのニーズがこれまでになく高まっているためです。 この記事では、これまで取り上げてきたデータベースのスケーラビリティに関する技術を少しまとめて紹介しようと思います。 従来のリレーショナルを拡張 従来のリレーショナルデータベースに対して、技術的工夫を凝らすことでスケーラブルなデータベースを実現しようというアプローチにも、さまざまなものがあります。 データベース研究者の大御所、マイケル・ストーンブレイカー氏は、リレーショナルデータベースは決して遅くないと主張。リレーショナルデータベースが遅い原因はロック、ラッチ、リソース管理にあるとして、それらを極力排除した「VoltDB」を開発しています。 NoSQLを上回る性能のVoltDB、そのアーキテクチャ

                        データベースのスケーラビリティをどうやって向上させるか
                      • クックパッドのログをいい感じにしているアーキテクチャ / Logging architecture at Cookpad

                        Cookpad Tech Kitchen #9 https://cookpad.connpass.com/event/60831/

                          クックパッドのログをいい感じにしているアーキテクチャ / Logging architecture at Cookpad
                        • 広告システムエンジニアは絶対におもしろいと思う理由 - 最速配信研究会(@yamaz)

                          少し前からだけど,Cookpadやはてなが広告システムエンジニアを募集している. クックパッド|採用情報: 【技術部】アドシステムエンジニア http://info.cookpad.com/?page_id=113 求人情報:広告システムエンジニア - はてな http://www.hatena.ne.jp/company/staff/accountengineer 私個人の経験から,オンライン広告システムというのは検索やインフラ系と並び,インターネット系のシステムの中でもっともエキサイティングな分野の一つだと思っている.それにもかかわらず,狙って応募してくる人はあまりおらず,いつもいつも悔しい思いをしてきていたので,広告システムがいかにおもしろいかをちょっと述べてみたいと思う. その会社で一番アクセスを受けるところなのでおもしろい. 広告システムはそのサイトの全サービス上に配信する必要が

                            広告システムエンジニアは絶対におもしろいと思う理由 - 最速配信研究会(@yamaz)
                          • クックパッドのデータ活用基盤 - クックパッド開発者ブログ

                            インフラ部 & 技術部の青木峰郎です。 クックパッドでは全社的にAmazon Redshiftを中心としたデータ活用基盤を構築しています。 今日はその全体像についてお話ししたいと思います。 データ活用基盤の全体像 まず、以下にクックパッドのデータ活用基盤の全体像を示します。 大きく分けると入力が2系統、内部処理が1系統、出力が3系統あります。 入力はMySQLからのインポートとログのロードがあり、どちらも独自に構築したシステムで行われています。 DB内部のデータ処理はSQLバッチのみです。 そして出力は管理画面やBIツールからのアクセスとバッチ処理によるエクスポートに大別できます。 以下1つずつ説明していきましょう。 入力その1: MySQLインポートシステム MySQLからRedshiftへのマスターテーブル取り込みにも独自のインポートシステムを使っています。 このインポート処理には、つ

                              クックパッドのデータ活用基盤 - クックパッド開発者ブログ
                            • DMM inside

                              日本アニメ初の快挙!海外アニメ賞を受賞した『スキップとローファー』海外ライセンス部長&プロデューサーが語る、奮闘の舞台裏

                                DMM inside
                              • Modern Data Stack / モダンデータスタックというトレンドについて - satoshihirose.log

                                はじめに Modern Data Stack ? Modern Data Stack の特徴やメリット、関連するトレンド データインフラのクラウドサービス化 / Data infrastructure as a service データ連携サービスの発展 ELT! ELT! ELT! Reverse ETL テンプレート化された SQL and YAML などによるデータの管理 セマンティックレイヤーの凋落と Headless BI 計算フレームワーク (Computation Frameworks) 分析プロセスの民主化、データガバナンスとデータメッシュの試み プロダクト組み込み用データサービス リアルタイム Analytics Engineer の登場 各社ファウンダーが考える Modern Data Stack さいごに Further Readings はじめに Modern Dat

                                  Modern Data Stack / モダンデータスタックというトレンドについて - satoshihirose.log
                                • ムック「データベース徹底攻略」 - MySQL/Redis/MongoDB/Redshift

                                  最近発売された技術評論社のムック「データベース徹底攻略」に寄稿しました。 この本は、データベースのための本ということで、データベース設計、SQL、MySQL、Redis、MongoDB、Redshiftという代表的な要素技術についてのまとめとなっています。各プロダクト(MySQL、Redis、MongoDB、Redshift)については、現場で実際に本格的に使われている方々による記事なので大いに参考になると思います。 私は冒頭のまとめ記事を寄稿しました。詳細はぜひお手に取って読んでくださればと思います。ここでも自分が各技術を現時点でどのようにとらえているか、本ではいささか書きづらい内容について、最近流行りの言葉でもある「技術的負債」という観点も踏まえて書いておこうと思います。 ・MySQL (RDBMS) 私はMySQLの中の人でもありましたし、これまで至るところで話してきたので省略します

                                  • [速報]Amazonクラウド、新サービス「Redshift」発表。データウェアハウスの価格破壊へ

                                    Amazonクラウドを運営する米Amazon Web Services(AWS)は初めての大型カンファレンス「re:Invent」をラスベガスで開催。初日の基調講演で、クラウド上でデータウェアハウスを提供する新サービス「Redshift」を発表しました。 基調講演では企業向けにクラウドの有効性を説くことに焦点が当てられ、そのハイライトがこのRedshiftの発表でした。Redshiftの発表はAWSにとって、企業向けクラウドサービスを充実させる点で非常に大きな一歩だといえます。 従来のデータウェアハウスは高価で複雑 Amazon Web Services、シニアバイスプレジデント Andy Jassy氏。 既存のデータウェアハウスは、高価な上に複雑だという問題を抱えている。ガートナーの調査によると、平均でデータウェアハウスあたり3人から4人のアドミニストレーターがいるという。 この状況に対

                                      [速報]Amazonクラウド、新サービス「Redshift」発表。データウェアハウスの価格破壊へ
                                    • Cloud Computing Services - Amazon Web Services (AWS)

                                      Whether you're looking for compute power, database storage, content delivery, or other functionality, AWS has the services to help you build sophisticated applications with increased flexibility, scalability and reliability

                                        Cloud Computing Services - Amazon Web Services (AWS)
                                      • 論理プログラミング言語Logicaでデータサイエンス100本ノック

                                        Googleが発表したOSSプロジェクトである論理プログラミング言語Logicaを使って、データサイエンス100本ノック(構造化データ加工編)の設問を解きながらどのような言語かを確認していく。 (BigQueryのクエリとして実行していく) 最初に、プログラミング言語Logicaの特徴を纏めておく。 論理型プログラミング言語: このカテゴリではPrologが有名 SQLにコンパイルされる: 現状BigQueryとPostgreSQLに対応 モジュール機構がある: SQLと比較した強み コンパイラはPythonで書かれている: Jupyter NotebookやGoogle Colabですぐ始められる Colabでチュートリアルが用意されているので、まずこちらからやると良いと思う。 コードの見た目は関係論理の記述に似ている。 事前に、データサイエンス100本ノックのテーブルデータをBigQu

                                        • OTN Japan マニュアル

                                            OTN Japan マニュアル
                                          • 快適スケールアウト生活への第一歩。SPIDERストレージエンジンを使ってみよう!

                                            先月、Not Only NoSQL!! 驚異的なまでにWRITE性能をスケールさせるSPIDERストレージエンジンというエントリでSPIDERストレージエンジンによるスケールアウトが凄い!という話を書いた。SPIDERストレージエンジンは凄いヤツだが、ノウハウがあまりウェブ上で見つからない。唯一見つかる日本語の記事は、ウノウラボによる「国産MySQLストレージエンジン「Spider」の作者、斯波健徳氏に聞く 」だけである。SPIDERストレージエンジンは斯波氏による単独の作品であるため、斯波氏は開発だけで手いっぱいであり、使い方の紹介記事を書くことまでは手が回らないのであろう。こんな凄いストレージエンジンをドキュメントが足りないせいで使って貰えないなんて勿体ない!! というわけで、今日はSPIDERストレージエンジンの基本的な使い方について紹介する。少し長いエントリであるが、最後までお付き

                                              快適スケールアウト生活への第一歩。SPIDERストレージエンジンを使ってみよう!
                                            • MySQLによるデータウェアハウス構築

                                              ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、オークション事業部のWangです。 データウェアハウス(以下DWH)という言葉になじみのない方は検索していただいたほうがよいかもしれません。 検索するのがめんどい、という方は、かみ砕いた表現ができなくて恐縮ですが、 基幹系システムから抽出したデータを目的をもって再構成し、 使用可能な状態に保管されたデータの集合体、とお考えください。 オークションでは、具体的には出品、入札、落札などのトランザクションデータや、 それをいろいろな単位で集計したデータなどが該当します。 ここでいう単位というのはたとえば、日ごと、週ごと、月ごとや、以前の記事でも紹介されている カテゴリといったものになります。 こういったデータは、運用、運営、

                                                MySQLによるデータウェアハウス構築
                                              • BigQueryでクエリ一撃で29万円溶かしたけど助かった人の顔

                                                SolanaのPublic DataをBigQueryで取得したかった# えー、お笑いを一席. ブロックチェーンSolanaのデータがGoogle Cloud BigQueryで使えるようになったというニュースをたまたまネット推薦記事でみかけた1. おや, 面白そうだ. ちょっとやってみようかな… BigQueryはさわるのが1年以上つかってないかも, どうやるんだっけ… とりあえずカラムとかサンプルでちょっとデータをみたいよな, こんな感じだっけか? とりあえず動かしてみよう, ポチッとな. … 5秒でレスポンスが帰ってくる. おー、速い. えーっと, あれ課金データ309TB?! いちげきひっさつ、ハサンギロチン2. BigQueryでクエリ一撃5 秒で29万円溶かした人の顔# 話題の画像生成AI, DALL・Eをつかって BigQueryでお金溶かした人の顔を表現してもらった3. あ

                                                • コールセンターの担当者もSQLを叩く。モノタロウのデータドリブンな文化に惚れた|株式会社MonotaRO(モノタロウ)

                                                  ※本記事の内容は取材時のものであり、組織名や役職等は取材時点のものを掲載しております。 モノタロウの継続的なビジネス成長に伴い、月間セッション数や注文数は大幅な増加を続けています。指数関数的に増えるデータを扱いやすくするための技術的探求は尽きません。 なかでもデータハブの整理・構築を中心に技術開発・研究に携わるのが、エンジニアの中村さん(ECシステムエンジニアリング部門 EC基盤グループ コアロジックチーム)です。データ領域で「冒険したかった」という彼が、モノタロウを選んだ理由や技術的な面白さ、今後の展望について話を聞きました。 データが“いくらでも増え続ける”サービスでのチャレンジ ——はじめに、現在の業務について教えてください。 主にデータハブの整理や構築です。実際のデータからバッチ処理でデータを作り、API化していく手法を開発・研究しています。プラクティスを他の開発者に展開するなど、

                                                    コールセンターの担当者もSQLを叩く。モノタロウのデータドリブンな文化に惚れた|株式会社MonotaRO(モノタロウ)
                                                  • Dockerでデプロイ、60ノードまでスケールアウト、Sparkで分析  テラバイト・クラスの集計処理もあっさり返すdashDB LocalでDWHを構築する - はてなニュース

                                                    日本アイ・ビー・エム(以下、日本IBM)の「IBM dashDB Local」は、プライベートクラウド/ハイブリッドクラウドに最適な構成を持つデータウェアハウス(DWH)向けの製品である。Dockerコンテナとしてデプロイ、スケールアウト(規模拡大)でき、データ量や処理負荷の急増に柔軟に対応できる。インメモリの列指向データベースと並列処理により検索処理を高速に実行する。システムの成長に柔軟に対応できるライセンス体系を備えている。 構成はITジャーナリストの星 暁雄です。記事の最後にはプレゼントのお知らせもあります。 (※この記事は、日本アイ・ビー・エム株式会社提供によるPR記事です) ▽ IBM dashDB Local - ハイブリッド・データウェアハウスを実現する Software-Defined DWH - Japan プライベートクラウド上でソフトウェアで定義されたスケーラブルなデ

                                                      Dockerでデプロイ、60ノードまでスケールアウト、Sparkで分析  テラバイト・クラスの集計処理もあっさり返すdashDB LocalでDWHを構築する - はてなニュース
                                                    • まるで魔法のようなストレージエンジン??VP for MySQLによる驚愕のテーブル操作テクニック。

                                                      先日、SPIDERストレージエンジンについて2度に渡り本ブログで紹介した(その1:Not Only NoSQL!! 驚異的なまでにWRITE性能をスケールさせるSPIDERストレージエンジン、その2:快適スケールアウト生活への第一歩。SPIDERストレージエンジンを使ってみよう!)が、SPIDERの作者である斯波氏は、実はもう一つ驚くべきストレージエンジンを開発している。その名も、VPストレージエンジンだ。ちょっと地味な名前だが、VPとは、Vertical Partitioning(垂直パーティショニング)の略で、複数のテーブルの上にVPストレージエンジンを被せて、垂直パーティショニング(カラムごとにデータを格納する領域を分ける)を実現するというものだ。他のテーブルの上に被せるアーキテクチャをとっているという点では、VPとSPIDERの発想は同じである。以下は、VPストレージエンジンの動作

                                                        まるで魔法のようなストレージエンジン??VP for MySQLによる驚愕のテーブル操作テクニック。
                                                      • Data Platform Guide - 事業を成長させるデータ基盤を作るには #DataEngineeringStudy / 20200715

                                                        Data Engineering Study #1 の発表資料です。 https://forkwell.connpass.com/event/179786/ 当日の動画はYoutubeで閲覧可能です。 https://www.youtube.com/watch?v=hFYNuuAaiTg 参考文献 『Software Design (ソフトウェアデザイン) 2020年7月号』 https://amzn.to/30YueL7 『データマネジメントが30分でわかる本』 https://amzn.to/3fmz8Gw

                                                          Data Platform Guide - 事業を成長させるデータ基盤を作るには #DataEngineeringStudy / 20200715
                                                        • MonotaROのデータ基盤10年史(前編) - MonotaRO Tech Blog

                                                          おしらせ:12/23 に後編記事がでました! tech-blog.monotaro.com こんにちは、データ基盤グループの香川です。 現在モノタロウではBigQueryに社内のデータを集約し、データ基盤を構築しています。 およそ全従業員の6割が日々データ基盤を利用しており、利用方法や目的は多岐に渡ります。 データ基盤グループはこれまでデータ基盤システムの開発保守と利用者のサポートを主な業務として取り組んできましたが、これら多岐にわたる社内のデータ利用における課題の解決及びさらなるデータ活用の高度化を目的として、今年の5月よりデータ管理を専門に行う組織として新たに体制を再構築しました。 そこで改めて組織として取り組むべき課題や方向性を決めるために、まず自分たちの現在地を知ることが重要と考え、データ基盤の歴史を振り返り、社内のデータ活用における課題やそれを取り巻く状況がどう変わってきたのかを

                                                            MonotaROのデータ基盤10年史(前編) - MonotaRO Tech Blog
                                                          • データ基盤エンジニアの面白さ - 下町柚子黄昏記 by @yuzutas0

                                                            データ基盤エンジニアという仕事の魅力について、質問を受ける機会がありました。 何が魅力なのか。どういう面白さがあるのか。どこにモチベーションがあるのか。 せっかくなので自分なりに考えをまとめてみます。 5つの面白さ ざっくりまとめると、データ基盤エンジニア(あるいは:分析基盤エンジニア・データエンジニア)というのは、「主体的に働きやすく」「スキルを(伸ばし/広げ)やすく」「キャリアアップに繋げやすい」仕事だと思います。 1. データ活用担当への第一歩として データ分析や機械学習を仕事としてやりたい。だけど、職務経歴としてはアプリケーション開発やインフラに強みがある。 この立場の人がキャリアをピボットするための踊り場として、データ基盤の担当になることがあります。 持ち前のスキルを活かしてデータ基盤の構築・運用に関わるところから始めます。 データ仕様に詳しくなっていき、徐々に活用側へと染み出し

                                                              データ基盤エンジニアの面白さ - 下町柚子黄昏記 by @yuzutas0
                                                            • なぜETLではなくELTが流行ってきたのか - Qiita

                                                              概要 troccoの生みの親で、現プロダクト責任者をしている @hiro_koba_jp です。 troccoアドベントカレンダー2022の1記事目書いていきます!(みんなも参加してね) データ分析やデータエンジニアリングにおいてETL(Extract Transform Load)という言葉を耳にしたことがある方は多いのではないでしょうか? 一方、「ETLではなくELT(音楽グループではない)が主流になりつつある」といったような論調も増えてきました。 この記事では、ETLとELTの違いや、なぜELTにシフトしつつあるのか、この先どうなるのか(予想)について、私なりの見解を書いてみようと思います。 一昔前まではETLパターンが多かった Redshiftが登場した2013年頃、人々はデータレイク層はS3上で構築し、データウェアハウス層〜データマート層はRedshift上に組む人が多かったよう

                                                                なぜETLではなくELTが流行ってきたのか - Qiita
                                                              • SQLを使った監視でデータ基盤の品質を向上させる - MonotaRO Tech Blog

                                                                こんにちは、データ基盤グループの吉田(id:syou6162)です。データ基盤グループでは安定してデータを利用できるように様々な取り組みを行なっています。本エントリでは、データ品質に問題がある場合にすぐに気付けるようにしたSQLによる監視の仕組みを紹介します。 背景 SQLを使った監視基盤の構築 実際の監視項目例 他チームがdailyで転送しているデータがバッチの失敗により遅れていないか BigQueryのエラーレートが急激に増加していないか 承認済みビューの設定が意図せず消えていないか 今後の展望 背景 データ基盤の運用をしていると、日々様々なトラブルと向き合う必要があります。例えば、以下のようなものがあります。 他チームがdailyで転送しているデータがバッチの失敗により遅れている TerraformなどのIaCで承認済みビューの権限管理を行なっているが、コードの設定ミスで意図せぬ状態

                                                                  SQLを使った監視でデータ基盤の品質を向上させる - MonotaRO Tech Blog
                                                                • 第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −2nd Week−方法論・ソーシャル祭り− を開催しました - hamadakoichi blog

                                                                  2011/01/23 "第9回 データマイニング+WEB 勉強会@東京−2nd Week−方法論・ソーシャル祭り−"を開催しました。 第9回 データマイニング+WEB 勉強会@東京 ( TokyoWebmining 9)−2ndW−方法論・ソーシャル祭り−: ATND Google グループ ※会場参加者ID写真(id:bob3 さんに感謝) 1st Week内容まとめ: 第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −1st Week− 大規模解析・機械学習・クオンツ 祭り− を開催しました - hamadakoichi blog 会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思ってい

                                                                    第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −2nd Week−方法論・ソーシャル祭り− を開催しました - hamadakoichi blog
                                                                  • 並列データベースシステムの概念と原理

                                                                    2014/01/30 筑波大学情報システム特別講義Dの講義資料です。 join関係はNAIST時代の宮崎先生のデータ工学Ⅱの内容を参考にしてます。 animation有効なビデオはこちら https://vimeo.com/85598907

                                                                      並列データベースシステムの概念と原理
                                                                    • [速報]「Amazon Redshift Spectrum」発表。Amazon S3にデータを保存したまま複雑なクエリを高速で実行可能に。AWS Summit 2017 San Francisco

                                                                      [速報]「Amazon Redshift Spectrum」発表。Amazon S3にデータを保存したまま複雑なクエリを高速で実行可能に。AWS Summit 2017 San Francisco Amazon Web Servicesは、サンフランシスコでイベント「AWS Summit 2017 San Francisco」を開催。データウェアハウスの新サービス「Amazon Redshift Spectrum」を発表しました。 Amazon S3にデータを保存したままデータウェアハウスで分析可能 Amazon.com CTOのWerner Vogels氏。 多くの顧客で、ペタバイトから多い場合にはエクサバイトクラスの生データがAmazon S3に保存されており、これをAmazon Redshiftへ取り込むのは時間やコストの制約で難しいと考えられていると。 そこで「Amazon Red

                                                                        [速報]「Amazon Redshift Spectrum」発表。Amazon S3にデータを保存したまま複雑なクエリを高速で実行可能に。AWS Summit 2017 San Francisco
                                                                      • みんなのウェディングのデータ分析基盤の現状 — みんなのウェディングエンジニアリングブログ

                                                                        こんにちは、みんなのウェディングの小室 (id:hogelog) です。 今回はみんなのウェディングにおけるデータ分析基盤の現状についてご報告させていただきます。 三行まとめ 忙しい人のために先に結論を書くと bricolage と embulk で Redshift に集めて re:dash で分析 です。 データ収集 データ収集は bricolage のジョブネット機構を用いて bricolage の各種ジョブや embulk を連携させ、Redshift にデータを取り込んでいます。 参考までに https://github.com/hogelog/dwh-example に簡単な構成例を準備しました。 MySQL → Redshift みんなのウェディング http://www.mwed.jp/ のデータベースとしては MySQL を利用しています。 MySQL から Redshi

                                                                          みんなのウェディングのデータ分析基盤の現状 — みんなのウェディングエンジニアリングブログ
                                                                        • [レポート]みんなの考えた最強のデータアーキテクチャ #datatechjp | DevelopersIO

                                                                          さがらです。 11月8日20時~22時に、datatech-jp(データエンジニアリング関係のコミュニティ)主催でみんなの考えた最強のデータアーキテクチャというイベントが開催されました。 本記事はこのイベントのレポートブログとなります。 イベント概要 ※connpassより引用 datatech-jpで集ったデータエンジニアが、それぞれみんなの考えた最強のデータアーキテクチャを紹介し合うという夢のような企画が実現しました! たくさんの新しいプロダクトが群雄割拠する現在、モダンデータスタックなどという言葉も登場しています。 今こそ、どんなプロダクトを選び、どのようなデータ基盤を作れば、効率的にやりたいことが実現できるのか。 5人の猛者からおすすめの構成をご紹介いただきながら、参加者のみなさんとも一緒に考えていく時間としたいと思います。 おまけ:当イベントの応募者数 このイベントですが、なんと

                                                                            [レポート]みんなの考えた最強のデータアーキテクチャ #datatechjp | DevelopersIO
                                                                          • dbtで見やすいER図を生成する - yasuhisa's blog

                                                                            背景: dbtを使っていてもER図は欲しい! どうやってER図を生成するか どうやってER図を見やすくするか まとめ 背景: dbtを使っていてもER図は欲しい! dbtはモデル間のリネージなど可視化が得意なツールではありますが、万能なわけではありません。モデルの生成過程などはリネージで担保できますが、分析時に「どれとどのモデルがJOINできて、JOINする際のキーはこれを使って」というER図で扱うような可視化はディフォルトではできません。 DWHを作っている側からすると「このテーブルはあの辺のテーブルと一緒に使うと便利で、いつもあのキーでJOINして」というのが頭の中に入っていることが多いため、ER図がなくてもどうにかなることも多いでしょう。しかし、分析に慣れていない人や分析に慣れている人であっても、普段と異なるドメインのテーブルを触るときはER図が提供してくれる情報は有用です。ちなみに

                                                                              dbtで見やすいER図を生成する - yasuhisa's blog
                                                                            • Hadoop+Hive検証環境を構築してみる

                                                                              Hadoop+Hive検証環境を構築してみる:Hive――RDB使いのためのHadoopガイド(前編)(1/3 ページ) Hadoop HiveはHadoop上でSQLライクなクエリ操作が可能なDWH向けのプロダクトです。SQLに近い操作が可能なため、HBaseよりもデータベースに慣れ親しんだみなさんには使い勝手がいいかもしれません。本稿ではこのHiveの使い方とレビューを行っていきます。

                                                                                Hadoop+Hive検証環境を構築してみる
                                                                              • DMBOKを用いたアセスメントでデータマネジメントを加速させる - MonotaRO Tech Blog

                                                                                こんにちは、データ基盤グループの吉田(id:syou6162)です。データ基盤やデータマネジメントに興味を持たれている方はDMBOKを持っている / 読んだことがあるという方も多いのではないでしょうか。このエントリではDMBOK中に紹介されているデータマネジメント成熟度アセスメント(以下、アセスメントと省略)をモノタロウでどう活用しているかについて紹介します。 背景 初手: 自社のデータ基盤の歴史を振り返る アセスメントの実施 データ活用者 / システム提供者 / 意思決定者へのヒアリングの実施 アセスメントを実施した結果 最後に 背景 まず、モノタロウでなぜアセスメントを行なったかについて説明します。モノタロウは20年以上歴史のある企業であり、データ基盤自体も10年以上の歴史があります。単一事業ではあるものの、受注 / 売上 / 商品 / 在庫 / 顧客 / 行動履歴など、対象となるドメ

                                                                                  DMBOKを用いたアセスメントでデータマネジメントを加速させる - MonotaRO Tech Blog
                                                                                • 我が家の BigQuery による台所事情分析 - nownab.log

                                                                                  弊家では銀行やクレジットカードの明細を BigQuery に取り込んでダッシュボードを作ったりしています。 また、そのために作った BigQuery 向けの Go 製 ETL フレームワークを OSS として公開しました。 本記事ではざっくりどんなもんかを紹介して、どう作るのかを説明します。 Google Cloud Platform Advent Calendar 2020 の 13 日目の記事です。 Google Cloud Japan の Customer Engineer の Advent Calendar もぜひご覧ください。 TL; DR 明細が BigQuery にあると、可視化もできるしアラートも出せるし、まぁなんでもできて便利 銀行明細レベルのデータならほぼ無料で保存、ETL、分析できる ETL フレームワーク bqloader を OSS として公開したから使ってくれよ

                                                                                    我が家の BigQuery による台所事情分析 - nownab.log