[B! dwh] tgkのブックマーク

Apache Iceberg とは何か - 流沙河鎮

はじめに概要 Apache Iceberg(アイスバーグ)とは [重要] Icebergの本質はTable Specである Table Spec バージョン Icebergハンズオン Icebergの特徴同時書き込み時の整合性担保読み取り一貫性、Time Travelクエリ、Rollback Schema Evolution Hidden Partitioning Hidden Partitioningの種類時間 truncate[W] bucket[N] Partition Evolution Sort Order Evolution クエリ性能の最適化ユースケース Icebergのアーキテクチャ Iceberg Catalog Iceberg Catalogの選択肢 metadata layer metadata files manifest lists manifest f

tgk 2023/09/25

リンク

Apache Kafka が生まれた理由

今データを使って何かした方がいいと考えているお客様は多いのではないかと思います。Red Hat の金融セミナーでもこの手のお話があり、マネーソーの登壇者が以下の話をしていました。義務化されるものがある一方で、オープンバンキングを実装するための様々なアプローチがあるのですが、一貫したテーマが一つあることに気付きました。〜略〜今や誰もが同じデータへアクセスすることが可能で勘定系システムの中にある貴重なデータに基づいて活動できるのは私だけではありません。ではどうしたら差別化できるでしょうか。〜略〜その答えとは次のようなものです。データを使っていますぐ何かした方がよい。〜略〜データに基づく活動が次の未開拓領域です。 ETL を使っていたときの LinkedIn の課題前提 : アクテビティデータActivity data is one of the newer ingredients i

tgk 2021/01/03

「データを必要としているサービスにリアルタイムにデータを送る、これが Kafka の真骨頂になります」DWHはKafkaの1コンシューマという位置付け

dwh
kafka

リンク

ActiveRecordを使ってRedshiftから大量のデータを効率的に読み出す - クックパッド開発者ブログ

こんにちは、トレンド調査ラボの井上寛之（@inohiro）です。普段は、クックパッドの検索ログを基にした法人向けデータサービス「たべみる」の開発や、広告事業周辺のデータ分析などを担当しています。 Amazon Redshiftなどのデータベースに蓄積されたログなどの大量のデータに対して、日次や週次などの単位でバッチ処理を行っている方は多くいらっしゃると思います。ログなどを扱うバッチ処理では、処理対象が膨大であるとアプリケーションが使うメモリが増大し、枯渇してしまう恐れもあるため、データの扱いに気をつける必要があります。データベース内で完結するバッチ処理ならばそこまで気にする必要は無いかもしれませんが、外部のプログラムからデータを読み出して処理する場合は特に注意が必要です。そこで考えられる一つの工夫として、処理対象を分割して、繰り返して処理を行う方法が挙げられます。一般的な

tgk 2020/10/12

DWHでカーソル使っている例

dwh

リンク

データウェアハウス構築の秘訣（1）

時系列データの蓄積とスキーマ前回、「時系列に蓄積するとは？」および「どんなスキーマが適しているのか？」という見出しで書いた疑問に関しまして、この項で私の考えを述べさせていただこうと思います。時系列データの3通りの見方マスタデータのすべての変更履歴が蓄積されているとしたら、データはどのように見ることができるのか、このことを商品マスタの属性である「商品分類」を例にとって考えてみようと思います。たとえば商品の一つである『紙コップ』の分類が、時間の経過とともに「雑貨」→「紙容器」→「食器」と変化し、現在は「食器」として分類・集計されているとします。現時点において過去の一定期間を集計する場合、どのような集計が可能でしょうか。集計の仕方としては、次の3通りが考えられます。現在の分類「食器」で集計する。集計期間の終点の分類「紙容器」で集計する。「雑貨」の期間は雑貨として集計し、「紙容器」

tgk 2020/10/03

トランザクションにいつのマスタを適用するかについての3つの選択肢。1)最新 2)イベント発生時点のほかに 3)過去の任意の時点のマスタを適用する、という要件もある。月次集計ならその月末日のマスタを適用するなど

dwh

リンク

クックパッドのデータ活用基盤 - クックパッド開発者ブログ

インフラ部 & 技術部の青木峰郎です。クックパッドでは全社的にAmazon Redshiftを中心としたデータ活用基盤を構築しています。今日はその全体像についてお話ししたいと思います。データ活用基盤の全体像まず、以下にクックパッドのデータ活用基盤の全体像を示します。大きく分けると入力が2系統、内部処理が1系統、出力が3系統あります。入力はMySQLからのインポートとログのロードがあり、どちらも独自に構築したシステムで行われています。 DB内部のデータ処理はSQLバッチのみです。そして出力は管理画面やBIツールからのアクセスとバッチ処理によるエクスポートに大別できます。以下1つずつ説明していきましょう。入力その1: MySQLインポートシステム MySQLからRedshiftへのマスターテーブル取り込みにも独自のインポートシステムを使っています。このインポート処理には、つ

tgk 2020/01/04

dwh

リンク

データウェアハウス構築の秘訣（1）

前回は、私がデータウェアハウス構築の現場で実際に投げかけられた数々の疑問（質問）の中から代表的なものをいくつか紹介させていただきました。データウェアハウスの構築にも意外と難しい側面があることを多少なりともご理解いただけたのではないでしょうか。さて今回は、前回紹介しました疑問に対して「では、どうしたらよいのか」という私自身の考えを述べさせていただき、次回、データウェアハウスの構築ポイントを整理していきます。 2つの考え方があるデータウェアハウス・システムの構成データウェアハウス・システムの構成には、2つの考え方があります。 1つ目は、セントラルウェアハウスを構築し、そこに統合されたデータを活用するために目的別にデータマートを構築するという考え方です。この場合のデータマートは、セントラルウェアハウスのデータに依存することになるので、従属型データマートと呼ばれます。これに対し、セントラルウ

tgk 2019/03/20

「セントラルウェアハウスを(いきなり全体を作らずに)段階的に育てる」のがベストという意見

dwh

リンク

Amazon Redshiftへ継続的にデータをロードする際に気をつけること - クックパッド開発者ブログ

こんにちは、インフラ部データ基盤グループの小玉です。データ基盤グループでは、Amazon Redshift（以下、Redshift）へ継続的にデータをロードする仕組みを、約半年に渡り構築・運用してきました。この記事では、その中で学んだことを共有させて頂きます。弊社では情報系システムの一部に、AWSが提供するRedshiftという分散データベースを利用しています。情報系システムとは、データ分析を主な用途とするシステムのことです。なかでもRedshiftはSQLを使った大量データの高速な分析に最適化されているため、DWH（データウェアハウス）としての利用に適しています。 DWHの構築に必要なタスクとしては、データソースの特定、モデリング、データの抽出・変換・ロード(ETL)、クエリツールやBIツール導入、パフォーマンス・チューニング、メタデータの管理、バックアップ・リストアなど、があります

tgk 2016/10/05

"ELT"はETLのtypoではなかった。LoadしてからTransformする戦略を指す言葉らしい

dwh

リンク

象のジレンマ：データベースの未来はどうなる？

印刷するメールで送るテキスト HTML 電子書籍 PDF ダウンロードテキスト電子書籍 PDF クリップした記事をMyページから読むことができます 70歳を超えたMichael Stonebraker氏は気楽になってもよさそうなものだが、どうやらそうではないようだ。データベース研究のパイオニアである同氏は、いまだに週の大半をマサチューセッツ工科大学（MIT）で過ごし、残りの時間は自身で立ち上げたスタートアップ企業の仕事をしている。その上、同氏は最近、「現代のデータベースシステムの基盤となる概念や慣行に対して基礎的な貢献をした」として、毎年計算機科学に貢献した人物に与えられるチューリング賞を受賞したところだ。現在この賞はGoogleの協賛を受けており、受賞者には100万ドルの賞金が与えられる。過去の受賞者には、Alan Kay氏（オブジェクト指向プログラミングとSmalltalk

tgk 2015/05/01

「データベース市場は全体の3分の1の大きさの市場が2つと、12分の1の市場が4つに分かれます。そしてその中に、大手リレーショナルデータベースベンダーの現在の実装が特に有利になる市場は1つもありません」

rdb
dwh

リンク

Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita

「BigQueryは120億行を5秒でフルスキャン可能」は本当か？先日、kaheiさんがGoogle BigQuery（Googleクラウドの大規模クエリサービス）について、こんなエントリを書いていた。とにかくパフォーマンスがすごい。（Fluentd Meetupでの）プレゼン中のデモで、ディスクに収められた5億件のデータをSQLでフルスキャンするのに3秒しかかからない。9億件のデータを正規表現を含んだSQLでスキャンしても、7秒で終わる（これ、記憶がちょっとあいまい。もう少しかかったかも）。これには驚いた。佐藤さんがGoogleに入社して一番驚いた技術が、一般公開される前のBigQueryだったと言っていたが、その気持ちはわかる。 From Fluentd Meetupに行ってきましたこれを読んだ時、BigQueryの検索スピードについてちょっと補足したくなった。確かにFluent

tgk 2014/05/20

「BigQueryでは、ひとつひとつのクエリを実行するたびに数百台〜数千台のマシンが同時並列に検索を実行している」「インデックスは一切作らず、すべてフルスキャンで処理する」

dwh
cloud

リンク

［速報］Amazonクラウド、新サービス「Redshift」発表。データウェアハウスの価格破壊へ

Amazonクラウドを運営する米Amazon Web Services（AWS）は初めての大型カンファレンス「re:Invent」をラスベガスで開催。初日の基調講演で、クラウド上でデータウェアハウスを提供する新サービス「Redshift」を発表しました。基調講演では企業向けにクラウドの有効性を説くことに焦点が当てられ、そのハイライトがこのRedshiftの発表でした。Redshiftの発表はAWSにとって、企業向けクラウドサービスを充実させる点で非常に大きな一歩だといえます。従来のデータウェアハウスは高価で複雑 Amazon Web Services、シニアバイスプレジデント Andy Jassy氏。既存のデータウェアハウスは、高価な上に複雑だという問題を抱えている。ガートナーの調査によると、平均でデータウェアハウスあたり3人から4人のアドミニストレーターがいるという。この状況に対

tgk 2012/11/29

「大規模分散（MPP）アーキテクチャとカラム型データベースを採用しておりクエリは非常に高速で、スタンダードなPostgreSQLドライバやJDBC/ODBCに対応」

dwh
aws

リンク

IBM、データウェアハウジングのNetezzaを17億ドルで買収

米IBMは米国時間9月20日、データ分析大手の米Netezzaを買収することで両社が最終合意したと発表した。買収金額は1株当たり27ドル、総額は17億ドルとなる。取引はすべて現金で行い、2010年末までに買収手続きを完了する見込み。 Netezzaは売り上げや顧客情報といった各種データの分析を高度化するためデータウェアハウス（DWH）アプライアンスを手がける企業。同社のシステムは複雑なクエリを迅速に処理でき、従来のシステムに比べて10～100倍のパフォーマンスを実現できるとしている。米欧の証券取引所を運営するNYSE Euronextや米Time Warner、サッポロビール、英国のインターネット・サービス・プロバイダーVirgin Mediaなどが同社のシステムを採用している。買収手続き完了後、IBMはNetezzaの技術をInformation Managementソフトウエアに組み

tgk 2010/09/21

キッター!

dwh

リンク

“オペレーショナルBI”実現のために必要なこと――米インフォメーション・ビルダーズに聞く (1/2)

「オペレーショナルBI」という言葉をご存知だろうか。社内のさまざまなデータを集約・分析するBI（ビジネス・インテリジェンス）は、売上分析や業績管理などに使う一部の経営者層やアナリストのためのもの、というイメージが強かった。これを現場レベルのオペレーションに活用していこうという考え方が、オペレーショナルBIである。このオペレーショナルBIのコンセプトを3年前から打ち出しているのが、米インフォメーション・ビルダーズのBIスイート「WebFOCUS」（日本での販売元はアシスト）だ。今回は、来日した同社プロダクトマーケティング担当バイスプレジデントのケビン・クイン氏に、オペレーショナルBI実現のポイントとWebFOCUSの強みを聞いた。オペレーショナルBIは「プロセスフォーカスのBI」「現場のためのBI」といわれるオペレーショナルBI。そもそも、インフォメーション・ビルダーズが考えるオペレー

tgk 2010/07/14

dwh
bi

リンク

Greenplum's petabyte-scale database supports data warehouses, bi databases, and the data warehouse appliance with MapReduce

The faster, smarter petabyte-scale data warehouse for business intelligence using MapReduce.Greenplum is redefining the database for Petabyte-scale analytics at breakthrough speeds with MapReduce. Gain competitive advantage and extreme scalability at a lower cost, by managing all of your data on commodity hardware running the Greenplum database. Download the software or contact us for sales, supp

tgk 2010/06/17

dwh
bi

リンク

テラバイトのデータ | 構造化知識研究センター

テラバイトデータや構造化知識研究に関する過去の記事です。 1990年6月コンピューターの中央処理装置4台を並列的につなぎ、人間のように推理したり連想したりするコンピューターの模擬実験に、九州大学の研究グループが成功した。1991年度にも20台に増結する計画で、最終的には1万台をつなぎ、人間の思考そっくりの柔軟性に富んだコンピューターシステムを目指す。キャリアウーマン並みの有能秘書や、建物の形状を判断できる掃除ロボットの開発にもつながると期待されており「人工知能」開発競争に一石を投じそうだ。九州大学で実験に成功模擬実験を行ったのは、九大総合理工学研究科の雨宮真人教授（情報システム専攻）のグループ。雨宮教授らは、記憶した知識で推論や連想を行う人間の思考回路網に着目。「食物－果物－黄色－酸っぱい－レモン」など属性や因果関係でつながる情報を与えて連想ネットワークを構成。このネットワーク網をコ

tgk 2010/06/15

「どちらかに 1 がつけばもう一方のカラムは 0 となり、これによってデータサンプルが女性か男性かを理解できます。このような処理をデザインコード化と呼びます」

dwh

リンク

InfiniDB 1.0登場、高性能データウェアハウスをMySQLへ | エンタープライズ | マイコミジャーナル

Contributed by Calpont, InfiniDB Community Edition provides a scale-up analytics database engine for your data warehousing, business intelligence and read-intensive application needs. Calpontは1日(米国時間)、InfiniDBの最新版となるInfiniDB Community Edition 1.0を公開した。InfiniDBは列指向のデータベース。MySQLをベースプラットフォームとして採用し、MySQLのエンジンとして列指向データベース機能を提供する。性能的に大規模データからデータ分析目的での利用に適しており、データウェアハウスでの利用に向いている。 InfiniDBの特徴は次のとおり。大規模デ

tgk 2010/02/26

rdb
dwh

リンク

Oracle、「Exadata Version 2」を発表

Oracle、「Exadata Version 2」を発表：Sun Oracle Database Machine OracleがIBMに送った挑戦状の正体は、SSDを最大5Tバイト搭載できる“世界最速の”DWH、OLTPアプライアンス「Exadata Version 2」だった。

tgk 2009/11/19

何か安い

dwh

リンク

［Teradata PARTNERS 2008］「DWHで自販機の補充回数を1割減らせた」コカ・コーラウエストホールディングス

「DWHを使った自動販売機向けの販売支援システムにより、自販機への補充回数が10％削減できた」。ラスベガスで開催されている「Teradata PARTNERS 2008」においてコカ・コーラウエストホールディングス（CCWH）の中野規浩ビジネスシステムグループ担当マネジャーはこのように語った。コカ・コーラにおいて、各地域で製品の製造・販売を行う企業をボトラーと呼ぶ。「世界的には、1社のボトラーが何カ国かをまとめて見ているケースが多い」（中野マネジャー）。しかし日本は一つの国の中にボトラーが12社あるという特殊な状況だ。CCWHは12社のうちの1社であり、福岡県に本社を構え、大阪、京都など14府県でビジネスを展開している。そのような状況にかかわらずCCWHは、ワールドワイドのボトラーの中で売り上げが4位につけている。その大きな原動力となっているのは、中野マネジャーが「これだけの成功はほか

tgk 2009/11/16

リンク

広告システムエンジニアは絶対におもしろいと思う理由 - 最速配信研究会(@yamaz)

少し前からだけど,Cookpadやはてなが広告システムエンジニアを募集している. クックパッド｜採用情報: 【技術部】アドシステムエンジニア http://info.cookpad.com/?page_id=113 求人情報：広告システムエンジニア - はてな http://www.hatena.ne.jp/company/staff/accountengineer 私個人の経験から,オンライン広告システムというのは検索やインフラ系と並び,インターネット系のシステムの中でもっともエキサイティングな分野の一つだと思っている.それにもかかわらず,狙って応募してくる人はあまりおらず,いつもいつも悔しい思いをしてきていたので,広告システムがいかにおもしろいかをちょっと述べてみたいと思う. その会社で一番アクセスを受けるところなのでおもしろい. 広告システムはそのサイトの全サービス上に配信する必要が

tgk 2008/12/27

またオンラインメディアというのは「OneToOneターゲティング」を「リアルタイムレスポンス」で可能とする唯一のメディアであって,本来は究極

リンク

OracleのThe X―BIを超高速処理するハードウェア

印刷するメールで送るテキスト HTML 電子書籍 PDF ダウンロードテキスト電子書籍 PDF クリップした記事をMyページから読むことができます Oracle OpenWorld 2008のハイライト、Larry Ellison CEOのキーノートで、「The X」の正体が明らかになった。「Oracle Exadata Storage Server」―データウェアハウスのデータを蓄積し、分析処理を行うアプライアンスハードウェアだ。それもExtreme Performanceで。Oracle Databaseと組みあわせて使用する。発想としては単純、Oracle Database 10gからすでにあった機能と、同じくすでにあったハードウェアを組みあわせるというもの。また、同じような狙いの専用ハードウェアはすでに市場にも存在する。たとえば、NetezzaやTeradataがそうだ。