タグ

etlに関するtgkのブックマーク (8)

  • DBからの更新日時に基づく差分データ抽出 - Qiita

    (この方法は dbt のincremental modelsに関するドキュメントの models/stg_events.sql を参考にしています) この方法は差分データ抽出する際にデータソース側でデータ変更が発生していなければ概ね問題ないのですが(データソース側でレコードがDELETEされるケースを考慮しなければ)、データソース側でデータの追加・更新が発生している場合は、差分データを抽出し損ねる可能性があります。 例えば以下のようなケースです。 トランザクション①が購入ID=101のレコードをINSERTするが、何かの原因(別の処理をする、ネットワークで少し待たされるなど)でコミットはすぐにはされない。 トランザクション②が購入ID=102のレコードをINSERTし、すぐにコミットされる。 1回目の差分データ抽出の処理が動く。この時点で購入ID=102のレコードはコミット済みのため抽出さ

    DBからの更新日時に基づく差分データ抽出 - Qiita
    tgk
    tgk 2022/08/16
    「同じデータを2回抽出したくない」という縛りがあるときの抽出方法。当然難しい。抽出済みデータのmax(更新日時)を基準時刻として抽出する
  • Talend Business Community

    アイウェイズが運営するTalendユーザーのための「Talend Business Community

    tgk
    tgk 2013/06/11
  • http://www.talend-jp.com/

    tgk
    tgk 2013/03/19
    「Talend Open Studioとは商用でも無償利用が可能なオープンソース製品です」
  • ビッグデータガバナンスとメタデータ管理を成功させるためのTalendの5本の柱 - Talend Real-Time Open Source Data Integration Software

    Talend Data Fabric offers a single suite of cloud apps for data integration and data integrity to help enterprises collect, govern, transform, and share data.

    ビッグデータガバナンスとメタデータ管理を成功させるためのTalendの5本の柱 - Talend Real-Time Open Source Data Integration Software
    tgk
    tgk 2011/12/27
  • チュートリアル : ウィザードを使用した ODBC からフラット ファイルへのエクスポート

    MicrosoftIntegration Services では、SQL Server インポートおよびエクスポート ウィザードを使用すると、ソースからデータを抽出し、そのデータをエクスポート先に読み込むパッケージを簡単に作成できます。データ ソースとエクスポート先には、フラット ファイルから SQL Server データベースおよびカスタム ソースまで、どのようなものでも指定できます。このチュートリアルでは、SQL Server インポートおよびエクスポート ウィザードを使用して ODBC ソースからデータを抽出し、そのデータをテキスト ファイルに読み込む方法について説明します。 学習する内容 このチュートリアルでは、SQL Server インポートおよびエクスポート ウィザードを使用して、ODBC データ ソースからデータをエクスポートするパッケージを作成します。この ODBC データ

    チュートリアル : ウィザードを使用した ODBC からフラット ファイルへのエクスポート
    tgk
    tgk 2010/07/16
  • ExcelデータをOracleに格納する3つの手法

    主な内容 --Page 1-- ▼はじめに ▼ExcelOracleの連携パターン ▼SQL*Loaderを使用する方法 --Page 2-- ▼Oracle HTML DBを使用する方法 --Page 3-- Oracle Generic Connectivityを使用する方法 ▼まとめ OracleデータベースとExcelを組み合わせれば、Excelで入力したデータをOracleデータベースに格納したり、Oracleデータベース内のデータをExcelで参照、変更することができます。小規模なシステムでは、Excelをフロントアプリケーションとして使用することで、ユーザー・インターフェイスの開発を最小限に抑えられますし、利用する側も使い慣れたExcelのインターフェイスを使用できます。また、データ量や利用者数の拡大に伴い、データをExcelで管理するのが困難になることもあります。そのよう

    ExcelデータをOracleに格納する3つの手法
    tgk
    tgk 2009/09/15
  • 「郵便番号データの落とし穴」に落ちてしまいました。 - 日記

    いま、仕事郵便番号のデータをデータベースのテーブルに登録するツールを作成している。登録するデータは日郵便のサイトからダウンロードしてきたファイル(いわゆるKEN_ALL.CSV)を使用している。最初は 毎月1回、自動でダウンロード 圧縮ファイルを解凍 システムが必要とする項目だけを抜き出して別のCSVファイルに落としシェルか何かで適当にテーブルにインポートと思っていたが・・・。ダウンロードするのはいいが、ファイルのダウンロードが成功したか、途中で失敗したかどうやって判定したらいいのかわからない。md5のファイルなどが別途用意されていればいいが、当然、日郵便はそんな細かい仕事はやってくれない。 圧縮の形式がLZHはいかがなものか。zipじゃだめなの? データフォーマットがひどい。KEN_ALL.CSVのデータフォーマットのひどさについては、郵便番号データの落とし穴を参照なのだが、問題は

    tgk
    tgk 2009/05/18
  • 郵便番号データの落とし穴

    概要 MS-Access 上で郵便番号を住所変換するためには、住所入力支援機能が提供されている。 しかし、元になっている辞書ファイルのアップデートが遅れたり、用途に応じてカスタマイズするには限界があるなどの理由から、日郵政公社が配布している郵便番号データを利用して、オリジナルの郵便番号⇒住所変換機能を実装する方法も、広く知られている。 日郵政公社(執筆当時。現・郵便事業株式会社)が配布している郵便番号データは単純な CSV 形式のため、加工がしやすく、初・中級クラスの VBA の知識があれば簡単に応用が効く、というのが、私が見聞きした範囲での一般的な認知のようだ。 しかし最近になって、ふとしたことから実際にその CSV データを見る機会が有り、いくつかの疑問点・問題点が浮かび上がってきた。 はたして日郵政公社の CSV データは、当に使いやすいのだろうか? 仕様 まず、仕様を確認し

    tgk
    tgk 2009/05/18
  • 1