並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 2 件 / 2件

新着順 人気順

Deequの検索結果1 - 2 件 / 2件

  • データテストライブラリー「Deequ」を触ってみた - 終末 A.I.

    DeequはAWSがリリースしているデータテストを行うためのライブラリです(Deequの説明ではUnit Testと表現されています)。 ここで言うデータテストは、ETL処理やデータマート作成処理などの意図通り動いているどうか、取り込んだデータが昔と変化していないかを確認するための検証処理のことを指しています。 ETL処理などを最初に作成したタイミングでは、その処理が意図したものになっているか確認すると思います。一方で、日次のバッチ処理や、動き続けているストリーム処理について、本当に意図したようにデータが加工されているかどうかは、通常の方法では処理自体が成功したかどうかくらいしか確認するすべがありません。 しかし、日々のデータ処理は簡単に意図しないデータを生み出してしまう可能性があります。気づいたらデータの中身が変わっていて、変換処理が意図しない動作をしてしまっていたり、そもそもソースデー

      データテストライブラリー「Deequ」を触ってみた - 終末 A.I.
    • Amazon Deequを活用したデータ品質の計測

      本記事の背景 筆者は、普段、データエンジニアとしてデータパイプラインの構築やデータ管理を担当しています。最近は、チームからデータ不整合などデータ品質の問題が発生しているので改善したいと相談を受け、データガバナンス・データ管理の活動の1つとして、データ品質の計測と改善について、調査をしてきました。 その中で使い勝手の良さそうなOSSを2つほど見つけましたが、本記事では特にAWSを使っている人には始めやすいAmazon Deequを中心に計測のアプローチと本番環境の構築について紹介します。 そもそも品質とは何か?データ品質がなぜ重要か? Deequの詳細に入る前に、本調査のモチベーションとしてデータ品質の重要さについて説明します。 日本科学技練(品質管理の推進団体)のWebサイトによると品質の定義についてこう言及されています。 たとえばISO9000では「本来備わっている特性の集まりが要求事項

        Amazon Deequを活用したデータ品質の計測
      1