タグ

*dataとtestingに関するsh19910711のブックマーク (38)

  • Pyppeteer(with headless Chromium) + GitHub Actionsでoptuna-dashboardの継続的E2Eテスト - c-bata web

    以前 optuna-dashboard というWebツールを開発・公開しました。 もともと Goptuna のために実装したReact.js + TypeScript製のSPAのWebツールでしたが、Optunaでも使えるようにしたところ、周りでも使ってるよという声をいただくことが増えてきて、公式に利用が推奨されるようになりました。 Optuna v2.7.0 released, with new tutorials, examples, and code improvements! @c_bata_ has fully redesigned the dashboard. Try out the new version with `pip install optuna-dashboard` and then `optuna-dashboard $STORAGE_URL`!https://t

    Pyppeteer(with headless Chromium) + GitHub Actionsでoptuna-dashboardの継続的E2Eテスト - c-bata web
    sh19910711
    sh19910711 2024/05/26
    "Plotly.jsによるグラフ描画が主な処理になるため、ユニットテストで保証できる振る舞いはそれほど多くありません / Pyppeteerを使ってVisual regression testingのようなアプローチをとったのですが結構便利でやってよかった" 2021
  • ABテストツールは「数打ちゃ当たる」を機械化するためのツールではない - 絶倫ファクトリー

    タイトルが全てなんですけどね。 以下のような記事を見つけまして。 駄文:ABテストがモノづくりを破壊する | nekokak's blog いろいろと突っ込みどころはあるんですが、まず最初の「ABテストとは何か」が間違ってるんですよね。 ABテストって簡単に言うと2つ以上ある選択肢のうち一番良い結果を出すことのできるものを見つける事ですね。 もしこの記事を書いた方の組織がABテストをこのように捉えているなら、そりゃモノづくりもクソもあったもんじゃないよなと思います。 ABテストって、単に複数のクリエイティブから良いものを見つけ出す手法じゃないんです。 仮説を検証する行為なんです。テストなんですから。 単に複数のクリエイティブから良いものを見つけ出すなら、クリエイティブのパーツを機械的に作って、何千何万パターンと試せばいい。逆に言えば2つやそこらのパターン試しても意味ないです。数少なすぎ。

    ABテストツールは「数打ちゃ当たる」を機械化するためのツールではない - 絶倫ファクトリー
    sh19910711
    sh19910711 2024/05/13
    "事前のリサーチから得られた仮説を検証する / 仮説のあるテストならば、テスト結果が悪くても学びはあり + 良い仮説は良いテストを生み出し、良いテストは良い仮説を生み出します" 2015
  • Apache Beam Python SDK でパイプラインのテストコードを書く - public note

    sh19910711
    sh19910711 2024/05/01
    "Apache Beam: SDK には testing パッケージが用意 + パイプラインに対するテストコードを書けます / Beam パイプラインは、一般のコードと比較すると読んだだけでは挙動をイメージしにくい印象" 2023
  • Hadoop MapReduce向けテストライブラリ「Apache MRUnit 1.0」リリース | OSDN Magazine

    Apache Hadoop MapReduce向けユニットテストライブラリ「Apache MRUnit」の開発チームは4月15日、「Apache MRUnit 1.0.0」をリリースした。2012年5月にApacheのトップレベルプロジェクト(TLP)となって以来初のリリースとなる。 Apache MRUnitは、Javaで書かれたApache Hadoop MapReduceジョブのユニットテスト用ライブラリ。ソフトウェアテストを自動化することで、プロジェクトの品質や作業効率が改善すると言われている。2009年に開発がスタートし、2011年よりApache Software Foundation(ASF)のプロジェクトとして運営されている。 MRUnit 1.0は2012年5月に公開されたバージョン0.9以来のリリースとなる。新機能として、MapReduceのDistributedCac

    Hadoop MapReduce向けテストライブラリ「Apache MRUnit 1.0」リリース | OSDN Magazine
    sh19910711
    sh19910711 2024/04/23
    "Apache MRUnit: MapReduceジョブのユニットテスト用ライブラリ + 2012年5月にApacheのTLP / 2009年に開発がスタート + 2011年よりApache Software Foundation(ASF)のプロジェクトとして運営" 2013
  • Hadoopのテスト環境はどうやるのがいいのか?

    御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1 Hadoopで真に大事なのは、テスト環境だったりする。基的に分散環境が前提になるので、どのレベルまでが単体テストなのか?どの程度までローカルでテストできなくてはいけないのか?というのは常に問題になるわけで。その意味ではCI含めた開発環境の重要性は以前よりも高いな、と今日思った。 2011-06-21 00:50:47 御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1 HadoopのOS化ってのは一つの流れだとは思うけど、その場合、その上位のDSLが開発環境になるわけで。では、そのDSLにどこまで、どのようなテスト実行環境があるの?ってのは、やっぱり重要で。そもそも「プラットフォーム」って何って考えるところまで行く

    Hadoopのテスト環境はどうやるのがいいのか?
    sh19910711
    sh19910711 2023/02/04
    2011 / "どのレベルまでが単体テストなのか?どの程度までローカルでテストできなくてはいけないのか?というのは常に問題になる / 現状のままでは駄目駄目感が強い + usecaseがBIに限定されすぎているせいもある"
  • Notion – The all-in-one workspace for your notes, tasks, wikis, and databases.

    A new tool that blends your everyday work apps into one. It's the all-in-one workspace for you and your team

    Notion – The all-in-one workspace for your notes, tasks, wikis, and databases.
    sh19910711
    sh19910711 2022/12/21
    "好きなスーパーはライフ / dbt-datamocktoolと呼ばれるモデル処理時にrefを任意に切り替えて実行し、実行結果を特定のモデルのデータと比較して評価テストしてくれるパッケージが存在"
  • データテストライブラリー「Deequ」を触ってみた - 終末 A.I.

    DeequはAWSがリリースしているデータテストを行うためのライブラリです(Deequの説明ではUnit Testと表現されています)。 ここで言うデータテストは、ETL処理やデータマート作成処理などの意図通り動いているどうか、取り込んだデータが昔と変化していないかを確認するための検証処理のことを指しています。 ETL処理などを最初に作成したタイミングでは、その処理が意図したものになっているか確認すると思います。一方で、日次のバッチ処理や、動き続けているストリーム処理について、当に意図したようにデータが加工されているかどうかは、通常の方法では処理自体が成功したかどうかくらいしか確認するすべがありません。 しかし、日々のデータ処理は簡単に意図しないデータを生み出してしまう可能性があります。気づいたらデータの中身が変わっていて、変換処理が意図しない動作をしてしまっていたり、そもそもソースデー

    データテストライブラリー「Deequ」を触ってみた - 終末 A.I.
    sh19910711
    sh19910711 2022/12/05
    2021 / "Deequ: データテストを簡単に実施できるようにするためのScala製ライブラリです。PythonラッパーであるPyDeequもあります / AnomalyDetectionという、過去のデータの状態も参照してテストするための処理も組み込まれている"
  • AI・機械学習チームでのインターンでBigQueryのローカルテスト基盤を作った話 - エムスリーテックブログ

    こんにちは、10月後半の2週間、エムスリーのAI機械学習チームでインターンをしていた後藤です。 今回は私の行ったタスクと、インターン生からみてエムスリーはどのような会社なのかについて書いていこうと思います。 他の学生の方々のインターン選びやBigQueryのテスト手法に悩んでいるエンジニアの方々の参考になれば幸いです。 BigQueryのローカルテスト基盤を作った話 背景 BigQuery Emulatorの登場 bqemulatormanagerの作成 スキーマの自動取得 並列処理への対応 テストコードの導入 BigQuery Emulatorを使用する際に気をつけるべきポイント インターンの話 進め方について AI機械学習チームについて 終わりに BigQueryのローカルテスト基盤を作った話 背景 AI機械学習チームでは、BigQueryに日々蓄積されている大規模データから所望

    AI・機械学習チームでのインターンでBigQueryのローカルテスト基盤を作った話 - エムスリーテックブログ
    sh19910711
    sh19910711 2022/10/31
    便利そう / "BigQuery Emulator: 2022年の6月に公開 + このソフトウェアを用いることでBigQueryとの通信を含むロジックをローカル環境でテストできるように / Pythonから扱えるようラップしたbqemulatormanagerというライブラリを開発"
  • OSS 版 Spectacles を使って、LookML の data tests や validation などを GitHub Actions で継続的に実行させてみた - Feedforce Developer Blog

    こんにちは。自称 Looker エバンジェリストの id:masutaka26 です。 今日は Spectacles というツールを導入して、Looker インスタンスの健全性を高められた話を紹介します。 Spectacles とは 4 種類のテスト 基的な振る舞い どのテストを採用し、どのような課題を解決したのか SQL validation Assert validation Content validation LookML validation どのような GitHub Actions にしたのか CI workflow Schedule workflow 落ち穂拾い 作業ブランチのゴミが残ることがある マシンユーザーを作るか作らないか まとめ Spectacles とは Spectacles は Looker のサードパーティ CI ツールです。継続的に各種テストを実行し、Lo

    OSS 版 Spectacles を使って、LookML の data tests や validation などを GitHub Actions で継続的に実行させてみた - Feedforce Developer Blog
    sh19910711
    sh19910711 2022/09/16
    "Looker API を使用し、指定した Looker インスタンス上で、LookML data tests や validation などを実行 / 外部テーブルに Google スプレッドシートを指定したテーブル: オペミスにより壊れる / Developer 相当の権限が必要"
  • RSpec実行時のレポート情報をクエリで可視化する - 食べチョク開発者ブログ

    どうもはじめまして。 muryoimpl です。 前回のエントリ べチョクの自動テスト改善活動 〜これまでとこれから〜 で、自動テスト改善チームが発足したことを書きましたが、今回はその活動の中で実施した、RSpec による自動テストのカバレッジのデータ収集の自動化と、そのデータを利用した可視化について書きたいと思います。 これまではどう可視化していたか べチョクは Ruby on Rails で動いており、バックエンドの自動テストは RSpec を使って書いています。 テストカバレッジは定番の SimpleCov で計測して結果を HTML に出力し、テストケースごとの実行情報は RSpec JUnit Formatter を使って XML として出力して、GitHub Actions でそれらの情報を Code Climate に送信していました。 また、可視化という点では、以前ビビ

    RSpec実行時のレポート情報をクエリで可視化する - 食べチョク開発者ブログ
    sh19910711
    sh19910711 2022/09/03
    "GitHub Actions でテストが実行されたら、SimpleCov で算出したテストカバレッジの情報をCSV化し、BigQuery に送信 / Redash と連携して現状を可視化、分析 / テスト追加による成果の認知が容易になりました"
  • SodaSQLを使ってBigQueryのデータをテストする

    これは何か SodaSQLを触ってみて、BigQuery上のデータのテストを実行してみたので、所感を書いてみる。 sodaSQLとは データ品質監視のためのツール。 公式ページのコンセプトを見た感じ、データの品質維持を行うためには、カタログ化・テスト・モニタリング・プロファイリングを行った上で、observabilityを保つ必要があるが、SodaSQLはそれらを行う機能を提供してくれるらしい。 CLI版とマネージドのCloud版がある。 準備 開発環境準備 soda SQLを実行する環境を準備する。 FROM python:3.8-slim RUN pip install --upgrade pip && pip install soda-sql-bigquery RUN apt-get -y update && apt-get install -y vim nano CMD ["/bi

    SodaSQLを使ってBigQueryのデータをテストする
    sh19910711
    sh19910711 2022/09/01
    "Great Expectations: 高機能だが癖が強く取っ付きづらい / SodaSQL: シンプルかつライト / PrefectやAirflowなどのオーケストラレーションツールを使ってSodaSQLを実行し、出力結果を受けて通知を出したりは簡単にできそう"
  • Elasticsearch の検索精度のチューニング 〜テストを作って高速かつ安全に〜

    MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...NTT DATA Technology & Innovation

    Elasticsearch の検索精度のチューニング 〜テストを作って高速かつ安全に〜
    sh19910711
    sh19910711 2022/08/26
    "検索精度: テストする機構がない + デグレが発生しても見落とす + 昔のインデクス、クエリでどのようなランキングが出力されていたのか分からない / Ranking Evaluation API: ランキングがどの程度期待したものかを計算"
  • Great Expectationsを用いたデータ品質テストがdbt上で行えるpackage「dbt_expectations」を試してみた #dbt | DevelopersIO

    Great Expectationsを用いたデータ品質テストがdbt上で行えるpackage「dbt_expectations」を試してみた #dbt さがらです。 Great Expectationsを用いたデータ品質テストがdbt上で行えるpackage「dbt_expectations」を試してみたので、その内容をまとめてみます。 dbt_expectationsとは dbt_expectationsに関する情報は、下記ページにまとまっております。 このページの説明を見ると、このように書いてあります。 dbt-expectations is an extension package for dbt, inspired by the Great Expectations package for Python. The intent is to allow dbt users to de

    Great Expectationsを用いたデータ品質テストがdbt上で行えるpackage「dbt_expectations」を試してみた #dbt | DevelopersIO
    sh19910711
    sh19910711 2022/08/09
    "稼働中のデータ基盤で異常値がないかを確認するテスト: dbt_expectationsの統計値や集計値を用いたり、カラム間の値の関係性を用いたテストが向いている / Great Expectations: 内容をドキュメント化する機能があります"
  • Unit testing your dbt package

    We are all seeing the rapid growth of dbt’s popularity today. The number of users and the size of its community is on the rise. There are various aspects of dbt which attract experts in the data world. I love all of the features of dbt too. Specifically, I love dbt packages, because it makes it easy to extend dbt’s functionality. Moreover, we can reuse dbt packages which others developed, finding

    Unit testing your dbt package
    sh19910711
    sh19910711 2022/07/12
    ユニットテストを実行するマクロを定義してdbt run-operationで叩く。テスト用のマクロでもadapter.dispatchを使うと環境別のテストを見通しよく管理できるっぽい
  • 自社プロダクトのデータ基盤における BigQuery SQLテストシステムについて - Platinum Data Blog by BrainPad

    「データ活用をより多くの人が、より効率的に実施できるようになる取り組み」をエンジニア観点から自発的に実施するカルチャーを持つ、自社開発プロダクト「Rtoaster(アールトースター)」のエンジニアチーム。今回は、データ基盤チームで作成した BigQuery でのテストシステムを紹介します! こんにちは、プロダクトビジネス部開発部の柴内(データ基盤チーム)です。今回は、自社製品である「Rtoaster」プロダクトのデータ基盤チームで作成した BigQuery でのテストシステムについてご紹介します。 背景 データ基盤チームでは、 Rtoaster製品からリアルタイムに連携される、WebやアプリのトラッキングといったデータをGCSや BigQuery に蓄積するデータレイク データレイクにあるデータを BigQuery で加工・変換して利用しやすい形式にしたデータマートやデータウェアハウス

    自社プロダクトのデータ基盤における BigQuery SQLテストシステムについて - Platinum Data Blog by BrainPad
    sh19910711
    sh19910711 2022/07/07
    ジェネレータとCTEの繋ぎこみ良さそう👀 / "SQLで厄介なのはNULLが原因で実行時エラーとなることがほとんどなく、バグがあること自体に気付きにくい / クラスで定義されたテストケースから検査用SQLクエリを生成"
  • DBTest '22でトレジャーデータでのTrinoのアップグレードに関する発表をさせていただきました - たけぞう瀕死ブログ

    今週SIGMODと併催でフィラデルフィアで開催されたDBTest '22というワークショップでトレジャーデータでのTrinoのアップグレード時のテストに関する発表をさせていただきました(自分はリモートで発表させていただきました)。 .@takezoen from @TreasureData is giving the first talk of the day at @Dbtest_io on "Journey of Migrating Millions of Queries on The Cloud" pic.twitter.com/D7zenrHaOI— Manuel Rigger (@RiggerManuel) June 17, 2022 内容的には以前Presto Conference 2020でお話しさせていただいたものとほぼ同様ですが、今回は新たに執筆した以下の論文を元にした発

    DBTest '22でトレジャーデータでのTrinoのアップグレードに関する発表をさせていただきました - たけぞう瀕死ブログ
    sh19910711
    sh19910711 2022/06/20
    "データベースのテスト: ニッチな領域かと思いますが、ベンダ各社からも論文が出ていたり、DBTestのような国際的なワークショップも存在 / 『Journey of Migrating Millions of Queries on The Cloud』"
  • LT「データまえしょりすとのためのpytest入門」@みんなのPython勉強会#46

    Bokeh & Dash Cytoscape 〜 Pythonによるインタラクティブなネットワーク可視化ライブラリの比較 / PyConJP2021

    LT「データまえしょりすとのためのpytest入門」@みんなのPython勉強会#46
    sh19910711
    sh19910711 2022/06/19
    2019 / "pandas.testingモジュール / pandasのテストコード自体がサンプルとして参考になる / 泥臭い前処理のコードは、仕様も泥臭くなりやすい / PyCon US 2019のトーク: テストにおけるデータ系特有の問題に触れ"
  • SQLをテストする簡単なフレームワークを作ってみた - Qiita

    概要 前職ではしばしば複雑なSQLを書く必要があり、「そのSQLが間違っていないことをどう確認したらよいのか?」と悩むことがあった(特に分析用のSQLが長くなりがちだった)。そんな課題感から、SQLをテストするフレームワークをさくっと作ったので紹介する。 このツールを使うと「まずテストを書く→テストを通過するSQLを書く」というテスト駆動のコーディングも可能になるので、tdsql(Test Driven SQL)という名称にした。GitHubはこちら。 特徴 SQLの任意の部分を置き換えて最終的な結果が意図通りかテストできる テストはyamlで記載する 「from句など入力部分を置き換えて出力が意図通りか確認する」というのが典型的な使い方になるかと。 使い方 現状BigQueryしか対応していないため、BigQueryの前提で書く。 インストール pipで簡単にインストールできる。Pyth

    SQLをテストする簡単なフレームワークを作ってみた - Qiita
    sh19910711
    sh19910711 2022/05/30
    需要あると思うし、自信もって開発進めてほしい :-) / "tdsql(Test Driven SQL) / 置換する場所を-- tdsql-xxx:から始まるSQLのコメントで指定 / どのように置換するか&最終的に期待される結果はyamlファイルに記載"
  • dbt (data build tool) を使ってデータをテストする - CUBE SUGAR CONTAINER

    ソフトウェアエンジニアリングの世界では、自動化されたテストを使ってコードの振る舞いを検証するのが当たり前になっている。 同じように、データエンジニアリングの世界でも、自動化されたテストを使ってデータの振る舞いを検証するのが望ましい。 データをテストするのに使える OSS のフレームワークも、いくつか存在する。 今回は、その中でも dbt (data build tool) を使ってデータをテストする方法について見ていく。 dbt 自体はデータのテストを主目的としたツールではないものの、テストに関する機能も備えている。 また、dbt には WebUI を備えたマネージドサービスとしての dbt Cloud と、CLI で操作するスタンドアロン版の dbt Core がある。 今回扱うのは後者の dbt Core になる。 使った環境は次のとおり。 $ sw_vers ProductName:

    dbt (data build tool) を使ってデータをテストする - CUBE SUGAR CONTAINER
  • 🏄 BigQuery Standard SQL をローカルで実行してみた · Issue #4 · sh19910711/test

    sh19910711
    sh19910711 2021/12/10
    BigQuery Advent Calendar 2021(10日目)の記事を公開しました!google/zetasql を利用してクエリのローカル実行やテストができるツールを作ってみた話です