[B! *data][testing] sh19910711のブックマーク

Pyppeteer(with headless Chromium) + GitHub Actionsでoptuna-dashboardの継続的E2Eテスト - c-bata web

以前 optuna-dashboard というWebツールを開発・公開しました。もともと Goptuna のために実装したReact.js + TypeScript製のSPAのWebツールでしたが、Optunaでも使えるようにしたところ、周りでも使ってるよという声をいただくことが増えてきて、公式に利用が推奨されるようになりました。 Optuna v2.7.0 released, with new tutorials, examples, and code improvements! @c_bata_ has fully redesigned the dashboard. Try out the new version with `pip install optuna-dashboard` and then `optuna-dashboard $STORAGE_URL`!https://t

sh19910711 2024/05/26

"Plotly.jsによるグラフ描画が主な処理になるため、ユニットテストで保証できる振る舞いはそれほど多くありません / Pyppeteerを使ってVisual regression testingのようなアプローチをとったのですが結構便利でやってよかった" 2021

リンク

ABテストツールは「数打ちゃ当たる」を機械化するためのツールではない - 絶倫ファクトリー

タイトルが全てなんですけどね。以下のような記事を見つけまして。駄文：ABテストがモノづくりを破壊する | nekokak's blog いろいろと突っ込みどころはあるんですが、まず最初の「ABテストとは何か」が間違ってるんですよね。 ABテストって簡単に言うと２つ以上ある選択肢のうち一番良い結果を出すことのできるものを見つける事ですね。もしこの記事を書いた方の組織がABテストをこのように捉えているなら、そりゃモノづくりもクソもあったもんじゃないよなと思います。 ABテストって、単に複数のクリエイティブから良いものを見つけ出す手法じゃないんです。仮説を検証する行為なんです。テストなんですから。単に複数のクリエイティブから良いものを見つけ出すなら、クリエイティブのパーツを機械的に作って、何千何万パターンと試せばいい。逆に言えば２つやそこらのパターン試しても意味ないです。数少なすぎ。

sh19910711 2024/05/13

"事前のリサーチから得られた仮説を検証する / 仮説のあるテストならば、テスト結果が悪くても学びはあり + 良い仮説は良いテストを生み出し、良いテストは良い仮説を生み出します" 2015

リンク

Apache Beam Python SDK でパイプラインのテストコードを書く - public note

sh19910711 2024/05/01

"Apache Beam: SDK には testing パッケージが用意 + パイプラインに対するテストコードを書けます / Beam パイプラインは、一般のコードと比較すると読んだだけでは挙動をイメージしにくい印象" 2023

リンク

Hadoop MapReduce向けテストライブラリ「Apache MRUnit 1.0」リリース | OSDN Magazine

Apache Hadoop MapReduce向けユニットテストライブラリ「Apache MRUnit」の開発チームは4月15日、「Apache MRUnit 1.0.0」をリリースした。2012年5月にApacheのトップレベルプロジェクト（TLP）となって以来初のリリースとなる。 Apache MRUnitは、Javaで書かれたApache Hadoop MapReduceジョブのユニットテスト用ライブラリ。ソフトウェアテストを自動化することで、プロジェクトの品質や作業効率が改善すると言われている。2009年に開発がスタートし、2011年よりApache Software Foundation（ASF）のプロジェクトとして運営されている。 MRUnit 1.0は2012年5月に公開されたバージョン0.9以来のリリースとなる。新機能として、MapReduceのDistributedCac

sh19910711 2024/04/23

"Apache MRUnit: MapReduceジョブのユニットテスト用ライブラリ + 2012年5月にApacheのTLP / 2009年に開発がスタート + 2011年よりApache Software Foundation（ASF）のプロジェクトとして運営" 2013

リンク

Hadoopのテスト環境はどうやるのがいいのか？

御徒町＠MultiVersionConcurrentClimber(MVCC) @okachimachiorz1 Hadoopで真に大事なのは、テスト環境だったりする。基本的に分散環境が前提になるので、どのレベルまでが単体テストなのか？どの程度までローカルでテストできなくてはいけないのか？というのは常に問題になるわけで。その意味ではCI含めた開発環境の重要性は以前よりも高いな、と今日思った。 2011-06-21 00:50:47 御徒町＠MultiVersionConcurrentClimber(MVCC) @okachimachiorz1 HadoopのOS化ってのは一つの流れだとは思うけど、その場合、その上位のDSLが開発環境になるわけで。では、そのDSLにどこまで、どのようなテスト実行環境があるの？ってのは、やっぱり重要で。そもそも「プラットフォーム」って何って考えるところまで行く

sh19910711 2023/02/04

2011 / "どのレベルまでが単体テストなのか？どの程度までローカルでテストできなくてはいけないのか？というのは常に問題になる / 現状のままでは駄目駄目感が強い + usecaseがBIに限定されすぎているせいもある"

リンク

Notion – The all-in-one workspace for your notes, tasks, wikis, and databases.

A new tool that blends your everyday work apps into one. It's the all-in-one workspace for you and your team

sh19910711 2022/12/21

"好きなスーパーはライフ / dbt-datamocktoolと呼ばれるモデル処理時にrefを任意に切り替えて実行し、実行結果を特定のモデルのデータと比較して評価テストしてくれるパッケージが存在"

リンク

データテストライブラリー「Deequ」を触ってみた - 終末 A.I.

DeequはAWSがリリースしているデータテストを行うためのライブラリです（Deequの説明ではUnit Testと表現されています）。ここで言うデータテストは、ETL処理やデータマート作成処理などの意図通り動いているどうか、取り込んだデータが昔と変化していないかを確認するための検証処理のことを指しています。 ETL処理などを最初に作成したタイミングでは、その処理が意図したものになっているか確認すると思います。一方で、日次のバッチ処理や、動き続けているストリーム処理について、本当に意図したようにデータが加工されているかどうかは、通常の方法では処理自体が成功したかどうかくらいしか確認するすべがありません。しかし、日々のデータ処理は簡単に意図しないデータを生み出してしまう可能性があります。気づいたらデータの中身が変わっていて、変換処理が意図しない動作をしてしまっていたり、そもそもソースデー

sh19910711 2022/12/05

2021 / "Deequ: データテストを簡単に実施できるようにするためのScala製ライブラリです。PythonラッパーであるPyDeequもあります / AnomalyDetectionという、過去のデータの状態も参照してテストするための処理も組み込まれている"

リンク

AI・機械学習チームでのインターンでBigQueryのローカルテスト基盤を作った話 - エムスリーテックブログ

こんにちは、10月後半の2週間、エムスリーのAI・機械学習チームでインターンをしていた後藤です。今回は私の行ったタスクと、インターン生からみてエムスリーはどのような会社なのかについて書いていこうと思います。他の学生の方々のインターン選びやBigQueryのテスト手法に悩んでいるエンジニアの方々の参考になれば幸いです。 BigQueryのローカルテスト基盤を作った話背景 BigQuery Emulatorの登場 bqemulatormanagerの作成スキーマの自動取得並列処理への対応テストコードの導入 BigQuery Emulatorを使用する際に気をつけるべきポイントインターンの話進め方について AI・機械学習チームについて終わりに BigQueryのローカルテスト基盤を作った話背景 AI・機械学習チームでは、BigQueryに日々蓄積されている大規模データから所望

sh19910711 2022/10/31

便利そう / "BigQuery Emulator: 2022年の6月に公開 + このソフトウェアを用いることでBigQueryとの通信を含むロジックをローカル環境でテストできるように / Pythonから扱えるようラップしたbqemulatormanagerというライブラリを開発"

リンク

OSS 版 Spectacles を使って、LookML の data tests や validation などを GitHub Actions で継続的に実行させてみた - Feedforce Developer Blog

こんにちは。自称 Looker エバンジェリストの id:masutaka26 です。今日は Spectacles というツールを導入して、Looker インスタンスの健全性を高められた話を紹介します。 Spectacles とは 4 種類のテスト基本的な振る舞いどのテストを採用し、どのような課題を解決したのか SQL validation Assert validation Content validation LookML validation どのような GitHub Actions にしたのか CI workflow Schedule workflow 落ち穂拾い作業ブランチのゴミが残ることがあるマシンユーザーを作るか作らないかまとめ Spectacles とは Spectacles は Looker のサードパーティ CI ツールです。継続的に各種テストを実行し、Lo

sh19910711 2022/09/16

"Looker API を使用し、指定した Looker インスタンス上で、LookML data tests や validation などを実行 / 外部テーブルに Google スプレッドシートを指定したテーブル: オペミスにより壊れる / Developer 相当の権限が必要"

リンク

RSpec実行時のレポート情報をクエリで可視化する - 食べチョク開発者ブログ

どうもはじめまして。 muryoimpl です。前回のエントリ食べチョクの自動テスト改善活動〜これまでとこれから〜で、自動テスト改善チームが発足したことを書きましたが、今回はその活動の中で実施した、RSpec による自動テストのカバレッジのデータ収集の自動化と、そのデータを利用した可視化について書きたいと思います。これまではどう可視化していたか食べチョクは Ruby on Rails で動いており、バックエンドの自動テストは RSpec を使って書いています。テストカバレッジは定番の SimpleCov で計測して結果を HTML に出力し、テストケースごとの実行情報は RSpec JUnit Formatter を使って XML として出力して、GitHub Actions でそれらの情報を Code Climate に送信していました。また、可視化という点では、以前ビビ

sh19910711 2022/09/03

"GitHub Actions でテストが実行されたら、SimpleCov で算出したテストカバレッジの情報をCSV化し、BigQuery に送信 / Redash と連携して現状を可視化、分析 / テスト追加による成果の認知が容易になりました"

リンク

SodaSQLを使ってBigQueryのデータをテストする

これは何か SodaSQLを触ってみて、BigQuery上のデータのテストを実行してみたので、所感を書いてみる。 sodaSQLとはデータ品質監視のためのツール。公式ページのコンセプトを見た感じ、データの品質維持を行うためには、カタログ化・テスト・モニタリング・プロファイリングを行った上で、observabilityを保つ必要があるが、SodaSQLはそれらを行う機能を提供してくれるらしい。 CLI版とマネージドのCloud版がある。準備開発環境準備 soda SQLを実行する環境を準備する。 FROM python:3.8-slim RUN pip install --upgrade pip && pip install soda-sql-bigquery RUN apt-get -y update && apt-get install -y vim nano CMD ["/bi

sh19910711 2022/09/01

"Great Expectations: 高機能だが癖が強く取っ付きづらい / SodaSQL: シンプルかつライト / PrefectやAirflowなどのオーケストラレーションツールを使ってSodaSQLを実行し、出力結果を受けて通知を出したりは簡単にできそう"

リンク

Elasticsearch の検索精度のチューニング〜テストを作って高速かつ安全に〜

MLOps に基づく AI/ML 実運用最前線～画像、動画データにおける MLOps 事例のご紹介～（映像情報メディア学会2021年冬季大会企画セッショ...NTT DATA Techno logy & Innovation

sh19910711 2022/08/26

"検索精度: テストする機構がない + デグレが発生しても見落とす + 昔のインデクス、クエリでどのようなランキングが出力されていたのか分からない / Ranking Evaluation API: ランキングがどの程度期待したものかを計算"

リンク

Great Expectationsを用いたデータ品質テストがdbt上で行えるpackage「dbt_expectations」を試してみた #dbt | DevelopersIO

Great Expectationsを用いたデータ品質テストがdbt上で行えるpackage「dbt_expectations」を試してみた #dbt さがらです。 Great Expectationsを用いたデータ品質テストがdbt上で行えるpackage「dbt_expectations」を試してみたので、その内容をまとめてみます。 dbt_expectationsとは dbt_expectationsに関する情報は、下記ページにまとまっております。このページの説明を見ると、このように書いてあります。 dbt-expectations is an extension package for dbt, inspired by the Great Expectations package for Python. The intent is to allow dbt users to de

sh19910711 2022/08/09

"稼働中のデータ基盤で異常値がないかを確認するテスト: dbt_expectationsの統計値や集計値を用いたり、カラム間の値の関係性を用いたテストが向いている / Great Expectations: 内容をドキュメント化する機能があります"

リンク

Unit testing your dbt package

We are all seeing the rapid growth of dbt’s popularity today. The number of users and the size of its community is on the rise. There are various aspects of dbt which attract experts in the data world. I love all of the features of dbt too. Specifically, I love dbt packages, because it makes it easy to extend dbt’s functionality. Moreover, we can reuse dbt packages which others developed, finding

sh19910711 2022/07/12

ユニットテストを実行するマクロを定義してdbt run-operationで叩く。テスト用のマクロでもadapter.dispatchを使うと環境別のテストを見通しよく管理できるっぽい

リンク

自社プロダクトのデータ基盤における BigQuery SQLテストシステムについて - Platinum Data Blog by BrainPad

「データ活用をより多くの人が、より効率的に実施できるようになる取り組み」をエンジニア観点から自発的に実施するカルチャーを持つ、自社開発プロダクト「Rtoaster（アールトースター）」のエンジニアチーム。今回は、データ基盤チームで作成した BigQuery でのテストシステムを紹介します！こんにちは、プロダクトビジネス本部開発部の柴内（データ基盤チーム）です。今回は、自社製品である「Rtoaster」プロダクトのデータ基盤チームで作成した BigQuery でのテストシステムについてご紹介します。背景データ基盤チームでは、 Rtoaster製品からリアルタイムに連携される、WebやアプリのトラッキングといったデータをGCSや BigQuery に蓄積するデータレイクデータレイクにあるデータを BigQuery で加工・変換して利用しやすい形式にしたデータマートやデータウェアハウス

sh19910711 2022/07/07

ジェネレータとCTEの繋ぎこみ良さそう👀 / "SQLで厄介なのはNULLが原因で実行時エラーとなることがほとんどなく、バグがあること自体に気付きにくい / クラスで定義されたテストケースから検査用SQLクエリを生成"

リンク

DBTest '22でトレジャーデータでのTrinoのアップグレードに関する発表をさせていただきました - たけぞう瀕死ブログ

今週SIGMODと併催でフィラデルフィアで開催されたDBTest '22というワークショップでトレジャーデータでのTrinoのアップグレード時のテストに関する発表をさせていただきました（自分はリモートで発表させていただきました）。 .@takezoen from @TreasureData is giving the first talk of the day at @Dbtest_io on "Journey of Migrating Millions of Queries on The Cloud" pic.twitter.com/D7zenrHaOI— Manuel Rigger (@RiggerManuel) June 17, 2022 内容的には以前Presto Conference 2020でお話しさせていただいたものとほぼ同様ですが、今回は新たに執筆した以下の論文を元にした発

sh19910711 2022/06/20

"データベースのテスト: ニッチな領域かと思いますが、ベンダ各社からも論文が出ていたり、DBTestのような国際的なワークショップも存在 / 『Journey of Migrating Millions of Queries on The Cloud』"

リンク

LT「データまえしょりすとのためのpytest入門」@みんなのPython勉強会#46

Bokeh & Dash Cytoscape 〜 Pythonによるインタラクティブなネットワーク可視化ライブラリの比較 / PyConJP2021

sh19910711 2022/06/19

2019 / "pandas.testingモジュール / pandasのテストコード自体がサンプルとして参考になる / 泥臭い前処理のコードは、仕様も泥臭くなりやすい / PyCon US 2019のトーク: テストにおけるデータ系特有の問題に触れ"

リンク

SQLをテストする簡単なフレームワークを作ってみた - Qiita

概要前職ではしばしば複雑なSQLを書く必要があり、「そのSQLが間違っていないことをどう確認したらよいのか？」と悩むことがあった（特に分析用のSQLが長くなりがちだった）。そんな課題感から、SQLをテストするフレームワークをさくっと作ったので紹介する。このツールを使うと「まずテストを書く→テストを通過するSQLを書く」というテスト駆動のコーディングも可能になるので、tdsql（Test Driven SQL）という名称にした。GitHubはこちら。特徴 SQLの任意の部分を置き換えて最終的な結果が意図通りかテストできるテストはyamlで記載する「from句など入力部分を置き換えて出力が意図通りか確認する」というのが典型的な使い方になるかと。使い方現状BigQueryしか対応していないため、BigQueryの前提で書く。インストール pipで簡単にインストールできる。Pyth

sh19910711 2022/05/30

需要あると思うし、自信もって開発進めてほしい :-) / "tdsql（Test Driven SQL） / 置換する場所を-- tdsql-xxx:から始まるSQLのコメントで指定 / どのように置換するか＆最終的に期待される結果はyamlファイルに記載"

リンク

dbt (data build tool) を使ってデータをテストする - CUBE SUGAR CONTAINER

ソフトウェアエンジニアリングの世界では、自動化されたテストを使ってコードの振る舞いを検証するのが当たり前になっている。同じように、データエンジニアリングの世界でも、自動化されたテストを使ってデータの振る舞いを検証するのが望ましい。データをテストするのに使える OSS のフレームワークも、いくつか存在する。今回は、その中でも dbt (data build tool) を使ってデータをテストする方法について見ていく。 dbt 自体はデータのテストを主目的としたツールではないものの、テストに関する機能も備えている。また、dbt には WebUI を備えたマネージドサービスとしての dbt Cloud と、CLI で操作するスタンドアロン版の dbt Core がある。今回扱うのは後者の dbt Core になる。使った環境は次のとおり。 $ sw_vers ProductName: