はじめに 本記事はエムスリー Advent Calendar 2020の12日目の記事です。 エンジニアリンググループの西名(@mikesorae)です。 私のチームでは医療に関する様々なデータを集計して分析レポートの作成を行っています。 クライアントの要望に応じて条件や分析軸を変更するために、これまではRubyで動的にSQLを組み立てて集計を行っていましたが、条件が複雑なため出力されるSQLが3000行近くになり、デバッグやテストも困難なためメンテナンス工数が多くかかっていました。 また、データ数の増加に伴ってSQLの実行時間も次第に長くなり、このまま行くと継続的なサービス提供ができなくなるリスクがあったため、BigQuery + Google Cloud Dataflow + Scioによる作り直しを決断しました。 Google Cloud Dataflowの導入にあたって公式ドキュメ