この記事は Apache Drill Advent Calendar 2015 の3日目の記事です。 少し前の記事で、一つのカラムにデータ型が混在したデータを読むときの注意点を説明しました。 その後リリースされた Drill 1.3 で、[DRILL-3229] Create a new EmbeddedVector にて改良が進行中のコードが取り込まれたことにより、データ型が混在するカラムの取り扱いができるようになりました。具体的には、UNION 型というデータ型が新たに追加され、個々のフィールドごとに異なるデータ型を内部で保持できるようになっています。 以前の記事同様、次のようなデータを用意します(以前の記事の時のデータとはほんの少し異なりますが、その理由は後述)。 $ cat /tmp/sensor.json [ {"sensor_id":15, "timestamp":"2015-