最近やけにデータ分析とか機械学習が流行っている(ビッグデータ・データサイエンティストという単語をよく見かける)ので、少し勉強してみることにした。 入門 機械学習 [大型本] を読んで、ケーススタディをしてみている。 機械学習の理論の本ではあまりなく、どちらかというと、Rのライブラリを使うとこんな機械学習ができますよ、という実装に関する本。選んでいるデータが面白く、また、データのクレンジングについてもがある親切な本。 だが、データのありかについては親切ではないように思う。 まず、使用しているデータセットの場所が示されていない。Rで取り込むときに指定するフォルダという意味では示されているが、元データのありかが書いてない。 著者のGitHubリポジトリに本のサポートページがあるので、とりあえずそこを参照する。 しかし、さらに罠が潜んでいる。 最初に使うデータセット(ufo_awesome.tsv