はじめに 2018年のKaggleでは、何かと "leak" という単語が話題になった印象があります。 https://www.kaggle.com/docs/competitions#leakage 今回は、Meta Kaggleのデータを分析し、2018年のコンペで話題になった "leak" を眺めてみました。 Meta Kaggle 分析の概要 2018年に公開された全てのdiscussionから、タイトルに "leak" を含むものを抽出 ただし対象コンペは、2018年に開始したレート変動を含むものとする 対象コンペの抽出 discussionに関するデータセットには、コンペ名が記載されていませんでした。今回は "ForumId" をキーに結合することで、discussionとコンペ名を紐づけます。 compe = pd.read_csv("Competitions.csv") #