みじんこ組さんの「10万のサークル名を収集して傾向を可視化してみました」を読みました。 控えめに言ってすごい本です。 本書は、まずはじめにTwitterの発言をひたすら収集し、そこからサークル名を抜き出します。例えば、正規表現を活用し「サークル名は〇〇です」といった形式のツイートから、サークル名だけを取り出していきます。 まさに、努力の結晶な本です。 daphnia.booth.pm 感想を書いていきます。 なぜ10万のサークル名なのか? ノイズとの戦い 正規表現によるサークル名の収集 サークル名の傾向について MeCabによるサークル名の形態素解析 自分のサークル名を考え直してみる さいごに なぜ10万のサークル名なのか? 10万という数字は、仮説を元に導き出された数字です。 年間の土日祝日の数: 120 土日祝日に開催されるイベントの数: 10〜40 小規模、中規模、大規模、超大規模な