小ネタです。 日本語Wikipediaから人名(姓・名別、読みつき)を取り出すスクリプトを書きました。 https://github.com/hiroshi-manabe/extract_jawp_names 日本語の処理をする際に、Wikipediaのデータを使うことは多いと思います。 いろいろと便利なWikipediaのデータですが、人名に関しては「姓と名が分かれていない」という問題があります。 まあ、本文の冒頭にはたいていスペース区切りで書かれたものがあるので、それを使えば切ることができます。 また、Wikipediaの記事名には読みがついていないという問題もあります。 これも、たいてい本文の冒頭でカッコ内に書いてあります。 ですので、大きな問題はないのですが、Wikipediaのデータは基本的に人が編集しているので、形式がけっこう自由です。 例えば、本文冒頭の記事名はたいてい太字で