タグ

DBと自然言語処理に関するpmakinoのブックマーク (2)

  • 分類語彙表-増補改訂版データベース コーパス開発センター -Center for corpus development-

    国立国語研究所コーパス開発センターでは、 日語の全貌を把握するための言語コーパス (language corpus)を構築しています。 English 国立国語研究所 分類語彙表とは,「語を意味によって分類・整理したシソーラス (類義語集) 」です。昭和39年 (1964年) に出版された初版『分類語彙表』 (現在は絶版) は,現代日語の格的なシソーラスとして幅広く活用されてきました。その後,収録語数を増やした『分類語彙表 −増補改訂版−』が刊行されましたが,研究開発用にそのデータベース版を用意しました。 データベース版は,書籍版の『分類語彙表 −増補改訂版−』の元となったデータを加工したものです。データベースソフトに取り込めるようCSV形式になっています。レコード総数は,101,070件です (この中には,見出しの併記を分割してできたレコード及び分類項目内の意味的区切りを示すレコ

  • Wikipediaのキーワードリンクを使って関連語データを作ってみた

    Wikipediaのキーワードリンクを使って関連語データを作ってみた 2007-06-09-3 [NLP][Programming][Algorithm] Wikipedia のキーワードリンクを使って関連語データ(関連キーワード集) を作ってみた。 Wikipedia のデータはダウンロードページからbz2形式のを取ってきた。 日のウィキペディアのXMLデータね。 (see Wikipedia:データベースダウンロード) で、Perlスクリプトで以下の関連語データ作成処理を行った。 (スクリプトはこの記事の末尾に載せておく) (1) 各キーワードページに含まれているキーワード(リンク)を取り出す。 例えばキーワードAのページにB,C,Dが含まれていたら、A => B,C,D というデータを蓄積。 またキーワードAが他のキーワードのページ(例えばX)に含まれていたら、それも蓄積。その場合

    Wikipediaのキーワードリンクを使って関連語データを作ってみた
  • 1