タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

MeCabに関するRion778のブックマーク (3)

  • MeCab の辞書構造と汎用テキスト変換ツールとしての利用

    概要 単語辞書の構造を理解することで, MeCab を汎用的なテキスト変換ツールとして利用することができます. 例えば, ひらがな to カタカナ変換, ローマ字 to ひらがな変換, Auto Link等を MeCab だけで実行できます ファイル 単語辞書を構築するには, 最低以下のファイルを作成する必要があります. *.csv ファイル (単語辞書) matrix.def (連接表) unk.def (未知語用品詞定義) char.def (未知語の文字定義) dicrc (設定ファイル) *.csv ファイル 単語辞書です エントリは, 以下のような CSV で追加します. test,1223,1223,6058,foo,bar,baz 最初の4つは必須エントリで, それぞれ 表層形 左文脈ID (単語を左から見たときの文脈 ID) 右文脈ID (単語を右から見たときの文脈 ID)

  • MeCabにユーザ辞書を追加する - tSeiya's blog

    概要 $ mecab 人類は衰退しました 人類 名詞,一般,*,*,*,*,人類,ジンルイ,ジンルイ は 助詞,係助詞,*,*,*,*,は,ハ,ワ 衰退 名詞,サ変接続,*,*,*,*,衰退,スイタイ,スイタイ し 動詞,自立,*,*,サ変・スル,連用形,する,シ,シ まし 助動詞,*,*,*,特殊・マス,連用形,ます,マシ,マシ た 助動詞,*,*,*,特殊・タ,基形,た,タ,タ EOS を $ mecab 人類は衰退しました ,じんるいはすいたいしました ,一般,*,*,*,*,*,*,じんるいはすいたいしました EOS となるように $ mecab ソードアート・オンライン ソード 名詞,固有名詞,組織,*,*,*,ソード,ソード,ソード アート 名詞,固有名詞,人名,名,*,*,アート,アート,アート ・ 記号,一般,*,*,*,*,・,・,・ オンライン 名詞,一般,*,*,*

    MeCabにユーザ辞書を追加する - tSeiya's blog
  • LDA(Latent Dirichlet Allocation)について - Qiita

    はじめに 「歌」「演奏」「ダンス」などの単語を見た時、書いていないくても「音楽」を想起できる。 →複数の単語の共起性から創発される情報 潜在的意味のカテゴリをトピックと呼ぶ。 試しに動かしてみた ジャンルの異なる任意のwikiの文章(カリフラワー、NASA、マスカラ)をインプットし、それぞれの文章のテーマを抽出、LDAで分類できているかを確認する 実行結果 なんとなくできてそう。それぞれの単語があるべきカテゴリに分けられている。 カリフラワー、NASA、マスカラでは記事内の単語の出現パターンが大分異なるため、モデルとしてもイージーだったかもしれません。 お試し実行コード 基コード... # LDA(Latent Dirichlet Allocation)のRパッケージを試してみるスクリプト # # 複数のテキストからトピックを抽出する # # 参考: # トピックモデルによる統計的潜在意

    LDA(Latent Dirichlet Allocation)について - Qiita
    Rion778
    Rion778 2017/08/01
    "char型にするとRMecabDFでエラーが出る"
  • 1