タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

Gensimに関するpetitvioletのブックマーク (1)

  • pythonで文章を分類して俺にメールしない. | @DataSci

    文章を分類するメモ pythonのgensimというライブラリを使う LDAをつかいます. LDAの解説はberobero先生のここが超詳しいので割愛 Wikiデータを学習させて任意の文章を分類する. この記事を拝見して分類も出来ると便利だ!と思ったので! 分類教師データのクレンジングと複合語による分かち書き 結局公開するんかーいってことで,下記のスクリプトでクレンジングと分かち書きを一気に行います. # -*- coding: utf-8 -*- import MeCab import re import unicodedata class Cleanser(): def __init__(self): self.patUrl = re.compile("https?://[\w/:%#\$&\?\(\)~\.=\+\-]+") self.patXml = re.compile("<(\

    petitviolet
    petitviolet 2014/12/20
    トピックモデル
  • 1