タグ

形態素解析に関するfjwr38のブックマーク (2)

  • rubyで自分のツイートデータから頻出語を見つける - くろの雑記帳

    ふと自分のツイートデータを使って頻出語リストを作ってみたいなと思ったのでやってみました。 環境 Mac OS X 10.9.1 (Mavericks) ruby 2.0.0 必要なものをインストールする MeCab MeCab(めかぶ)とはオープンソースの形態素解析エンジンで、これを使うと、文字列を単語ごとに区切ることができます。 (例: 「今日はいい天気ですね」→「今日 | は | いい | 天気 | です | ね」) mecab用の辞書ファイルとともにインストールします。 $ brew install mecab-ipadic mecab gem 'natto' MeCabをrubyから使うために、今回は'natto'というgemを使います。 $ gem install natto ツイートデータをダウンロードする Twitterの設定画面の下のほうに、全ツイート履歴のダウンロードをリ

    rubyで自分のツイートデータから頻出語を見つける - くろの雑記帳
  • 形態素解析に基づくAVタイトルの特徴分析 - oscillographの日記

    こんばんは。夜の@oscillographです。 最近DMMアダルトがAPIを公開しました。 つまり、プログラムで直接データを取得できるようになったわけです。 ということで、今回はDMMアダルト(動画)の全タイトルを取得して 形態素解析を行うことによって日のAVタイトルの特徴を分析しよう ということになりました。 手順としては、 DMM(ビデオ)のメーカーページを「あ」~「ん」までHTMLで取得 メーカーが特定タグに囲われていたので、正規表現パターンマッチで全メーカーを取得し、メーカー羅列をテキストに保存 テキストを読み込みながら各AVメーカーごとにapiを用いてAVタイトルを展開し、全メーカーのタイトルを取得 タイトルについて形態素解析を行うことによって単語を集計 正規化(全体の数で割ることによって割合で表す) という感じでやりました。 とりあえず、集計結果です。 上位30位を抜き出し

    形態素解析に基づくAVタイトルの特徴分析 - oscillographの日記
  • 1