エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
【ソースコード付き】日本語テキストマイニングを行うために必要な前処理 | ITに頼って生きていく
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
【ソースコード付き】日本語テキストマイニングを行うために必要な前処理 | ITに頼って生きていく
はじめに日本語のテキストマイニングを粉うには、いろいろと前処理が必要となります。 日本語じゃなくて... はじめに日本語のテキストマイニングを粉うには、いろいろと前処理が必要となります。 日本語じゃなくても必要なのですが、特に日本語の場合、文章内で単語が分かれていないために、 単語ごとに分解する「分かち書き」が必要となります。 これは、全世界リアルタイム麺活監視システムで表示される、監視上法の1つです。 世界の麺活erたちがtwitterでつぶやいた単語を分かち書きして、単語に分解したあと、 よく使われる単語をより大きく表示させる、タグクラウド と呼ばれる可視化手法の一つです。 こうすることで、よく使用される単語や、関連する単語を浮かび上がらせることができます。 しかし、そもそも分かち書きするためには、辞書をもとに品詞分解しないといけないため、 それをそれなりの精度と速度で実行するためには、ライブラリに頼らざるを得ません。 そこで今回、ライブラリの一つであるMecabを使って、うまいこと前処理