サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
掃除・片付け
www.mojirca.com
Google Colaboratoryで形態素解析器JUMAN++を楽に使うためのメモです。 JUMANとは 京大で開発された形態素解析器。 最新のJUMAN++はMeCabよりイケてるとのこと。 ちなみに、形態素解析とは分かち書き+品詞解析を指す。 Colabで使う際の問題点 MeCabの場合、本体やColab(Python)から使うためのbindingなどはapt, pipで入れることができる。 JUMANにおいては、python bindingであるpyknpはpipで入るが、JUMAN++本体は残念ながらaptで入らずビルドしたものを毎回インストールする必要がある。 ビルドしたファイル群まではGoogle Driveに保存しておくことができるが、インストール先がデフォルトではランタイムのシステム領域になっており、ランタイムを終了すると消えてしまう。 Google Driveに内にイ
自分がよく使用する日本語自然言語処理のテンプレをまとめたものです。 主に自分でコピペして使う用にまとめたものですが、みなさんのお役に立てれば幸いです。 環境はPython3系、Google Colaboratory(Ubuntu)で動作確認しています。 Pythonの標準機能とpipで容易にインストールできるライブラリに限定しています。 機械学習、ディープラーニングは出てきません!テキストデータの前処理が中心です。 前処理系 大文字小文字 日本語のテキストにも英語が出てくることはあるので。 s = "Youmou" print(s.upper()) # YOUMOU print(s.lower()) # youmou 全角半角 日本語だとこちらのほうが大事。 全角半角変換のライブラリはいくつかありますが、自分はjaconv派。 MIT Licenseで利用可能です。 import jaco
分かち書きの勉強のため、TinySegmenterを再実装、再学習した。 ソースコード一式はこちら。 分かち書き 文を単語に分けるアレ。日本語の自然言語処理では大前提となる処理。だいたいMeCabにお願いする。 MeCabが超優秀なので何の苦労をすることもないが、NLPerとしては動作原理をさっと説明できるようにしておきたい。 「そういえば分かち書きってどうやってるの??????」 などと聞かれて、さらっと答えられないと気まずい。 「よく理解してないで使ってるの??????」 とか 「ブラックボックス化してるんじゃないの??????」 とか言われるでしょう(想像)。 MeCabは条件付き確率場(CRF)を使用していて、いきなり入るには難しいので、簡単なTSからはじめます。 TSが簡単な理由は2点 X 形態素解析/O 分かち書き X CRF/O 点推定 ようは簡単なタスクを簡単なモデルで解い
このページを最初にブックマークしてみませんか?
『www.mojirca.com』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く