今回は、今後必要になるであろうライブラリがまとまったAnacondaというディストリビューションを使ってPythonをインストールします。 まず最初に、ここにアクセスしてPython 3.5 versionの64bit版のAnaconda(Anaconda3-4.2.0-Linux-x86_64.sh)をダウンロードします。
mecabといえば、10年前から公開されている日本語の形態素解析エンジン。研究用途やWebサービスのNGワード抽出など、今でもバリバリ活躍しています。 インストールしてみる こちらを参考に、インストールを進めていきます。 MacやLinuxなどで使いたいときは、./configureのときに--with-charset-=utf8するのがミソみたいです。 $ tar zxfv mecab-X.X.tar.gz $ cd mecab-X.X $ ./configure --with-charset=utf8 $ make $ make check $ sudo make install ここまでは良さそう。 辞書をインストール MeCab本体と同様に、辞書もインストールします。ここでもやっぱり./configure --with-charset=utf8がミソなんですが…。
エムスリー(ヘルスケア系)のAdvent Calendar に参加しているので、ヘルスケア系機械学習ネタ ちょっと前に業務とは関係なく、症状類語辞書をつくりたいなーーというときがあった。(結局できてないけど そのときに去年流行った word2vecを使って機械学習で症状の類義語がどれくらい精度よく出てくるかをやってみたのでその話を書く 今回の流れ 医療文書が入ったtextファイルを作成 MeCab へ医療用辞書 ComeJisyo を設定 MeCab で分かち書く word2vec で学習 word2vec を利用 浅い浅い考察と感想 医療文書が入ったtextファイルを作成 今回は精度を比較するために、2つのテキストを用意した。 一つ目は word2vecでは鉄板の大量の単語があるWikipediaのデータから、もう一つは医療系文書のデータを使用した。 1.Wikipediaのテキストファ
環境 OS X El Capitan 10.11.5 MacBook Pro (Retina 13-inch、Early 2015) [2016/8/1現在] MeCab, mecab-ipadic-NEologd のインストール MeCabはオープンソースの日本語形態素解析ソフトです。 mecab-ipadic-neologdは、Web上のリソースから新しい言葉を登録したMecab用の辞書のことです。さらに、定期的に新しい言葉をアップデートするので、最新の言葉を正しく形態素解析をすることができます。 必要なライブラリをインストール brew install mecab mecab-ipadic git curl xz git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git cd mecab-ipadi
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く