[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...Deep Learning JP
一応の基本機能がととのったので、できたてほやほやではありますが、Python製の形態素解析器 Janome を公開しました。 http://mocobeta.github.io/janome/ インストール方法や使い方は上記ページを見てください。 ソースコードはGithubにおいています: https://github.com/mocobeta/janome 【公開にいたった背景など】 日本語テキストを分析したりテキストマイニングする場合、まずは形態素解析から始めると思います。 Python の場合、そのためには MeCab をインストールして、mecab-ipadic をインストールして、mecab-python をインストールする、という手順を踏むことが多いと思うのですが、環境依存のところでハマって面倒な思いをしたり、サーバ構築の手間がかかったり、しますよね。なので、Pythonモジュ
日本語の係り受け解析器といえば、KNPやCaboChaが有名ですが、J.DepPは線形分類器を用いて大規模な対象を非常に高速に、また高精度に解析できることが特長です。2009年末に公開されてから着実にバージョンアップされていますが、ビルドの方法が簡単になって、モデルの学習機能が追加されたことで大変使いやすくなっています。また、J.DepPは線形分類器のpeccoやopalを利用していますが、ベースの分類器が高速化されたことが、そのまま解析器の性能向上につながっているようです: ソフトウェアの更新も一人旅になってきた - ny23の日記 このJ.DepPをMacPortsとして登録しました。デフォルトの状態でjdeppをインストールすると、jumandicを参照するMeCabを組み込んだ解析器と、解析済みのブログコーパスであるKNBコーパスを対象とした学習モデルが利用できるようになります:
顔文字を形態素解析? テキストコミュニケーションにおける「身振り手振り言語」とも言われる顔文字は、目・鼻・口などの顔のパーツから構成されています。ところで顔文字をパーツごとに分割し、パーツの種類(品詞)を推定するというタスクは、形態素解析と同じ問題に帰着します。そこで今回私は、形態素解析器として使われているMeCabを用いて、顔文字を形態素解析してみました。 デモ まずはデモを試してみてください。 http://www.haroperi.info/cgi-bin/emoticon.cgi 実行結果 未知語処理が苦手なようで、なかなか正確な形態素解析は行えませんが、教師データを解析してみると、以下のように綺麗に分割・品詞付与されます。 詳細 詳細はhttp://www.haroperi.info/emoticon/mecab.htmlに書きました。これ以上はどこにも書いていません。 今後、M
先日、Lucene/Solrのbranch_3x(3.6)とtrunk(4.0)にコミットされた日本語向けのトークナイザ・トークンフィルタをご紹介します。 LuceneのJIRAのチケット LUCENE-3305 にて、日本語形態素解析器Kuromojiが導入されました。 これにより、日本語ドキュメントに対して形態素解析に基づく単語分割が可能になります。 従来、Lucene/Solrで日本語対応をする場合は、lucene-gosenやSenを使用する方法などをとってきましたが、今回の対応であらかじめLucene/Solrに組み込まれたものを使用するということが可能になります。 また一方で、LUCENE-2906にて、CJK文字に関するトークンフィルタも追加されました。 本記事では、これらのトークナイザ・トークンフィルタに関して、2012/2/23時点のソースに基づいて調査したものを解説いた
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く