@東工大・産総研 勉強会
Facebookが開発したfastTextを利用して自然言語(Wikipediaの日本語全記事)の機械学習モデルを生成するまでの手順を解説。また生成した学習モデルを使って類語抽出や単語ベクトルの足し算引き算等の演算テストを行う方法までコード付きで紹介します。 Pythonこの記事は約 分で読めます。(文字) fastTextで日本語を機械学習させる手順Facebook発表の『fastText』利用して日本語の機械学習モデルを生成する手順を解説していきます。 Wikipediaの全記事のダンプデータ取得学習本の文章にはWikipediaを利用します。下記URLから、最新のWikipedia全記事ダンプデータをダウンロードしましょう。取得データはXML形式の圧縮ファイルになっています。 Index of /jawiki/latest/任意のディレクトリに保存してください。 Wikipediaの
はじめに 以前、日本語のBERT事前学習済モデルやXLNet事前学習済モデル等の紹介記事を投稿しましたストックマークの森長です。 モデル公開の記事を多くの皆様に読んでいただき、ありがとうございます。 今回は、ALBERTの日本語事前学習済モデルを公開します。 さて、様々な事前学習済モデルが多数提案されている中、なぜALBERT日本語モデルを公開するかといいますと、ALBERTが、A Lite BERTと記載されるように、ただSOTAを突き詰めたものではなく、精度を維持・向上させつつもBERTを軽量化しているモデルのためです。 事前学習済モデルのサイズを大きくすると性能が向上する傾向にありますが、学習時間が長くなったりメモリにのらなくなったり、作成の上での制約が(費用面の制約も)増えてきます。そのため、比較的短時間でモデルを作成でき、モデルサイズが小さいALBERTは、とても使いやすいです。
言語処理100本ノックをdockerで。python覚えるのに最適。docker(19) python(1)PythonGitDockerDockerHub小川メソッド pythonを覚えるのに最適な教材はこちら。 言語処理100本ノック(東北大学) http://www.cl.ecei.tohoku.ac.jp/nlp100/ 上記を勉強する方に向けて書いたプログラム等をdockerに掲載して、いつでも、どこでも続きが実行できるようにしたい。 現在、第10章の途中まで確認作業中のdocker imageはこちら。(「今日の作業記録 python error」記事未解決あり) 注意事項。無茶でかいです。うんじゅうGBあるらしい。ごめんなさい。 いくつかに分割してあげなおすよう調整中の予定が転職で手がまわらず。ごめんなさい。 Windowsだ, Macintoshだ という違いを意識せず、D
gensimは前に以下の記事でも使ったPython用のトピックモデルなどの機能があるライブラリです。 小説家になろうのランキングをトピックモデルで解析(gensim) - 唯物是真 @Scaled_Wurm 以前紹介した以下の論文でもgensimが使われていました 論文紹介 “Representing Topics Using Images” (NAACL 2013) - 唯物是真 @Scaled_Wurm deep learningで話題になったword2vecの機能も取り入れてたりして面白いライブラリです Radim Řehůřek : Deep learning with word2vec and gensim 入力の作り方がすこしわかりにくいかなぁと思ったので、メモっておきます。 コーパスの作り方 以下の公式の例で説明します この例ではリスト内のそれぞれの要素が1つの文書となります
MeCabには制約付き解析という機能がありますが、これについて説明している記事がほとんどなかったので手探りで試してみました。 MeCab 0.996 Python 3.4 mecab-python3 0.7 制約付き解析とは 入力文の一部の形態素情報が既知である、あるいは境界がわかっているときに、 それを満たすように解析する機能です。 たとえば、「にわにはにわにわとりがいる。」という文に対して、「はにわ」の部分が名詞であるとか、「にわとり」の部分が一つの形態素であるというように指定した上で解析することができます。このとき、制約に反する4文字目の「は」が単独で形態素となったり、「にわとり」が「にわ」と「とり」に分割されるような解析候補は排除されます。 制約付き解析 (部分解析)より 形態素境界の制約をつける 文の一部の形態素境界がわかってるときに、その部分を一つの形態素として扱って解析するよ
All slide content and descriptions are owned by their creators.
概要 ショートショートを予め用意したカテゴリに自動分類する。 R環境を通して、MeCabで形態素解析しナイーブベイズを使ってカテゴリを推測する。 環境設定 -> RMeCab のインストールと R を用いたテキスト処理(形態素解析など) -> ニコニコ大百科データからMeCab辞書を生成する 入力 フォルダにショートショートを格納する。 yyMMddhhmmss(フォルダ) |ーakga_01.txt(ショートショート) |ー : |ー : |ーakga_06.txt |ーnkmk_01.txt |ー : |ー : |ーnkmk_06.txt |ーxxxx_01.txt |ー : |ー : |ーxxxx_04.txt ※ファイルの接頭辞がカテゴリ名を表す。 akga/nkmkファイルが訓練データ。xxxxファイルが検証データ。 xxxx_01.txt,xxxx_02.txt=akga xx
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く