[B! 自然言語処理] turuhashiのブックマーク

turuhashi id:turuhashi

自然言語処理に関するturuhashiのブックマーク (10)

事前学習済言語モデルの動向 (2) / Survey of Pretrained Language Models
@東工大・産総研勉強会
turuhashi 2020/02/29
NLP

自然言語処理
リンク
fastTextで自然言語(日本語)の学習モデルを生成する手順まとめ｜dot blog
Facebookが開発したfastTextを利用して自然言語(Wikipediaの日本語全記事)の機械学習モデルを生成するまでの手順を解説。また生成した学習モデルを使って類語抽出や単語ベクトルの足し算引き算等の演算テストを行う方法までコード付きで紹介します。 Pythonこの記事は約分で読めます。（文字） fastTextで日本語を機械学習させる手順Facebook発表の『fastText』利用して日本語の機械学習モデルを生成する手順を解説していきます。 Wikipediaの全記事のダンプデータ取得学習本の文章にはWikipediaを利用します。下記URLから、最新のWikipedia全記事ダンプデータをダウンロードしましょう。取得データはXML形式の圧縮ファイルになっています。 Index of /jawiki/latest/任意のディレクトリに保存してください。 Wikipediaの
turuhashi 2020/02/22
機械学習

NLP

自然言語処理
リンク
大規模日本語ビジネスニュースコーパスを学習したALBERT（MeCab+Sentencepiece利用）モデルの紹介 - Qiita
はじめに以前、日本語のBERT事前学習済モデルやXLNet事前学習済モデル等の紹介記事を投稿しましたストックマークの森長です。モデル公開の記事を多くの皆様に読んでいただき、ありがとうございます。今回は、ALBERTの日本語事前学習済モデルを公開します。さて、様々な事前学習済モデルが多数提案されている中、なぜALBERT日本語モデルを公開するかといいますと、ALBERTが、A Lite BERTと記載されるように、ただSOTAを突き詰めたものではなく、精度を維持・向上させつつもBERTを軽量化しているモデルのためです。事前学習済モデルのサイズを大きくすると性能が向上する傾向にありますが、学習時間が長くなったりメモリにのらなくなったり、作成の上での制約が(費用面の制約も)増えてきます。そのため、比較的短時間でモデルを作成でき、モデルサイズが小さいALBERTは、とても使いやすいです。
turuhashi 2020/02/18
自然言語処理

NLP
リンク
言語処理100本ノックをdockerで。python覚えるのに最適。docker(19) python(1) - Qiita
言語処理100本ノックをdockerで。python覚えるのに最適。docker(19) python(1)PythonGit Docker DockerHub小川メソッド pythonを覚えるのに最適な教材はこちら。言語処理１００本ノック（東北大学） http://www.cl.ecei.tohoku.ac.jp/nlp100/ 上記を勉強する方に向けて書いたプログラム等をdockerに掲載して、いつでも、どこでも続きが実行できるようにしたい。現在、第10章の途中まで確認作業中のdocker imageはこちら。（「今日の作業記録 python error」記事未解決あり）注意事項。無茶でかいです。うんじゅうGBあるらしい。ごめんなさい。いくつかに分割してあげなおすよう調整中の予定が転職で手がまわらず。ごめんなさい。 Windowsだ, Macintoshだ　という違いを意識せず、D
turuhashi 2019/02/25
自然言語処理

python

docker
リンク
Python用のトピックモデルのライブラリgensim の使い方(主に日本語のテキストの読み込み) - 唯物是真 @Scaled_Wurm
gensimは前に以下の記事でも使ったPython用のトピックモデルなどの機能があるライブラリです。小説家になろうのランキングをトピックモデルで解析(gensim) - 唯物是真 @Scaled_Wurm 以前紹介した以下の論文でもgensimが使われていました論文紹介 “Representing Topics Using Images” (NAACL 2013) - 唯物是真 @Scaled_Wurm deep learningで話題になったword2vecの機能も取り入れてたりして面白いライブラリです Radim Řehůřek : Deep learning with word2vec and gensim 入力の作り方がすこしわかりにくいかなぁと思ったので、メモっておきます。コーパスの作り方以下の公式の例で説明しますこの例ではリスト内のそれぞれの要素が1つの文書となります
turuhashi 2018/07/08
自然言語処理

NLP

機械学習

python

gensim
リンク
はてなブックマークに基づく関連記事レコメンドエンジンの開発
Hatena Engineer Seminar #5 で発表した「はてなブックマークに基づく関連記事レコメンドエンジンの開発」の資料
turuhashi 2015/06/20
自然言語処理
リンク
言語処理するのに Python でいいの？ #PyDataTokyo
[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...Shuyo Nakatani
turuhashi 2015/05/23
自然言語処理
リンク
PythonでMeCabの制約付き解析を使う - Qiita
MeCabには制約付き解析という機能がありますが、これについて説明している記事がほとんどなかったので手探りで試してみました。 MeCab 0.996 Python 3.4 mecab-python3 0.7 制約付き解析とは入力文の一部の形態素情報が既知である、あるいは境界がわかっているときに、それを満たすように解析する機能です。たとえば、「にわにはにわにわとりがいる。」という文に対して、「はにわ」の部分が名詞であるとか、「にわとり」の部分が一つの形態素であるというように指定した上で解析することができます。このとき、制約に反する4文字目の「は」が単独で形態素となったり、「にわとり」が「にわ」と「とり」に分割されるような解析候補は排除されます。制約付き解析 (部分解析)より形態素境界の制約をつける文の一部の形態素境界がわかってるときに、その部分を一つの形態素として扱って解析するよ
turuhashi 2015/01/10
自然言語処理

python
リンク
NLP_Intro02 // Speaker Deck
All slide content and descriptions are owned by their creators.
turuhashi 2014/12/14
自然言語処理
リンク
Rで自然言語処理。ナイーブベイズで文書分類を試みる - Qiita
概要ショートショートを予め用意したカテゴリに自動分類する。 R環境を通して、MeCabで形態素解析しナイーブベイズを使ってカテゴリを推測する。環境設定 -> RMeCab のインストールと R を用いたテキスト処理（形態素解析など） -> ニコニコ大百科データからMeCab辞書を生成する入力フォルダにショートショートを格納する。 yyMMddhhmmss（フォルダ） |ーakga_01.txt（ショートショート） |ー : |ー : |ーakga_06.txt |ーnkmk_01.txt |ー : |ー : |ーnkmk_06.txt |ーxxxx_01.txt |ー : |ー : |ーxxxx_04.txt ※ファイルの接頭辞がカテゴリ名を表す。 akga/nkmkファイルが訓練データ。xxxxファイルが検証データ。 xxxx_01.txt,xxxx_02.txt=akga xx
turuhashi 2014/05/28
自然言語処理

R
リンク
1