[B! nlp] [2ページ] peketaminのブックマーク

peketamin id:peketamin

nlpに関するpeketaminのブックマーク (71)

Private Presentation
Private content!This content has been marked as private by the uploader.
peketamin 2014/10/20
NLP

word2vec
リンク
Word2vecの並列実行時の学習速度の改善
情報処理学会第217回自然言語処理研究会 http://www.nl-ipsj.or.jp/NL217program.html
peketamin 2014/07/04
学習

自然言語処理

機械学習

nlp

deeplearning

word2vec
リンク
文節境界解析のラベルと性能 - skozawa's blog
文節境界解析で使うラベルで、BIとBILUの2種類でどちらが性能がよいかを検証してみた。結果的にはBIだけのほうが性能が高かった。前回の輪読会で紹介した固有表現抽出に関する論文の中で印象に残ったことのひとつとして、系列ラベリングに使うラベルで最近はBIOよりもBILOUを使ったほう性能が高いというものがあった。 BIO(Begin, Inside, Outside)とBILOU(Begin, Inside, Last, Outside, Unit(Begin and Last))の違いは固有表現の末尾を考慮するかどうかで、末尾を考慮したほうが性能がよいというもの。社内輪読会で「Joint Inference of Named Entity Recognition and Normalization for Tweets」を紹介した - skozawa's blog Comainuでは、
peketamin 2014/07/01
自然言語処理

nlp
リンク
Pure Go な形態素解析器で実行バイナリに辞書埋め込んだヤツを作ってみた (1) - Qiita
はじめに DoubleArray を作ったこともあって，ついでに形態素解析器も作ってみようと思い立ち kuromoji を参考に形態素解析器を実装してみました．目標としては，Pure Go で kuromoji みたいな感じ（辞書内包，検索モードあり，スレッドセーフ）を目指します．サンプルプログラム参考下記を参考にさせていただきました． kuromoji 日本語入力を支える技術 Mecab 品詞IDの定義形態素解析のちょー適当な説明「形態素」が何であるかを議論し出すと面倒なことに巻き込まれそうなので，ここでは MeCab-IPADIC で定義されているものとします．形態素解析のアルゴリズムについては下記の資料などをあたってください．日本語入力を支える技術日本語解析ツール MeCab, CaboCha の紹介用意するもの DoubleArray #前に作ったものを id が記
peketamin 2014/06/20
golang

自然言語処理

NLP

kuromoji
リンク
word2vec Explained: Deriving Mikolov et al.’s Negative-Sampling Word-Embedding Method
peketamin 2014/05/26
nlp
リンク
テキストに書かれている大切なこととは - 蝉々亭
先々週の言語処理学会の懇親会で「あまりにもブログを更新しなさすぎでは？」というお言葉をいただき，確かにそうかな，と思い，最近ちょっと考えていることでも書いておこうと思います．自然言語処理において自動要約を独特のものにしているのは，機械にある種の価値判断を強いる点です．自動要約には，首尾一貫したテキストを生成するという課題とともに，入力文書中に含まれる重要な情報を同定する（内容選択）という課題があります．これは非常に独特なもので，例えば機械翻訳は入力されたテキストに含まれる情報を異なる言語のテキストの上において再現するもので，機械に情報を取捨選択させるということはしません．自然言語解析の種々の技術も同様です．自然言語処理のほとんどの処理では入出力の（意味的）等価性が保たれますが，自動要約においては入出力の等価性が保たれることはあまり期待されません．自動要約は価値判断を機械に強いるわけです．
peketamin 2014/03/31
NLP

自動要約

自然言語処理
リンク
日本語形態素解析の初歩 - あらびき日記
この記事は abicky.net の日本語形態素解析の初歩に移行しました
peketamin 2014/03/27
形態素解析

自然言語処理

NLP

TextMining

Mecab
リンク
https://alaginrc.nict.go.jp/rasc/
peketamin 2014/03/24
形態素解析

自然言語処理

nlp

高速化
リンク
ニューラルネットによる単語のベクトル表現の学習〜 Twitterのデータでword2vecしてみた - 病みつきエンジニアブログ
最近にわかにword2vecが流行っています。ので、乗っかってみました的記事です。理論に関してはあまり詳しくしらないので、印象だけで語っているかもしれません。何かありましたらTwitterかコメント等でご指摘いただけますと幸いです。ちなみに、失敗した話が多いです。 word2vecと単語のベクトル表現 word2vecは、機械学習の分野で使われる、ニューラルネットというモデルを使ったツール／ライブラリです*1。名前の通り、wordをvectorにします。vectorにする、というのは、ベクトル表現を獲得するということで、意味(みたいなもの)の獲得というか、素性の獲得というか。単語のベクトル表現の獲得自体は、別にword2vecにしかないわけではありません。言い換えると、昔からあります。LDAを使って単語のトピック分布のようなものを学習したり(vingowでやりました)。余談ですが、こ
peketamin 2014/03/12
機械学習

テキストマイニング

NLP

word2vec

自然言語処理

Corpus
リンク
生きたことばをモデル化する統計科学の研究：研究室訪問：統計数理研究所
「いづれの御時にか、女御更衣あまたさぶらひける中にいとやむごとなき際にはあらぬが、すぐれてときめきたまふありけり」で始まる『源氏物語』。平安時代中期（11世紀）に成立した宮廷の恋愛物語は、世界最古の長編小説として有名だが、江戸時代の人々にすら極めて難解なことばの集合で、多くの注釈書が発刊されていた。ことばは時代と共に変化し、それを正しく理解することは失われた意味を復元する作業にも似る。冒頭にかかげた源氏の一節も、教えてくれる人がいなければ、それぞれの単語がどこで切れるのかすら判然としない。言語を確率論的にとらえ、計算式によって解析（処理）するなら現代語も古典も、未知の言語すらも容易に理解できるようになる――このように考えて「計算言語学」の旗をかかげる統計科学者がいる。言語の差異構造を統計的に理解する持橋の専門分野は、「統計的自然言語処理」と「統計的機械学習」。それは簡単に表現するな
peketamin 2014/02/28
統計

NLP

言語

形態素解析
リンク
ggsoku.com
peketamin 2014/02/21
Twitter

パトロール

nlp
リンク
教師なしLDAでTwitterのスパム判別をしてみる(予備実験編) - 病みつきエンジニアブログ
※普通は「教師なしLDA」という言い方はしないですモチベーション元々は、TwitterからURLつきのツイートを取りたかった。某ニュースアプリがTwitter上で(？)話題になっているニュース記事を(法的な是非があるとはいえ)配信しており、そんな感じのマイニングがしたかった。ただ、普通に「http,https」でTwitter上で検索すると、量が膨大だった。加えて、ほとんどがスパム。なーにが「このサイトすごすぎｗｗｗｗｗ」じゃ。ということで、検索の段階でスパミーなキーワードを取り除き、純度の高いURL投稿マイニングをしたいわけだが、キーワードは既知なものには限らない。例えば「無料」とか「アフィリエイト」とかがスパムなのはそうなんだけど、「パズドラ」とか「魔法石」とか、未知のキーワードとか出てきた時に対応できない。そこで、教師なし学習のアプローチを使って、スパムなキーワードを抽出す
peketamin 2014/02/17
nlp
リンク
Statistical Semantic入門 ~分布仮説からword2vecまで~
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion ModelsDeep Learning JP
peketamin 2014/02/06
導入から既に面白かったです…。

統計

nlp

自然言語処理

Machine Learning

pfi
リンク
PPDB:Japanese - 日本語言い換えデータベース
The Paraphrase Database : Japaneseは日英対訳コーパスから学習された日本語の言い換えデータ集です。ダウンロード最新版：PPDB:Japanese 0.0.1 仕様情報一行につき一つの言い換えを示す。 SOURCE:j ||| TARGET:j' ||| (FEATURE=VALUE)* ||| ALIGNMENT フレーズは形態素ごとに半角スペースで区切られ、また言い換え確率もそれぞれP(j'|j)とP(j|j')が半角スペース区切りで与えられます。翻訳された ||| 翻訳 ||| 0.0125435775455 0.00034585476357 ||| 37435 2 56 論文情報以下の情報をご利用ください。水上雅博，Graham Neubig，Sakriani Sakti，戸田智基，中村哲. 日本語言い換えデータベースの構築と
peketamin 2014/02/04
自然言語処理

nlp

ことば
リンク
「モデル」とは何か，について考えていたことを，DSIRNLP(データ構造と情報検索と言語処理勉強会)で発表してきました - a lonely miner
先日， @overlast さんから，DSIRNLP(データ構造と情報検索と言語処理勉強会 )という会にお誘いを頂きまして，以前から考えていたことをちょこっとお話してきました．当日の様子は， @mamoruk さんが togetter にまとめてくださっていますので，そちらもご覧ください．第5回データ構造と情報検索と言語処理勉強会 #DSIRNLP - Togetterまとめ私の発表スライドは slideshare に置いておきました．いくつか直したいところがあるので，そのうち差し替えるかも．いまさら聞けない “モデル” の話 @DSIRNLP#5 from Koji Matsuda 他の方々がものっそい最先端な話ばかりのなか，私一人だけがひどくぼんやりとした内容でたいへん恐縮でしたが，問題意識を共有するきっかけを頂けたことに感謝しています．そもそもこの話をしようと思ったきっかけ
peketamin 2014/01/15
nlp
リンク
いまさら聞けない “モデル” の話 @DSIRNLP#5
Align, Disambiguate and Walk : A Uniﬁed Approach forMeasuring Semantic Simil...
peketamin 2014/01/11
研究

自然言語処理

nlp
リンク
Google Code Archive - Long-term storage for Google Code Project Hosting.
Code Archive Skip to content Search Google About Google Privacy Terms
peketamin 2013/12/26
自然言語処理

nlp
リンク
自然言語処理まわりのDeep Learningを自分なりにまとめてみた — KiyuHub
自然言語処理まわりのDeep Learningを自分なりにまとめてみた “自然言語処理のためのDeep Learning”というスライドを公開しました．自然言語処理のためのDeep Learning from Yuta Kikuchi カジュアルな感じで自然言語処理まわりのDeep Learningの話題をまとめた感じになっています．きっかけは，勉強会をしていることを知ったOBのbeatinaniwaさんにお願いされたことで，株式会社Gunosyの勉強会の場で，発表の機会を頂きました．それが，9/11で，その後9/26に研究室内で同じ内容で発表しました．どちらも思った以上に好評を頂け，公開してはと進めて頂いたので，公開することにしました．もちろん間違いが含まれている可能性も多分にあるので．気づいた方はご指摘頂けると幸いです．内容ざっくり前半は，ニューラルネットワークを図を使
peketamin 2013/09/30
Deep Learning

NLP

自然言語処理

機械学習
リンク
Clojure/kuromojiでテキストマイニング入門　～形態素解析からワードカウントまで～ - あんちべ！
[テキストマイニング] Clojureでテキストマイニングをしたい！という方がTLにいらっしゃったので、 Clojureという言語とkuromojiという形態素解析器を用いたテキストマイニング入門の記事を書きます。この記事の通り手を動かすと、様々なテキスト、例えばアンケートの自由記述やブログ、twitterなどの文章に形態素解析を掛け、ワードカウントと呼ばれる、ある単語が何回出現しているのかを解析する手法を使えるようになります。これを利用し、出現単語を頻度順に並べてランキングを作るなどして、その文書の特徴を明らかにするなどが出来るようになります。ある程度コンピュータを使えることは求めますが、プログラミングの前提知識はさほど求めていません。そのため、所々天下りなところ（ここはとりあえずこうやってください！と説明無しの記述）もありますが、ご容赦ください。形態素解析とは？形態素解析とは、
peketamin 2013/09/11
自然言語処理

テキストマイニング

形態素解析

nlp

clojure

ワードカウント
リンク
白ヤギが要約します
テキストを自動で要約しますこのサービスはごくシンプルなルールに基づいてテキストの自動要約を行う実験的サービスです。与えられたニュース記事の中から最も重要な3つのポイントを抜き出すことで、限られた時間の中でも効率よく情報を吸収できることを目的にしています。なお、商用利用をご希望の方は、白ヤギコーポレーション（info at shiroyagi.co.jp) までお問い合わせ下さい。なお、現在のところ英語のサイトには対応しておりませんので、ご了承下さい。
peketamin 2013/08/16
要約

テキストマイニング

NLP
リンク
前のページ 1 2 3 4 次のページ