タグ

nlpに関するwata88のブックマーク (20)

  • ニコニコ動画の公開コメントデータをDeep Learningで解析する - Qiita

    この記事は第2のドワンゴ Advent Calendar 2015の24日目の記事です。 ドワンゴエンジニアの@ixixiです。 niconicoのデータをDeep Learningなアプローチで解析してみた話です。 nico-opendata niconicoの学術目的用データ公開サイト https://nico-opendata.jp が最近オープンしました。 これまでも、国立情報学研究所にて、ニコニコ動画コメントデータや大百科データが公開されていましたが、 nico-opendataでは、ニコニコ静画のイラストデータの約40万枚のイラストとメタデータが研究者向けにデータ提供されています。 今回は、ニコニコ動画コメントデータ(誰でも取得可能)を用いたDeep Learningによるコメント解析例を紹介します。 超自然言語 ニコニコのコメントデータに限らず、twitterでのtweetや

    ニコニコ動画の公開コメントデータをDeep Learningで解析する - Qiita
    wata88
    wata88 2015/12/24
    ガチだ!
  • Semi-supervised Sentiment-aware LDA - skozawa's blog

    NAACL 2015の論文のLCCT: A Semi-supervised Model for Sentiment Classificationを読んだ。メモと気になった部分を軽く実装して試してみた。 感情分析で、コーパスベースのアプローチと辞書ベースのアプローチでco-trainingする話。 コーパスベースのアプローチだと、精度は高いが再現率が低い。逆に辞書ベースのアプローチだと再現率は高いが精度が低いのでこれを解決したいというもの。 ドメインに依存しない汎用的な素性をコーパスベースのアプローチで取得し、ドメインに依存するような素性は辞書ベースのアプローチでカバーする。 ドメイン依存の単語はSemi-supervised Sentiment-aware LDAというアプローチを使って獲得する。ポジティブ、ネガティブ、ニュートラルの3分類でそれぞれに対していくつかシードを与えてることでド

    Semi-supervised Sentiment-aware LDA - skozawa's blog
    wata88
    wata88 2015/11/04
    にゃるほど
  • livedoor Techブログ : wikipediaのデータや顔文字辞書からmecabのユーザ辞書を作成するフレームワーク

    突然ですが,mecabの辞書 (mecab-ipadic) をデフォルトのまま使って,mecab意外と使えねぇとか文句言ってる悪い子はおらんかね? mecab-ipadic は比較的お行儀のよい日語をベースに作られているので,そのままでは web上の口語文体のテキストはうまく扱えないことがあります。来は教師データを用意し,学習させるといった手法を使うのが正攻法だと思いますが,とりあえず名詞を充実させるだけでも実用度はだいぶ上がるでしょう。 人間の話す言語には,動詞の語幹や名詞には日々新しく語彙が増えるけど,助詞や活用のルールは簡単には変化しない,という特性があります。特に「いま最もつぶやかれている単語ランキング」といった集計をするような場合は,名詞の範囲の切り出しさえ間違えなければそれなりの結果を出せることも多いのです。 ただ,辞書への単語追加はここにある通り簡単にできるのですが,単語

  • [O] MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました

    MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました Tweet [NLP] 日語の文書を機械的に処理しようと思った時に、ほとんどの人が MeCabとIPADIC(IPA辞書)の両方、または、どちらかを使うことになります。 IPADICはとてもよく出来ていますが、更新されないまま年月が過ぎているので、例えば2015年3月上旬に急に流行ったような言葉は収録していません。そのため、今日生まれたような新しい文書(例、Apple Watch発売)を解析する時に困ります。困らない人もいますけど、僕は困ります。 その課題に対処するために、日全国津々浦々、自然言語処理に関わる全ての人は独自にMeCabの新語辞書を作って対応しているわけです。その際に元データとして使われることが多いのは Wikipedia語版やはてなキーワードなどです。 困ったことに、新語辞書を生成

    wata88
    wata88 2015/03/14
  • 相変わらず半端ないディープラーニング、感動した最新の研究結果を2つ

    ディープラーニングが猛威を振るっています。私の周りでは昨年から多く聞かれるようになり、私も日経BPさんの連載で昨年5月にGoogleの買収したDeep Mind社について触れました。今年はさらに今までディープラーニングについて触れていなかったメディアでも触れられるようになってきましたね。例えば、イケダハヤトさんも先日。高知でも話題になっているのですね。 私事ですが、今度湯川鶴章さんのTheWaveという勉強会で、人工知能とビジネスについて一時間ほど登壇させていただくことになりました。有料セミナーということです。チャールズべバッジの解析機関についてはこのブログでも以前触れましたが、「機械が人間を置き換える」みたいな妄想は100年位は言われていることですね。「解析機関」「機械学習」「人工知能」「シンギュラリティー」など、呼び名はどんどん変わり、流行り廃りもありますが、最近ロボットの発達も相まっ

    相変わらず半端ないディープラーニング、感動した最新の研究結果を2つ
    wata88
    wata88 2015/02/24
    できるだろうなって感覚はあるけど、やりたくない(面倒すぎる)という感想。データ集めるだけでも辛いし、精度向上さらに大変
  • エディタ判定器 :パソコン工房

    世界中でプログラマを中心に愛用されているエディタ「Emacs」と「Vim」を題材に、 「ナイーブベイズ」というテキストをカテゴリに自動で分類する手法を用いたサンプルです。 twitterから「Emacs」と「Vim」に関するツイートを収集し、各エディタの特徴を抽出しました。 この特徴を用いて入力したテキストがどちらのエディタに属するかを判定します。 あなたの入力したテキストがEmacsとVim、どちらに判定されるか試してみて下さい。 LinuxWindowsをはじめとする多くのOSで動作する多機能エディタ。 複数のウィンドウで比較・参照しながらのテキスト作成がしやすく、世界中にプログラマをはじめとする多くのユーザーが存在する。 テキスト内の特定のワードを強調表示したり、プログラムの編集効率を上げるための各種コマンドをサポートするなど、 カスタマイズにより使い勝手を向上できるのも大きな特徴

  • 今、人工知能研究で何が起こっているのか

    半年前くらいに書いた草稿が、投稿されずに残ってたのでちゃんと書きました。 最近、人工知能という言葉がまた流行しているような印象を受けます。 ブームということの質は2つ有ると思っています。 1つは学術会で、最近良い成果が立て続けに出てきたという側面です。 もう一つは、それに呼応して大きな会社、特にIBMやGoogle、Facebookといった大きなコンピュータ系、インターネット関連企業が力を入れていることが大々的に報道されたことです。 両者はもちろん関係していて、いくつか技術的ブレークスルーがあって、それが企業の投資を呼んでいる、それと呼応するように学術的な成果が企業からでているという、正のスパイラルが生まれている様に見えます。 こうした流れをいち早くとらえた新書として、「クラウドからAIへ」というがあったので読んでみたのですが、一般のビジネスマンを意識して、歴史、現在、未来について大局

    今、人工知能研究で何が起こっているのか
    wata88
    wata88 2014/07/25
    意味や推論
  • scikit-learnとgensimでニュース記事を分類する - Qiita

    こんにちは、初心者です。 適当なニュース記事があったとして、ニュースのカテゴリを推測するみたいな、よくあるやつをやってみました。Python3.3を使いました。 何をやるの? データセットはlivedoorニュースコーパスを使いました。 http://www.rondhuit.com/download.html#ldcc クリエイティブ・コモンズライセンスが適用されるニュース記事だけを集めてるそうです。 トピックニュース、Sports Watch、ITライフハック、家電チャンネル 、MOVIE ENTER、独女通信、エスマックス、livedoor HOMME、Peachy というクラスがあります。 データは、1記事1テキストファイルの形式で、クラス別のディレクトリにいっぱい入っています。 これを学習して、未知の文章に対して、お前は独女通信っぽい、お前は家電チャンネルっぽい、みたいに、分類が

    scikit-learnとgensimでニュース記事を分類する - Qiita
  • Python用のトピックモデルのライブラリgensim の使い方(主に日本語のテキストの読み込み) - 唯物是真 @Scaled_Wurm

    gensimは前に以下の記事でも使ったPython用のトピックモデルなどの機能があるライブラリです。 小説家になろうランキングをトピックモデルで解析(gensim) - 唯物是真 @Scaled_Wurm 以前紹介した以下の論文でもgensimが使われていました 論文紹介 “Representing Topics Using Images” (NAACL 2013) - 唯物是真 @Scaled_Wurm deep learningで話題になったword2vecの機能も取り入れてたりして面白いライブラリです Radim Řehůřek : Deep learning with word2vec and gensim 入力の作り方がすこしわかりにくいかなぁと思ったので、メモっておきます。 コーパスの作り方 以下の公式の例で説明します この例ではリスト内のそれぞれの要素が1つの文書となります

    Python用のトピックモデルのライブラリgensim の使い方(主に日本語のテキストの読み込み) - 唯物是真 @Scaled_Wurm
  • 単語感情極性対応表

    単語感情極性対応表 日語および英語の単語とその感情極性の対応表を、 研究目的の利用に限り公開します。 感情極性とは、その語が一般的に良い印象を持つか(positive) 悪い印象を持つか(negative)を表した二値属性です。 例えば、「良い」、「美しい」などはpositiveな極性、 「悪い」、「汚い」などはnegativeな極性を持ちます。 感情極性値は、語彙ネットワークを利用して自動的に計算されたものです。 もともと二値属性ですが、-1から+1の実数値を割り当てました。 -1に近いほどnegative、+1に近いほどpositiveと考えられます。 リソースとして、日語は「岩波国語辞書(岩波書店)」を、 英語はWordNet-1.7.1を使わせていただきました。 こちらからダウンロードしてください→[日語] [英語] フォーマットは、各行が一単語に対応し、 見出し語:読み:品

    wata88
    wata88 2014/07/08
    極性辞書
  • overlasting.net

    overlasting.net 2019 Copyright. All Rights Reserved. The Sponsored Listings displayed above are served automatically by a third party. Neither the service provider nor the domain owner maintain any relationship with the advertisers. In case of trademark issues please contact the domain owner directly (contact information can be found in whois). Privacy Policy

  • ソフトな推論Markov Logic Networkの紹介 - Preferred Networks Research & Development

    予約したもののインフォバーを手に入れられない海野です. 人間の高度な知的処理の一つが、推論処理です.今日はその推論を、述語論理と機械学習の組み合わせで模倣したMarkov Logic Networkという手法と、そのOSS実装であるAlchemyの紹介です. 鳥とはなんですか?という質問に対してどう答えるでしょうか.大雑把には、以下のように考えるでしょう. 鳥とは、空を飛ぶ動物です. この回答に対して、「ペンギンは飛ばないよ」と反論する人がいるかも知れません. 鳥とは、くちばしを持った動物です. すると、「カモノハシは鳥じゃないよ」と言われるでしょう.人間は初めて見た生き物が鳥かそうじゃないか判断するとき、どうしているのでしょうか.思うに、少数の規則(飛ぶかどうか.くちばしをもつか)から総合的に判断しているように思われます.人間の推論というのは概ね以下のような特徴を持っているのではないかと

    ソフトな推論Markov Logic Networkの紹介 - Preferred Networks Research & Development
    wata88
    wata88 2014/07/02
    使ってみると学習時間が長いけど、ルール書き換えられるの楽しい
  • http://blog.yuku-t.com/entry/20110623/1308810518

    http://blog.yuku-t.com/entry/20110623/1308810518
  • Latent Dirichlet Allocation(LDA)を用いたニュース記事の分類 | SmartNews開発者ブログ

    株式会社ゴクロの中路です。 以前のベイズ分類をベースにしたSmartNewsのチャンネル判定で触れたように、SmartNewsで配信する記事を「スポーツ」「エンタメ」「コラム」のようなチャンネルに分類しているのは、人ではなく機械です。そのアルゴリズムとして前回ご紹介したのは「ナイーブベイズ分類器」ですが、記事の分類を行う手法は、他にも様々なものがあります。その中で今回はLatent Dirichlet Allocation(以下LDA)について、先日東京大学の博士課程の皆さんと、社内で合同勉強会を行った際に作成した資料をベースにご紹介します。 LDAでできることの例 前回ご紹介したナイーブベイズ分類器を構築する際には、すでにトピックのラベルが付けられた文章を、学習データとして用意する必要がありました。 一方、LDAの場合は、 東京でサッカー大会が開催された。xx選手のゴールが圧巻であった。

    wata88
    wata88 2014/05/20
    単語クラスタリング
  • ISM-2012-TopicModels.ppt

    統計数理研究所 H24年度公開講座 「確率的トピックモデル」 持橋大地 (統計数理研究所) 石黒勝彦 (NTTコミュニケーション科学基礎      研究所) 2013/1/15-16 統計数理研究所 会議室1 講座の構成     1日目: トピックモデルの基礎 –  トピックモデルとは, Naïve Bayes, PLSI, LDA –  EMアルゴリズム, VB-EMアルゴリズム, Gibbsサンプラー, 他のモデルとの関係 2日目: トピックモデルの応用 –  複雑なトピックモデル、時系列モデル –  画像、音声、ネットワークデータ –  半教師あり学習、補助情報あり学習 無限モデル(ノンパラメトリックベイズ)は講座では扱わない 2 講義予定       3 1日目 –  AM/ 導入, LSI, ナイーブベイズ, PLSI, EMアルゴリ

  • NLTKで日本語コーパスを扱う方法 - nokunoの日記

    オライリーの「入門自然言語処理」の12章はHTML版がWebで公開されています.Python による日語自然言語処理というわけで,NLTKで日語でコーパスを扱う環境を整えました. NLTKのインストール公式サイトを見ながらインストールする.最新版はNLTK2.0で,オライリーの書籍のときと比べてChasen形式のパーザなどが追加されています.Download - Natural Language ToolkitMac OSXの場合はPortでもインストールできるらしいのですが,うまくいかなかったのでパッケージをダウンロードしました. コーパスのダウンロードnltk.download()を実行して必要なコーパスをダウンロードします.$ python>>> import nltk>>> nltk.download()jeitaとknbcをダウンロード NLTKを日語コーパスで使う場合の注

  • Loading...

  • トピックモデルを用いてWeb小説のジャンル・流行を分析しよう - #kichi-memo

    はじめに この記事は京大マイコンクラブ(KMC)の2012年度春合宿で発表したものを文章にまとめたものです.余談ですが,KMCはただいま絶賛新入部員募集中ですので,コンピュータ/プログラミング/DTM/イラスト制作に興味がある人は是非説明会でお越しください (宣伝). トピックモデルを用いてWeb小説のジャンル・流行を分析しよう from Seiichi KONDO 概要 皆さんは「小説家になろう」という小説投稿サイトをご存知でしょうか?そこそこライトノベルを読まれる方なら,一度ぐらい名前を聞いたことがあるのではないかと思います.と言うのも2010年頃から,「小説家になろう」発祥の小説が様々なライトノベルレーベルから発売されるようになったからです.有名どころですと「ログ・ホライズン」や「魔法科高校の劣等生」が挙げられるでしょうか. こうなるとラノベ読みとしては注目せざるを得ません.というわ

    トピックモデルを用いてWeb小説のジャンル・流行を分析しよう - #kichi-memo
  • Pythonによる日本語自然言語処理 #pyconjp

    Pythonによる日語自然言語処理 #pyconjp - Presentation Transcript Python   @nokuno   #pyconjp •  Python  2.X  •   •   •   •    •  @nokuno  /  id:nokuno  •  #TokyoNLP  •  Social  IME  /    StaKK  •  Web  •      Python  2.X   Python  2.X  /   read   write   UTF-­‐8   “ ” decode encode Unicode   u” ”    #  encoding:  utf-­‐8   u”  “   decode encode         MeCab•  MeCab•  Python MeCab   –  mecab ipadic,  mecab-­

  • 自然言語処理の最新手法"word2vec"で艦これ加賀さんから乳を引いてみる - あんちべ!

    概要 この記事は自然言語処理という分野の最新手法word2vec を利用して誰でも遊べるようにするための手順を説明するものです。 word2vecを利用すると意味の計算が実現できます。 例えば"king"から"man"を引いて"woman"を足すと"queen"が出てきたり、 "東京"から"日"を引いて"フランス"を足すと"パリ"が出てくるという面白い手法です。 自然言語処理とは人間が日常的に用いる自然言語をコンピュータに処理させ、 翻訳や要約、文字入力支援や質問応答システムを作るなどに活用されている分野です。 自然言語処理と言うと耳慣れない言葉かもしれませんが、 実は検索や推薦などで私たちが日常的に利用しているなじみ深い技術でもあります。 自然言語処理の適用範囲や要素技術は幅広いのですが、 その中でもword2vecの特色は、 冒頭でも挙げたように「意味の計算」が出来ることです。 これ

    自然言語処理の最新手法"word2vec"で艦これ加賀さんから乳を引いてみる - あんちべ!
  • 1