タグ

nlpとMachineLearningに関するgologo13のブックマーク (14)

  • NIPS2013読み会でword2vec論文の紹介をしました

    先週、 @sla さん主催のNIPS2013読み会で、word2vec論文(正確には続報)の紹介をしました。 ちょっと解説を書きます。 このところの深層学習ブームは自然言語処理にも来ていて、それらのウチの1つと言われています(が、全然deepっぽさはない)。 最初のモチベーションがどういうところにあったかというのは、ちょっと色々だと思いますが(おそらく最初は言語モデルにおける低頻度語の確率をウマイことモデル化・推定したかったんではないかな)、何はともあれ単語の意味的なあるいは統語的な振る舞いをベクトル表現で表すという研究が流行っております。 ベクトル表現というのは、1つの単語wに対して、その単語を「表現」するようなベクトル v(w) を作ります。 そんなこといわれても、作れば?ということなんですが、できたベクトルに対して何かしら「都合のいい」性質ができることが真の目標です。 「都合のいい」

  • 機械学習界隈の情報収集方法 - kisa12012の日記

    こんにちは.Machine Learning Advent Calendar (MLAC) 2013の14日目を担当します,[twitter:@kisa12012]です.普段は博士学生として,各地を放浪しながら機械学習の研究をしてます.今回の記事はボストンで執筆しています.現地時間(EST)での締切は守ったのでセーフ…ですよね? 日は機械学習技術的な内容の話ではなく,筆者が実践している機械学習関連の情報収集方法について纏めます*1.大きく分けて,学会情報の管理・論文情報の収集・その他の三種について述べたいと思います.今回のトピックの多くは他の分野にも通用する話になっているかと思います.他の分野の方がどのように情報収集されているのかも気になるところです. 学会情報の管理 まずは学会情報の管理についてです.機械学習に関連するカンファレンスは(特に近年乱立気味で)非常に沢山あります.全てをチ

    機械学習界隈の情報収集方法 - kisa12012の日記
  • これからはじめる人のための機械学習の教科書まとめ - EchizenBlog-Zwei

    最近では企業における機械学習の認知度も高まっていてエンジニアの求人募集でも「望ましいスキル:機械学習」というのをよく見かける。特にweb系の企業だと当たり前のように機械学習を活用した魅力的なサービスが生み出されているようだ。 そんなわけで先日書いた機械学習の入門記事もそれなりに好評で末尾の教科書リストも結構参考にしていただいた様子。ということで、これから機械学習をはじめる人のためにオススメの教科書を10冊ほどピックアップしてみた。 幸いにして機械学習の分野には良書が多い。5年前はナイーブベイズすら知らなかった私も、これらの教科書のおかげでなんとか機械学習を使えるようになりました!(個人の体験談です。効果には個人差があります) 参考: 機械学習超入門 〜そろそろナイーブベイズについてひとこと言っておくか〜 - EchizenBlog-Zwei 最初に既存の機械学習の教科書まとめを挙げておくの

    これからはじめる人のための機械学習の教科書まとめ - EchizenBlog-Zwei
  • 論文の探し方 - nokunoの日記

    ふと論文の探し方について書こうと思ったのですが、既にいろいろな方が書かれているのでそちらをまとめます。 自然言語処理 自然言語処理の学会: DO++no titleOverlasting::Life / 2009-11-04自然言語処理のトップカンファレンス - 生駒日記 機械学習 いろんな学会: DO++機械学習/機械学習の論文を探す - とうごろうぃきMeeting - 機械学習の「朱鷺の杜Wiki」 学会名が分かっている場合はそのサイトから、そうでない場合はアーカイブを検索することが多いです。ACL AnthologyACM Digital Library自然言語処理や機械学習の分野については、ひとまず基的な調べ方は分かってきた気がします。ただ、これらの手法を実際に適用しようとするとより効率的な実装が必要となる事が多いので、アルゴリズムやデータ構造、データ圧縮の分野についても論文や

  • 双対分解による構造学習 - Preferred Networks Research & Development

    入力\(x\)から出力\(y\)への関数を学習する機械学習の中で、出力が構造を有している問題は構造学習(Structured Output Learning)と呼ばれ、自然言語処理をはじめ、検索のランキング学習、画像解析、行動分析など多くの分野でみられます。 今回はその中でも複数の構造情報を組み合わせても効率的に学習・推論ができる双対分解による構造学習について紹介をします。 # 構造学習についてよく知っているという方は双対分解による構造学習のところまで読み飛ばしてください。 構造学習の導入 構造を有した出力の例として、 ラベル列 (品詞、形態素列の推定、時系列におけるアクションの推定、センサ列) 木    (係り受け解析における係り受け木、構文解析木、談話分析、因果分析) グラフ  (DAG:述語項構造による意味解析 二部グラフマッチング:機械翻訳の単語対応) 順位付集合(検索における順位

    双対分解による構造学習 - Preferred Networks Research & Development
  • 「言語処理のための機械学習入門」を参考に各種モデルに対するEMアルゴリズムを実装したよ - nokunoの日記

    Amazonにもレビューを書いたのですが、高村さんの「言語処理のための機械学習入門」を読みました。実はこのを読むのは2回目で、1回目はドラフト版のレビューをさせていただく機会があったのですが、そのときは「言語処理研究者のための機械学習入門」というタイトルで、ちょっと敷居が高いのではないかとコメントしたら「研究者」の部分が削られたという経緯があったりしました。 それはともかくとして、以前読んだときは時間もなくて実装までする暇はなかったのですが、今度はもうちょっとじっくり読みたいなということで、このブログに書いてみようと思います。EMアルゴリズムは教師なし学習を確率モデルと最尤推定でやろうとするときに必ず出てくる手法で、隠れ変数や欠損値を含む色々なモデルに適用できる汎用的なフレームワークになっています。一般的には混合ガウス分布の場合をまず説明して、それがk-means法の一般化した形になって

  • BLOG::broomie.net: 言語処理のための機械学習入門

    東工大の奥村先生監修、高村先生著の「言語処理のための機械学習入門」が発売されました。これは読まなければ!と思い、さっそく手に入れました。書の感想は当にシンプルな一言に尽きます。 「大学時代にこのがほしかった。。。」 書の目次の中見出しまでを以下に引用させていただきます。 言語処理のための機械学習入門 (自然言語処理シリーズ 1) 高村 大也 1. 必要な数学的知識 1.1 準備と書における約束事 1.2 最適化問題 1.3 確立 1.4 連続確率変数 1.5 パラメータ推定法 1.6 情報理論 1.7 この章のまとめ 2. 文書および単語の数学的表現 2.1 タイプ、トークン 2.2 nグラム 2.3 文書、文のベクトル 2.4 文書に対する前処理とデータスパースネス問題 2.5 単語ベクトル表現 2.6 文書や単語の確率分布による表現 2.7 この章のまとめ 3. クラスタリン

  • BLOG::broomie.net: 機械学習・自然言語処理のリソースリンク集

    いつもネット上で機械学習NLPに関する便利そうなツールや,有用なドキュメント,動画,ツールなどをメモしているのですが,今後の調査のためにどこかに一つに集約しておきたいなあ,と思い,この記事に集約しておくことにしました.昨今,自動リンク集や,自動インデックス作成に関して研究が盛んにされていますが,これは人力リンク集です!リンク先はほとんどさらっとしか見ていないので当に有用かどうか保証できませんが,興味を持ったものは掘り下げて別の記事で紹介したいと思います.おもしろいものを見つけしだい,このエントリーは更新していきたいと思います. ※ 有名どころをカバーしているわけではありません,あくまで気まぐれで追加していきます... ※ いくつかカテゴリ間で重複します 解説・読み物系リソース 全般 Statistical Data Mining Tutorials Tutorial Slides by

  • CRF++: Yet Another CRF toolkit

    Template type Note also that there are two types of templates. The types are specified with the first character of templates. Unigram template: first character, 'U' This is a template to describe unigram features. When you give a template "U01:%x[0,1]", CRF++ automatically generates a set of feature functions (func1 ... funcN) like: func1 = if (output = B-NP and feature="U01:DT") return 1 else ret

    gologo13
    gologo13 2010/04/11
    工藤拓さんによる条件付き確立場のライブラリ
  • 大規模データを基にした自然言語処理 - DO++

    人工知能問題研究会 (SIG-FPAI)でタイトルの題目で一時間ほど話してきました。 発表資料 [pptx] [pdf] 話した内容は - 自然言語処理における特徴ベクトルの作り方と、性質 - オンライン学習, Perceptron, Passive Agressive (PA), Confidence Weighted Learning (CW) 確率的勾配降下法 (SGD) - L1正則化, FOLOS - 索引を用いた効率化, 全ての部分文字列を利用した文書分類 で、スライドで70枚ぐらい。今までの発表とかぶっていないのはPA CW SGD FOLOSあたりでしょうか オンライン学習、L1正則化の話がメインになっていて、その両方の最終形の 確率的勾配降下法 + FOLOSの組み合わせは任意の損失関数に対してL1/L2正則化をかけながらオンライン学習をとても簡単にできるという一昔前

    大規模データを基にした自然言語処理 - DO++
  • オンラインEMアルゴリズム - DO++

    EMアルゴリズム(Expectation Maximizationアルゴリズム、期待値最大化法、以下EMと呼ぶ)は、データに観測できない隠れ変数(潜在変数)がある場合のパラメータ推定を行う時に有用な手法である。 EMは何それという人のために簡単な説明を下の方に書いたので読んでみてください。 EMのきちんとした説明なら持橋さんによる解説「自然言語処理のための変分ベイズ法」や「計算統計 I―確率計算の新しい手法 統計科学のフロンティア 11」が丁寧でわかりやすい。 EMは教師無学習では中心的な手法であり、何か観測できない変数を含めた確率モデルを作ってその確率モデルの尤度を最大化するという枠組みで、観測できなかった変数はなんだったのかを推定する場合に用いられる。 例えば自然言語処理に限っていえば文書や単語クラスタリングから、文法推定、形態素解析、機械翻訳における単語アライメントなどで使われる。

    オンラインEMアルゴリズム - DO++
  • 自然言語処理のトップカンファレンス - 武蔵野日記

    NAACL HLT 2010 の accepted papers のリストが今日出た。 知っている名前があるかなと思ったが、日人ひとりもいないようだ。 (訂正) 松研先輩の tetsu-na さんが通っているようだ。@cacahoさん情報どうもありがとうございます! MSR 時代のインターン同期とかたくさんいる。やはりカリフォルニア開催だと気合い入れて出してくるからだろうか……。他にも出していると聞いた人が通っていないのを見ると、かなり厳しかった模様。以前 masayu-a さんが日記で(現在はてなダイアリーに引っ越したようだが) NAACL > ACL >> (越えられない壁) >> CoNLL > EMNLP >> (越えられない壁) >> COLING-ACL = ACL-IJCNLP > COLING(ICCL) = >> (越えられない壁) >> EACL > IJCNLP

    自然言語処理のトップカンファレンス - 武蔵野日記
  • 統計的機械学習(Hiroshi Nakagawa)

    統計的機械学習 (under construction) 導入ppt pdf 情報の変換過程のモデル化 ベイズ統計の意義 識別モデルと生成モデル 次元の呪い 損失関数, bias, variance, noise 数学のおさらいppt pdf 線形代数学で役立つ公式 情報理論の諸概念 (KL-divergenceなど) 指数型分布族、自然共役 正規分布(条件付き、および事前分布) 評価方法ppt pdf 順位なし結果の評価(再現率、精度、適合率、F値) 順位付き結果の評価 線形回帰と識別ppt pdf 線形回帰 正規方程式 正規化項の導入 線形識別 カーネル法ppt pdf 線形識別の一般化 カーネルの構築法 最大マージン分類器 ソフトマージンの分類器 SVMによる回帰モデル SVM実装上の工夫 モデル推定ppt pdf 潜在変数のあるモデル EMアルゴリズム 変分ベイズ法 Expecta

  • Top Page | Nakagawa Lab.

    教員リスト 中川 裕志 教授 二宮 崇 講師 吉田 稔 助教 清田 陽司 助教 清水 伸幸 特任助教 吉田 和弘 リサーチフェロー その他メンバーはこちら 中川研のデモ 研究テーマと大学院 中川研究室の研究テーマは、統計的機械学習、およびその自然言語処理への応用です。特に、統計的自然言語処理の理論や機械学習、構文解析、WWWに見られる半構造化文書からの情報抽出、ナビゲーションシステムなどの研究をしています。大学院は情報理工学系研究科数理情報学専攻を中川と二宮が担当しています。中川は学際情報学府理数情報学コースの兼担もしています。数理、言語、Webに興味をもつ方で大学院進学をお考えの方はこちらを一読してください。 ***統計的機械学習について知りたい方向けの教材はここをクリックしてください。 研究室の見学の希望は随時受け付けます。中川(メールアドレス:nakagawa ここに@ マーク 

  • 1