研究に関するside_tanaのブックマーク (3)

  • GibbsLDA++でトピック分析 - よしなしごと

    なぜか唐突にブログを同時更新使用みたいな話が決まってしまったので、無理矢理エントリを書いています。 自然言語処理のトピックモデルの一つの手法であるLDAを使ってみました。 LDAについては以下のスライドが詳しいので、参照ください。 LDA入門 一部引用すると ・白鵬が単独首位 琴欧洲敗れる ・人は上の文を見て相撲に関係する文であることを理解できる 文中に相撲という単語は出てこないにもかかわらず ・単語は独立に存在しているのではなく、潜在的なトピックを持つ単語は同じ文章に出現しやすい といったモデルです。 ギブスサンプリング*1によるLDAをC++で実装したソフトが公開されています*2。Pythonによる実装*3もいくつかありましたが、今回は研究室の人が利用しているこちらを。 GibbsLDA++: A C/C++ Implementation of Latent Dirichlet All

    GibbsLDA++でトピック分析 - よしなしごと
  • NII動画チャンネルβ - 国立情報学研究所/National Institute of Informatics

    国立情報学研究所は、情報学という新しい研究分野での「未来価値創成」を目指すわが国唯一の学術総合研究所として、ネットワーク、ソフトウェア、コンテンツなどの情報関連分野の新しい理論・方法論から応用展開までの研究開発を総合的に推進しています。

    NII動画チャンネルβ - 国立情報学研究所/National Institute of Informatics
  • 統計的機械学習入門

    上田 修功 統計的機械学習入門 NTTコミュニケーション科学基礎研究所 NII軽井沢土曜講話会 2011年11月4日 (於:軽井沢国際高等セミナーハウス) 機械学習って何? どんな研究? 人の学習に例えると… 教師あり学習 (先生に習う) 教師なし学習 (自習する) 半教師あり学習 (膨大な情報を 活用する) アンサンブル学習 (皆で教え合う) 出力 情報処理システム 文字 7210 文(文章) こんにちは 日語 これはペンです。 フォーマルには… 機械(情報処理システム)に 学習能力を持たせる技術 入力 文字認識 画像 音声認識 音声信号 機械翻訳 英語 This is a pen. :所与のデータ(学習データ)だけでなく、未知のデータ(テ ストデータ)でも性能を発揮する汎化能力 学習能力 汎化誤差の最小化が実用上重要 情報処理=情報変換(価値創造) x y 入力 出力(目標値) (

  • 1