タグ

ブックマーク / www.phontron.com (15)

  • Graham Neubig - チュートリアル資料

    学校での講義 Fall 2024: Advanced NLP (CS11-711 @ CMU) Fall 2022: Advanced NLP (CS11-711 @ CMU) Spring 2022: Multilingual NLP (CS11-737 @ CMU) Fall 2021: Advanced NLP (CS11-711 @ CMU) Spring 2021: Neural Networks for NLP (CS11-747 @ CMU) Fall 2020: Multilingual NLP (CS11-737 @ CMU) Spring 2020: Neural Networks for NLP (CS11-747 @ CMU) Fall 2019: Machine Translation and Sequence-to-sequence Models (CS11-7

  • フレーズベース機械翻訳システムの構築

    gologo13
    gologo13 2012/05/11
  • 形態素解析の辞書追加

    形態素解析器としてMeCab(ラティス上の系列予測)とKyTea(点予測)を利用する(モデルはチューニングしていないので、チューニングをしたら両方とも少し精度があがる)。この二つの形態素解析器で以下のような分野適応戦略を比較する: 適応無し:一般分野のテキストと辞書を利用する。 辞書追加(再学習なし):Webコーパスにある単語を辞書追加し、MeCabの単語追加ページの指示に従ってそのコストを似たような単語(頻度の低い名詞)と一緒にする。(MeCabのみ) 辞書追加(再学習あり):辞書に単語を追加し、もう1回一般分野コーパスでモデルの重みを学習。 コーパス追加:一般分野+Webコーパスで辞書を作り、モデル学習を行う。 実験結果 実験は以下のような結果になった。

    gologo13
    gologo13 2011/11/27
  • prontron - PRONunciation percepTRON

    by Graham Neubig English prontronは日語の未知語発音推定プログラムです。構造化パーセプトロンを日語の発音推定に使えるのではないかと思って作ってみました。もし興味があったら使ってみてください。 ダウンロード 使い方 仕組み 精度 開発・TODO ダウンロード 最新版: prontron 0.1 開発版: @github 過去のバージョン: まだ prontronはCommon Public License v 1.0に従ってダウンロード、再配布できます。 使い方 発音推定 modelディレクトリの中のモデルを利用して発音を推定することができます。1行1単語の入力ファイルinput.txtを用意して、以下のコマンドを実行します: $ prontron.pl model/model.dict model/model.feat < input.txt > out

    gologo13
    gologo13 2011/07/11
    パナイ
  • Most cited papers of the ACL (1990-2009) | Graham's Research Blog

    I was wondering what papers had the most influence on the field of computational linguistics and natural language processing, so I tried making a list of the most cited papers from the annual meeting of the ACL (Association for Computational Linguistics) for the past twenty years. All citation counts are from Google scholar as of today, so take them with a grain of salt, but here goes: 1990: Steed

  • Practical Bayes: Variational vs. Sampling | Graham's Research Blog

    Machine Translation, Speech Recognition, Machine Learning, and the like. Recently Bayesian methods (particularly non-parametric Bayesian methods) have been widely used in unsupervised learning for NLP, as they provide a principled way to balance model complexity and expressiveness. There are two major techniques for learning Bayesian models: Variational Bayes (VB), and Gibbs Sampling. For more det

  • 京都フリー翻訳タスク

    京都フリー翻訳タスク (KFTT) by Graham NEUBIG (苗字 at gmail.com) English 京都フリー翻訳タスク(KFTT)は、日英機械翻訳システムのための評価タスクです。タスクはフリー、簡単、再現性のある、進化型の機械翻訳タスクを目指して設立されました。 基概念 データセット 入手・使用法 データ+システム学習 データのみ アライメントデータ トラック(順位表) 参考文献 バージョン歴 基概念 京都フリー翻訳タスクは4つの概念に基づいて設立しました。 具体的には「フリー」、「簡単」、「再現性」、「進化」というキーワードを重視しました。 フリーはオープンソースソフトと同じく、「無料」と「自由」の二つの意味があります。このタスクはデータを無料で配布しており、所属や期間に関わらず誰でも自由に参加でき、既存手法より高い精度を挙げた場合、公式ページに載ることができ

  • Sampling: Random Order? Corpus Order? | Graham's Research Blog

    Machine Translation, Speech Recognition, Machine Learning, and the like. Gibbs sampling is a common technique that is used in Bayesian learning that is used to find the true distribution of some distribution over probabilistic variables that we cannot calculate directly. I won’t cover the details here, but Wikipedia or Pattern Recognition and Machine Learning give good introductions. But the impor

  • The Importance of Error Analysis | Graham's Research Blog

    This gives us a much more clear idea of what is going wrong. We can see the largest cause of errors is that the model is having trouble distinguishing between auxiliary verbs and particles for “で” and “に”, and that there are a number of other common segmentation errors, etc. It is also useful to look at the less common errors to get a grasp on the prevalence of unknown words, etc. Of course, there

    gologo13
    gologo13 2010/10/30
    ただ精度図るだけじゃなくて,分析結果を吟味して何らかの知見を得ろという話.じゃあ,どうやったら得られるの?っていう疑問について少し答えてくれている
  • KyTeaの単語分割・タグ推定

    単語分割はポイントワイズで行われます。 すなわち、各文字間に単語境界が存在するかどうかを個別に判定し、他の境界の判定を情報として利用しません。 この手法を採用することにより、部分的にアノテーションされたコーパスを使っても効率的な学習ができます。 各文字間の周りの情報を特徴量とし、この特徴量を用いて線形分類器を学習し、学習された重みで新しいデータを解析します。 単語分割に用いられる特徴量は文字n-gram、文字種n-gram、単語情報の3種類があります。 文字n-gram 文字n-gramは判定点の周りの文字を特徴量として利用する。 これに関わる設定として、n-gram長の上限で「-charn」と、利用する文字の窓幅「-charw」があります。 以下の図は-charn=3,-charw=2の場合の一例を示す。 文字種n-gram 文字自体のn-gramに加え、文字の種類のn-gram情報も用

  • dirichlet-topic.pl 1.0

    English dirichlet-topic.plはあるテキストのジャンルを良く表す単語を見つけてくれるスクリプトです。スムージングは割とちゃんとしているので、stop wordを指定したり、低頻度の単語を削除したりする必要はありません。 Apache License Version 2.0に基づいて配布しており、個人・研究・営利用を問わずぜひ使ってください。面白かったり、何かに使ったらりしたら、このページへのリンクを貼っていただけたら幸いです。 ここからダウンロードできます:dirichlet-topic.pl Ver. 1.0 また、Wikipediaの「IT」・「スポーツ」・「国」に関する記事でテスト用のデータセットを作りました。 使い方 パッケージに3つのスクリプトが付いています: combine-counts.pl 2つ以上のファイルの単語頻度を数えて、1つの頻度付き辞書に組み

  • ギブスサンプリング

    ギブスサンプリング 情報処理辞書 > ギブスサンプリング 英語:Gibbs sampling 日語:ギブスサンプリング (ギブスサンプリング) 分野:人工知能 説明: ギブスサンプリング(Gibbs sampling)とは、確率分布からサンプルを得るのに用いられるマルコフ連鎖モンテカルロ法の単純な型である。ベイズ学習で利用されることが多く、決定的手法が指数の時間やメモリを必要とする大きなネットワークの場合には特に役に立つ。 概要 p(θ)=f(θ)/Kという確率分布からサンプリングしたい場合を考えよう(Kは非常に大きく計算は困難である定数)。以下の手法(メトロポリス・ヘイスティングス法)を用いてサンプリングができる: 初期サンプルをθ0(f(θ0) > 0)とする。 候補生成分布p(θt+1|θt)に従って現在のサンプルθtを元に新たなサンプル候補を生成する。 受理確率を計算する。 確率

  • Kyfd (the Kyoto Fst Decoder)

    This is the Kyoto Fst Decoder (Kyfd), a general purpose beam-search decoder for weighted finite state transducers (WFSTs). It has been used for a number of applications including statistical machine translation, speaking style transformation, OCR correction, grapheme-to-phoneme conversion, and speech segmentation. Download/Install Kyfd v. 0.0.5 The source repository can be found at github. Before

  • Kylm - 京都言語モデルツールキット

    English これはJava実装の京都言語モデルツールキット(Kylm)のホームページです。 Kylmに以下のような機能が揃っています: 様々な言語モデルを比較するツール 文字ベースの未知語モデルを構築する機能 Kneser-Ney、Modified Kneser-Ney、Witten-Bell、Good-Turingなどの平滑化 OpenFstやKyfdなどで利用できるWFST形式での出力 ダウンロード 仕様 CountNgrams CrossEntropy FAQ 開発情報 ダウンロード・インストール 最新版: Kylm 0.0.7 ソースコードはgithubにて。 プログラム仕様 CountNgrams コーパスから平滑化されたn-gramモデルを構築するプログラムです。 使用例: java -cp kylm.jar kylm.main.CountNgrams training.t

  • KyTea (京都テキスト解析ツールキット)

    English 京都テキスト解析ツールキット(KyTea、「キューティー」)は、日語など、単語(または形態素)分割を必要とする言語のための一般的なテキスト解析器です。 特徴 ダウンロード・インストール プログラム仕様 解析:手法の詳細, 入出力の形式, API 学習:モデル学習, 入手可能なモデル KyTeaを使った分野適応 開発情報 特徴 KyTeaには以下の機能が揃っています: 単語分割:分かち書きされていないテキストを適当な単語または形態素に分割する。 読み推定・品詞推定:かな漢字変換や音声認識、音声生成のために単語の発音を推定することができ、品詞を推定することもできます。 線形SVMやロジスティック回帰などを用いてそれぞれの分割点や読みを個別に推定するため、部分的にアノテーションされたデータを利用してモデルを学習することも可能です。 分類器の学習にはLIBLINEARを使用してい

  • 1