gologo13のブックマーク - はてなブックマーク

Graham Neubig - チュートリアル資料

学校での講義 Fall 2024: Advanced NLP (CS11-711 @ CMU) Fall 2022: Advanced NLP (CS11-711 @ CMU) Spring 2022: Multilingual NLP (CS11-737 @ CMU) Fall 2021: Advanced NLP (CS11-711 @ CMU) Spring 2021: Neural Networks for NLP (CS11-747 @ CMU) Fall 2020: Multilingual NLP (CS11-737 @ CMU) Spring 2020: Neural Networks for NLP (CS11-747 @ CMU) Fall 2019: Machine Translation and Sequence-to-sequence Models (CS11-7

gologo13 2012/12/27

nlp
tutorial

リンク

フレーズベース機械翻訳システムの構築

gologo13 2012/05/11

smt

リンク

形態素解析の辞書追加

形態素解析器としてMeCab（ラティス上の系列予測）とKyTea（点予測）を利用する（モデルはチューニングしていないので、チューニングをしたら両方とも少し精度があがる）。この二つの形態素解析器で以下のような分野適応戦略を比較する：適応無し：一般分野のテキストと辞書を利用する。辞書追加（再学習なし）：Webコーパスにある単語を辞書追加し、MeCabの単語追加ページの指示に従ってそのコストを似たような単語（頻度の低い名詞）と一緒にする。（MeCabのみ）辞書追加（再学習あり）：辞書に単語を追加し、もう１回一般分野コーパスでモデルの重みを学習。コーパス追加：一般分野＋Webコーパスで辞書を作り、モデル学習を行う。実験結果実験は以下のような結果になった。

gologo13 2011/11/27

リンク

prontron - PRONunciation percepTRON

by Graham Neubig English prontronは日本語の未知語発音推定プログラムです。構造化パーセプトロンを日本語の発音推定に使えるのではないかと思って作ってみました。もし興味があったら使ってみてください。ダウンロード使い方仕組み精度開発・TODO ダウンロード最新版： prontron 0.1 開発版： @github 過去のバージョン：まだ prontronはCommon Public License v 1.0に従ってダウンロード、再配布できます。使い方発音推定 modelディレクトリの中のモデルを利用して発音を推定することができます。１行１単語の入力ファイルinput.txtを用意して、以下のコマンドを実行します： $ prontron.pl model/model.dict model/model.feat < input.txt > out

gologo13 2011/07/11

パナイ

リンク

Most cited papers of the ACL (1990-2009) | Graham's Research Blog

I was wondering what papers had the most influence on the field of computational linguistics and natural language processing, so I tried making a list of the most cited papers from the annual meeting of the ACL (Association for Computational Linguistics) for the past twenty years. All citation counts are from Google scholar as of today, so take them with a grain of salt, but here goes: 1990: Steed

gologo13 2011/07/07

ACL
nlp

リンク

Practical Bayes: Variational vs. Sampling | Graham's Research Blog

Machine Translation, Speech Recognition, Machine Learning, and the like. Recently Bayesian methods (particularly non-parametric Bayesian methods) have been widely used in unsupervised learning for NLP, as they provide a principled way to balance model complexity and expressiveness. There are two major techniques for learning Bayesian models: Variational Bayes (VB), and Gibbs Sampling. For more det

gologo13 2011/03/30

sampling

リンク

京都フリー翻訳タスク

京都フリー翻訳タスク (KFTT) by Graham NEUBIG (苗字 at gmail.com) English 京都フリー翻訳タスク(KFTT)は、日英機械翻訳システムのための評価タスクです。タスクはフリー、簡単、再現性のある、進化型の機械翻訳タスクを目指して設立されました。基本概念データセット入手・使用法データ＋システム学習データのみアライメントデータトラック(順位表) 参考文献バージョン歴基本概念京都フリー翻訳タスクは４つの概念に基づいて設立しました。具体的には「フリー」、「簡単」、「再現性」、「進化」というキーワードを重視しました。フリーはオープンソースソフトと同じく、「無料」と「自由」の二つの意味があります。このタスクはデータを無料で配布しており、所属や期間に関わらず誰でも自由に参加でき、既存手法より高い精度を挙げた場合、公式ページに載ることができ

gologo13 2011/03/07

リンク

Sampling: Random Order? Corpus Order? | Graham's Research Blog

Machine Translation, Speech Recognition, Machine Learning, and the like. Gibbs sampling is a common technique that is used in Bayesian learning that is used to find the true distribution of some distribution over probabilistic variables that we cannot calculate directly. I won’t cover the details here, but Wikipedia or Pattern Recognition and Machine Learning give good introductions. But the impor

gologo13 2010/12/03

sampling

リンク

The Importance of Error Analysis | Graham's Research Blog

This gives us a much more clear idea of what is going wrong. We can see the largest cause of errors is that the model is having trouble distinguishing between auxiliary verbs and particles for “で” and “に”, and that there are a number of other common segmentation errors, etc. It is also useful to look at the less common errors to get a grasp on the prevalence of unknown words, etc. Of course, there

gologo13 2010/10/30

ただ精度図るだけじゃなくて，分析結果を吟味して何らかの知見を得ろという話．じゃあ，どうやったら得られるの？っていう疑問について少し答えてくれている

nlp
研究

リンク

KyTeaの単語分割・タグ推定

単語分割はポイントワイズで行われます。すなわち、各文字間に単語境界が存在するかどうかを個別に判定し、他の境界の判定を情報として利用しません。この手法を採用することにより、部分的にアノテーションされたコーパスを使っても効率的な学習ができます。各文字間の周りの情報を特徴量とし、この特徴量を用いて線形分類器を学習し、学習された重みで新しいデータを解析します。単語分割に用いられる特徴量は文字n-gram、文字種n-gram、単語情報の3種類があります。文字n-gram 文字n-gramは判定点の周りの文字を特徴量として利用する。これに関わる設定として、n-gram長の上限で「-charn」と、利用する文字の窓幅「-charw」があります。以下の図は-charn=3,-charw=2の場合の一例を示す。文字種n-gram 文字自体のn-gramに加え、文字の種類のn-gram情報も用

gologo13 2010/09/11

リンク

dirichlet-topic.pl 1.0

English dirichlet-topic.plはあるテキストのジャンルを良く表す単語を見つけてくれるスクリプトです。スムージングは割とちゃんとしているので、stop wordを指定したり、低頻度の単語を削除したりする必要はありません。 Apache License Version 2.0に基づいて配布しており、個人・研究・営利用を問わずぜひ使ってください。面白かったり、何かに使ったらりしたら、このページへのリンクを貼っていただけたら幸いです。ここからダウンロードできます：dirichlet-topic.pl Ver. 1.0 また、Wikipediaの「IT」・「スポーツ」・「国」に関する記事でテスト用のデータセットを作りました。使い方パッケージに３つのスクリプトが付いています： combine-counts.pl 2つ以上のファイルの単語頻度を数えて、1つの頻度付き辞書に組み

gologo13 2010/06/30

nlp
toolkit

リンク

ギブスサンプリング

ギブスサンプリング情報処理辞書 > ギブスサンプリング英語：Gibbs sampling 日本語：ギブスサンプリング (ギブスサンプリング) 分野：人工知能説明：ギブスサンプリング(Gibbs sampling)とは、確率分布からサンプルを得るのに用いられるマルコフ連鎖モンテカルロ法の単純な型である。ベイズ学習で利用されることが多く、決定的手法が指数の時間やメモリを必要とする大きなネットワークの場合には特に役に立つ。概要 p(θ)=f(θ)/Kという確率分布からサンプリングしたい場合を考えよう（Kは非常に大きく計算は困難である定数）。以下の手法（メトロポリス・ヘイスティングス法）を用いてサンプリングができる：初期サンプルをθ0(f(θ0) > 0)とする。候補生成分布p(θt+1|θt)に従って現在のサンプルθtを元に新たなサンプル候補を生成する。受理確率を計算する。確率

gologo13 2010/06/06

sampling

リンク

Kyfd (the Kyoto Fst Decoder)

This is the Kyoto Fst Decoder (Kyfd), a general purpose beam-search decoder for weighted finite state transducers (WFSTs). It has been used for a number of applications including statistical machine translation, speaking style transf ormation, OCR correction, grapheme-to-phoneme conversion, and speech segmentation. Download/Install Kyfd v. 0.0.5 The source repository can be found at github. Before

gologo13 2010/06/06

FST
toolkit

リンク

Kylm - 京都言語モデルツールキット

English これはJava実装の京都言語モデルツールキット（Kylm）のホームページです。 Kylmに以下のような機能が揃っています：様々な言語モデルを比較するツール文字ベースの未知語モデルを構築する機能 Kneser-Ney、Modified Kneser-Ney、Witten-Bell、Good-Turingなどの平滑化 OpenFstやKyfdなどで利用できるWFST形式での出力ダウンロード仕様 CountNgrams CrossEntropy FAQ 開発情報ダウンロード・インストール最新版： Kylm 0.0.7 ソースコードはgithubにて。プログラム仕様 CountNgrams コーパスから平滑化されたn-gramモデルを構築するプログラムです。使用例： java -cp kylm.jar kylm.main.CountNgrams training.t

gologo13 2010/06/06

リンク

KyTea (京都テキスト解析ツールキット)

English 京都テキスト解析ツールキット(KyTea、「キューティー」)は、日本語など、単語(または形態素)分割を必要とする言語のための一般的なテキスト解析器です。特徴ダウンロード・インストールプログラム仕様解析：手法の詳細, 入出力の形式, API 学習：モデル学習, 入手可能なモデル KyTeaを使った分野適応開発情報特徴 KyTeaには以下の機能が揃っています：単語分割：分かち書きされていないテキストを適当な単語または形態素に分割する。読み推定・品詞推定：かな漢字変換や音声認識、音声生成のために単語の発音を推定することができ、品詞を推定することもできます。線形SVMやロジスティック回帰などを用いてそれぞれの分割点や読みを個別に推定するため、部分的にアノテーションされたデータを利用してモデルを学習することも可能です。分類器の学習にはLIBLINEARを使用してい

gologo13 2010/03/14

NLP
toolkit

リンク

はてなブックマーク

タグ

ブックマーク / www.phontron.com (15)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス