[B! nlp] [2ページ] gologo13のブックマーク

Sign in - Google Accounts

Not your computer? Use a private browsing window to sign in. Learn more

gologo13 2012/03/24

nlp

リンク

きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる

MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニングするといった職人芸は要りません。形態素解析への入力文とそれに対応する(理想)出力があればコスト値を機械学習的なアプローチで構築することができます。さらに、正解データを人手で作る必要は必ずしもありません。すなわち、Yahoo!の形態素解析器の出力結果を「擬似正解」とみなして MeCabの学習プログラムを走らせれば、Yahoo!の出力を高い精度で再現できる MeCab用辞書を作成することが原理的に可能です。ふだんはあま

gologo13 2012/03/24

interesting.

nlp
mecab

リンク

Comainu | 中・長単位解析ツール

Comainuとは Comainuは、音声研究に適した中単位、及び、構文・意味研究に適した長単位を自動構成するツールです。本ツールは以下の機能を持ちます。平文または短単位列を入力すると、長単位を付与した短単位列を出力することができる。中単位境界解析平文または短単位列もしくは長単位情報を付与された短単位列を入力すると、中・長単位を付与した短単位列を出力することができる。文節境界解析平文または短単位列を入力すると、文節境界を付与した短単位列を出力することができる。

gologo13 2012/03/20

nlp

リンク

Rubyによる形態素解析エンジンokura 0.0.1をリリースしました - <s>gnarl,</s>技術メモ”’<marquee><textarea>￥

12月にさくさくテキストマイニングで発表したpure Rubyによる形態素解析エンジンをgem化しました｡まだ発展途上で機能が少なかったりパフォーマンスが悪かったりしますが､いちおう動くレベル*1になったので公開します｡注意事項バージョン0.0.xのうちは､インタフェースや辞書フォーマットは頻繁に変更される予定です｡ある程度安定したら0.1.0出します｡今のところ､Ruby1.9系専用です｡取得 gem install okuraでインストールできます｡ソースは https://github.com/todesking/okura 使い方 MeCabフォーマットの辞書データを使用します｡動作確認はMeCab用NAIST辞書で行いました｡最初にokura compileコマンドで辞書をコンパイルします $ okura compile mecab-naist-jdic-0.6

gologo13 2012/03/20

ruby
nlp

リンク

New community features for Google Chat and an update on Currents

Join the official community for Google Workspace administrators In the Google Cloud Community, connect with Googlers and other Google Workspace admins like yourself. Participate in product discussions, check out the Community Articles, and learn tips and tricks that will make your work and life easier. Be the first to know what's happening with Google Workspace. ______________ Learn about more Goo

gologo13 2012/02/29

こういう実用からの観点は重要だな。

リンク

統計的自然言語処理と機械学習・統計学の未来

1 § ¦ ¤ ¥招待論文 Invited Paper 統計的自然言語処理と機械学習・統計学の未来 Statistical natural language processing and Statistics in the future 持橋大地 Daichi Mochihashi 統計数理研究所モデリング研究系 Department of Statistical Modeling, The Institute of Statistical Mathematics daichi@ism.ac.jp, http://www.ism.ac.jp/˜daichi/ keywords: computational linguistics, statistics, statistical machine learning Summary This paper reviews the la

gologo13 2012/02/27

統計的自然言語処理と機械学習・統計学の未来, 持橋大地

pdf
nlp

リンク

大規模データ時代に求められる自然言語処理 - Preferred Networks Research & Development

話の内容は、自然言語処理が実世界で具体的にどのように応用されているのか、またその時に感じた課題についてです。後半の「何が必要とされているか」、あたりの話からは私や会社が特に重点的に取り組んでいる事そのものの話もなります。

gologo13 2012/02/09

nlp
PFI

リンク

テキスト解析:キーフレーズ抽出API - Yahoo!デベロッパーネットワーク

指定されたURLは存在しません。 URLが正しく入力されていないか、このページが削除された可能性があります。

gologo13 2012/01/26

name entity recognition?

nlp
api

リンク

Bar++ -- a stochastic word segmenter

Bar++ --確率的単語分割ツールはじめに確率的単語分割(mozilozy)とは、文字間に分割確率を付与することをいう。これを利用して文中の任意の部分文字列に対して単語らしさを得ることができる。 Bar++ は条件付確率場の周辺確率を用いた確率的単語分割ツールである。新着情報 2007-09-25 (Tue) barpp.0.4.0-0-win リリース -f wordlist オプションをつけました。単語候補リストを提示します。また -f wordlist -u とすることにより、ChaSen 辞書にない単語のみを出力するようになります。 2007-09-12 (Fri) barpp.0.2.0-0-win リリースちゃんとパッケージ化しました。-f error オプションをつけました。ダウンロード現在のところ Windows のバイナリのみ配布しています。 barpp-

gologo13 2012/01/22

nlp
toolkit

リンク

kenlm . code . Kenneth Heafield

KenLM estimates, filters, and queries language models. Estimation is fast and scala ble due to streaming algorithms explained in the paper Scala ble Modified Kneser-Ney Language Model Estimation Kenneth Heafield, Ivan Pouzyrevsky, Jonathan H. Clark, and Philipp Koehn. ACL, Sofia, Bulgaria, 4—9 August, 2013. [Paper] [Slides] [BibTeX] Querying is fast and low-memory, as shown in the paper KenLM: Faste

gologo13 2011/12/30

toolkit
nlp

リンク

Statistical NLP / corpus-based computational linguistics resources

Statistical natural language processing and corpus-based computational linguistics: An annotated list of resources Contents Tools: Machine Translation, POS Taggers, NP chunking, Sequence models, Parsers, Semantic Parsers/SRL, NER, Coreference, Language models, Concordances, Summarization, Other Corpora: Large collections, Particular languages, Treebanks, Discourse, WSD, Literature, Acquisition SGM

gologo13 2011/12/24

corpus
nlp

リンク

Python で構文木を端末に描画してみる - ny23の日記

巷にある構文解析器には，解析結果を木構造で端末に表示する機能がある．あった方が良いだろうなと思いつつ，自分で実装するのはいかにも面倒そうだと感じて，今まで後回しにしていた．いい加減そろそろ無いと困ると感じるようになってきたので，先日の通勤電車の中で暇つぶしに書いたら，思いの外あっけなく実装できたので，メモ代わりに残しておく．最初 Ruby でワンライナーで書けないかなと思ったが，流石に難しかったので，練習も兼ねて Python で実装してみた． #!/usr/bin/env python # -*- coding: utf-8 -*- # Usage: lattice_to_tree.py < in.KNP # translate parser output into human-readable dependency tree structure import sys # customi

gologo13 2011/12/13

NLP

リンク

Natural Language Processing - January 2012

About The Course We are offering this course on Natural Language Processing free and online to students worldwide, January - March 2012, continuing Stanford's exciting forays into large scale online instruction. Students have access to screencast lecture videos, are given quiz questions, assignments and exams, receive regular feedback on progress, and can participate in a discussion forum. Those w

gologo13 2011/12/08

nlp

リンク

State of the art - ACL Wiki

The purpose of this section of the ACL wiki is to be a repository of k-best state-of-the-art results (i.e., methods and software) for various core natural language processing tasks. As a side effect, this should hopefully evolve into a knowledge base of standard evaluation methods and datasets for various tasks, as well as encourage more effort into reproducibility of results. This will help newco

gologo13 2011/10/23

nlp
research

リンク

第7回自然言語処理勉強会で発表してきました - 蝉々亭

第7回自然言語処理勉強会で文書要約に関するお話をさせていただきました。その際に用いましたスライドを公開します。今回は入門編（初級編）なので、そのうち中級編をやるかもしれません。 Introduction to Automatic Summarization View more presentations from Hitoshi NISHIKAWA 毎回、スライドのレイアウトがおかしくなっていましたが、今回はpdfに変換してアップロードしました。こうすれば良かったのですね。今回はレイアウトが乱れていないはずです。過去のスライドもpdf化してアップロードしなおすつもりです。次はグーグルによるザガットサーベイ買収の話か、NLP若手の会第6回シンポジウムの話を書きます。

gologo13 2011/10/10

nlp

リンク

twitterで自然言語処理 - Preferred Networks Research & Development

勢い余ってスイカを買ったら、毎日食べるハメになってしまいました。海野です。どんな業界もそうだと思いますが、世の中の流行りものの論文が増えるという面が自然言語処理界隈にもあります。Web、blog、と来て、最近のトレンドはやはりtwitterに代表されるmicro blogでしょうか。今年の言語処理学会の年次大会でtwitterセッションは大盛況でしたが、国際会議でもtwitterを題材として発表が増えています。数えてみたら、重要国際会議であるACLで6件、EM NLPでも3件、twitterをタイトルに含む発表が今年ありました。ちなみに2010年の会議では1件もありませんでした。そんなわけで、私も今日はそんな流行りに乗っかって、twitter言語処理関連の論文を3つ紹介します。 Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! UsingWord

gologo13 2011/08/20

nlp

リンク

N-gram 言語モデルを圧縮するには - やた＠はてな日記

はじめに今回の記事は，以下の論文に関するものです．他にも紹介記事（ACL2011論文「Faster and Smaller N-Gram Language Models」を読んだ - EchizenBlog-Zwei）があるので，そちらでは特に触れられていない部分を（独断と偏見により）解説しています． http://nlp.cs.berkeley.edu/pubs/Pauls-Klein_2011_LM_paper.pdf Adam Pauls and Dan Klein. Faster and Smaller N-Gram Language Models. In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, pp. 258--267, 2011. 概要こ

gologo13 2011/08/04

N-gram
nlp

リンク

ACL2011論文「Faster and Smaller N-Gram Language Models」を読んだ - EchizenBlog-Zwei

ACL2011の論文で「Faster and Smaller N-Gram Language Models」というのが気になったので読んでみた。 ACL Anthology » P11 Faster and Smaller N-Gram Language Models Adam Pauls, Dan Klein; 2011 本論文はこれまで提案されている言語モデルの圧縮・高速化の手法を実装して比較したよ、というもの。各種法が丁寧に解説されており、性能比較もよく知られているツールであるSRILMをベースラインとして行っているので参考になる。サーベイ論文として優れていると感じた。本論文で紹介されている手法はモデルのサイズ圧縮と高速化の2点に関するもの。まずはサイズ圧縮について。これはTRIEを使うことで各Nグラムの共通したプレフィクスを圧縮するのが基本らしい。でTRIEについてはノードの持

gologo13 2011/07/12

リンク

prontron - PRONunciation percepTRON

by Graham Neubig English prontronは日本語の未知語発音推定プログラムです。構造化パーセプトロンを日本語の発音推定に使えるのではないかと思って作ってみました。もし興味があったら使ってみてください。ダウンロード使い方仕組み精度開発・TODO ダウンロード最新版： prontron 0.1 開発版： @github 過去のバージョン：まだ prontronはCommon Public License v 1.0に従ってダウンロード、再配布できます。使い方発音推定 modelディレクトリの中のモデルを利用して発音を推定することができます。１行１単語の入力ファイルinput.txtを用意して、以下のコマンドを実行します： $ prontron.pl model/model.dict model/model.feat < input.txt > out

gologo13 2011/07/11

パナイ

リンク

The conference(s) post: ACL and ICML

my biased thoughts on the fields of natural language processing (NLP), computational linguistics (CL) and related topics (machine learning, math, funding, etc.) I'm using ACL/ICML as an excuse to jumpstart my resumed, hopefully regular, posting. The usual "I didn't see/read everything" applies to all of this. My general feeling about ACL (which was echoed by several other participants) was that

gologo13 2011/07/09

acl
nlp

リンク

はてなブックマーク

タグ

関連タグで絞り込む (126)

nlpに関するgologo13のブックマーク (179)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス