タグ

アルゴリズムと自然言語処理に関するhiroyuki1983のブックマーク (6)

  • 文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)

    言語処理学会第20回年次大会(2014/3)のチュートリアル講義資料です。 - 要旨 - 文法圧縮とは,入力テキストをよりコンパクトな文脈自由文法(CFG)に変換する圧縮法の総称である. 文法圧縮の強みは圧縮テキストを展開すること無く,検索等のテキスト処理を効率よく行える点にある. 驚くべきことにその処理速度は,元テキスト上での同じ処理を理論的に,時には実際にも凌駕する. また近年,ウェブアーカイブやログ,ゲノム配列等の大規模実データを高効率に圧縮できることで注目を集めている. しかしながら,文法圧縮についての初学者向けの解説資料はまだまだ少ない. そこでチュートリアルでは,文法圧縮の歴史的背景から最新動向までを幅広く紹介する. 具体的には文法変換アルゴリズム,圧縮テキスト上での文字列パターン検索,文法圧縮に基づく省メモリデータ構造等の解説を行う.Read less

    文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
  • はてなブログ | 無料ブログを作成しよう

    恋人と別れて30年が過ぎ、その元恋人の娘と出逢う夜 古い友人であるShellyからメッセージが届いた。「私の娘のAdrienneが日に行くのだけれど、時間取って彼女と会ってくれるかしら?」 Shellyはアメリカ在住の白人女性だ。Shellyと俺との関わり合いは、過去に書いた。こちらを参照のこと。25歳に戻れた夜~ブライアン・…

    はてなブログ | 無料ブログを作成しよう
  • A Plan for Spam (スパム対策)

    スパムへの対策 ---A Plan for Spam Paul Graham, August 2002 これは、Paul Graham:A Plan for Spam を、原著者の許可を得て翻訳・公開するものです。 <版権表示> 和訳テキストの複製、変更、再配布は、この版権表示を残す限り、自由に行って結構です。 (「この版権表示」には上の文も含まれます。すなわち、再配布を禁止してはいけません)。 Copyright 2002 by Paul Graham 原文: http://www.paulgraham.com/spam.html語訳:Shiro Kawai (shiro @ acm.org) <版権表示終り> Paul Graham氏のエッセイをまとめた『ハッカーと画家』の 邦訳版が出版されました。 出版社の案内ページ Amazon.co.jp サポートページ 2003/01/

    A Plan for Spam (スパム対策)
  • Mozcソースコード徹底解説 #TokyoTextMining

    Loading… Flash Player 9 (or above) is needed to view presentations. We have detected that you do not have it on your computer. To install it, go here. Mozcソースコード徹底解説 #TokyoTextMining - Presentation Transcript Mozcソースコード徹底解説 #tokyotextmining @nokuno 自己紹介 2  Twitter: @nokuno  はてな:id:nokuno  自然言語処理勉強会を主催  PRML/R/Python/Hadoopなど 2002~2006:コミケ同人ゲーム売ってた 2007~2008:未踏でSocial IMEの開発 2009~現在:Web業界勤務 今日

  • 可変次数 N-gram デコードのアルゴリズム - アスペ日記

    前に書いた N-gram 漢字-かな変換 - アスペ日記 のアルゴリズムについて。 かなり縦に長いエントリになると思う。途中までは一般的な日語自然言語処理にかかわること。 例として、「かれがくるまでまつ」というひらがなの文をデコードして、対応する漢字かな混じり文にすることを考える。 こういう時に使われるのが「ラティス構造」。こういうやつ↓ (この図は一回しか出てきません。ちなみにこのために Keynote 買ったようなもの) それぞれのノードで、そこに入ってくるエッジの中で一番確率が高いものとその確率を覚えていくことで、動的計画法によって最適なパスを導くことができる。 これをプログラム上でどう実現するか。 まず、共通接頭辞検索というものを使う。 これは、あるキーを渡すと、そのキーに前から一致するようなキーを持つ候補を列挙してくれるというもの。 例えば、「くるまで」をキーとして使うと、「く

    可変次数 N-gram デコードのアルゴリズム - アスペ日記
  • 修論(可変次数 CRF)の英訳 - アスペ日記

    ここのところ一ヶ月ぐらい、修士論文(可変次数 CRF)の英訳に取り組んでいた(うまくいったら国際学会とやらに出してみようかなと。ちなみに出したことはない)。ただの翻訳のつもりが、始めてみるといろいろとまずいところや足りないところが見つかったので、いろいろと修正した。その結果: 厳密になった。 ストーリーができた。 (多少)簡潔になった。 と、自分では思っている。 英訳&修正したバージョン:http://vocrf.net/docs/thesis_en.pdf 元の修士論文:http://vocrf.net/docs_ja/thesis.pdf 英訳した部分に相当するのは、日語版の 12〜24ページに相当する(図を使った例は省いた)。 とりあえず、これで先行研究の人に意見を聞いてみようかな。

    修論(可変次数 CRF)の英訳 - アスペ日記
  • 1