タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

nlpに関するmizchiのブックマーク (5)

  • 第3回 ベイジアンフィルタを実装してみよう | gihyo.jp

    さらに詳細な利用方法が知りたい方は、Yahoo!デベロッパーズネットワークのマニュアルを参照してください。 ベイジアンフィルタの実装 ここから格的にベイジアンフィルタの実装に入っていきます。 その前に、まずは先程のリスト1のコードを利用して入力された文章をわかち書きし、単語の集合を返す関数を作成しnaivebayes.pyとして保存しましょう。こちらも先程のmorphological.pyと同様にutf-8で保存してください。 リスト2 文章の分割をする関数(naivebayes.py) # -*- coding: utf-8 -*- import math import sys #yahoo!形態素解析 import morphological def getwords(doc): words = [s.lower() for s in morphological.split(doc)

    第3回 ベイジアンフィルタを実装してみよう | gihyo.jp
    mizchi
    mizchi 2010/08/25
  • 「言語処理のための機械学習入門」を参考に各種モデルに対するEMアルゴリズムを実装したよ - nokunoの日記

    Amazonにもレビューを書いたのですが、高村さんの「言語処理のための機械学習入門」を読みました。実はこのを読むのは2回目で、1回目はドラフト版のレビューをさせていただく機会があったのですが、そのときは「言語処理研究者のための機械学習入門」というタイトルで、ちょっと敷居が高いのではないかとコメントしたら「研究者」の部分が削られたという経緯があったりしました。 それはともかくとして、以前読んだときは時間もなくて実装までする暇はなかったのですが、今度はもうちょっとじっくり読みたいなということで、このブログに書いてみようと思います。EMアルゴリズムは教師なし学習を確率モデルと最尤推定でやろうとするときに必ず出てくる手法で、隠れ変数や欠損値を含む色々なモデルに適用できる汎用的なフレームワークになっています。一般的には混合ガウス分布の場合をまず説明して、それがk-means法の一般化した形になって

    mizchi
    mizchi 2010/08/09
  • Não Aqui! » SimString (類似文字列検索ライブラリ) 1.0 released

    SimStringという類似文字列検索ライブラリをBSDライセンスでリリースしました.類似文字列検索とは,文字列集合(データベース)の中から,クエリ文字列と似ているものを見つけ出す処理です.コンピュータは,正確に一致する文字列を探すのは得意ですが,表記揺れに出くわすと,途端に対応できなくなります.例えば,「スパゲティ」に対して,レストラン情報などを返すサービスにおいて,「スパゲッティ」や「スパゲティー」などの表記揺れが検索クエリに与えられると,通常のデータベースでは情報を提示することが出来ません.類似文字列検索を用いると,表記揺れが検索クエリに与えられても,「スパゲティ」という既知語を代替クエリとして提案したり,「スパゲティ」の情報をダイレクトに引き出すことができるようになります. 似てる語を探す技術って,文字列処理の基中の基で,自然言語処理では当たり前のように使われていてもおかしくな

    mizchi
    mizchi 2010/07/22
  • Google N-gram V.S. Baidu N-gram 〜ケータイウェブは本当にエロいのか?〜 - nokunoの日記

    近年検索エンジンのBaiduは不自然言語処理コンテストなるものを開催し、今日が締切のはずだったのだが24時間延長されたらしいことを聞いてBaiduコーパスをダウンロードしたid:nokunoは仕事帰りの電車で思いついたアイデアを30分ほどで実装してみたところそれなりに面白い結果がでたので応募してみることにした。そもそもBaiduのコーパスはエロいというのを最初に誰かが言ったら@mhagiwaraさんがこんなツイートをしたことに話は遡る。インターネットがエロいのは誰でも知っている。けれど、ケータイウェブが特別にエロいのか? については寡聞にして知らなかったため、検証してみることにした。今回はケータイウェブがエロいかどうかを検証するため、以下のコーパス(N-gramデータ)を相互に比較することとした。Baidu N-gram(Baidu絵文字入りモバイルウェブコーパス) 今回のメインターゲット

    mizchi
    mizchi 2010/07/21
  • 第1回 自然言語処理勉強会@東京 に参加してきた - hamadakoichi blog

    「第1回 自然言語処理勉強会@東京 (#tokyotextmining)」(id:nokuno さん主催) に参加してきた。 ATND: 第1回 自然言語処理勉強会@東京 : ATND Google Group: Google グループ 素敵な会でした。主催者のid:nokuno さん、講師の id:sleepy_yoshi さん、id:n_shuyo さん、[Twitter:@PENGUINANA_] さん、 [Twitter:@suzuvie]さん、ありがとうございました。 また素敵な会場提供して下さった 株式会社ミクシィさんにも感謝。 以下、ツイートまとめ(Togetter)、各講師資料、メモ、の覚書き。 Togetter 第1回 自然言語処理勉強会@東京 (#tokyotextmining) - Togetter FSNLPの第1章を読む (id:nokuno, [Twitter:

    第1回 自然言語処理勉強会@東京 に参加してきた - hamadakoichi blog
    mizchi
    mizchi 2010/07/04
  • 1