タグ

bayesianに関するdev0000_1のブックマーク (4)

  • 棚からパルチャギ

    実践編です。 ベイジアンフィルタを使ったアプリケ-ションの流れは、大きく分けて以下の3段階になります。 カテゴリ(クラス)定義 パターン学習 文書分類 単純ベイズ分類器(Naive Bayes classifier)ではクラス毎に単語の出現頻度を記憶して、その情報をもとに文書がそれぞれのクラスに属する確率を求めます。 SPAMフィルタなどでは「spam」と「nospam」のように2つのクラスだけで使用されることが多いです。多分。 パターン学習は、特定の文書(単語のセット)がどのクラスに所属するかを指定します。 これにより出現頻度のデータベース(コーパス)が更新されて、次回以降の分類精度を向上させることができます。 通常は、クラスを最初に設定して、以降は学習と分類を繰り返すような感じになると思います。 …ということで、クラスの定義から。 何故かNaiveBayesianStorageには、カ

  • ナイーブベイズ分類器であいさつbot作ってみた

    スパムフィルタでよく使われてる、ベイジアンフィルタのことです。これを使って「おはよう」判定してみました。 1000speakersのときに「ベイズやらないんですか?」って言われたり、tockriの人が以前「やっぱベイズよくできとるわ」とか書いてたり、テキスト分類ならベイズでいいん違うかと思ってみたので、やってみました。 結果から言うと、なんか不安定というか、1文字の違いで「おはよう」判定してしまうことがあります。ちゃんと性能測ってみないとわかんないですけど。 考えられるのは、データが少ないことですが(「おはよう」が750件中39件)、それよりも、ついったの発言では「おはよう」発言の中に「おはよう」と関係ない言葉が入ることが多くて、それが悪影響あたえてるんじゃないかと思います。ナイーブベイズのアルゴリズムを考えると、データ中のノイズに弱い気がします。 「。」や「!」で文章を区切って学習・判定

    ナイーブベイズ分類器であいさつbot作ってみた
  • ナイーブベイズによるテキスト分類体験アプリ - シリコンの谷のゾンビ

    もともとは研究室の新入生にNaive Bayesのイメージをつけるためにつくったもの.Naive Bayesを世の中に広めるために,きちんと公開することにしました. Text classification by Naive Bayes (2008-09-11追記)好評だったので日語を扱えるようにしました.詳しくはこちらの日記をご覧ください. Text classification by Naive Bayes ver.2 日語はじめました Naive Bayesナニソレ?という方はとりあえずググりましょう.理屈はわかったけれど,うまくイメージがつかないなぁ..という状態になったらプログラムを触ってみてください.すっきりします.たぶん. 使い方の説明 単語区切りが面倒なので日語は使えません.あしからず. 文を入れるっぽいところにテキストを入力します. クラスを選択して学習ボタンを押

    ナイーブベイズによるテキスト分類体験アプリ - シリコンの谷のゾンビ
  • 協調フィルタリング技術を掘り下げる--ECサイトのレコメンド技術を考える(3)

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 前回は、ECサイトのレコメンド技術の種類として、ルールベース方式、コンテンツベースフィルタリング方式、協調フィルタリング方式、ベイジアンネットワーク方式の4つを紹介した。今回は、これらのレコメンド方式をより細分化した上で、協調フィルタリングのロジックについて解説したい。 4つのレコメンド方式は、「レコメンドするために必要な情報は何なのか」、「何をもってレコメンドするためのルールとするか」という切り口で分類していると解説した。それぞれのレコメンド方式は、さらに「どの判別属性を軸にレコメンドアイテムを決定しているのか」という切り口によって細分化できる。その判別属性とは、アイテムベース、ユーザーベース、ユーザー提示情報ベースの3つだ。 例えば

    協調フィルタリング技術を掘り下げる--ECサイトのレコメンド技術を考える(3)
  • 1