タグ

ブックマーク / chasen.org/~taku (4)

  • きまぐれ日記: 「読めてしまう」コピペがなぜ読めてしまうのか

    http://www.asks.jp/users/hiro/59059.html http://www.itmedia.co.jp/news/articles/0905/08/news021.html 最初読んだとき、違和感なく読めてしまったのですが、よくよく見てみると、そんなトリックがあったのですね。 さて、この「読めてしまう」がなぜよめてしまうのでしょうか? 人間の言語モデルの単語パープレキシティは、約100ぐらいであると言われています。どういうことかというと、 人間が文章を読んでいるときに、次の単語を過去の文章から推測するのは 1/100 程度の 確率で正解するということです。 件のコピペですが、最初の文字は変わらないので、その正解率は平仮名の数(52)倍になります。 すなわち、52/100 =~ 0.5 実際には、最後の文字も変わらないし、 単語の長さが変わらないというもの、大きな

    nazoking
    nazoking 2009/05/14
    人間の言語モデルの単語パープレキシティは、約100ぐらいであると言われています。
  • Ajax IME ブックマークレット

    Ajax IME ブックマークレットを作ってみました.右クリックしてブックマークに登録してみてください. Ajax IME ブックマークにアクセスするだけで現在表示しているページにある textarea と inputbox が Ajax IME 経由で入力可能になるはずです.成功すれば2秒ほどで textarea の色が変わって Ajax IME 入力状態になります.Alt-O で元に戻ります. たいていはうまくいくようですが,まだまだ完璧ではなくて CSS がらみから入力のカーソル位置が激しくずれたり,javascript のイベントがフックできなくて変化なしといったことが頻発します.気長に修正していくつもりですが,みなさんのフィードバックお待ちしております. Mixi の日記投稿や Movable Type の投稿も若干癖がありますが問題なかったです.海外からの日記更新がかなり楽にな

    nazoking
    nazoking 2006/10/18
    激しく位置がずれるがこれはすごい
  • きまぐれ日記: Ajax を使った日本語 IME

    現実逃避のパワーはすごいです。 簡単な日語IMEを作ってみました。けっこう面白いです。 MeCab を変換エンジンとして使っています。それなりに賢いですが、 所詮 品詞 bi-gram なので間違えるでしょう。 「わたしのなまえはなかのです → 私の名前は中野です」 は変換できました ;) ローマ字 → ひらがなも含め全て C++ で書いたので それなりにサクサク動いてくれます。 Google suggest のように複数の解から選択させたいのですが、 CSS + Javascript のお化けのようで、大変そうです。 投稿者 taku : 2005年03月01日 01:22 トラックバック このエントリーのトラックバックURL: http://chasen.org/~taku/blog/mt-tb.cgi/104 このリストは、次のエントリーを参照しています: Ajax を使った日

    nazoking
    nazoking 2005/07/02
    onkeyup onfocus で value をサーバに投げて MeCabで変換
  • MeCab: Yet Another Part-of-Speech and MorphologicalAnalyzer

    MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった 一部のコンパイラで正しくコンパイルできなかった問題の修正 部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-

    nazoking
    nazoking 2005/07/02
    解析精度は, ChaSen と変わらないにもかかわらず, 平均的に ChaSen の3-4倍のスピードで動作します
  • 1