タグ

ブックマーク / d.hatena.ne.jp/nokuno (3)

  • 本当に必要なN-gramは2割しかない - nokunoの日記

    Entropy-based Pruning of Backoff Language Modelsを読んだ.単語N-gramはとてもよくできていて言語モデルとしての性能はかなりのものなのだが,なんの枝刈りもせずに中規模〜大規模なデータに適用しようとするとサイズが馬鹿でかくなってしまう.そのための対策としてよくあるのが語彙のサイズを制限する方法と,N-gramの頻度が一定以下のものを切り捨てるという方法(後者の場合は語彙も自動的に制限される).Google語N-gramなども頻度20以上のものが配布されており,効率よくデータサイズを減らすためには頻度でカットオフする方式がよく使われていると思う(語彙だけだとかなり制限しないとサイズが減らない).しかしカットオフしすぎると性能はかなり落ち込むので,うまい方法はないものかと考えられたのがこの論文の手法である.N-gramのデータには頻度の高い

  • 第1回DSIRNLP勉強会に参加しました #dsirnlp - nokunoの日記

    @overlastさん主催のDSIRNLP(データ構造と情報検索と言語処理)勉強会に参加してきました.会場のミクシィさんには原宿時代に何度か足を運びましたが,渋谷に移ってからは初めて来て,会議室も広いし堂?も綺麗でいいなあ,と思いました.第1回 データ構造と情報検索と言語処理勉強会 #DSIRNLP : ATND TRIEにトライ!〜今日からはじめるTRIE入門〜 by @echizen_tm さんタイトルはあらため「これからのトライの話をしよ☆」Try for Trie 自己紹介 TRIEとは TRIEを作ってみた tsubomi - a Full-Text Search library using Compressed Suffix Array. - Google Project Hosting 海風に揺れる一輪のTRIEライブラリ erikaを作ってみたよ - EchizenBlo

  • 【これはすごい】Twitter検索を3倍高速化した記事の翻訳 - nokunoの日記

    これはすごい! というわけでTwitter検索を3倍高速化したという記事を翻訳してみました。Twitter Engineering: Twitter Search is Now 3x Faster2010年春。Twitterの検索チームは、我々の増え続けるトラフィックに対応し、エンドユーザにとっての遅延を減らし、我々のサービスの可用性を向上させ、新しい検索の機能を素早く開発できるようにするため、検索エンジンを書きなおす作業を始めた。 その努力の一部として、我々は新しいリアルタイム検索をリリースし、検索のバックエンドをMySQLからLuceneのリアルタイム版に変更した。そして先週、我々はRuby-on-Railsに取って代わるフロントエンドをローンチした。我々がBlenderと呼ぶJavaサーバーである。我々はこの変更によって検索のレイテンシが3分の1になり、検索機能の開発を促進できるよう

  • 1