ikeikeikeikeのブックマーク - はてなブックマーク

本当に必要なN-gramは2割しかない - nokunoの日記
Entropy-based Pruning of Backoff Language Modelsを読んだ．単語N-gramはとてもよくできていて言語モデルとしての性能はかなりのものなのだが，なんの枝刈りもせずに中規模〜大規模なデータに適用しようとするとサイズが馬鹿でかくなってしまう．そのための対策としてよくあるのが語彙のサイズを制限する方法と，N-gramの頻度が一定以下のものを切り捨てるという方法（後者の場合は語彙も自動的に制限される）．Google 日本語N-gramなども頻度20以上のものが配布されており，効率よくデータサイズを減らすためには頻度でカットオフする方式がよく使われていると思う（語彙だけだとかなり制限しないとサイズが減らない）．しかしカットオフしすぎると性能はかなり落ち込むので，うまい方法はないものかと考えられたのがこの論文の手法である．N-gramのデータには頻度の高い
ikeikeikeike 2011/09/15
n-gram

ngram

自然言語処理
リンク
第1回DSIRNLP勉強会に参加しました #dsirnlp - nokunoの日記
@overlastさん主催のDSIRNLP（データ構造と情報検索と言語処理）勉強会に参加してきました．会場のミクシィさんには原宿時代に何度か足を運びましたが，渋谷に移ってからは初めて来て，会議室も広いし食堂？も綺麗でいいなあ，と思いました．第1回データ構造と情報検索と言語処理勉強会 #DSIRNLP : ATND TRIEにトライ！〜今日からはじめるTRIE入門〜 by @echizen_tm さんタイトルはあらため「これからのトライの話をしよ☆」Try for Trie 自己紹介 TRIEとは TRIEを作ってみた tsubomi - a Full-Text Search library using Compressed Suffix Array. - Google Project Hosting 海風に揺れる一輪のTRIEライブラリ erikaを作ってみたよ - EchizenBlo
ikeikeikeike 2011/07/27
dsirnlp

全文検索

fulltext_search

TRIE

learning_to_rank
リンク
【これはすごい】Twitter検索を3倍高速化した記事の翻訳 - nokunoの日記
これはすごい！というわけでTwitter検索を3倍高速化したという記事を翻訳してみました。Twitter Engineering: Twitter Search is Now 3x Faster2010年春。Twitterの検索チームは、我々の増え続けるトラフィックに対応し、エンドユーザにとっての遅延を減らし、我々のサービスの可用性を向上させ、新しい検索の機能を素早く開発できるようにするため、検索エンジンを書きなおす作業を始めた。その努力の一部として、我々は新しいリアルタイム検索をリリースし、検索のバックエンドをMySQLからLuceneのリアルタイム版に変更した。そして先週、我々はRuby-on-Railsに取って代わるフロントエンドをローンチした。我々がBlenderと呼ぶJavaサーバーである。我々はこの変更によって検索のレイテンシが3分の1になり、検索機能の開発を促進できるよう
ikeikeikeike 2011/04/21
twitter

search

lucene

performance
リンク
1

はてなブックマーク

タグ

ブックマーク / d.hatena.ne.jp/nokuno (3)

お知らせ

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

今週のはてなブックマーク数ランキング（2024年5月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / d.hatena.ne.jp/nokuno (3)

本当に必要なN-gramは2割しかない - nokunoの日記

第1回DSIRNLP勉強会に参加しました #dsirnlp - nokunoの日記

【これはすごい】Twitter検索を3倍高速化した記事の翻訳 - nokunoの日記

お知らせ

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

今週のはてなブックマーク数ランキング（2024年5月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス