[B! アルゴリズム] syou6162のブックマーク

syou6162 id:syou6162

アルゴリズムに関するsyou6162のブックマーク (30)

有限混合分布モデルの学習に関する研究 (Web 版)
次へ: 序論有限混合分布モデルの学習に関する研究 (Web 版) 赤穂昭太郎 2001 年 3 月 15 日学位授与(博士(工学)) 序論研究の背景と位置づけ論文の構成有限混合分布とその基本的性質定義モジュール性階層ベイズモデルとの関係パラメトリック性とノンパラメトリック性 RBF ネットワークとの関係学習における汎化と EM アルゴリズム最尤推定汎化と竹内の情報量規準 (TIC) 汎化バイアス竹内の情報量規準 (TIC) 冗長性と特異性 EM アルゴリズム一般的な特徴一般的な定式化独立なサンプルが与えられた時の混合分布の学習独立な要素分布の場合サンプルに重みがある場合 EM アルゴリズムの一般化 EM アルゴリズムの幾何学的解釈正規混合分布の汎化バイアスの非単調性についてはじめに Radial Basis Boltzmann Machine (
syou6162 2009/10/29
アルゴリズム

論文
リンク
Double-Array Articles
ダブル配列のライブラリを公開しているページです． An Implementation of Double-Array Trie URL: http://linux.thai.net/~thep/datrie/datrie.html Darts: Double-ARray Trie System URL: http://chasen.org/~taku/software/darts/ Dame URL: http://www.void.in/wiki/Dame Tiny Double-Array Library URL: http://nanika.osonae.com/TinyDA/index.html Dynamic Double-Array Library URL: http://nanika.osonae.com/DynDA/index.html
syou6162 2009/09/11
trie

research

tips

アルゴリズム
リンク
転置インデックスの圧縮 - tsubosakaの日記
Managing Gigabytes勉強会で転置インデックスの圧縮の話が出たので実際に圧縮を行った場合にどれくらいのサイズになるかを計測してみた。利用したデータは英語版Wikidiaの全記事で文書数 2,872,589 単語数 2,735,620 転置インデックスのポインタの数 397,603,176 ぐらいのサイズのデータです。無圧縮の転置インデックスのフォーマットは単語ID,文書数,文書1,....文書N, 単語ID,...で各項目4byteとなっており、1.5Gぐらいのサイズになっています。これに対して各圧縮アルゴリズムを適用した結果はアルゴリズム無圧縮 Variable Byte Code unary符号 γ符号 δ符号 Rice Coding pforDelta(仮) サイズ 1537MB 497MB 239475MB 474MB 407MB 367MB 455MB
syou6162 2009/08/31
algorithm

アルゴリズム

ir

c++

nlp
リンク
オーダーを極める思考法
プログラムの実行に掛かる時間を把握しておくのは、プログラミングを行う上で基本的な注意点です。今回は、計算量のオーダーについて学びながら、TopCoderのMedium問題を考えてみましょう。プログラムの実行時間業務としてプログラミングをされている方には釈迦に説法かもしれませんが、プログラムの実行に掛かる時間を把握しておくのは、プログラミングを行う上で基本的な注意点です。そしてこれは、TopCoderなどのコンテストでプログラムを組む際にもよく当てはまります。通常、こうしたことは感覚的に理解している方がほとんどだと思いますが、具体的にどれくらいのループを回すと何秒掛かる、といった基準を持っている人は少ないのではないでしょうか？　非常に基本的なことですが、プログラムの実行時間に関して再確認しておきたいと思います。 TopCoderの制限に関して TopCoderでは、実行時間およびメモリ使
syou6162 2009/08/22
アルゴリズム

icpc

algorithm
リンク
Darts: Double ARray Trie System
Darts: Double-ARray Trie System はじめに Darts は, Double-Array [Aoe 1989]を構築するためのシンプルな C++ Template Library です. Double-Array は Trie を表現するためのデータ構造です. ハッシュ木, デジタルトライ, パトリシア木, Suffix Array による擬似 Trieといった他の Trie の実装に比べ高速に動作します. オリジナルの Double-Arrayは, 動的に key の追加削除を行えるような枠組ですが, Darts はソート済の辞書を一括してDouble-Array に変換することに機能を絞っています. ハッシュのような単純な辞書として使うことも可能ですが, 形態素解析器の辞書に必須の Common Prefix Search を非常に高速に行うことが
syou6162 2009/07/22
algorithm

アルゴリズム

c++

形態素解析

自然言語処理

Double-Array
リンク
検索と挿入がともにO(1)であるようなHashを作るにはコツがいる
このところ立て続けに表記の事実を理解していない俺実装のHash(しかもCで!)を見かけたので、おそらく知られていないんだと思う。以降、同じ轍を踏む人が少なくなればと思い、啓蒙のために公開しておく。先に言っておくがおまえらはHashを再発明するんじゃねよボケが。おとなしくありもののライブラリ使えよ。つうかHashのある言語使えよ。Cとかマゾかよ。言葉と前提とりあえずHashが何であるかとか、どういう作りになっているかとか、そういうことは既知とする。リストの配列ってことね。←これで何言ってるか分からないおまえらにはこの文章はちょっとはやい。先にデータ構造の教科書を読むことをおすすめ。以下ではHashに登録されるキーとデータのペアのことをentryと呼び、リストの配列と言ったときのリストのほうをbin、配列のほうをbucketと呼ぶ。つまり、 class Hash { typedef lis
syou6162 2009/07/21
algorithm

アルゴリズム

Hash
リンク
東京を走る路線のデータを使って、最短経路問題をダイクストラ法で解く - imHo
ダイクストラ法が小さなサンプルデータで動いたら、実際のデータを使ってみたくなるのが人情。東京を走る地下鉄のデータでやってみたいと思った。 JavaScriptとPrototype.jsとGoogle MapsAPIとすったもんだしたあげく、なんとか動くものができた。 502 Bad Gateway テストアプリはこちら JavaScriptのソースはここのhtmlに駅や路線のデータは駅データ．ｊｐのものを使わせてもらいました。使ったのは東京メトロ＋都営＋山手線駅（ノード）の数は、同じ駅でも路線ごとで別にカウントして 322 駅同士をつなぐ線路（エッジ）の数は、徒歩や乗換えを含め 912 体感もっさり感じるけど、経路の検索以外のところがかなりかかってる Tips Prototype.js Array.without は超重い、使うな！ Hash.keys で返ってくるキーはすべて文字列に
syou6162 2009/05/30
アルゴリズム

algorithm

programming

ruby

graph
リンク
アルゴリズムコンテストの挑み方 (2) - d.y.d.
21:25 08/10/27 論文の締め切り終わったら頑張った自分へのご褒美（笑）であれとこれとそれをやる時間をとるぞー！ ……みたいなことを思っていたはずなのに、いざ提出し終わると気が抜けて何一つやる気がでない問題。困った困った。ナイチルたくさん人がいらしてる今のうちに「ナイトメア☆チルドレン」新装版面白いよみんな買おうぜ！などと書いてみる。自分のマンガの趣味はわりと平凡だと思ってて、流行ってるマンガは大抵好きだし自分の好きなのはだいたい流行ってるし。なのになぜだか藤野もやむ作品だけは唯一の例外で、とっても不思議でならない。 100回くらいアニメ化されてて然るべきだと思う。何回か書いてますがとにかく最終話が好きで、そこまでのシナリオが一気に集まって一つ一つのセリフが３倍の重みを持つように収斂していく幕引き。あれは良い。 17:12 08/10/24 アルゴリズム
syou6162 2009/05/30
algorithm

アルゴリズム

programming
リンク
アルゴリズムイントロダクション輪講動的計画法の発表資料 - てっく煮ブログ
2009年3月2日に、はてな京都オフィスで開催されたアルゴリズムイントロダクション輪講の第12回で「動的計画法」について発表しました。資料をここにおいておきます。View more presentations from nitoyon.分かりやすくしようと気合を入れてまとめたら165ページの大作になっちゃいました。無駄に長くてすいません。アルゴリズムの設計と解析手法 (アルゴリズムイントロダクション)作者: T.コルメン, R.リベスト, C.シュタイン, C.ライザーソン, Thomas H. Cormen, Clifford Stein, Ronald L. Rivest, Charles E. Leiserson, 浅野哲夫, 岩野和生, 梅尾博司, 山下雅史, 和田幸一出版社/メーカー: 近代科学社発売日: 2007/03メディア: 単行本
syou6162 2009/04/30
algorithm

programming

アルゴリズム

presentation
リンク
検索における適合率 (Precision) と再現率 (Recall)
検索における適合率 (Precision) と再現率 (Recall) 2008-01-17-1 [IIR] 「Introduction to Information Retrieval」[1] の輪講の第一回[2008-01-12-1]でちらっと話しましたが、第一章の 1.1 に Precision と Recall の説明があります（第八章でも出てきます）。若干混乱しやすくややこしい話なので、ここで改めて解説します。 § Precision (適合率) とは、全検索結果に対しての、検索要求 (information need) を満たす検索結果の割合です。例えば、「MacBook Air の重量を知りたい」という検索要求を満たすために検索キー「MacBook Air 重さ」でウェブ検索した結果100件のうち、検索要求を満たす（重さが分かる）のが85件だとすると、 Precis
syou6162 2009/03/15
algorithm

アルゴリズム

自然言語処理

ir

nlp
リンク
最大マージン kNN と SVM の関係: kNN も最近はがんばっています - 武蔵野日記
先日書いた機械学習における距離学習の続き。 kNN (k-nearest neighbour: k 近傍法)は Wikipedia のエントリにも書いてある通り、教師あり学習の一つで、あるインスタンスのラベルを周辺 k 個のラベルから推定する手法。memory-based learning と呼ばれることもある。単純に多数決を取る場合もあれば(同点を解決する必要があるが)、近いインスタンスの重みを大きくする場合もあるのだが、いずれにせよかなり実装は単純なので、他の機械学習との比較(ベースライン)として使われることも多い。簡単なアルゴリズムではあるが、1-NN の場合このアルゴリズムの誤り率はベイズ誤り率(達成可能な最小誤り率)の2倍以下となることが示されたり、理論的にもそれなりにクリアになってきているのではないかと思う。また、多クラス分類がちょっと一手間な SVM (pairwise に
syou6162 2009/02/19
algorithm

study

機械学習

svm

アルゴリズム

clustering

machine learning
リンク
マルコフ過程なウホホイウッホ - ずっと君のターン
「ぼくゴリラ　ウホホイウッホ　ウホホホホ　ウッホホウッホ　ウホホホホーイ」第５７回左千夫短歌大会の市長賞作品に感動が抑えきれないので、ウホホ変換スクリプトを組むことにした。まず元作品から状態遷移図を作成。矢印のそばにある数字は遷移確率。そのままコードに落とす。 class Array def any; self[rand(self.size)] end end module Uho MASTERPIECE = 'ウホホイウッホウホホホホウッホホウッホウホホホホーイ' DEFAULT_CHAR = 'ウ' class Converter def initialize(masterpiece=MASTERPIECE) @char_table = {} masterpiece.split(' ').each do |sentence| chars = sentence.split('
syou6162 2009/01/25
大いにわろた

アルゴリズム

何とかの無駄遣い

ruby

program

プログラム
リンク
昨年の論文をふりかえる - DO++
新年すっかりあけてました。今年もよろしくお願いします。年末年始はドタバタして昨年を振り返られなかったのですが、せっかくなので2008年に読んだ論文で私個人のベスト５を以下に列挙してみます。 D. Sontag, et. al. "Tightening LP Relaxations for MAP using Message Passing", UAI 2008 [pdf] Graphical ModelのMAP推定問題で従来解けなかった規模の複雑さの問題を高速にしかも最大であるという保障付きで解けるようにした。書いたメンバーはこの問題に関するオールスターのような感じ。解く問題は、n個の頂点からなるグラフで、各頂点には変数x1...xnがついていて、各頂点と各枝に対し関数gi(xi)、gij(xi,xj)が与えられた時、∑i gi(xi) + ∑ij gij(xi,xj)が最大となるよう
syou6162 2009/01/17
algorithm

まとめ

アルゴリズム

研究

論文
リンク
K-means法によるクラスタリングのスマートな初期値選択を行うK-means++ - kaisehのブログ
K-means法は、入力データからK個のランダムな個体を初期クラスタの中心として選択し、以降、クラスタの重心を移動させるステップを繰り返すことでクラスタリングを行う非階層的手法です。K-means法はシンプルで高速ですが、初期値依存が大きいのが弱点で、不適切な初期値選択をすると間違った解に収束してしまいます。以下は、Introduction to Information Retrievalの16章に出てくる例です。 {d1, d2, ..., d6}をK=2でクラスタリングする場合、{{d1, d2, d4, d5}, {d3, d6}}が大域最適解ですが、初期クラスタの中心をd2, d5で与えると、{{d1, d2, d3}, {d4, d5, d6}}という誤った解に収束してしまいます。この問題を改善するK-means++という手法を見つけたので、試してみました。 K-means+
syou6162 2009/01/15
algorithm

アルゴリズム

クラスタリング

kmeans

clustering
リンク
株式会社NTTデータ数理システム
現象のつながりを直感的に表現するベイジアンネットワーク BayoLinkSで構築可能なベイジアンネットワークは、変数間の因果関係をグラフ構造で可視化します。変数間の依存関係を矢印の向きで表現。確率推論によって、原因から結果だけでなく、結果から原因を予測することもできる非常に柔軟なモデルです。データ加工から予測まで、ノーコードで実現ノーコード・直感的な分析をWebブラウザ上で実現データ取り込みから前処理、可視化、モデリング、予測まで一連の分析プロセスをノーコードかつ直感的なGUI操作で行えます。分析の流れが俯瞰できる。結果を多角的に確認できるアイコンを活用した直感的なビジュアル表現で処理全体を俯瞰できるため、見通しの良い分析が可能です。また、ベイジアンネットワークによる確率推論結果など、分析の随所に現れる各種データを様々な角度から可視化するための機能も揃っています。テキストデー
syou6162 2008/04/18
application

network

soft

statistics

software

アルゴリズム

tool
リンク
Optimizing Machine Learning Programs – Machine Learning (Theory)
Machine learning is often computationally bounded which implies that the ability to write fast code becomes important if you ever want to implement a machine learning algorithm. Basic tactical optimizations are covered well elsewhere, but I haven’t seen a reasonable guide to higher level optimizations, which are the most important in my experience. Here are some of the higher level optimizations I
syou6162 2007/10/17
アルゴリズム

プログラム

program

最適化
リンク
近似を検索するアルゴリズムを変える - ma2’s diary
先日のエントリに載せたコードは，似たものを探すアルゴリズムを切り換えることができる。top_matches も get_recommendations もパラメータの最後にアルゴリズムに使うメソッド名をシンボルとして渡せる。デフォルトでは sim_pearson が使われるが，ブックマークなどでは sim_distance の方が向いていることに気づいた。 sim_distanceは評価点の「距離」を計算する。複数の評価対象アイテム（例えば映画a，映画b，映画c…）があるとする。このうち任意の2つのアイテムを取り出してみる。これを仮に映画mと映画nとする。X軸に映画mの評価点，Y軸に映画nの評価点をとり，評価者Aさんの評価（例えば3点と4点）をプロットする。続いてBさん，Cさん…と全ての評価者の評価をプロットしていく。もし評価が近似しているならば，プロットされた点は近くにあるはずだ。全ての
syou6162 2007/10/17
ruby

アルゴリズム
リンク
Google の秘密 - PageRank 徹底解説
INDEX はじめに PageRank の基本概念どうやって PageRank を求めるか現実に適用する際の問題 Namazu での実装実験 PageRank に対する個人的見解参考文献おまけ：「グーグル？／ゴーグル？」 Since: Thu Feb 1 18:22:44 JST 2001 Last Refreshed: Sat Jan 24 18:30:35 JST 2004 ★(2004/1/24) Yuan Huanglin氏によって本ページの中国語訳が作成されました。 ★(2003/7/1) 拙著『Namazuシステムの構築と活用』を改訂しました。詳しくはサポートページをご覧ください。 ★(2003/5/20) Google に関するオンラインニュース記事一覧(日本語記事のみ)を別ページ(googlenews.html) として分離しました。 ★(2001/2/
syou6162 2007/08/24
algorithm

google

marketing

math

pagerank

seo

technology

アルゴリズム

あとで読む

ページランク
リンク
辞書不要の形態素解析エンジン「マリモ」とは − ＠IT
2007/08/15 検索サービスを提供するベンチャー企業のムーターは8月1日、辞書を必要としない形態素解析エンジン「マリモ」の提供を開始した。従来、形態素解析では品詞情報を含む日本語辞書を用意するのが常識だったが、マリモでは、そうした辞書を不要とした。新技術のアプローチと特性について、開発元のムーターに話を聞いた。統計処理で単語部分を推定形態素解析とは、与えられた文を、文法上意味のある最小の単位（形態素）に区切る処理。「今日は晴れています」なら、「今日（名詞）／は（助詞）／晴れ（動詞）／て（助詞）／い（助詞）／ます（助動詞）」と分ける。検索エンジンをはじめ、さまざまな自然言語処理の場面で必要となる基礎技術だ。形態素解析を行うには、あらかじめ品詞情報が付加された数十万語からなる辞書を用意する必要がある。また、新語や造語、専門用語に対応するには、個別に人力で単語を登録する必要がある。
syou6162 2007/08/17
algorithm

computer

mooter

search

tech

形態素解析

アルゴリズム

日本語

検索エンジン

自然言語処理
リンク
僻地 - Bayesian Setの種明かし
Bayesian Setとは集合D_Cが与えられたとき、そこから「類推」して、元の集合C⊃D_Cに入る元xを(「自信」の度合いを表す数値つきで)求めるというもの。ただし、D_Cの元やxは特徴データ{c_i}をもっているとする。で、原論文を読むとΓ関数がずらずらでてきておどろおどろしいのだけれど、実はやっていることは簡単だということに気がついたので、書いてみる。簡単のために、特徴はあるかないかの2値的とする。(一般的には連続量も扱える。)すると、Bayesian Setのアルゴリズムがやっていることは、xについて観測された特徴c毎に重みwを足していくだけである。重みwはハイパーパラメーターα、βを使って,と書ける。ハイパーパラメータというと難しいそうだが、α_t = (Nc:D_Cでcをもつ元の数) + α、β_t = (N-Nc:D_Cでcを持たない元の数) + βと定めるので、α、βは先
syou6162 2007/08/12
アルゴリズム

bayesian sets

bayesian

bayes

algorithm
リンク
1 2 次のページ