[B! clustering] tanakaBoxのブックマーク

tanakaBox id:tanakaBox

clusteringに関するtanakaBoxのブックマーク (6)

bayonやCLUTOが爆速な理由 - download_takeshi’s diary
クラスタリングツールbayonを使っていて、常々「どうしてこんなに高速に処理できんのかなぁ」と疑問に感じていました。repeated bisectionという手法自体がk-means法などと比べると効率がいいのですが、それにしても、それだけでは説明がつかないほど爆速なわけです。うまく例えられませんが、自前でk-meansのスクリプトを書いて比べてみると、自転車と新幹線くらいちがうという印象です。はじめてCLUTOを触った時、数万件程規模のクラスタリング処理が本当に「あっ」という間に終わってしまい、びっくりした記憶があります。きっと実装面でなにか特殊なことがあるんだろうなと思い、mixiエンジニアブログでbayonの記事を改めて読み漁っていたら、以下の部分が目に止まりました。このクラスタの評価は、クラスタの各要素とクラスタの中心とのcosine類似度の和としています。この和が大きいほど
tanakaBox 2010/02/22
clustering

algorithm
リンク
実際に作って理解する！ Linuxサーバーのクラスタリング
本連載は，サーバーの信頼性確保に重要となる「クラスタリング」を体験的に学ぶものです。Linuxと，オープンソースのクラスタリング・ソフトを使い，無料で手軽に体験しましょう。まず，第1回として“クラスタリングとは何か”から解説します。目次・第1回　クラスタリングを5分で完全理解・第2回　Linuxで動作するHAクラスタリング・ソフト・第3回　Heartbeatでクラスタリングを作ってみよう（準備編）・第4回　Heartbeatでクラスタリングを作ってみよう (インストール編) ・第5回　「Heatbeatでクラスタリングを作ってみよう」（設定編）：OS，Heatbeatの設定手順・第6回　「Heatbeatでクラスタリングを作ってみよう」（動作テスト編）：動作テストの詳細手順・第7回　クラスタ構成を拡張させよう(準備・設定編) ・第8回　クラスタ構成を拡張させよう(動作テスト編
tanakaBox 2010/01/09
Heartbeat

clustering
リンク
軽量データクラスタリングツールbayon - mixi engineer blog
逆転検事を先日クリアして、久しぶりに逆転裁判1〜3をやり直そうか迷い中のfujisawaです。シンプルなデータクラスタリングツールを作成しましたので、そのご紹介をさせていただきます。クラスタリングとはクラスタリングとは、対象のデータ集合中で似ているもの同士をまとめて、いくつかのグループにデータ集合を分割することです。データマイニングや統計分析などでよく利用され、データ集合の傾向を調べたいときなどに役に立ちます。例えば下図の例ですと、当初はデータがゴチャゴチャと混ざっていてよく分からなかったのですが、クラスタリングすることで、実際は3つのグループのデータのみから構成されていることが分かります。様々なクラスタリング手法がこれまでに提案されていますが、有名なところではK-means法などが挙げられます。ここでは詳細については触れませんが、クラスタリングについてより詳しく知りたい方は以下の
tanakaBox 2009/09/02
クラスタリングツール

algorithm

clustering

datamining
リンク
Tutorial_ja - bayon - Google Code
Code Archive Skip to content Google About Google Privacy Terms
tanakaBox 2009/09/01
クラスタリングツール。Repeated Bisection法を使ってるみたい。

algorithm

clustering
リンク
クラスタリングの定番アルゴリズム「K-means法」をビジュアライズしてみた - てっく煮ブログ
集合知プログラミングを読んでいたら、K-means 法（K平均法）の説明が出てきました。K-means 法はクラスタリングを行うための定番のアルゴリズムらしいです。存在は知っていたんだけどいまいちピンときていなかったので、動作を理解するためにサンプルを作ってみました。クリックすると１ステップずつ動かすことができます。クラスタの数や点の数を変更して、RESET を押すと好きなパラメータで試すことができます。こうやって１ステップずつ確認しながら動かしてみると、意外に単純な仕組みなのが実感できました。K-means 法とはK平均法 - Wikipedia に詳しく書いてあるけど、もうすこしザックリと書くとこんなイメージになります。各点にランダムにクラスタを割り当てるクラスタの重心を計算する。点のクラスタを、一番近い重心のクラスタに変更する変化がなければ終了。変化がある限りは 2. に戻る。これ
tanakaBox 2009/09/01
K-means法の可視化

algorithm

clustering
リンク
クラスタリングによる迷路作成アルゴリズム
はじめにクラスタリングアルゴリズムにより、解くと絵が浮かび上がる迷路を作成する方法を紹介する。クラスタリングとはウェブのリンク情報や、mixiの友人関係など、ネットワークの性質を知りたいことがよくある。このとき、ネットワークの性質としてこのネットワークにおいて任意に選んだ要素Aと要素Bはつながっているか？このネットワークは全体がつながっているか？つながっていないとしたらいくつのグループに分かれるか？要素数最大のグループはどれか？などの情報が欲しくなる。このような解析をするときに必要となるのがクラスタリングである。クラスタリングとは、同値関係のリストが与えられたときにグループ分けをすることである。たとえば、友達の友達は友達であると定義すると、友人関係は同値関係を作る。その上で、 A君とB君は友達 C君とE君は友達 B君とD
tanakaBox 2009/09/01
スゲー。

maze

clustering

algorithm
リンク
1