[B! データマイニング][解析] yamadarのブックマーク

2014年は「スモールデータ」元年に--10の理由を解説

Paul Greenberg （Special to ZDNET.com）翻訳校正：村上雅章野崎裕子 2013-12-13 07:30 ビッグデータはここ12～15カ月の間、世の中で大きく採り上げられ、数多くのアプリケーションも生み出されている。しかしここに来て、業界に新風を吹き入れる第一人者として知られるAllen Bonde氏が「スモールデータ」に目を向けることを提唱している。これは一体何を意味しているのだろうか？以下はBonde氏による見解である。ビッグデータというアイデアには抵抗しがたいものがある。顧客の振る舞いから目に見えないパターンを洗い出したり、次の選挙結果を予測したり、広告費をどういった対象に振り向けるべきかを知りたいのだろうか？そういった目的のアプリケーションは既に存在している。そして、専門家らの声に耳を傾けるのであれば、われわれは子どもたちにデータ分析の専門家に

yamadar 2015/10/02

リンク

k-meansクラスタ分析 - サンプルソースコード C/C++

C言語によるサンプルソースコード : 使用関数名：nag_mv_kmeans_cluster_analysis (g03efc) Keyword: k-means, クラスタ分析, cluster analysis, データマイニング概要本サンプルはk-meansクラスタリングを行うC言語によるサンプルプログラムです。本サンプルは以下の「分析対象データ」に示される変数が５個、観察数が２０のデータを分析対象とします。このサンプルではk-means法によりデータを３つのクラスタに分割します。また k-means 法で必要な初期値も以下の「与える初期値」に示す通り与えます。 ※本サンプルはNAG Cライブラリに含まれる関数 nag_mv_kmeans_cluster_analysis() のExampleコードです。本サンプル及び関数の詳細情報は nag_mv_kmeans_clust

yamadar 2011/06/09

k-meansは複数個の変数があってOK。それぞれに初期値を与える。

リンク

「パターン認識と機械学習」(PRML)読書会 #11 + R で K-means - 木曜不足

2/6 に「パターン認識と機械学習」(PRML)読書会 #11 ＠サイボウズ・ラボにのこのこ行ってきました。お疲れ様＞各位今回は８章「グラフィカルモデル」の後半＋９章の K-means まで。 sum-product(積和アルゴリズム) や max-sum で、グラフィカルモデルが周辺化や同時分布の大域最大解を求めるためのツールになる、というお話。 sleepy_yoshi さんの 8.4.1〜3 因子グラフ他の資料 nokuno さんの 8.4.4 sum-product の資料 8.4.5 max-sum の資料。いつものように、気付いたことその他箇条書きで。有向グラフを因子グラフに変換するために必要なモラル化の説明で、sleepy_yoshi さんの資料に超ナツカシ漫画が出てきて、ずっこけたｗ　断じてアメフト漫画ではありませんｗｗｗ　ちなみに、件の漫画は男子校の友人から貸し

yamadar 2011/06/09

RでK-meansクラスタリングをやっている。

リンク

適切なクラスタ数を推定するX-means法 - kaisehのブログ

K-means法によるクラスタリングでは、あらかじめクラスタ数Kを固定する必要があります。HatenarMapsでもK-means法を使っているのですが、クラスタ数は（特に根拠もなく）200個に決め打ちになっていました。これに対して、X-means法というK-means法の拡張が提案されていることを知りました。X-means法を使うと、データに応じて最適なクラスタ数を推定できます。 K-means and X-means implementations http://www-2.cs.cmu.edu/~dpelleg/download/xmeans.pdf X-means法の考え方は、K=2で再帰的にK-means法を実行していくというもので、クラスタの分割前と分割後でBIC（ベイズ情報量規準）を比較し、値が改善しなくなるまで分割を続けます。調べたところ、Javaのデータマイニングツー

yamadar 2011/06/09

X-means法を使うと、データに応じて最適なクラスタ数を推定できます。

リンク

K-mean法

yamadar 2011/06/09

距離を求めるために軸の重みの問題が出てくるわけで、あくまでも近似と割り切って、因子分析で少数の軸にまとめて、それから、K-meanでも良かったのでは？

リンク

R言語プログラミング：クラスター分析 - k-means - hamadakoichi blog

4/17(土)の第３回データマイニング+WEB 勉強会＠東京 (Tokyo.Webmining#3)での私の一つ目のトーク「1. R言語によるクラスター分析 - 活用編 (60分)」の一部関連内容です。当日は、全体像も含め分かる形の講義資料で話します。当日、USTREAM配信も行う予定ですので、興味のある方はぜひご覧下さい。第３回データマイニング+WEB 勉強会＠東京 (Tokyo.Webmining#3) : ATND ※内容記述に関して粗い部分も、追って洗練します。 k-means k-meansは、クラスター分析の非階層的手法で代表的な手法。現実のクラスタリングでもk-meansが使われることが多く、実用的な手法。 ※階層的手法の対極にある「非階層的手法」(分割最適化手法とも呼ばれる)。詳細は次エントリを参照：「はじめてでもわかる R言語によるクラスター分析」 ※アルゴリ

yamadar 2011/06/09

リンク

Random forest - Wikipedia

ランダムフォレスト（英: random forest, randomized trees）は、2001年にレオ・ブレイマン（英語版）によって提案された[1]機械学習のアルゴリズムであり、分類、回帰、クラスタリングに用いられる。決定木を弱学習器とするアンサンブル学習アルゴリズムであり、この名称は、ランダムサンプリングされたトレーニングデータによって学習した多数の決定木を使用することによる。ランダムフォレストをさらに多層にしたアルゴリズムにディープ・フォレストがある。対象によっては、同じくアンサンブル学習を用いるブースティングよりも有効とされる。アルゴリズム[編集] 学習[編集] 学習を行いたい観測データから、ブートストラップ法によるランダムサンプリングにより B 組のサブサンプルを生成する各サブサンプルをトレーニングデータとし、B 本の決定木を作成する指定したノード数に達するまで、以

yamadar 2011/04/15

リンク

2100万会員モバゲータウンはデータマイニングの宝の山｜【Tech総研】

蓄積された大量のデータを分析し、隠れた事象や法則を発見していく技法、データマイニング。会員数2100万を超えるモバゲータウンを運営するDeNAは、サービス向上や開発に高度なデータマイニングを使うことで、ソーシャルゲームの世界展開を目指すという。ソーシャルゲームのトップシェアを握るディー・エヌ・エー（DeNA）。主力である「モバゲータウン」（以下、モバゲー）は今日、ユーザーアカウント数2100万人超、1日のアクション数（ページビュー数）は実に20億超に達する巨大な仮想コミュニティ空間に成長した。DeNAは今、日本最大級の規模に成長したモバゲーを舞台として、ある新たな技術的挑戦を始めている。「われわれがチャレンジしているその技術とは、データマイニングです」こう語るのは、ソーシャルメディア事業本部ソーシャルゲーム統括部のグループリーダーを務める山田憲晋氏。モバゲーのソーシャルゲームを開発す

yamadar 2011/04/15

自分ももっと頑張らなければ。

リンク

はてなブックマーク

タグ

関連タグで絞り込む (4)

データマイニングと解析に関するyamadarのブックマーク (8)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス