タグ

データマイニングと解析に関するyamadarのブックマーク (8)

  • 2014年は「スモールデータ」元年に--10の理由を解説

    Paul Greenberg (Special to ZDNET.com) 翻訳校正: 村上雅章 野崎裕子 2013-12-13 07:30 ビッグデータはここ12~15カ月の間、世の中で大きく採り上げられ、数多くのアプリケーションも生み出されている。しかしここに来て、業界に新風を吹き入れる第一人者として知られるAllen Bonde氏が「スモールデータ」に目を向けることを提唱している。これは一体何を意味しているのだろうか?以下はBonde氏による見解である。 ビッグデータというアイデアには抵抗しがたいものがある。顧客の振る舞いから目に見えないパターンを洗い出したり、次の選挙結果を予測したり、広告費をどういった対象に振り向けるべきかを知りたいのだろうか?そういった目的のアプリケーションは既に存在している。そして、専門家らの声に耳を傾けるのであれば、われわれは子どもたちにデータ分析の専門家に

    2014年は「スモールデータ」元年に--10の理由を解説
  • k-meansクラスタ分析 - サンプルソースコード C/C++

    C言語によるサンプルソースコード : 使用関数名:nag_mv_kmeans_cluster_analysis (g03efc) Keyword: k-means, クラスタ分析, cluster analysis, データマイニング 概要 サンプルはk-meansクラスタリングを行うC言語によるサンプルプログラムです。 サンプルは以下の「分析対象データ」に示される変数が5個、観察数が20のデータを分析対象とします。 このサンプルではk-means法によりデータを3つのクラスタに分割します。 また k-means 法で必要な初期値も以下の「与える初期値」に示す通り与えます。 ※サンプルはNAG Cライブラリに含まれる関数 nag_mv_kmeans_cluster_analysis() のExampleコードです。サンプル及び関数の詳細情報は nag_mv_kmeans_clust

    yamadar
    yamadar 2011/06/09
    k-meansは複数個の変数があってOK。それぞれに初期値を与える。
  • 「パターン認識と機械学習」(PRML)読書会 #11 + R で K-means - 木曜不足

    2/6 に 「パターン認識と機械学習」(PRML)読書会 #11 @サイボウズ・ラボに のこのこ行ってきました。お疲れ様>各位 今回は8章「グラフィカルモデル」の後半+9章の K-means まで。 sum-product(積和アルゴリズム) や max-sum で、グラフィカルモデルが周辺化や同時分布の大域最大解を求めるためのツールになる、というお話。 sleepy_yoshi さんの 8.4.1〜3 因子グラフ他の資料 nokuno さんの 8.4.4 sum-product の資料 8.4.5 max-sum の資料。 いつものように、気付いたことその他箇条書きで。 有向グラフを因子グラフに変換するために必要なモラル化の説明で、sleepy_yoshi さんの資料に超ナツカシ漫画が出てきて、ずっこけたw 断じてアメフト漫画ではありませんwww ちなみに、件の漫画は男子校の友人から貸し

    「パターン認識と機械学習」(PRML)読書会 #11 + R で K-means - 木曜不足
    yamadar
    yamadar 2011/06/09
    RでK-meansクラスタリングをやっている。
  • 適切なクラスタ数を推定するX-means法 - kaisehのブログ

    K-means法によるクラスタリングでは、あらかじめクラスタ数Kを固定する必要があります。HatenarMapsでもK-means法を使っているのですが、クラスタ数は(特に根拠もなく)200個に決め打ちになっていました。 これに対して、X-means法というK-means法の拡張が提案されていることを知りました。X-means法を使うと、データに応じて最適なクラスタ数を推定できます。 K-means and X-means implementations http://www-2.cs.cmu.edu/~dpelleg/download/xmeans.pdf X-means法の考え方は、K=2で再帰的にK-means法を実行していくというもので、クラスタの分割前と分割後でBIC(ベイズ情報量規準)を比較し、値が改善しなくなるまで分割を続けます。 調べたところ、Javaのデータマイニングツー

    適切なクラスタ数を推定するX-means法 - kaisehのブログ
    yamadar
    yamadar 2011/06/09
    X-means法を使うと、データに応じて最適なクラスタ数を推定できます。
  • K-mean法

    yamadar
    yamadar 2011/06/09
    距離を求めるために軸の重みの問題が出てくるわけで、あくまでも近似と割り切って、因子分析で少数の軸にまとめて、それから、K-meanでも良かったのでは?
  • R言語プログラミング: クラスター分析 - k-means - hamadakoichi blog

    4/17(土)の第3回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#3)での私の一つ目のトーク「1. R言語による クラスター分析 - 活用編 (60分)」の一部関連内容です。当日は、全体像も含め分かる形の講義資料で話します。 当日、USTREAM配信も行う予定ですので、興味のある方はぜひご覧下さい。 第3回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#3) : ATND ※内容記述に関して粗い部分も、追って洗練します。 k-means k-meansは、クラスター分析の非階層的手法で代表的な手法。 現実のクラスタリングでもk-meansが使われることが多く、実用的な手法。 ※階層的手法の対極にある「非階層的手法」(分割最適化手法とも呼ばれる)。詳細は次エントリを参照:「はじめてでもわかる R言語によるクラスター分析」 ※アルゴリ

    R言語プログラミング: クラスター分析 - k-means - hamadakoichi blog
  • Random forest - Wikipedia

    ランダムフォレスト(英: random forest, randomized trees)は、2001年にレオ・ブレイマン(英語版)によって提案された[1]機械学習のアルゴリズムであり、分類、回帰、クラスタリングに用いられる。決定木を弱学習器とするアンサンブル学習アルゴリズムであり、この名称は、ランダムサンプリングされたトレーニングデータによって学習した多数の決定木を使用することによる。ランダムフォレストをさらに多層にしたアルゴリズムにディープ・フォレストがある。対象によっては、同じくアンサンブル学習を用いるブースティングよりも有効とされる。 アルゴリズム[編集] 学習[編集] 学習を行いたい観測データから、ブートストラップ法によるランダムサンプリングにより B 組のサブサンプルを生成する 各サブサンプルをトレーニングデータとし、B の決定木を作成する 指定したノード数 に達するまで、以

    Random forest - Wikipedia
  • 2100万会員モバゲータウンはデータマイニングの宝の山|【Tech総研】

    蓄積された大量のデータを分析し、隠れた事象や法則を発見していく技法、データマイニング。会員数2100万を超えるモバゲータウンを運営するDeNAは、サービス向上や開発に高度なデータマイニングを使うことで、ソーシャルゲームの世界展開を目指すという。 ソーシャルゲームのトップシェアを握るディー・エヌ・エー(DeNA)。主力である「モバゲータウン」(以下、モバゲー)は今日、ユーザーアカウント数2100万人超、1日のアクション数(ページビュー数)は実に20億超に達する巨大な仮想コミュニティ空間に成長した。DeNAは今、日最大級の規模に成長したモバゲーを舞台として、ある新たな技術的挑戦を始めている。 「われわれがチャレンジしているその技術とは、データマイニングです」 こう語るのは、ソーシャルメディア事業部ソーシャルゲーム統括部のグループリーダーを務める山田憲晋氏。モバゲーのソーシャルゲームを開発す

    yamadar
    yamadar 2011/04/15
    自分ももっと頑張らなければ。
  • 1