タグ

データマイニングに関するyamadarのブックマーク (17)

  • MonotaROのデータ基盤10年史(前編) - MonotaRO Tech Blog

    おしらせ:12/23 に後編記事がでました! tech-blog.monotaro.com こんにちは、データ基盤グループの香川です。 現在モノタロウではBigQueryに社内のデータを集約し、データ基盤を構築しています。 およそ全従業員の6割が日々データ基盤を利用しており、利用方法や目的は多岐に渡ります。 データ基盤グループはこれまでデータ基盤システムの開発保守と利用者のサポートを主な業務として取り組んできましたが、これら多岐にわたる社内のデータ利用における課題の解決及びさらなるデータ活用の高度化を目的として、今年の5月よりデータ管理を専門に行う組織として新たに体制を再構築しました。 そこで改めて組織として取り組むべき課題や方向性を決めるために、まず自分たちの現在地を知ることが重要と考え、データ基盤の歴史を振り返り、社内のデータ活用における課題やそれを取り巻く状況がどう変わってきたのかを

    MonotaROのデータ基盤10年史(前編) - MonotaRO Tech Blog
  • 2014年は「スモールデータ」元年に--10の理由を解説

    Paul Greenberg (Special to ZDNET.com) 翻訳校正: 村上雅章 野崎裕子 2013-12-13 07:30 ビッグデータはここ12~15カ月の間、世の中で大きく採り上げられ、数多くのアプリケーションも生み出されている。しかしここに来て、業界に新風を吹き入れる第一人者として知られるAllen Bonde氏が「スモールデータ」に目を向けることを提唱している。これは一体何を意味しているのだろうか?以下はBonde氏による見解である。 ビッグデータというアイデアには抵抗しがたいものがある。顧客の振る舞いから目に見えないパターンを洗い出したり、次の選挙結果を予測したり、広告費をどういった対象に振り向けるべきかを知りたいのだろうか?そういった目的のアプリケーションは既に存在している。そして、専門家らの声に耳を傾けるのであれば、われわれは子どもたちにデータ分析の専門家に

    2014年は「スモールデータ」元年に--10の理由を解説
  • k-meansクラスタ分析 - サンプルソースコード C/C++

    C言語によるサンプルソースコード : 使用関数名:nag_mv_kmeans_cluster_analysis (g03efc) Keyword: k-means, クラスタ分析, cluster analysis, データマイニング 概要 サンプルはk-meansクラスタリングを行うC言語によるサンプルプログラムです。 サンプルは以下の「分析対象データ」に示される変数が5個、観察数が20のデータを分析対象とします。 このサンプルではk-means法によりデータを3つのクラスタに分割します。 また k-means 法で必要な初期値も以下の「与える初期値」に示す通り与えます。 ※サンプルはNAG Cライブラリに含まれる関数 nag_mv_kmeans_cluster_analysis() のExampleコードです。サンプル及び関数の詳細情報は nag_mv_kmeans_clust

    yamadar
    yamadar 2011/06/09
    k-meansは複数個の変数があってOK。それぞれに初期値を与える。
  • wonderfl build flash online | 面白法人カヤック

  • wonderfl build flash online | 面白法人カヤック

    wonderflは、サイト上でFlashをつくることのできるサービス。 通常Flashをつくるためには、Flash IDEやFlex、FlashDevelop等といったツールを使って、コードを書き、コンパイルする必要がありますが、wonderflでは、サイトにあるフォームにActionscript3のコードを書けば、サーバサイドでコンパイルを行えます。 つまり、ブラウザさえあれば、Flashをつくれます。コンパイル結果はサイト上に表示され、作成されたFlash(swf)はページ上に自動的に表示されるので、完成したFlashをリアルタイムに見ながらコードを書くことができます。 ※APIとして、はてな OpenIDを使用してネットにさえつながれば、誰もがFlashクリエイターになれます。世界中のFlashクリエイターがユーザーになるwonderflは、 文字通り、世界のFlash図鑑となってい

    wonderfl build flash online | 面白法人カヤック
  • wonderfl build flash online | 面白法人カヤック

    wonderflは、サイト上でFlashをつくることのできるサービス。 通常Flashをつくるためには、Flash IDEやFlex、FlashDevelop等といったツールを使って、コードを書き、コンパイルする必要がありますが、wonderflでは、サイトにあるフォームにActionscript3のコードを書けば、サーバサイドでコンパイルを行えます。 つまり、ブラウザさえあれば、Flashをつくれます。コンパイル結果はサイト上に表示され、作成されたFlash(swf)はページ上に自動的に表示されるので、完成したFlashをリアルタイムに見ながらコードを書くことができます。 ※APIとして、はてな OpenIDを使用してネットにさえつながれば、誰もがFlashクリエイターになれます。世界中のFlashクリエイターがユーザーになるwonderflは、 文字通り、世界のFlash図鑑となってい

    wonderfl build flash online | 面白法人カヤック
  • 「パターン認識と機械学習」(PRML)読書会 #11 + R で K-means - 木曜不足

    2/6 に 「パターン認識と機械学習」(PRML)読書会 #11 @サイボウズ・ラボに のこのこ行ってきました。お疲れ様>各位 今回は8章「グラフィカルモデル」の後半+9章の K-means まで。 sum-product(積和アルゴリズム) や max-sum で、グラフィカルモデルが周辺化や同時分布の大域最大解を求めるためのツールになる、というお話。 sleepy_yoshi さんの 8.4.1〜3 因子グラフ他の資料 nokuno さんの 8.4.4 sum-product の資料 8.4.5 max-sum の資料。 いつものように、気付いたことその他箇条書きで。 有向グラフを因子グラフに変換するために必要なモラル化の説明で、sleepy_yoshi さんの資料に超ナツカシ漫画が出てきて、ずっこけたw 断じてアメフト漫画ではありませんwww ちなみに、件の漫画は男子校の友人から貸し

    「パターン認識と機械学習」(PRML)読書会 #11 + R で K-means - 木曜不足
    yamadar
    yamadar 2011/06/09
    RでK-meansクラスタリングをやっている。
  • 適切なクラスタ数を推定するX-means法 - kaisehのブログ

    K-means法によるクラスタリングでは、あらかじめクラスタ数Kを固定する必要があります。HatenarMapsでもK-means法を使っているのですが、クラスタ数は(特に根拠もなく)200個に決め打ちになっていました。 これに対して、X-means法というK-means法の拡張が提案されていることを知りました。X-means法を使うと、データに応じて最適なクラスタ数を推定できます。 K-means and X-means implementations http://www-2.cs.cmu.edu/~dpelleg/download/xmeans.pdf X-means法の考え方は、K=2で再帰的にK-means法を実行していくというもので、クラスタの分割前と分割後でBIC(ベイズ情報量規準)を比較し、値が改善しなくなるまで分割を続けます。 調べたところ、Javaのデータマイニングツー

    適切なクラスタ数を推定するX-means法 - kaisehのブログ
    yamadar
    yamadar 2011/06/09
    X-means法を使うと、データに応じて最適なクラスタ数を推定できます。
  • K-mean法

    yamadar
    yamadar 2011/06/09
    距離を求めるために軸の重みの問題が出てくるわけで、あくまでも近似と割り切って、因子分析で少数の軸にまとめて、それから、K-meanでも良かったのでは?
  • R言語プログラミング: クラスター分析 - k-means - hamadakoichi blog

    4/17(土)の第3回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#3)での私の一つ目のトーク「1. R言語による クラスター分析 - 活用編 (60分)」の一部関連内容です。当日は、全体像も含め分かる形の講義資料で話します。 当日、USTREAM配信も行う予定ですので、興味のある方はぜひご覧下さい。 第3回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#3) : ATND ※内容記述に関して粗い部分も、追って洗練します。 k-means k-meansは、クラスター分析の非階層的手法で代表的な手法。 現実のクラスタリングでもk-meansが使われることが多く、実用的な手法。 ※階層的手法の対極にある「非階層的手法」(分割最適化手法とも呼ばれる)。詳細は次エントリを参照:「はじめてでもわかる R言語によるクラスター分析」 ※アルゴリ

    R言語プログラミング: クラスター分析 - k-means - hamadakoichi blog
  • 決定木 - Wikipedia

    決定木(けっていぎ、英: decision tree)は、(リスクマネジメントなどの)決定理論の分野において 決定を行うためのグラフであり、計画を立案して目標に到達するのに用いられる。 決定木は、意志決定を助けることを目的として作られる。 決定木は木構造の特別な形である。 概説[編集] 機械学習の分野において決定木は予測モデルであり、ある事項に対する観察結果から、その事項の目標値に関する結論を導く。内部の節点は変数に対応し、子である節点への枝はその変数の取り得る値を示す。 葉(端点)は、根(root)からの経路によって表される変数値に対して、目的変数の予測値を表す。 データから決定木を作る機械学習の手法のことを決定木学習 (英: decision tree learning)、または略して単に決定木と呼ぶ。 決定木による分類モデルはその分類にいたる過程が容易に解釈できるので、決定木はデータ

    決定木 - Wikipedia
  • Random forest - Wikipedia

    ランダムフォレスト(英: random forest, randomized trees)は、2001年にレオ・ブレイマン(英語版)によって提案された[1]機械学習のアルゴリズムであり、分類、回帰、クラスタリングに用いられる。決定木を弱学習器とするアンサンブル学習アルゴリズムであり、この名称は、ランダムサンプリングされたトレーニングデータによって学習した多数の決定木を使用することによる。ランダムフォレストをさらに多層にしたアルゴリズムにディープ・フォレストがある。対象によっては、同じくアンサンブル学習を用いるブースティングよりも有効とされる。 アルゴリズム[編集] 学習[編集] 学習を行いたい観測データから、ブートストラップ法によるランダムサンプリングにより B 組のサブサンプルを生成する 各サブサンプルをトレーニングデータとし、B の決定木を作成する 指定したノード数 に達するまで、以

    Random forest - Wikipedia
  • 2100万会員モバゲータウンはデータマイニングの宝の山|【Tech総研】

    蓄積された大量のデータを分析し、隠れた事象や法則を発見していく技法、データマイニング。会員数2100万を超えるモバゲータウンを運営するDeNAは、サービス向上や開発に高度なデータマイニングを使うことで、ソーシャルゲームの世界展開を目指すという。 ソーシャルゲームのトップシェアを握るディー・エヌ・エー(DeNA)。主力である「モバゲータウン」(以下、モバゲー)は今日、ユーザーアカウント数2100万人超、1日のアクション数(ページビュー数)は実に20億超に達する巨大な仮想コミュニティ空間に成長した。DeNAは今、日最大級の規模に成長したモバゲーを舞台として、ある新たな技術的挑戦を始めている。 「われわれがチャレンジしているその技術とは、データマイニングです」 こう語るのは、ソーシャルメディア事業部ソーシャルゲーム統括部のグループリーダーを務める山田憲晋氏。モバゲーのソーシャルゲームを開発す

    yamadar
    yamadar 2011/04/15
    自分ももっと頑張らなければ。
  • マーケターのためのデータマイニング・ヒッチハイクガイド - Teradata|マーケティング・アナリティクス

    テラバイトデータや構造化知識研究に関する過去の記事です。 1990年6月 コンピューターの中央処理装置4台を並列的につなぎ、人間のように推理したり連想したりするコンピューターの模擬実験に、九州大学の研究グループが成功した。1991年度にも20台に増結する計画で、最終的には1万台をつなぎ、人間の思考そっくりの柔軟性に富んだコンピューターシステムを目指す。キャリアウーマン並みの有能秘書や、建物の形状を判断できる掃除ロボットの開発にもつながると期待されており「人工知能」開発競争に一石を投じそうだ。 九州大学で実験に成功 模擬実験を行ったのは、九大総合理工学研究科の雨宮真人教授(情報システム専攻)のグループ。雨宮教授らは、記憶した知識で推論や連想を行う人間の思考回路網に着目。「物-果物-黄色-酸っぱい-レモン」など属性や因果関係でつながる情報を与えて連想ネットワークを構成。このネットワーク網をコ

    yamadar
    yamadar 2011/02/01
    お薦めされた!必ず全部読む。
  • R勉強会 講師をしてきた: 「はじめてでもわかる 統計解析・データマイニング R言語入門」 - hamadakoichi blog

    統計解析・データマイニングのR言語の入門編の講師をしてきました。途中、質問・議論をはさむ双方向形式で進行し、1時間30分の講義。講義資料も下記のSlideShareに公開してあります。 講義資料 [データマイニング+WEB勉強会][R勉強会] はじめてでもわかる 統計解析・データマイニング R言語入門 AGENDA Rとは データ構造 データ入出力 データ演算 基統計量算出 統計データの視覚化 統計解析・データマイニングの種類 ソースコード 資料内で挙げているサンプルソースコードは一部、以下のエントリにも記載してあります。こちらもご覧下さい。 項目 エントリリンク 環境設定 R のインストール・環境設定 R を Eclipseで使う方法 Java R Interface (JRI) を用い 統計解析環境 R を Java から使用する データ構造 R言語プログラミング: データ型・操作

    R勉強会 講師をしてきた: 「はじめてでもわかる 統計解析・データマイニング R言語入門」 - hamadakoichi blog
  • [データマイニング+WEB勉強会][R勉強会] はじめてでもわかる R言語によるクラスター分析 - 似ているものをグループ化する-

    データマイニング+WEB勉強会 第2回(2010/03/20)での講義資料です。「はじめてでもわかる R言語によるクラスター分析入門 - 似ているものをグループ化する-」 hamadakoichi 濱田晃一。 途中、質問・議論をはさむ双方向形式で進行し、2時間の講義を行いました。 [内容まとめ] http://d.hatena.ne.jp/hamadakoichi/20100320/p1 [Rソースコード] http://d.hatena.ne.jp/hamadakoichi/20100324/p1 Read less

    [データマイニング+WEB勉強会][R勉強会] はじめてでもわかる R言語によるクラスター分析 - 似ているものをグループ化する-
    yamadar
    yamadar 2011/02/01
    クラスター分析
  • データマイニング+WEB 勉強会@東京 (Tokyo.Webmining) |Google Groups

    データマイニング+WEB@東京 (TokyoWebmining) 主催者の濱田晃一 (id: hamadakoichi)です。 日 2017/10/28(土) 、 「第60回 データマイニング+WEB

  • 1