タグ

データマイニングに関するpcds90netのブックマーク (2)

  • 統計学が最強の学問である - 情報考学 Passion For The Future

    ・統計学が最強の学問である 学生時代は当たり前に理解していても、営業、企画、経営、ーケティングみたいな文系社会人になってしばらくすると、理系の知識って忘れてしまうものだ。典型的なのが数字の読み方だと思う。ビッグデータやデータ分析が話題になる昨今、会議で、え、それ違いません?学校で習ったような、ということがよくある。このでビジネスで使う統計について、ばっちり整理できる。おすすめ。 たとえばビッグデータは必要なのか、サンプリングで間に合うのではないかという疑問。。サンプルを1万増やしても、標準誤差は0.3%しか変わらないようなケースは多々ある。 「サンプル数が100名分しかなければその標準誤差は9.5%にもなり、得られた「顧客に占める女性の割合が70%」という結果が実際には女性の割合が51%~89%と考えてほぼ間違いない」という解釈になってしまう。しかし、1000名いれば標準誤差は3%となり

  • データマイニングで使われるトップ10アルゴリズム - データサイエンティスト上がりのDX参謀・起業家

    2006年のデータマイニング学会、IEEE ICDMで選ばれた「データマイニングで使われるトップ10アルゴリズム」に沿って機械学習の手法を紹介します(この論文は@doryokujin君のポストで知りました、ありがとうございます!)。 必ずしも論文の内容には沿っておらず個人的な私見も入っていますので、詳細は原論文をご確認下さい。また、データマイニングの全体観をサーベイしたスライド資料がありますので、こちらも併せてご覧下さい。 データマイニングの基礎 View more presentations from Issei Kurahashi 1. C4.5 C4.5はCLSやID3といったアルゴリズムを改良してできたもので、決定木を使って分類器を作ります。決定木といえばCARTが良く使われますが、CARTとの違いは以下のとおりです。 CARTは2分岐しかできないがC4.5は3分岐以上もできる C

    データマイニングで使われるトップ10アルゴリズム - データサイエンティスト上がりのDX参謀・起業家
  • 1