タグ

clusteringに関するKanasansoftのブックマーク (6)

  • 決定木とランダムフォレスト - Qiita

    決定木とは 目的変数に属する確率を複数の説明変数の組み合わせで算出する方法。 イメージは以下で、Yes/Noなどの条件に属するかどうかで確率を算出する。 ランダムフォレストとは ランダムフォレストは、アンサンブル学習法(複数の分類器を集めて構成される分類器)の一つ。 決定木を複数集めて使うので、木が集まってフォレスト(森)として使う。 やってみる(sklearnでの決定木) データ用意 ランダムに作ったデータを用意する。 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn %matplotlib inline from sklearn.datasets import make_blobs # ダミーデータの生成用 X, y = make_blobs(n_samples=5

    決定木とランダムフォレスト - Qiita
    Kanasansoft
    Kanasansoft 2017/10/20
    『ランダムフォレストは、アンサンブル学習法(複数の分類器を集めて構成される分類器)の一つ。決定木を複数集めて使うので、木が集まってフォレスト(森)として使う。』分類結果が図式化されていて違いがわかりやす
  • Pythonで機械学習はじめました クラスタリング&次元圧縮&可視化編 - Qiita

    はじめに 前回の「データ前処理編」から時間が空いてしまいましたが、今回はTwitterのテキストデータをクラスタリングをしてみます。 3行でまとめ (やっと)クラスタリングした。 クラスタリングした結果をmatplotlibで可視化した。 次回は脇道で可視化の小技紹介になるかも。 いきなりソースコード(可視化以外) 前回の「ベクトライズ」の実装に「クラスタリング」「次元圧縮」の実装を追加してみました。(「可視化」のソースはちょっと長いので後で) #! /usr/bin/env python # -*- coding:utf-8 -*- import MeCab as mc from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.cluster import KMeans from sklearn.de

    Pythonで機械学習はじめました クラスタリング&次元圧縮&可視化編 - Qiita
    Kanasansoft
    Kanasansoft 2017/09/23
    scikit-learnを使ったクラスタリング処理の実装例。
  • Pythonで機械学習はじめました データ前処理編 - Qiita

    はじめに PyCon JP 2016に参加してきました!大変モチベーションが上がった!ので更新します← ちなみにPyConで勉強してきたことも、追々整理&動かしてみて、記事にしてみたいと思います。 今回は「データ準備編」の続きで、Twitterのテキストデータをクラスタリング…する前に、データ前処理とテキストデータ同士の簡単な類似度算出をしてみます。 ご注意!(前回と同じ) 理論よりも、とりあえず触って理解するやり方が好きなので、色々と雑です。 さらに文盲ということで、分かりづらい文章になると思ってます。 そんな訳で読んでてツッコミたくなる内容は多々あると思いますが、ご了承頂きたく! ※優しいツッコミは大歓迎です 3行でまとめ クラスタリングの前処理として、テキストデータを数値(ベクトル)化した。 数値化したテキストデータ同士で、類似度を計算してみた。 次回からクラスタリングできる!(はず

    Pythonで機械学習はじめました データ前処理編 - Qiita
    Kanasansoft
    Kanasansoft 2017/09/23
    scikit-learnを使ったクラスタリング処理の実装例。
  • Jubatusのクラスタリング機能を使ってみた - Qiita

    この記事はJubatus Advent Calenderの15日目の記事です。 Jubatusには数々の機械学習アルゴリズムが実装されています。 ここではあまり利用されることがないクラスタリング機能に着目して、実装されているアルゴリズムやその特性などをみていきたいと思います。 クラスタリングとは クラスタリングとはデータの集まりを、データ間の類似度などの指標に従って類似したデータのグループ(クラスタ)に分割する機械学習の手法です。 正解データなしに利用することができる教師無学習であり、類似したデータ集合を抽出することができるためSNS上の話題抽出などに利用されます。 Jubatusに実装されているクラスタリングアルゴリズム 2016年12月現在、Jubatusには3つのクラスタリングアルゴリズムが実装されています。 各アルゴリズムを簡単に説明します。 K-Meansアルゴリズム クラスタリ

    Jubatusのクラスタリング機能を使ってみた - Qiita
    Kanasansoft
    Kanasansoft 2017/09/23
    jubatusのクラスタリングアルゴリズムであるK-mean(k-平均法)/混合ガウスモデル(GMM)/DBSCANについて各々解説。
  • 【教師なし学習・クラスタリング】K-means - HELLO CYBERNETICS

    はじめに K-means K-meansの働き K-meansの概要 K-meansの詳細 1.初期化 2.クラスターへの割り当て 3.重心の更新 4.「2.」と「3.」を繰り返す K-meansの欠点 K-meansの改良 混合ガウスモデル はじめに 近年の機械学習は専ら教師あり学習に話題が集中しています。 しかし、実際のデータは必ずしもラベルを正確に付与できるとは限りません。多くのデータはなんだかよくわからないが手元にある状態で、そのデータはいくつかの塊に分けられると(あるいはいくつかのデータの源がある)考えられます。 そのようなときに使える機械学習の手法が、教師なし学習であり、その一種であるクラスタリングは、ラベルの付与無しに、データをいくつかの塊(クラスター)に分けます。 今回はクラスタリングで最も基的な手法であるK-meansを紹介します。 K-meansは混合ガウスモデルの特

    【教師なし学習・クラスタリング】K-means - HELLO CYBERNETICS
    Kanasansoft
    Kanasansoft 2017/09/23
    K-means法(k平均法)がどのような手法かの具体的な解説。
  • 3章 クラスタリング:関連のある文書を見つける  - AI-Programming

    前処理(preprocessing)過程 共通する単語の出現回数を類似度として計算する テキストデータをトークン化する 頻出もしくはその逆の単語を除く 残りの単語について出現回数をカウント 単語の出現回数からTF-IDFを計算する 書で与えられているデータセット [01.txt] 'Most imaging databases safe images permanently.' [02.txt] 'Imaging databases store images. Imaging databases store images. Imaging databases store images.' [03.txt] 'Imaging databases store images.' [04.txt] 'Imaging databases can get huge.' [05.txt] 'This

    3章 クラスタリング:関連のある文書を見つける  - AI-Programming
    Kanasansoft
    Kanasansoft 2017/09/23
    クラスタリング処理の実装例。
  • 1