主成分分析とは似て非なる手法として「因子分析」(Factor Analysis) があります。 主成分分析(PCA)では、説明変数に対して重み行列(固有ベクトル)a を線形結合した「主成分」 yPC1を合成しました。ここで、主成分は、説明変数と同じ数だけ定義します。 yPC1 = a1,1 x1 + a1,2 x2 + a1,3 x3 + a1,4 x4 + a1,5 + ... 因子分析では、説明変数(観測変数)x が「因子」(factor) という潜在変数から合成されるという考え方に基づき、その因子得点 f と重み行列(因子負荷) w 、そして独自因子 e を特定します(主成分分析に独自因子という考え方はありません)。 x1 = w1,1 f1 + w1,2 f2 + e1 x2 = w2,1 f1 + w2,2 f2 + e2 x3 = w3,1 f1 + w3,2 f2 + e3
幸か不幸か、ビジネス系のデータの多くは時系列データです。売上データもホームーページのアクセスログもセンサーデータも時系列データです。 時系列データを手にしたとき、どのようなデータなのか見てみたい、ということは多々あります。 多くの場合、折れ線グラフを描き傾向を掴む、ということをやります。 折れ線グラフを眺めると、トレンド(上昇傾向や下降傾向)や季節性などが見て取れるケースがあります。 そこで、サクッとトレンドや季節性などを掴む手法がSTL分解(Seasonal Decomposition Of Time Series By Loess)です。 STL分解(Seasonal Decomposition Of Time Series By Loess)を実施することで、元データをトレンド、季節性、残差に分解することができます。 元データ = トレンド + 季節性 + 残差 STL分解(Seas
転職にあたって、「大企業以外考えていない」「中小企業に入って一緒に成長したい」などのように、企業の規模を表すものとしてよく用いられます。実は日本国内の就業者数の約3分の2は中小企業が雇用しており、国には「中小企業庁」という中小企業の育成、発展に関する事務などを所掌する専門の省庁を設置しているくらい、その動向はとても重要なものなのです。今回は大企業と中小企業の違い、その定義と企業数、従業者数についてわかりやすく解説いたします。 まず最初にどういう場合に大企業と呼び、どういう場合に中小企業と呼ぶのか、その定義についてご説明いたします。 中小企業の定義は、中小企業基本法において定められており 製造業の場合、資本金3億円以下 または 従業者数300人以下 卸売業の場合、資本金1億円以下 または 従業者数100人以下 小売業の場合、資本金5千万円以下 または 従業者数50人以下 サービス業の場合、資
pivot_table関数 APIドキュメント params: returns: ピボットテーブルを作成する 複数要素を元に多層化させる データの個数をカウントする 列ごとと行ごとの合計を表示 複数の統計量を表示させる 関数を使って統計処理を指定する 欠損値を補完 欠損値があるデータも表示させる まとめ 参考 ピボットテーブルとはエクセルで有名な機能の1つで馴染みの方も多いかもしれません。 複雑なデータ構造を一目で分かりやすくする目的でよく使われるもので、クロス集計したものをまとめたものとなります。 2つの要素間の相関が分かりやすく現れるので使いこなせると重宝するでしょう。例えば男女間での科目ごとの平均点といったものをひと目で把握することができます。 Pandasでも手軽にピボットテーブルを作成できるpivot_table関数が実装されています。 そこで本記事ではpivot_table関数
日本では、新聞・雑誌に対する国民の信頼度が高く、その分、新聞・雑誌などマスコミの影響力は大きい。この点を、すでに、図録5215で見ているが、ここでは、対象国を増やし、また政府に対する信頼度との相対関係についても分析した。 2017~20年に実施された2017年期の世界価値観調査によると、新聞・雑誌(英語ではThe Press、プレス)を「非常に信頼」、及び「やや信頼」している国民は、日本の場合、69.3%にのぼっており、図に掲げた78か国中、ベトナム(79.3%)、フィリピン(71.2%)、バングラデシュ(71.1%)に次ぐ世界第4位の高さとなっており、第5位の中国(68.2%)を上回っている。 日本の信頼度は、先進国の中では断然1位であり、2位のポルトガル(50.4%)、3位の韓国(49.6%)を大きく凌駕している。 世界全体を見渡すと、途上国と儒教圏で新聞・雑誌に対する信頼度は高く、欧
This document explains PCA, clustering, LFDA and MDS related plotting using {ggplot2} and {ggfortify}. {ggfortify} let {ggplot2} know how to interpret PCA objects. After loading {ggfortify}, you can use ggplot2::autoplot function for stats::prcomp and stats::princomp objects. library(ggfortify) df <- iris[1:4] pca_res <- prcomp(df, scale. = TRUE) autoplot(pca_res) PCA result should only contains n
Hide Comments (–) Share Hide Toolbars
トップページ→研究分野と周辺→システムの評価→ 例えば二次元で考えると、x軸y軸平面に多数の点が散らばり、これが幾つかのグループに分かれているとする。判別分析では、新たな点が与えられたとき、どのグループに属するかを判別する。 判別分析には、幾つかの方法があり、「サポートベクターマシン(SVM)」のように区分する線を引く方法もある。 ここでは、マハラノビス距離を用いた判別分析について述べる。 マハラノビス距離 最も一般的に使われる距離はユークリッド距離である。一次元(例えばx軸上)では、x座標の差がそのまま距離となる。 例えば二つのグループがあるとき、新たな点が与えられてどちらのグループに属するかを判別する際、新たな点のx座標と双方のグループの中心とのユークリッド距離を測り、短い方に属すると考える事も出来る。 しかし、この方法では、以下のような場合に問題となる。 青い点と赤い点の二つのグルー
このドメインは お名前.com から取得されました。 お名前.com は GMOインターネットグループ(株) が運営する国内シェアNo.1のドメイン登録サービスです。 ※表示価格は、全て税込です。 ※サービス品質維持のため、一時的に対象となる料金へ一定割合の「サービス維持調整費」を加算させていただきます。 ※1 「国内シェア」は、ICANN(インターネットのドメイン名などの資源を管理する非営利団体)の公表数値をもとに集計。gTLDが集計の対象。 日本のドメイン登録業者(レジストラ)(「ICANNがレジストラとして認定した企業」一覧(InterNIC提供)内に「Japan」の記載があるもの)を対象。 レジストラ「GMO Internet Group, Inc. d/b/a Onamae.com」のシェア値を集計。 2023年10月時点の調査。
統計学、可視化してみるシリーズの続編です。 カイ二乗分布は、ABテストのカイ二乗検定等でよく使う分布です。$\chi^2$と書いてカイ二乗です。グラフにすると下記のような形で、自由度と呼ばれるkの値に応じて形が変化します。 (グラフ描画のコードはこちら) 今回もWikipedia先生にカイ二乗分布の定義を聞いてみると、 独立に標準正規分布に従う $k$ 個の確率変数 $X_1, ..., X_k$ をとる。 このとき、統計量$$Z = \sum_{i = 1}^k X_i^2$$の従う分布のことを自由度 $k$ のカイ二乗分布と呼ぶ。 という返事が返ってきました。 うーん、どういうこと?正規分布の密度関数を2乗するの?どうやら違うようです。 まず、「独立に標準正規分布に従う $k$ 個の確率変数」ということなのでまずは標準正規分布に従う乱数のヒストグラムを書いてみようとおもいます。30,0
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く