タグ

統計に関するgokichanのブックマーク (31)

  • glmnetで正則化を試してみる - About connecting the dots.

    タイトルの通り,よく考えたら今までL1/L2正則化を知識としては知ってるけど,実際に試したことはなかったことに気がついたので試してみましたよという話.L1/L2正則化にの理屈については,TJOさんのエントリとか,unnounnoさんのエントリとかをみてもらえれば良いのではと思います.それより詳しいことが知りたければ,PRMLでも読めば良いのではないでしょうか(適当*1). まずはデータを眺める 使用したデータは,caretパッケージのcarsパッケージです*2.中古車販売のデータっぽくて,価格と,走行距離とか気筒とかドア数とかの車に関するカラムが並んでます.データを読み込んで,可視化して,とりあえず lm() してみます. > library(glmnet) > library(caret) > library(psych) > > # load data > data(cars) > t

    glmnetで正則化を試してみる - About connecting the dots.
  • Rを使って統計学をより快適なものに!!

    ■入門編 ☆初心者のためのRの超簡単な使い方 ☆データを用意する ― 外部データの読み込み・ベクトルと行列の操作を覚えましょう ☆自分で関数を作ってみる ― 簡単なプログラミングのルールを学びましょう ☆ExcelとRの間でデータのやり取りをするときに便利なテクニック ☆データフレームの作成と編集 ■推定・検定・多変量解析 Rについて データの標準化 カイ二乗検定 t検定 分散分析 相関係数 回帰分析 判別分析 正準相関分析 主成分分析 因子分析 クラスター分析 非階層的クラスター分析 数量化�T類 母分散の区間推定 ロジスティック回帰分析 ロジスティック回帰分析(説明変数が2個以上) 多項式モデルの回帰分析 対数線形モデルの回帰分析 2の回帰直線の比較(傾きの検定) ■グラフィックス関連 正規分布のグラフ カイ二乗分布のグラフ F分布のグラフ t分布のグラフ いろいろな棒グラフ 5 e

  • 20140727_第1回スポーツデータアナリティクス基礎講座

    2014年7月27日に立教大学池袋キャンパスで開催された第1回スポーツデータアナリティクス基礎講座の講演資料です。 【お詫び】傾向スコアの導出の際に、対数オッズ比(log odds ratio)という表現を使っておりましたが、正しくは「対数オッズ」(log odds)です。申し訳ありませんでした。資料等に間違いの箇所がございますので、ご注意頂ければと思います。Read less

    20140727_第1回スポーツデータアナリティクス基礎講座
  • 伝説のベイジアン先生にベイズの基礎を教えてもらえる「図解・ベイズ統計「超」入門」を読んだ - EchizenBlog-Zwei

    「図解・ベイズ統計「超」入門 あいまいなデータから未来を予測する技術」というを読んだ。 社会人のアヤとケンが社内研修で伝説のベイジアン先生からベイズの基礎を教わる、という設定の会話形式でベイズについて書かれた入門書。社内研修でベイズのプロから指導を受けるとかどんだけ恵まれてるんだ。 アヤさんは大学で統計をやったが数学は詳しくないという設定。ただ時々鋭い質問をする。また統計に詳しいイケメン兄がいる。 ケンくんは知識は全くなく最後まで「わかりません」を連発する。彼女持ちのリア充。 伝説のベイジアン先生は社内研修の講師。ベイズの基礎を豊富な具体例で教えてくれるまじぱない先生。あまりにもいけてるので数カ月後に転職しそうな感じ。 内容は1章が導入、2章が同時確率・条件付き確率、3章がベイズの定理、4章がベイズの定理を用いた事後確率計算の具体例、5章が事例の追加による事前確率の更新(具体例としてナイ

    伝説のベイジアン先生にベイズの基礎を教えてもらえる「図解・ベイズ統計「超」入門」を読んだ - EchizenBlog-Zwei
  • データサイエンティストではない人に知っておいて欲しい事 - hotokuとは

    統計を専門にしている訳ではない人と話していて感じた違和感があったので、書き留めておきたい。 疑うべき順番は モデル → 推定法 データ分析をしていれば、当然、期待を掛けたモデルのデータへの当てはまりそうが悪いという事が度々ある。こういう時、統計屋さんとして自然に浮かぶのは「モデルが間違っている」という発想である。と思うのだが、非統計屋さんと話していると、このような時に「別の推定法を試してみたらどうだろう」と言われる事がある。多分、目の前のモデルに対する過度の期待から来るのだろうと思うが、このような態度では統計的に見ると妥当性を欠いた分析をしてしまう危険を孕んでいる。 ひとつの事例 とある線型状態空間モデルのパラメータを推定した所、どうしてもデータに合わない部分があった。実は、それが合わない理由は簡単で、ある潜在変数は常に正であるはずなのだ。線型状態空間モデルでは、潜在変数の分布は正規分布で

    データサイエンティストではない人に知っておいて欲しい事 - hotokuとは
  • 三次元散布図をRで描くのに画期的な新機能がRGLパッケージに加わった - ほくそ笑む

    以前、三次元散布図をRで描いてみたという記事で紹介したRGLパッケージに画期的な新機能が加わったので紹介します。 (情報源:R: Interactive 3D WebGL plot of time-space cube with RGL | geolabs) RGLパッケージの良いところは、3次元プロットをマウスドラッグでグリグリ動かせるところなのですが、いざ、ファイル出力しようとすると、静止画か動画でしか保存できず、インタラクティブな3次元プロットをそのままファイルに保存することができないというのが欠点でした。 しかし今回、新機能として、WebGL で動く HTML ファイルとして保存できる機能が付加されたようです。 さっそく試してみましょう。 install.packages("rgl") library("rgl") data(trees) plot3d(trees) writeWe

    三次元散布図をRで描くのに画期的な新機能がRGLパッケージに加わった - ほくそ笑む
  • 博報堂「生活定点」データ20年分を無料公開

    博報堂生活総研が20年間にわたって実施してきた生活者意識の定点観測調査のデータがWebで無料公開。研究やマーケティングなどに活用できる。 博報堂は9月27日、シンクタンク「博報堂生活総合研究所」が20年間にわたって実施してきた生活者意識の定点観測調査「生活定点」のデータを無料で一般公開した。生活総研のWebサイトで、データを収録したExcelファイルと、質問票のPDFファイルをダウンロードできる。ユーザー登録なども不要だ。 同調査は1992年から20年間にわたって隔年で実施。同じ地域(首都圏・阪神圏)、同じ対象者設定(20~69歳の男女)に向けて同じ質問を継続して問い、回答を時系列で観測している。 衣、、住、健康、遊び、学び、働き、家族、恋愛結婚、消費、情報、メディア接触、社会意識、国際化と日、地球環境など、生活者に関するさまざまな領域を網羅。項目は約1500におよぶ。 「長年にわた

    博報堂「生活定点」データ20年分を無料公開
  • 慶應義塾大学プレスリリース 「東日本大震災に関する特別調査」の概況(第1 回) ~震災で日本人の心理や行動はどう変わったか~ - 2012 年2 月15 日 02091513

  • 統計・データ解析

    『Rで楽しむ統計』が出ました。サポートページ 『Rで楽しむベイズ統計入門』が出ました。サポートページ,第7章のRコードをStanで書き直したRで楽しむStan 全国学力・学習状況調査の個票の疑似データがこちらで公開されています。データ分析の練習に使えそうです。SSDSE(教育用標準データセット)も。 R 4.x では stringsAsFactors=FALSE がデフォルトになりましたが,サイトの古い記事ではそうなっていないところがあるかもしれません(read.csv() などで as.is=TRUE は不要になります(あってもかまいませんが))。 R 4.2 ではWindowsでもMac同様UTF-8がデフォルトになりました。もう fileEncoding オプションに "UTF-8","UTF-8-BOM" を指定する必要はなくなりそうです。一方で、SJIS(CP932)データの場

  • WEBで読める統計関係の良質な資料 - Interdisciplinary

    私がよく参考にする所を三箇所紹介します。いずれも、説明が極めて明瞭で、論理的な整合性や用語の丁寧な使い方を志向している所に好感が持てるサイトです。 ▼Econom01 Web Site, Sophia University, Tokyo, Japan 上智大学の大西博氏のサイト。私が統計関連で最もよく参照する所です。説明の仕方の明瞭さや、具体例を用いた解説がとても良いと思います。確率統計の一つ一つの概念について、大変丁寧に説明されています。たとえば、「相関(および因果関係)」については、 2つの変数の同時分布と、その条件付き分布は、変数の間の数量的結び付きを示しています。この数量的結び付きは、統計的頻度分布として観察されるものであり、現象の背後にある実態的な「関係」や「構造」から導かれる法則性を必要としません。 例えば、人間の身長と体重とは密接な統計的分布関係を持っていますが、両変数を決定

    WEBで読める統計関係の良質な資料 - Interdisciplinary
  • ヒストグラム作成の裏側: R 関数探訪 hist() 編 - ほくそ笑む

    先日、簡単にヒストグラムを作成できるサイトを作ったわけですが、内部は R の hist() 関数を参考にさせてもらいました。 ヒストグラムの作成なんて簡単そう、と思われる方もいらっしゃるかもしれませんが、結構複雑です。 今日は、この複雑な hist() 関数を、コアの部分だけ取り出して、簡単に説明しようと思います。 階級数を決める まず、ヒストグラムを作成するときの問題点として、階級数をどうするかというのが問題になります。 つまり、データをいくつの領域に分割するか、ということです。 ヒストグラムの形状は、階級の分け方によって様々に変わります。 サンプルの数が少ないのに階級を多く分けてしまうと、縦がつぶれたヒストグラムができます。 逆に、階級数が少なすぎると横がつぶれてしまいます。 hist() 関数では、自動的に階級数を決める方法として、 スタージェスの方法 フリードマン-ディアコニスの方

    ヒストグラム作成の裏側: R 関数探訪 hist() 編 - ほくそ笑む
  • JIN'S PAGE

    R、R言語、R環境・・・・・・ Rのダウンロードとインストール リンク集 題名 Chap_01 データ解析・マイニングとR言語 Chap_02 Rでのデータの入出力 Chap_03 Rでのデータの編集と演算 Chap_04 Rと基統計量 Chap_05 Rでの関数オブジェクト Chap_06 Rでのデータの視覚化(1) Chap_07 Rでのデータの視覚化(2) Chap_08 Rでのデータの視覚化(3) Chap_09 GGobiとデータの視覚化(Rgobi) Chap_10 Rと確率分布 Chap_11 Rと推定 Chap_12 Rと検定 Chap_13 Rと分散分析 Chap_14 Rと回帰分析 Chap_15 Rと重回帰分析 Chap_16 Rと一般化線形モデル Chap_17 Rと非線形モデル Chap_18 Rと判別分析 Chap_19 Rと樹木モデル Chap_20 WEK

    gokichan
    gokichan 2012/02/14
    Rの使い方。
  • 統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む

    はじめに 統計解析の手法を学ぶのに、教科書を読むのは素晴らしい学習方法です。 しかし、教科書で理論的なことを学んだだけでは、統計手法を使いこなせるようにはなりません。 統計解析手法を身につけるには、実際のデータについて手法を適用し、パラメータを変えるなどの試行錯誤を行い、結果を考察するというような経験を積むことが大切です。 それでは実際のデータをどうやって手に入れましょうか? 実験や調査をして実際のデータを得るのは大変でお金もかかります。 幸運なことに、世の中には適度なサイズの自由に使えるデータがたくさん存在します。 例えば、統計言語 R には、100以上ものデータセットがデフォルトで付属しています。 ただし、不幸なことに、それらのほとんどは英語で説明が書かれています。 英語は、いつかは乗り越えなければならない壁ですが、最初のうちはちょっと避けて通りたいところです。 というわけで、今日は、

    統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む
    gokichan
    gokichan 2012/02/14
    Rにデフォルトでついてくるデータについて
  • シリウス先生の心理統計学

    このwebサイトはMicrosoft Internet Explorerでは正常に表示されることを確認していますが、FirefoxやNetscape、Operaなどのブラウザではうまく表示されないページがあります(画像の位置が変であるなど)。これは使用しているブラウザの問題ではなく、作成している私側に問題がありますが、どうしても見難くてダメという場合以外は大目にみてください。もし、表示されたページが全く読み取れない場合はメールもしくは掲示板を通して連絡してください。

  • 多様な相関係数

    (1)変数の型と相関係数 変数の型に対応して、多様な相関係数が考案されている。 各係数は、最大の相関で±1、無相関で0となるように調整されているが、こうした各尺度のどの程度の大きさがどの程度の意味を持つかは、多様な経験から判断するしかない。 こうした経験がないと意味を持たない尺度であるが、実際には、それぞれの分野での習慣に従うことになるのだろうが、かなり脆弱である。 さらには、特定のパターンで係数が著しく変化することなどについては、無防備に近い。 ↑ (2)クラメールの独立係数(カテゴリxカテゴリ) χ2値=実測度数と期待度数の偏差の平方の期待度数に対する比の総計。 クラメールの独立係数は、χ2値を最大可能値で除し大きさを調整したもの。

  • RQE Home Page

  • データマイニングで使われるトップ10アルゴリズム - データサイエンティスト上がりのDX参謀・起業家

    2006年のデータマイニング学会、IEEE ICDMで選ばれた「データマイニングで使われるトップ10アルゴリズム」に沿って機械学習の手法を紹介します(この論文は@doryokujin君のポストで知りました、ありがとうございます!)。 必ずしも論文の内容には沿っておらず個人的な私見も入っていますので、詳細は原論文をご確認下さい。また、データマイニングの全体観をサーベイしたスライド資料がありますので、こちらも併せてご覧下さい。 データマイニングの基礎 View more presentations from Issei Kurahashi 1. C4.5 C4.5はCLSやID3といったアルゴリズムを改良してできたもので、決定木を使って分類器を作ります。決定木といえばCARTが良く使われますが、CARTとの違いは以下のとおりです。 CARTは2分岐しかできないがC4.5は3分岐以上もできる C

    データマイニングで使われるトップ10アルゴリズム - データサイエンティスト上がりのDX参謀・起業家
  • JIN'S PAGE - R

    R、R言語、R環境・・・・・・ Rのダウンロードとインストール リンク集 題名 Chap_01 データ解析・マイニングとR言語 Chap_02 Rでのデータの入出力 Chap_03 Rでのデータの編集と演算 Chap_04 Rと基統計量 Chap_05 Rでの関数オブジェクト Chap_06 Rでのデータの視覚化(1) Chap_07 Rでのデータの視覚化(2) Chap_08 Rでのデータの視覚化(3) Chap_09 GGobiとデータの視覚化(Rgobi) Chap_10 Rと確率分布 Chap_11 Rと推定 Chap_12 Rと検定 Chap_13 Rと分散分析 Chap_14 Rと回帰分析 Chap_15 Rと重回帰分析 Chap_16 Rと一般化線形モデル Chap_17 Rと非線形モデル Chap_18 Rと判別分析 Chap_19 Rと樹木モデル Chap_20 WEK

  • こんにちは統計学:Pythonによるχ2乗検定・t検定・U検定・分散分析・多重比較・相関係数の計算

    プログラミング言語PythonCGIに使った統計計算プログラムです。 とくに難しい設定は必要なく、ただデータを貼り付けるだけです。 心理検定などで統計計算が必要な方は、お試しになってみてください。 どんなときに、どんな統計分析を使うのか?

    gokichan
    gokichan 2011/06/06
    ゲームセンターあらしの作者っていまこんなことしてたのか。
  • 待ち行列モデル基礎