タグ

statisticsに関するRion778のブックマーク (168)

  • 超幾何分布の意味と期待値の計算 | 高校数学の美しい物語

    超幾何分布の確率質量関数は, fN,A,n(x)=ACx⋅N−ACn−xNCnf_{N,A,n}(x)=\dfrac{{}_A\mathrm{C}_x\cdot{}_{N-A}\mathrm{C}_{n-x}}{{}_N\mathrm{C}_n}fN,A,n​(x)=N​Cn​A​Cx​⋅N−A​Cn−x​​ ただし,xxx がとりうる範囲は, max⁡{0,n−N+A}≤x≤min⁡{A,n}\max\{0,n-N+A\}\leq x\leq \min\{A,n\}max{0,n−N+A}≤x≤min{A,n} 当たりが xxx 個入っている確率 fN,A,n(x)f_{N,A,n}(x)fN,A,n​(x) を計算したい。 まず,全ての選び方の数は,NCn{}_N\mathrm{C}_nN​Cn​ 通り。 このうち,当たりが xxx 個(つまりハズレが n−xn-xn−x 個)である選

    超幾何分布の意味と期待値の計算 | 高校数学の美しい物語
  • コクランオーカット法をわかりやすく — ゼロから学んだまとめ

    コクランオーカット法とは、回帰式の残差に系列相関が存在する場合の対処法のひとつです。残差に系列相関が存在する場合、回帰係数の検定で来有意でない結果までも有意とする結果を生む可能性があるので、対処しないといけない問題となります。ではどのようにして系列相関の存在を確認してコクランオーカット法で対処するのか、ご紹介します! 系列相関が存在するデータ そもそも系列相関(または自己相関ともいう)ってなんだろうっていう話になると思いますが、データが周期的に上がり下がりが発生してることだと思っています。例えば一年間を通して夏は暑くて冬は寒いとかは周期的に上がり下がりが発生します。また一日のうちの天気で昼は気温が高く、夜は気温が下がるとかも系列相関があると言えます。誤差項に系列相関が生じる原因でよく言われている項目をまとめると以下のようになると思います。 重要な説明変数が欠落している経済行動における習慣

    コクランオーカット法をわかりやすく — ゼロから学んだまとめ
  • [PDF]系列相関:DWについて

    Rion778
    Rion778 2019/05/28
    ダービン・ワトソン統計量
  • jamovi - open statistical software for the desktop and cloud

    stats made simple jamovi is a new “3rd generation” statistical spreadsheet. designed from the ground up to be easy to use, jamovi is a compelling alternative to costly statistical products such as SPSS and SAS. R integration jamovi is built on top of the R statistical language, giving you access to the best the statistics community has to offer. would you like the R code for your analyses? jamovi

  • Positioning the arrows on a PCA biplot

    Rion778
    Rion778 2018/10/01
    PCAをplotする際には9通りの軸のとり方がありうるという話
  • 第5回多変量解析を用いたメタボロームデータ解析 - 主成分分析の「ローディング」とは?(前篇) | メタブローグ

  • 因子分析における因子数選択のための基準 | Sunny side up!

    尺度を作った時など、因子分析で因子をいくつ抽出すればいいか悩むことがあるかと思います。 因子分析の因子数決定には、従来では以下のような基準が定番でした。 ガットマン基準:固有値が1以上の因子を採用する スクリー基準:固有値の大きさをプロットし、推移がなだらかになる前までを抽出する 寄与率が50~60%以上になる因子数を採用する 解釈が可能な因子構造を採用する 1のガットマン基準が最も使われていると思われますが、この方法は最近ではあまり良い方法とはみなされてはいないようです。もしデータが母相関行列であるならこの方法は適切ですが、実際のデータには誤差が含まれるので多すぎたり少なすぎたりする因子数を提案してしまいます。 この記事では、因子数決定に使える基準について述べます。 興味のある人は続きを読んでください。 因子分析は少数の因子によって、変数の相関関係を説明する方法です。 つまり、何因子用意

  • 重回帰のときに必要なデータの数はパラメータの数の10倍です - 驚異のアニヲタ社会復帰の予備

    読んだ。 J Clin Epidemiol. 1995 Dec;48(12):1503-10. パラメータ数が のデータを標数 個観測して重回帰なりなんらかの回帰分析を行うのだが、「標数はいくつあったらいいんですか?」と聞かれることが多々ある。そういうとき、パラメータの10倍(10)あったらいいんじゃないっすかね〜(適当 と答えることが多いのだが、パラメータ数に対する標数の割合(EPV, event per variables)が10 ならいいんじゃないっすかね(適当 と言っている論文。 論文中では673人の患者に対して7つのパラメータが測定されていて、252件の死亡についてCox 回帰を行うが、データセットをすべて使えば252/7 = 36 EPV のところを、2, 5, 10, 15, 20 とEPV の割合を変えてデータセットをリサンプリングしてCox 回帰を繰り返し、パラメー

    重回帰のときに必要なデータの数はパラメータの数の10倍です - 驚異のアニヲタ社会復帰の予備
  • 統計科学のための電子図書システム

    2019年10⽉1⽇ 統計科学のための電子図書システムは 統計数理研究所の機関リポジトリに移行しました。 移行後のページ

  • リッジ回帰 - Shogo Computing Laboratory

    リッジ回帰 最小二乗法では、 近似曲線の次数を高くしたときに元の関数から大きくズレることがあります。 実際にスクリプトで遊んでみると、元の関数には山がひとつしかないのに、 近似関数では山がたくさんあってすごくデコボコした感じになることが確認できると思います。 これを何とかすることはできないでしょうか。 近似関数がデコボコしてしまうのは、関数が複雑すぎるからです。 では、複雑な関数というのはどういう関数でしょう? リッジ回帰では「係数の絶対値が大きければ大きいほど複雑な関数」と考えます。 最小二乗法では、次の式で表される「誤差の総和」を最小にすることが目的でした。 変数の詳細は最小二乗法を確認してください。 これに、「関数の複雑さ」をペナルティとして加えます。 係数の絶対値を直接扱うのは面倒なので、リッジ回帰では係数の二乗を扱います。 λは「誤差の総和」と「関数の複雑さ」のトレードオフを決め

    Rion778
    Rion778 2018/03/01
    「係数を0に近づける」となんで関数が単純になるのか最初わからなかったけどこういうことか。
  • Confusion Matrix 混同行列

    語訳の「混同行列」も、元の Confusion Matrix ( Class Confusion とも呼ぶ)という用語も知らなかった。ただ、先日何かのでこの行列を使った説明が理解できなかったことは覚えていた。 Data Science for Busines...

    Confusion Matrix 混同行列
  • STA 578 - Statistical Computing Notes

    Rion778
    Rion778 2018/02/16
    “This is a set of lecture notes that I will use for Northern Arizona University’s STA 578 course titled “Statistical Computing”.”
  • Javascriptで正規分布の実装まとめ(乱数、累積分布関数など)

    Javascriptで正規分布の 乱数発生(rnorm)、確率密度関数(dnorm)、累積分布関数(pnorm)、累積分布の逆関数(qnorm) を実装する(逆関数は参照で)。すべて標準正規分布を想定。 Javascriptに限らず使えるアルゴリズムだが、日語でまとまっている情報があまりないのと、ブラウザ上でA/Bテストなど有意性をみる検定などできたら面白いということでJSでやってみる。 正規乱数の生成(rnorm) 1行でBox-Muller法で。 Box-Muller法とは?

    Javascriptで正規分布の実装まとめ(乱数、累積分布関数など)
  • ハンバーガー統計学にようこそ!

    |向後研究室ホームへ|次へ→ ハンバーガーショップで学ぶ 楽しい統計学 ──平均から分散分析まで── Web独習教材「ハンバーガーショップで学ぶ楽しい統計学《にようこそ! この教材は、実際に大学の授業で使用したものです。それを一般公開しますので、どうぞお役立てください。 下のメニューに従って1章から7章まで順番に学習していくと、平均から分散分析までを習得することができます。大学の卒業論文レベルで使う統計学として、きっと役立つことでしょう。なお、相関(相関から因子分析まで)については、姉妹編の「アイスクリーム屋さんで学ぶ楽しい統計学《が公開されています。 さあ、がんばって進めていきましょう。 教材メニュー

  • 統計検定準1級を取るための勉強法|Colorless Green Ideas

    はじめに この記事では、統計質保証推進協会が主催している統計検定の準1級を取るための勉強法について、私自身の経験も交えながら紹介していきたいと思う。なお、私は2016年6月に統計検定の準1級を受け、7月に無事合格通知を受け取った。 統計検定とは 統計検定とは、2011年から始まった「統計に関する知識や活用力を評価する全国統一試験」 [1] である。この試験は級別に分かれており、高校程度の統計を問う3級や、大学の基礎科目としての統計学を問う2級などが設定されている。 準1級の特徴 準1級の出題範囲は広いので効率的に勉強しよう [2] 2015年からは、2級よりやや発展的な内容を問う統計検定準1級の試験が年に1回実施されるようになった。この級の出題範囲は、1つ下の2級の出題範囲に比べてかなり広い。このため、合格に向けての勉強に当たっては、広い範囲の内容をうまく処理していくことが重要であろう。

    統計検定準1級を取るための勉強法|Colorless Green Ideas
  • Data Sciences for the Resilient Society - Pukiwiki

    2019-06-28 Data Sciences for the Resilient Society 2018-07-10 f-lab2014 過去の講義 2018-02-25 ICPSR2009 2017-07-20 ベイズ統計演習2014_4 2017-02-28 空間モデリング特論2017 2016-02-26 Sports Data Science 2015 2016-01-11 環境とビジネスのデータサイエンス/空間モデリング(2015年度秋学期) 2015-11-02 空間モデリング2015演習ページ(2) 2015-10-11 環境とビジネスのデータサイエンス/空間モデリング(2015年度秋学期)(SFC-SFCに移動) 空間モデリング2015演習ページ(1) 2015-08-14 ベイズ統計演習2014_7 2015-06-22 環境とビジネスのデータサイエンス(2015年

  • http://minato.sip21c.org/statlib/stat-all8th.pdf

  • 『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版|Colorless Green Ideas

    科学における統計の誤用について説明した『ダメな統計学――悲惨なほど完全なる手引書』というの日語版が翻訳され、出版されることになった。この翻訳書について、どういった内容であるか、どういった人におすすめであるかを紹介する。 はじめに このたび、私の翻訳した『ダメな統計学――悲惨なほど完全なる手引書』というが勁草書房から出版されることになった。2017年1月27日ごろから書店などで手に入るようになる予定である。 アレックス・ラインハート〔著〕・西原史暁〔訳〕.(2017).『ダメな統計学――悲惨なほど完全なる手引書』東京:勁草書房. 訳書版元サイトでの紹介:ダメな統計学――悲惨なほど完全なる手引書|勁草書房 訳書版元サイトでの紹介その2(けいそうビブリオフィル):訳書の「はじめに」を閲覧可能 [1] 原書:Reinhart, A. (2015). Statistics Done Wrong

    『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版|Colorless Green Ideas
  • ベイズ推論:いつも何度でも尋ねられること

    このページをご覧頂き、ありがとうございます。 「ベイズと最尤のどちらが正しいのか」と、いつも何度でも尋ねられます。 「事前分布は何が正しいのか」と、いつも何度でも尋ねられます。 ここでは、できるだけ短く、その質問についての返答を述べます。 1.正しい統計的推論は存在しない 統計学が扱う問題では、ほとんどの場合、基礎となる確率がわからないので、 特別な場合を除いて、正しいモデル・正しい事前分布・正しい推論というものは存在しません。 条件が不足したり過剰だったりして答えられない問題のことを【不良設定問題】と いいます。 統計学は不良設定問題を扱う学問です。 この世にあるほとんどの問題は程度の違いこそあれ、みな不良設定です。 まずは「統計学は不良設定問題を扱う学問である」ということを理解しましょう。 基礎となる確率が定められていなければ【正しい統計的推論】は存在しません。 (注) 基礎となる確率

    ベイズ推論:いつも何度でも尋ねられること
  • ゲルマン先生の「役に立つ統計用語集」 - StatModeling Memorandum

    この記事はゲルマン先生(Andrew Gelman)の許諾を得て、Handy statistical lexiconを日語訳したものです。元記事の用語集は現在も更新中です。英語に抵抗がない人はぜひ元記事を読んで下さい。訳語に関しては親しみやすさを重視し、多くの日人にあまりなじみのないと思われる言葉や地名は変え、難しい熟語は避けました。また、訳注はリンク先の要約をしばしば含みます。 ここで取り上げるものはすべて重要な手法や概念である。それらは統計学に関連しており、よく知っておくべきにもかかわらずあまり知られていないものだ。それらに名前を与えることで、そのアイデアがもっと親しみやすいものになってほしいと思う。 ミスターP: マルチレベル(階層モデル)で回帰し、事後層別化(poststratification)する手法のこと。 秘密兵器: ある統計モデルを複数の異なるデータセットに繰り返しあ

    ゲルマン先生の「役に立つ統計用語集」 - StatModeling Memorandum