タグ

statisticsに関するdynamicsoarのブックマーク (103)

  • コラム1 平均値と最頻値考察~「平均初婚年齢」と「初婚年齢の最頻値」の間には3歳から4歳の差~ | 内閣府男女共同参画局

    統計学では、集団の中心的傾向を示す値は「代表値」と呼ばれ、「代表値」には、「平均値」「最頻値」「中央値」がある。「平均値(average)」は、データの合計をデータの個数で割ったもので、「算術平均」ともいう。「最頻値(mode)」は、その値が起こる頻度が最も高い値のことで、最頻値を求めるには、度数分布表1を作成し、度数の最も多い値が「最頻値」となる。「中央値(median)」は、データを値の小さいほうから順に並べたときにちょうど半分にデータを分ける値をいう。 3つの代表値の関係性を見てみると、データの分布が左右対称に近い山形(正規分布)になっていれば、「平均値」、「中央値」、「最頻値」は一致する(図1の左図)。一方、分布に偏りがある場合、「中央値」、「平均値」、「最頻値」はそれぞれ異なった値を取る(図1の右図)。 (図1)データの分布(例) 一般的には、「平均値」を基準に物事を考える人は少

  • 統計学の講義資料(2022年度) | Logics of Blue

    帝京大学経済学部で用いた講義資料です。 2022年度の統計学I及び統計学IIの講義スライドを編集したうえでUPしています。 目次 資料について 統計学の講義資料 1.資料について 帝京大学経済学部で用いた講義資料です。 2022年度の統計学I及び統計学IIの講義スライドを編集したうえでUPしています。 もとの講義資料とは異なる点もあるのでご注意ください。 万が一何か問題があれば、当ブログにコメントをいただけますと幸いです。 スライドにも記載の通り、以下の利用を想定しています。 想定①:講義の受講者が復習に利用する 想定②:未受講者が統計学入門資料として利用する 基的には想定①ですが、文系の学生をメインターゲットとした統計学の格的入門資料は少ない印象です。 未受講者の方にも役に立つかもしれないと思いWeb上で公開することにしました。 資料は1年間にわたる講義資料となっています。数回

  • https://www.amed.go.jp/content/000034156.pdf

  • 操作変数法(Instrumental variable methods)

    疑似実験(Quasi-experiment)と観察研究(Observational study)との定義はあいまいですが、ここでは経済学での用いられ方を考慮して、因果推論をきちんと行うことのできる比較的質の高い解析方法を疑似実験として、それよりは弱い研究デザインを観察研究とさせて頂きます。 疑似実験(Quasi-experiment) 操作変数法(IV; Instrumental variable methods) プロペンシティ・スコア・マッチング(PS; Propensity score matching) 回帰分断デザイン(Regression discontinuity method)・分割時系列デザイン(Interrupted time-series analysis) 差分の差分(DID; Difference-in-difference) 日は操作変数法(IV法)に関してご

    操作変数法(Instrumental variable methods)
  • Daily Life:大塚淳『統計学を哲学する』を読む

    August 02, 2021 大塚淳『統計学を哲学する』を読む [追記:この記事について大塚さんご人からリプライをいただいています。] 昨年出版された大塚淳『統計学を哲学する』は、日人の統計学の哲学者によるはじめての「統計学の哲学の」である。こうした科学哲学の先端の領域になかなか日の研究者が切り込めて来なかった中で、ついにこうしたが出版されるようになったことは大変慶賀すべきことだと思う。さらに言えば、書は決してただの解説書ではなく、大塚さんの独自のアイデアに溢れた、統計学の哲学の研究書である。特に、ベイズ主義と古典統計をそれぞれ内在主義と外在主義の認識論になぞらえて認識論的含意を取り出そうとするあたりは、他の追随を許さない独自の議論が多く展開されている。書は今後日で統計学の哲学について議論する際に常に出発点となることだろう。書は非哲学者も含めて広いリーダーシップを獲得し

  • 互いに独立でなくてもできる中心極限定理と, そのデモ (Gordin's CLT/Donsker定理) - ill-identified diary

    概要 はじめに シミュレーション IIDな時系列 (基) 独立ではないケース1: AR(1) 2022/1/17 追記: マルチンゲール差分列の中心極限定理 独立ではないケース2: ランダムウォーク 統計学への応用 相関ありの中心極限定理の応用 汎関数中心極限定理の応用 参考文献 概要今月まだ何も書いてなかったのでタイトルの通り中心極限定理の発展的な話をする. といってもAR(1)とランダムウォーク乱数のグラフを描いただけなんだけど. 対象読者: 統計学の入門的な教科書に書いてある中心極限定理 (CLT) や大数の法則は知っているが, そこから先は知らない人 はじめにほとんどの基礎的な教科書に書いてある回帰分析や機械学習のモデルではデータが互いに独立かつ同一の分布 (IID) であると仮定している. これは大数の法則や中心極限定理が成り立つ条件の1つでもあり, よって十分にデータが多けれ

    互いに独立でなくてもできる中心極限定理と, そのデモ (Gordin's CLT/Donsker定理) - ill-identified diary
  • 確率変数の収束 - Wikipedia

    数学の確率論の分野において、確率変数の収束(かくりつへんすうのしゅうそく、英: convergence of random variables)に関しては、いくつかの異なる概念がある。確率変数列のある極限への収束は、確率論や、その応用としての統計学や確率過程の研究における重要な概念の一つである。より一般的な数学において同様の概念は確率収束 (stochastic convergence) として知られ、その概念は、質的にランダムあるいは予測不可能な事象の列は、その列から十分離れているアイテムを研究する場合において、しばしば、質的に不変な挙動へと落ち着くことが予想されることがある、という考えを定式化するものである。異なる収束の概念とは、そのような挙動の特徴づけに関連するものである:すぐに分かる二つの挙動とは、その列が最終的に定数となるか、あるいはその列に含まれる値は変動を続けるがある不変

    確率変数の収束 - Wikipedia
  • 確率変数の収束についてまとめる - ブログ村

    はじめに 確率変数の収束の分類 分布収束 定義 お気持ち 例 中心極限定理 確率収束 定義 お気持ち 分布収束との関係 例 大数の弱法則 分布収束するが確率収束しない例 概収束 定義 お気持ち 確率収束との関係 例 大数の強法則 いつか終わるコイン投げ 確率収束するが概収束しない例 確実収束 定義 お気持ち 概収束との関係 例 概収束するが確実収束しない例 平均収束 定義 お気持ち 他の収束との関係 例 次平均収束するが概収束しない例 概収束するが次平均収束しない例 まとめ 参考サイト はじめに 最近、自然科学の統計学というを読んで、その内容をまとめた記事を書いたり書かなかったりしている。 kriver-1.hatenablog.com 現在第6回の内容を書いているのだが、その途中で確率収束という単語が出てきた。確率変数の収束についてはいくつか種類があって、確率収束だけでなく弱収束、強収

  • Simpson's paradox - Wikipedia

    Simpson's paradox for quantitative data: a positive trend ( ,  ) appears for two separate groups, whereas a negative trend ( ) appears when the groups are combined. Visualization of Simpson's paradox on data resembling real-world variability indicates that risk of misjudgment of true causal relationship can be hard to spot. Simpson's paradox is a phenomenon in probability and statistics in which a

    Simpson's paradox - Wikipedia
    dynamicsoar
    dynamicsoar 2021/02/14
    生物でもたまにあるやつ(たとえば種内の傾向は右上がりだけど種間では右下がり、とか)
  • Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing

    Publication | ACM SIGCHI Conference on Human Factors in Computing Systems 2017 (Honorable Mention) Same Stats, Different Graphs Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing “…make both calculations and graphs. Both sorts of output should be studied; each will contribute to understanding.” F.J. Anscombe, 1973 Anscombe’s Quartet It can be difficult

    Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing
  • 講義ビデオ|聴講コース 臨床研究者のための生物統計学 - 京都大学OCW

    なぜランダム化が必要なのか? なぜ二重盲検ランダム化臨床試験が必要なのか? ランダム化の方法 特殊なランダム化 ランダム化後に生じた治療切り替えの問題

  • 選択(セレクション)バイアスとは?人によって定義が違うので整理してみた。 - Unboundedly

    疫学と経済学、どちらもある要因Xがある要因Yに与える因果的な効果の大きさを推定する「因果推論」に関心があることが多いです。 「選択(セレクション)バイアス」「交絡」「内生性」、多くの用語が因果推論で登場します。 ところが、話をしているとどうも噛み合わないことが多い。よくよく聞くと、 ①同じことを違う用語を使って話している ②同じ用語を使って全く違う概念について話している ことが判明。 先日の勉強会がきっかけで,selection biasの議論が活発におこなわれています. selection biasは疫学,経済学の領域間だけではなく,領域内でも定義が混乱してそう🤔 それぞれの領域の方々が同じ場で議論し合うのは良いなと思います. お互いリスペクトした議論になっているのもストレスフリー🧸 pic.twitter.com/WTbX7sVHIP — Sato@生物統計家 (@Shuntaro

    選択(セレクション)バイアスとは?人によって定義が違うので整理してみた。 - Unboundedly
  • 決定係数 R2の違い: Excel, OpenOffice, LibreOffice および統計解析ソフト R を用いて

    この表から,以下のことが容易に分かる。 Excel の決定係数はマイナス ExcelLinest 関数と統計ソフト R では,同じ決定係数 Calc の決定係数は,相関係数の 2 乗 それでは, Excel のグラフと Linest 関数,および統計ソフト R の決定係数は,どのように算出されるのだろうか? それを明らかにするためには,まず回帰分散分析として,y 観測値を,以下のような3種類の変動として捉えてみることが必要になる。 回帰変動(回帰平方和, RSS, Regression Sum of Squares) 残差変動(残差平方和, SSR,Sum of Squared Residuals) 全変動(全平方和, TSS,Total Sum of Squares) 全変動は回帰変動と残差変動の和になる。 TSS = RSS + SSR この中で,特に SSR と TSS に焦点

  • AICは真のモデルを選ばない? » 小泉研究室 | 北海道大学大学院 地球環境科学研究院 動物生態学コース

    こんにちは、D3の大久保です。 先日「p 値とは何だったのか(Fisher の有意性検定とNeyman-Pearson の仮説検定を超えるために)」という論文を書いたのですが(大久保&會場[2019],生物科学70(4))、今日はそのプロモーションを兼ねて(?!)、この論文では主題として扱えなかった「AICと真のモデルの関係」について紹介したいと思います. ・はじめに 生態学の統計分析で赤池情報量規準(AIC)によるモデルの評価・選択は、当によく見かけますよね。p値と並んで、データを解釈する上で最も重要な役割を果たしている指標と言えるかもしれません。しかしAICに関して、こんなことを聞いたことがある人はいないでしょうか。 「AICは予測のための指標である」 「AICは正しいモデルを選ぶために作られてない」 「AICはnを増やしても一致性がない」 どれも統計学的にはよく指摘されます。しかし

  • 橋本洸哉のサイト - 単回帰

  • 信頼区間って何?

    「95%信頼区間とは,真の値が入る確率が95%の区間のことです」というような説明をすることがあります。私も,一般のかたに説明するときは,ついそのように言ってしまうことがあります。でも当は真っ赤なウソです。主観確率を扱うベイズ統計学はここでは考えません。 正規分布では,ウソの考え方をしても結論が同じになることがあるので,ここではわざと,左右非対称なポアソン分布を考えます。 ポアソン分布とは,1日に起こる地震の数,1時間に窓口を訪れるお客の数,1分間に測定器に当たる放射線の数などを表す分布です。平均 $\lambda$ のポアソン分布の確率分布は次の式で表されます: \[ p_k = \frac{\lambda^k e^{-\lambda}}{k!} \] $\lambda = 10$ のポアソン分布の確率分布をグラフにすると次のようになります(当は右に無限に延びるのですが,$k = 30

  • 標本調査とは?~調査のしくみと設計~|統計学習の指導のために(先生向け)

    全数調査と標調査 全数調査とは 統計調査によって何かを調べたい時、例えばある中学校で全校生徒の平均身長を調べたいと思ったら、生徒全員の身長を測って平均を計算すれば正確な結果が得られます。このように、対象となるすべてを調べる調査を「全数調査」といいます。一つの中学校の全生徒の身長を調べることは、それほど大変な手間ではないでしょうが、日中のすべての中学生の身長を調べるのは大変な手間と費用がかかります。このような場合には、手間や費用を省くために、一部の人だけを選んで調べる方法もあります。このような調査を「標調査」といいます。 全数調査は、集団の中をすべて調査しますので、集計した結果には、標調査では必ず生ずる「標誤差」が含まれません。したがって、全体の結果はもちろんのこと、男女別の結果や詳細な地域別の結果なども統計として利用できます。 我が国で実施されている最も大規模な全数調査は国勢調査

  • 実務の現場に多い時系列データ分析の際に注意しておきたい点を列挙してみる - 渋谷駅前で働くデータサイエンティストのブログ

    こういうメタ分析系の記事を書く時というのは大抵ネタ切れの時なんですが(汗)、最近になってこの辺のポイントでつまずいて困っているビジネスデータ分析の現場の話を聞くことがまた増えてきたので自分向けの備忘録も兼ねて記事としてまとめておきます。 そうそう、時系列分析の話って厳密にやり始めるとキリがないので、例えば単位根過程まわり(特に共和分のあたりを含めた複数時系列間の関係性の話とか)は「トレンドに注意せよ」という大きなくくりにまとめて、厳密な議論は割愛して出来る限り実務面で押さえるべきポイントに絞ろうと思います*1。悪しからずご了承あれ。 周期性のあるデータには真っ先に季節調整を ビジネス時系列データは例えば毎日毎時の売上高とか契約数とかコンバージョン数とか、どこからどう見ても曜日変動とか24時間変動などの周期性が乗っているデータであることが多いです。にもかかわらず、その手の周期性に何の処理もせ

    実務の現場に多い時系列データ分析の際に注意しておきたい点を列挙してみる - 渋谷駅前で働くデータサイエンティストのブログ
    dynamicsoar
    dynamicsoar 2019/06/02
    “「その曜日変動自体に興味があるんだ!」という人もいるかと思いますが*2” あ、やっぱりそうだよな…
  • 生態学データ解析 - 生態学会大会2015

    生態学会大会 (鹿児島大会, 2015-03-19) の自由集会 [W11] データ解析で出会う統計的問題: 時間の長さ・時系列データの統計モデリング 日時: 2015 年 3 月 19 日 (木) 18:00 -- 20:00 場所: 鹿児島大学郡元キャンパス, 生態学会大会 A 会場 企画者: 粕谷英一 (九州大・理)・久保拓弥 (北海道大・地球環境) 短縮 URL: http://goo.gl/LK9q4g 集会終了後の 懇親会 (要・予約!!) 概要 この集会では生態学における「時間の長さのデータ」と「時系列データ」のデータ解析について議論したい。 「時間の長さデータ」の例としては、観察している対象生物が「死ぬまでの時間」あるいは「ある行動・状態が持続する時間」の長さがあげられる。これらの長 短を説明できそうな要因の効果などを知りたいときに、どのような統計モデルを作ればよいだろうか

  • 効果量 (effect size) と検定力 (power) の説明