タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

statisticsに関するtgkのブックマーク (6)

  • 「全数調査なら何でもわかる」という誤解 - 間違えがちな母集団とサンプリングそしてベイズ統計 - - ill-identified diary

    この文章は pandoc-hateblo で tex ファイルから変換しています. PDF 版はこちら 2021/10/15 追記: 後半のベイジアンブートストラップに関する解説はこちらのほうがおそらく正確です ill-identified.hatenablog.com 概要挑発的なタイトルに見えるかも知れないが, 私はしらふだしこれから始めるのは真面目な話だ — 正直に言えばSEOとか気にしてもっと挑発的なタイトルにしようかなどと迷ったりはしたが. 「全数調査できれば標抽出の誤差はなくなるのだから, 仮説検定は不要だ」という主張を見かけた. いろいろと調べた結果, この問題を厳密に説明しようとすると最近の教科書には載ってない話題や視点が必要なことが分かった. ネット上でも勘違いしている or よく分かってなさそうな人をこれまで何度か見かけたので, これを機に当初の質問の回答のみならず関

    「全数調査なら何でもわかる」という誤解 - 間違えがちな母集団とサンプリングそしてベイズ統計 - - ill-identified diary
  • 重回帰分析が突然バグるケース:偏りの大きい変数での調整には注意! - Take a Risk:林岳彦の研究メモ

    こんにちは。林岳彦です。統計的因果推論のの初稿を書き上げるまで髪の毛を切らないぞ、と願掛けしましたが、書けないままどんどん髪の毛だけが伸びてきています。いつか塔に籠もってラプンツェルになるかもしれません。あるいは突然全てが嫌になって前田大然になるかです。今日は久々のリアル外勤のスキマ時間でエイヤッとこの記事を書いています。 さて。 今日は、ややマニアックな話として、重回帰分析が突然バグる状況について書きたいと思います。結論から言うと、重要な特性において分布の偏りが大きい変数で調整するときに、調整によって回帰が突然バグる場合があるので注意しましょうという話です。 例を見ていこう 例として、ある環境汚染物質が健康被害を引き起こしている例を考えます。ここでは、それぞれの人の汚染物質への曝露量と、健康影響の程度(バイオマーカーの値で測定)のデータが得られているとします。 以下の話では、「環境曝露

    重回帰分析が突然バグるケース:偏りの大きい変数での調整には注意! - Take a Risk:林岳彦の研究メモ
    tgk
    tgk 2022/09/19
    「色々なパターンで散布図を描いて眺めてみてデータに病的な部分(極端な偏りとか)がないかを確かめるという作業は、... 本当に大事な作業なので、必ずやりましょう」
  • 『ビジネス統計学』データダウンロードサイト

    [訂正とお詫び] 『ビジネス統計学』につきまして、下記の点に誤りがありました。お詫びとともに訂正させていただきます。 (上巻) 30頁2行目の「(n+1)p/100=(21+1)(90/100)=(21)(0.9)=18.9」は、正しくは「(n+1)p/100=(20+1)(90/100)=(21)(0.9)=18.9」です。 96頁12行目の「機械が制御不能である確率は0.12」は、正しくは「機械が制御不能である確率は0.02」です。 181頁1行目は削除とさせていただきます。 331頁図7-6の中にある「が減少」は、正しくは「が増加」、「Zが減少」は、正しくは「Zが増加」です。 (下巻) 152頁の図10-38の「N4」のセルが「37」となっておりますが、正しくは「12.833」です。 379頁の問題13-23の最終に一文が抜けておりました。「色違いの強烈さとアピール度評点の間に相関は

  • 確率統計-機械学習その前に v2.0

    確率統計の勉強会資料を大幅に改定しました。数式を最小限にし、統計分析のためのトピックを総覧的に資料化しています。 2021/11/20 内容や記載を拡充しました(合わせて SpeakerDeckに移動しました) https://speakerdeck.com/hidekatsu_izuno/que-lu-tong-ji-ji-jie-xue-xi-sofalseqian-ni

    確率統計-機械学習その前に v2.0
  • 新発見の統計的有意性のp値の閾値は5%から0.5%に下げよ - himaginary’s diary

    と主張する論文が現下の統計学における最もホットなトピック/議論/展開である、としてFrancis Dieboldが紹介している。論文のタイトルはズバリ「統計的有意性の再定義(Redefine Statistical Significance)」で、Nature Human Behaviorに掲載予定との由。著者は総勢72名に及び、こちらのエントリで紹介したErnst Fehrも名を連ねているほか、日人では今井耕介氏やShinichi Nakagawa氏の名前も見受けられる*1。 その1行要旨(One Sentence Summary)は概ね表題の通りで、原文は「We propose to change the default P-value threshold for statistical significance for claims of new discoveries from

    新発見の統計的有意性のp値の閾値は5%から0.5%に下げよ - himaginary’s diary
  • 「確率統計-機械学習その前に v2.0」を公開した - hidekatsu-izuno 日々の記録

    以前、社内の勉強会用の資料として作成した「確率統計-機械学習その前に」という資料を今回大幅に改定して公開しました。 改定の一番のポイントは、統計分析の総覧的なガイドとして使えるようにしたことです。正直な話、内容的に私自身も十分に理解出来ていない部分も多いのですが、いろいろ調べた結果、なんとなく統計分析の手法マップ的なものが頭の中に出来上がってきたので、それをアウトプットとしてまとめてみました。 確率統計-機械学習その前に v2.0 from Hidekatsu Izuno 確率統計に限った話ではありませんが、新しい分野を学ぶ初学者にとって、全体像がよくわからないため混乱することが少なくありません。この資料を読むことでなんとなくでも全体を把握できていれば、他の文献を読む際にも理解が容易になるのではと思っています。 例によって、確率統計については完全に素人なので、間違いもあるかもしれません。そ

    「確率統計-機械学習その前に v2.0」を公開した - hidekatsu-izuno 日々の記録
    tgk
    tgk 2018/03/21
    「原因を分析し意思決定するという観点でみると、機械学習や非線形回帰はさほど役に立たず、仕事上では確率統計こそが必要なのだ、ということがようやくきちんと理解できました」
  • 1