タグ

と統計学に関するmidnightseminarのブックマーク (92)

  • 第35号 Contingency tableは分割表では無い | 公益財団法人 痛風財団

    医学の地平線 第35号 Contingency tableは分割表では無い 英国エコノミスト編集部による「2050年の世界」という、約40年後を予測するが話題になっている。日で最も注目されているのは以下の記述である。「2010年に全世界GDPの5.8%を占めた日のGDPは、2050年には1.9%になる 。日の一人当たりGDPは米国や韓国の半分になる 」。確かに、現在の傾向が継続し、日が何の対策も取らなければそうなるかもしれない。どのような対策が可能であろうか。 私が注目するのは同書の次の予測である。「次なる科学は生物学である。化学は知的学問として枯渇した。物理学にも期待は持てない 。」この記述は化学、物理学を専攻する研究者にとってはショックであろうが、私は真実の可能性が高いと思う。物理学や化学は生物学に比べれば詳細な観察が比較的容易であり、複雑怪奇な生物に比較すれば洗練された科学

    midnightseminar
    midnightseminar 2018/11/21
    「私はcontingency tableを(分割表ではなく)『偶現表』と呼ぶ事を提唱している」……。
  • PRRISMコラム: 操作変数法(IV法)について

    はじめにPRRISMでは、臨床研究や実態調査の計画段階から調査実施、分析、論文執筆や成果発表の段階に至るまで、調査研究の遂行に関わるあらゆる段階でお客様のサポートを承っております。お客様のご要望の中には、倫理上の問題等からランダム化比較試験のようなデザインが難しい調査や、レセプトデータもしくはDPCデータの研究(観察研究)に対して、より正確な因果効果を測定したいというご要望も数多くございます。今回ご紹介する「操作変数法(IV法)」とは、こうしたご要望に対して有効な手法のひとつです。インターネット上にはIV法に関する説明が他にもありますが、コラムでは実例の紹介等も交えてできるだけ分かり易くご説明したいと思います。 操作変数法(IV法)とは操作変数法(IV法)は、主に社会科学の分野で利用されている統計手法であり、しばしば未統制の要因による交絡を効果的に防ぐことを可能にします。一例を挙げると、

  • 仮説ドリブンだからこそデータドリブンが成り立つ

    こんにちはシバタアキラです。書くたびにご無沙汰のこのブログですが、今年は年初に数値目標も自分に課してしまったので、つらつらと発信していきたいと思います。発信したいことは山ほどあるんです。 AIAIの掛け声で誰もが振り向いてくれたメディアバブルは2017年とともに終わりを迎えた感があります。今年はよりリアルで、より業界に特化し、よりパワフルな機械学習応用事例を誰もが望んでいると思います。例えばこんなこととか。今年はどんどん仕掛けていきます。 理論的なモデルが無いときに機械学習 機械学習技術の素晴らしいところは、モデルを人間が作らなくていいことです。マーケティングなどでは人間の行動が予測対象になるため、そもそも理論的なモデルを作るのは困難です。製造業でも、物理的なモデルを作るのが困難にな場合は多いです。例えば叩く・削るなどの工程は物理モデルを作ることが難しく、統計的な機械学習手法に軍配が上が

    仮説ドリブンだからこそデータドリブンが成り立つ
  • 第一生命経済研究所のレポートにある日照時間による消費の推定について

    ついったーらんどで第一生命経済研究所首席エコノミスト永濱利廣氏が書いた「テーマ:不確実性の高いサマータイム効果」の中の日照時間による消費の推定式がトンデモ扱いされていたのだが、しっかり問題点を把握しない非難が多かったので、非難の方の問題を指摘した上で、推定の問題点を再整理し、推定をやり直した上で、推定結果の解釈について批判したい。弁護から入って、結局はdisる。 話題になっている推定結果は以下だが、つらつらと見て行こう。 1. 不適切だと考えられる非難 一般線形回帰(OLS)だから稚拙だという非難があったのだが、教科書の最初の方に載っている技法が不適切とは限らないので、これは批判になっていない。論文などでOLS以外の技法を使う事が多いのは、対処しないといけないバイアスがあったり、非線形モデルの推定を行う必要があるからだ。線形モデルで、同時性(内生性)や不均一分散などの対処すべき問題が無けれ

    第一生命経済研究所のレポートにある日照時間による消費の推定について
  • P値を捨てた雑誌で使われている統計量

    ラジラジ言っている北海道の心理学者PsycheRadio氏と話をしていたときに、「心理学で(他の学問でも)統計的検定や推測統計学への批判が高まって以前ほど使われなくなりつつある」と言われたが、違和感がある。少なくとも社会科学分野で使われなくなったとは聞かない。話の流れにあわせて誤魔化されている気がするので確認してみた。 1. 確かに統計的仮説検定は非難されている PsycheRadio氏が全く無根拠な話をしているわけではない。統計的仮説検定によって、胡散臭い統計手法で有意性を捻り出してしまうこと(p-hacking)などが問題になっており、また統計モデルと研究上の仮説の相違を理解しない運用もある。アメリカ統計学会(ASA)が統計的仮説検定に対する注意を喚起する声明を出したぐらいだ。実際に、統計的仮説検定を禁止された雑誌もある。氏が例に挙げたBasic and Applied Social

    P値を捨てた雑誌で使われている統計量
    midnightseminar
    midnightseminar 2018/05/09
    “査読者が統計的仮説検定を正しく運用できているかチェックし、効果量の大小も評価するように執筆者に勧めれば済むのだが、なぜか統計的仮説検定を禁止して、効果量の大小の表記のみを許すと言う話になっている”
  • [PDF]藤島喜嗣,樋口匡貴(2016).社会心理学における"p-hacking" の実践例.心理学評論,59(1),pp.84-97.

  • 確率統計を学ぶにあたって|金谷健一 岡山大学工学部情報系学科

    midnightseminar
    midnightseminar 2017/12/28
    “確率統計は「存在しないことを学び,研究する学問」である.要するに「虚構」であり,極端に言えば「嘘」である” “そのような人為的な嘘を工学的には「モデル」と呼ぶ”
  • 分散分析について

    midnightseminar
    midnightseminar 2017/12/11
    “その意味で,多群の分散分析にだけ,多重比較の問題がうるさく言われるのは,やや不思議な感もします(これは私見です)”
  • 確率変数の積の期待値と分散 - 具体例で学ぶ数学

    $X$ と $Y$ が独立なとき、 $P(X=x,Y=y)=P(X=x)P(Y=y)$ のように、確率を積に分解できます。よって、積の期待値は、 $E[XY]=\displaystyle\sum_{x,y}P(X=x,Y=y)xy\\ =\displaystyle\sum_{x}\sum_{y}P(X=x)P(Y=y)xy\\ =\displaystyle\sum_{x}P(X=x)x\sum_{y}P(Y=y)y\\ =E[X]E[Y]$ となります。 連続型の確率変数の場合も同様に証明することができます。

  • 分析のいろんな仮定と,それに対する頑健さ・対処法 | Sunny side up!

    統計分析にはいろんな「仮定」があります。例えば,t検定はデータが正規分布である必要がある,などなど。しかし,仮定を満たさないからといって,その方法が全く使えなくなるとは限りません。 そこで,よく使われる統計手法の仮定と,それらに対する頑健さ,つまりどれぐらい逸脱を許容できるのかについてまとめておきます。 また,仮定の逸脱に対して脆弱なものにたいして,どのような対処が可能かについても書いておきます。 ただ,この記事で書いているいくつかの基準は,ただの目安なので盲目的に信じないでください。僕は統計の専門家ではないので,「ああ,そんな感じなのね」的に受け取ってもらえればと思います。 二群の平均値の差の検定(t検定) いわゆるt検定の仮定は,3つあります。 ・母集団が正規分布に従っている(母集団の正規性の仮定) ・二群の分散が等しい(分散の均一性の仮定) ・サンプルが独立に抽出されている(サンプル

    midnightseminar
    midnightseminar 2017/10/17
    分析手法別に「仮定の逸脱に対する頑健性」の目安がリスト化されてて凄い。これとあと、「そこを厳密にツッコんでくる人はまずいない(査読頑健性)」リストが欲しい。
  • [PDF]階層線形モデルのセンタリングについての覚書_村山航

  • (実験心理学徒だけど)一般化線形混合モデルを使ってみた

    Takashi YamaneUniversity faculty member at Kawasaki University of Medical Welfare

    (実験心理学徒だけど)一般化線形混合モデルを使ってみた
  • 生態学データ解析 - lmer 紹介

    線形混合モデルと一般化線形混合モデル (GLMM 参照) の推定計算する関数 lmer() を紹介します (R の関数) 複雑なモデル (例: 複数の種類の random effects をあつかう) を lmer() で推定させると, あまり正しくない推定結果が得られる場合が「よく」あります (2011-12-27 ……けっきょくこの欠点は何年たっても改善されなかった) このように複雑なモデル WinBUGS や JAGS, あるいは MCMCglmm() を使って推定したほうがよいと思います [もくじ] lmer() とは何か 他の推定関数との比較 実験: 乱数つかったデータ生成と GLMM 推定 結果 (1): 推定値 b の比較 結果 (2): deviance 比較 (glmmML() vs lmer()) とりあえずの,まとめ Appendix: そもそも method = "

  • 心理統計の注意点:重回帰分析についての注意点

    重回帰分析について 1.単回帰・重回帰分析における基的な注意点 単回帰分析とは,ある従属変数を1つの独立変数で予測するための分析で,独立変数が2つ以上の場合は重回帰分析となります.以下両者を回帰分析と呼びます.具体的にどのような数式で求められるかなどに関しては,ある程度分かっているものとして,この節ではその使用上の実際的な注意点などに触れていきたいと思います. 回帰分析で最も押さえておかなければならないポイントは,変数間の「相関関係」(正確には分散と共分散)によって回帰係数が決定されているという事実です.つまり質は「相関係数(の関数)」なのです.独立変数,従属変数を標準化した上で算出される回帰係数を標準回帰係数といいますが,単回帰分析の場合,これはまさに独立変数と従属変数の相関係数そのものです.重回帰分析によって算出される(標準)偏回帰係数も,独立変数と従属変数,そして独立変数間の相関

  • 'One-size-fits-all’ threshold for P values under fire - Nature

    Thank you for visiting nature.com. You are using a browser version with limited support for CSS. To obtain the best experience, we recommend you use a more up to date browser (or turn off compatibility mode in Internet Explorer). In the meantime, to ensure continued support, we are displaying the site without styles and JavaScript.

    'One-size-fits-all’ threshold for P values under fire - Nature
  • 階層的線形モデル(HLM)について

    1 階層的な構造を持つデータ 心理や教育に関する研究で収集されるデータは,階層的な構造を持っていることが多い。 ここで,データの階層的な構造とは,それぞれの観測値が何らかの上位の抽出単位に包含されているような状態を指す。 例えば,学級単位で小学生に学習に関する意識調査を行ったとする。 この場合,それぞれの子どもたちはいずれかの学級に所属しているから,得られるデータはその学級に含まれたものと考えることができる。 逆に,その学級が調査対象になっていなければ,そこに含まれる子どもたちのデータは決して得られないことになる。 同様に,複数の小学生に対して学習意欲の変化を3学期にわたって時系列的に調査したとしよう。 この場合,それぞれの子どもについて複数回の観測時点におけるデータが得られることになるから,これらの観測値は子どもという上位の単位に含まれたものと考えることができる。 これらはいずれも階層的

  • 時系列解析_ホワイトノイズとランダムウォーク | Logics of Blue

    Rを用いた時系列解析 の実践例を載せます。 時系列解析ってなに? という方は時系列解析_理論編を先に読まれるとよいと思います。 ここでは、格的な時系列モデルを組む前に、予測がほぼ不可能であるホワイトノイズとランダムウォークの性質と和分過程の特徴を解説します。 モデルによる予測ができない時 1.ホワイトノイズ これからARIMAモデルを推定していくわけですが、そもそも自己相関が全くない、すなわち過去から未来を予測できないデータをお目にかけます。 自己相関の無い完全な雑音のようなデータのことをホワイトノイズと言います。 このホワイトノイズをforecastパッケージのauto.arimaでモデリングしてみましょう。 ホワイトノイズは下のコードで簡単に作れます。 set.seed(1) white.noise <- rnorm(n=400) plot(white.noise, type=”l”

    時系列解析_ホワイトノイズとランダムウォーク | Logics of Blue
    midnightseminar
    midnightseminar 2017/09/15
    ホワイトノイズとランダムウォークの例をRでシミュレーション
  • 統計学入門−第7章

    7.2 重回帰分析結果の解釈 (1) 各種パラメーターの意味 重回帰式の信頼性の目安として重寄与率(multiple coefficient of determination)R2という値があります。 これは単回帰分析における寄与率を多変量に拡張したものであり、重回帰式によって計算した目的変数yの推定値の寄与率に相当します。 そのため重寄与率は目的変数の全変動(yの平方和)のうち、p個の説明変数全体によって説明される割合を表します。 重寄与率の平方根Rは重相関係数(multiple correlation coefficient)という値になり、重相関分析の指標として用います。 これは単相関分析における相関係数を多変量に拡張したものであり、とyの相関係数に相当します。 そのため重相関係数は目的変数とp個の説明変数全体の間に因果関係を想定せず、相互に影響を及ぼし合っているという相関関係を想定

  • 日経リサーチホーム

    複数の説明変数を持つ回帰分析は、とくに重回帰分析という。「重」は説明変数が複数(multiple)であるという意味で使われている。応用的には単回帰分析よりも重回帰分析の利用場面が多い。しかし理論的な基礎はほとんど単回帰分析に含まれている(単回帰分析の項を参照)。 たとえば、重回帰分析が適用されるのは以下のような場面である。 総合満足度を目的変数とし、多数の個別満足度や個別重視度を説明変数として、どの側面が満足度向上に強く影響しているかを示す。 広告注目率を目的変数とし、広告の多数の属性を説明変数として、注目率を上げる要因を発見したい。 購入意向率や推奨意向率を目的変数とし、ブランド・イメージを説明変数として、どのようなイメージが購入に結びついているのかを明らかにしたい。 国政選挙の前に選挙予測調査を実施し、候補者への投票意向率を目的変数とし、候補者や選挙区の多数の属性を説明変数として、得票

    日経リサーチホーム
  • 1ヶ月で統計学入門したので「良かった本」と「学んだこと」のまとめ - ぴよぴよ.py

    前回の「ゲームプログラマからデータサイエンティストに転職しました」 の記事でもお話したとおり、5月からデータ解析する人になりました。 とはいえ、データ解析に関しては未経験。 少しでも不安を減らすために、4月の有給消化期間は統計学のお勉強しました。 今回はおすすめしてもらった中で読んで良かったの紹介、そして読んだの簡単なまとめを書いて行きたいと思います。 ※前提: 4月時点の自分の知識に関して 自分は大学は情報科学を専攻していたが、難しい数式は苦手 統計学は1コマ分受講していたが、単語を覚えている程度でかなりあやうい まず一番最初に読みたい 「完全独習 統計学入門」 「簡単に統計学の全体像がつかめる入門書はないか」とTwitter相談したら、こちらのを数名の方が薦めて下さった。 完全独習 統計学入門 作者: 小島寛之出版社/メーカー: ダイヤモンド社発売日: 2006/09/28メ

    1ヶ月で統計学入門したので「良かった本」と「学んだこと」のまとめ - ぴよぴよ.py
    midnightseminar
    midnightseminar 2017/05/15
    ブックガイドかと思ったら赤本のサマリだった