タグ

あとで読むと統計に関するAobeiのブックマーク (22)

  • https://www.saa.or.jp/journal/eachtitle/pdf/kaidai_140301.pdf

    Aobei
    Aobei 2024/04/03
    コピュラの解説
  • 腑に落ちない人のための回帰診断 - Qiita

    最近データサイエンティストが多くなってきて、めでたいな~、いいことだな~と思っているのですが、多くの人は機械学習寄りの話から入っていくことが多く、統計学から入っていく人は少ないような気もします。 重回帰分析は、おそらく最も多くのデータサイエンティストと呼ばれる人達がお世話になっている手法だと思いますが、回帰診断は聞いたことすらないという人も結構多いようです。 正直、実務であまり使うことはないような気もしますし、私自身も使う機会がほとんどないのですが、復習も兼ねて勉強をし直したので、今回はそんな回帰診断について紹介したいと思います。 目次はこんな感じ。 ・回帰診断とは ・前提知識(読み飛ばしてもOK) ・使うデータ(swiss) ・Q-Qプロット ・梃子比 ・スチューデント化残差 ・Cook距離 ・まとめ 回帰診断とは ざっくりいえば、回帰診断とは、回帰モデルの妥当性をチェックするためのツー

    腑に落ちない人のための回帰診断 - Qiita
  • 腑に落ちない人のための不偏性と一致性の違い - Qiita

    ※細かいことを読むのが面倒な方や時間が惜しい方は ここから 読んで頂ければなと思います。 ※この記事は「不偏性とか一致性とか色々調べたけど、どれを見てもいまいち腑に落ちないんだよなー」と思っている方向けの解説です。や他サイトでたくさん迷走してから読んでください。 ではでは、文です。 Twitterで「不偏推定量難しい...一致推定量っていうのもあるけど何が違うの?」みたいなのを観測し、そういえば自分も統計学を勉強し始めた時に同じような疑問を長らく抱えていたなーという気持ちを思い出しました1。 Google先生に「不偏推定量 一致推定量」と尋ねると、4万件弱ヒットするようです。 その中に自分の拙い記事を加えたところで、どれほど価値があるのか、かなり微妙な感じがするのですが、まぁいいかということで書いていきます。 他サイトの解説とはちょっとテイストを変えているので、もしかしたらこの記事で腑

    腑に落ちない人のための不偏性と一致性の違い - Qiita
  • 読了:Gao et al.(2019) MRP(マルチレベル回帰・層化)に構造化事前分布をいれる | 読書日記

    Gao, Y., Kennedy, L., Simpson, D., Gelman, A. (2019) Improving multilevel regression and poststratification with structured priors. arXiv:1908.06716v2. 30 Sep 2019. しばらく前に読んだ奴。たしか勉強のつもりで読んだのだと思う。 最近の選挙予測でブイブイいわせているらしき、Mr.P こと Multilevel Regression and Poststratification (日語ではなんていうんだろう? マルチレベル回帰・層化?) に、構造を持つ事前分布をいれるという論文。Mr.Pの生みの親 Andrew Gelman さんも著者に入っている。たぶん未公刊。 いまみたらarXivに改訂版があがっていた。なんか内容が大幅改善さ

  • K-meansのクラスタ数を決めるのにエルボー法を使うのはやめよう、という論文 - 渋谷駅前で働くデータサイエンティストのブログ

    クラスタリングに用いられるK-meansのクラスタ数決定方法については長く議論されてきた歴史があり、このブログでも以前ちょろっと取り上げたことがあります。 で、Twitterを眺めていたらタイムラインに面白い論文が流れてきました。それがこちらです。 タイトルを読んで字の如く「K-meansのクラスタ数を決めるのにエルボー法を使うのはやめろ」という論文なんですね。全体で7ページと非常にコンパクトで読みやすい内容なので、簡単にまとめて紹介してみようと思います。なおいつもながらですが、僕の技術的理解が不足しているが故の誤りなどが混じる可能性がありますので、その際はコメント欄などでご指摘くださると幸いです。 あるtoy dataに対するK-meansの結果 目検に頼らないエルボー法について考える ならば、既存のクラスタ数決定法の中では何を選ぶべきか そもそもK-meansが有効でないケースもあるこ

    K-meansのクラスタ数を決めるのにエルボー法を使うのはやめよう、という論文 - 渋谷駅前で働くデータサイエンティストのブログ
  • 覚え書き: 離散選択モデルの識別性 (Train, 2009) | 読書日記

    2022年の秋から冬にかけて、仕事の都合で延々と一対比較課題の分析のことを考えていたのだけれど(官能評価みたいな伝統的モデルじゃなくて、個人レベル効用を推定したい場合の話)、とにかくややこしいのは識別性の話である。何か論文を読んだり、あれこれ考えたりはしたんだけれど、どうも俺は選択モデルの基礎がわかってないな… という後ろめたさがある。 毎度の疑問ですが、こういうのって皆さんどこで習ってんですかね、いったい。巷のデータサイエンティスト養成コースとかで教えてくれるんでしょうか。そんならぜひ習いたい。実践演習とかいいからさ、基礎を教えてくださいよ、基礎を。 というわけで、手元の教科書を読み直し、弱気になってメモまでとった。最初に読んだときは目からウロコだと思った箇所なんだけど、読み返してみたら、どういうウロコを落としたのか思い出せない。学ぶことの意味とは。 Train, K.E. (2009

  • うさぎでもわかる情報量・エントロピー・相互情報量(情報理論)

    こんにちは、ももやまです! 今回は情報理論で習う「情報量」について簡単にまとめてみたいと思います! 情報量、エントロピーの理解には「確率」に関する知識が必須です。 確率についてあまりよく分かってない、苦手だなと思う人のために確率の要点をまとめた記事を下に用意したので、ぜひご覧ください。 www.momoyama-usagi.com 1.「情報量」とは…? 皆さんは、情報といえばどんな情報を浮かびますか? 昨日の天気は晴れのち雪 今年のK大学の入試問題 NくんとCさんが付き合っている 今ならLINE Payを使うとポイント5%アップ などなど様々な情報を浮かべると思います。 しかし、その情報がどれほどの大きさを持っているかは文章だけでは比べることができません。そんなときに使われるのが情報量です。 情報量の大きさは、以下のようにして定義することができます。 POINT1 情報量は起こる確率 \

    うさぎでもわかる情報量・エントロピー・相互情報量(情報理論)
    Aobei
    Aobei 2022/11/09
    不確実性係数を調べていてたどり着いた。
  • 多重共線性のシミュレーション - 井出草平の研究ノート

    下記エントリーの続き。 ides.hatenablog.com こちらの教科書から多重共線性について Statistical Rethinking: A Bayesian Course with Examples in R and STAN (Chapman & Hall/CRC Texts in Statistical Science) 作者:McElreath, RichardChapman and Hall/CRCAmazon Richard McElreath - Statistical Rethinking_ A Bayesian Course with Examples in R and STAN 6.1. 多重共線性 一般に、回帰モデルに追加する潜在的な予測変数が多くあることは事実である。たとえば、霊長類のミルク・データの場合、我々が結果として選ぶどの列も予測するために利用可

    多重共線性のシミュレーション - 井出草平の研究ノート
  • 若者論を研究するブログ

    匿名掲示板が瀕死の状態で避難所の過去ログも残りそうにないのでこれからはレスバトルの記録をブログに保存しておこうと思います。最終的にクッソ長大になりそうなので各レスバは折りたたんでいます。 2023_10_29_日人の知能について再び レスバをする気は全く無かったのですが>>71を見て「なんかこれって俺と勘違いされてねぇ?」という意味不明な妄想が頭をもたげてつい…なんか前回もスレ見返したら唐突にレスバ判定士さんが現れて勝ち名乗りを上げてくれてたんですが私もしかして監視されてますか…?アルミホイル巻かなきゃ… 64 エッヂの名無し 2023/10/29(日) 21:57:09.101 ID:4S5QVQUXA >>47 このランキングの元データになってる調査をしてるのがRichard Lynnっていう研究者なんだけどそいつがどんなやつかちょっと調べてみるとこのデータの性質が分かると思う まあ

    若者論を研究するブログ
  • OSF

  • 心理学的研究における重回帰分析の適用に関わる諸問題

    Although multiple regression analysis is a frequently used method for multivariate analysis in psychological research, it has been used inappropriately or incorrectly in most studies. To resolve these problems effectively, we investigated and summarized the issues related to the use of multiple regression analysis found in papers published in The Japanese Journal of Psychology and discussed the is

  • ピタゴラス勝率の根拠をロジスティック回帰で求める

    セイバーメトリクスの世界ではピタゴラス勝率と呼ばれる指標が存在する。ピタゴラス勝率=得点2/(得点2+失点2)。得点と失点のみを使ったシンプルな数式でチームの妥当な勝率を求めることができる優れた指標だ。このようにシンプルなかたちで勝利と得失点の関係を示せたことは、 WAR(Wins Above Replacement)などの選手評価を行ううえで、また野球の構造を理解するうえで極めて重要な発見だった。ただこのシンプルな数式の根拠、つまりなぜ得点や失点を2乗するのかについて、数学的な背景が説明された例はそれほど多くない。「よくわからないがそういうものだ」と認識している方も多いのではないだろうか。今回はロジスティック回帰という手法を使い、ピタゴラス勝率の数学的根拠を探っていく。 ピタゴラス勝率とは何か まず、あらためてピタゴラス勝率と実際の勝率の関係を確認しておきたい。図1は1950-2019年

    ピタゴラス勝率の根拠をロジスティック回帰で求める
  • @saltcookyのマイページ - Qiita

    posted articles:R:94%統計学:64%データ分析:58%機械学習:24%因果推論:9%

    @saltcookyのマイページ - Qiita
  • データえっせい

    日,大腸内視鏡検査を受けてきました。そのいきさつの記録です。 私は毎年,横須賀市の成人特定健康診断を受けています。会社員なら強制的に健診は受けさせられますが,私のような在野人は,自分で手配しないといけません。まあ市から送られてくる受診券を持って,近くのかかりつけ医に行くだけですが。 有料のオプションとして,胸部検査や大腸がん検診もついています。後者については躊躇する人も多いでしょうが,私は毎年受けることにしています。お肉をバクバクべますのでね。 昨年の11月半ば,渡された検査キットを使って,自宅にて便を採取しました。正確さを期すため2回行うのですが,2回目は,お尻を拭いたトイレットペーパーに血がついていました。排便の時に,肛門が切れるような感覚があり,おそらく痔だなと思いました。しかし便に血が混ざってしまった可能性が高く,これは陽性と出るな,と覚悟を決めました。 1か月経った12月半ば

  • 国際比較に使える唯一の指標「超過死亡」で明らかになる実態 - 新型コロナウイルス情報室 - Quora

    今回取り上げるのは、フィナンシャル・タイムズからの「死者数は報告されているよりも60%高い可能性がある」というレポートです。 Global coronavirus death toll could be 60% higher than reported | Free to read ここで、論に入る前に、少し前置きです。 アウトブレイクが現在進行形で起きているときに、異なる国での政策の良し悪しを議論するのに使える、信頼できる統計データとは何でしょうか? 感染者数は、検査の性能・件数・方針などに強く依存するため、もっとも信頼性の低い指標です。一方、死亡者数は、相対的には信頼できる指標ですが、検査を受けないままに死亡してしまったケースについてはアンダーレポート(過小報告)となります。 特にいったん医療崩壊を起こしてしまうとあらゆる報告が追いつかなくなり、感染者数も死亡者数もきちんと管理できな

  • イカサマコインの例で最尤推定とベイズ推定の違いを理解してみる - Qiita

    はじめに 最近世の中で統計学が流行っています.ITの発展によりデータが容易に得られるようになり,いまや様々な業界のシステムでデータ解析機能の適用を検討しているのではないでしょうか.そうなると,IT技術者は深かれ浅かれデータ解析のプログラムに触る必要も出てくるでしょう.すると当然「推定」というキーワードにぶち当たるわけです.はて,統計的な推定とは如何なものか?と言う疑問が湧くでしょう. そんなわけで,統計学において得られたデータを元にある推定値を得る方法を探してみると,「最尤推定」とか「ベイズ推定」と言う手法は特に目に触れることになると思います. 初学者の小生は,これらの違いについて知りたくて,それっぽいキーワードでWeb検索をしたのですが,門前払いをらってしまいました.何か,条件付き確率の式がウジュウジャ出てくる説明ばかりではあーりませんか!尤度?事前確率?もうーワケかららない!あー!

    イカサマコインの例で最尤推定とベイズ推定の違いを理解してみる - Qiita
  • Jack on Twitter: "説明変数は確率変数ではないので、ここでいう分布は母集団での分布。もちろん、理論的には説明変数の分布など何も仮定しないので、線形回帰では目的変数が正規分布に従う必要がある、というのは明らかな誤りになる。"

    Aobei
    Aobei 2019/11/30
    最近、この辺りで悩む。
  • べき乗則・パレート分布・ジップの法則

    2. 今日の論文 Newman, MEJ, Power laws, Pareto distributions and Zipf’s law. Contemporary Physics (2005). 特に新しい知見があるわけではないが、べき乗則についてよくまとめられたレビュー論 文

    べき乗則・パレート分布・ジップの法則
  • 日本社会心理学会

    今、ベイズが熱い ここ1〜2年の間、ベイジアン・モデリングに関する和書が相次いで出版された。大御所による教科書(豊田 2015, 2017)から気鋭のデータサイエンティストによる実践的なテキスト(松浦 2016)まで、どれも分かりやすいと評判が良い。ネット上でも、Stan, MCMCを使った実践的な分析を紹介するスライドが数多く公開され、学習環境が急激に整ってきた。今、ベイズが熱い。 だが、自習できる環境が整備されたとは言っても、そもそもベイズを学ぶ必要があるのか?自分にとって役立つのか?良く分からない人も多いはずである。セミナーの目的は、ベイジアン・モデリングの意義とその位置づけを、理解していただくことにある。 結論から述べておこう。心理学者にとってのベイジアン・モデリングとは、心理学者を縛り続けてきた「実験操作や介入の効果を検証する」という科学観から我々を解き放つ、新しい方法論上のパ

    Aobei
    Aobei 2017/03/23
    第4回春の方法論セミナー「効果の科学からデータ生成過程の科学へ ~心理学者のためのベイジアン・モデリング入門」
  • 統数研での講演『バックドア基準入門』をアプします - Take a Risk:林岳彦の研究メモ

    おひさしぶりです。林岳彦です。夜、自宅で少しだけお酒を飲みたいときがありますよね。少しだけリラックスしたいけど酔っ払いたくはないみたいなときです。そんなとき、アサヒスーパードライの小さな135ml缶はたいへんありがたい存在です。しかし、この135ml缶の欠点は、お酒が少ししか飲めないことです。アズスーンアズ飲むや否やですぐ終わってしまうのです。実はもう飲む前に既に終わっているのではないかと思うほどです。ケンシロウに秘孔でも突かれたのかと、夜中に台所でぼくはきみ(135ml缶)に話しかけたくなります。「スーパードライの135ml缶」とはそんな存在です。 最近、その欠点を克服する方法を発見したのでお知らせします。スーパードライ135mlとポッカのキレートレモン155mlを1:1くらいで混ぜながらちびちび飲みます。これだとすぐ終わらずに飲めます。ビール感も消えてしまわず、爽やかなレモン感もあり、

    統数研での講演『バックドア基準入門』をアプします - Take a Risk:林岳彦の研究メモ