[B! statistics] mrknのブックマーク

[R] CausalImpact でできること, できないこと - ill-identified diary

概要Brodersen, Gallusser, Koehler, Remy, & Scott (2015) により提案され, R で実装された時系列因果推論フレームワーク, CausalImpact は, シンプルで分かりやすい difference in differences (DID) の因果推定理論に基づいており, マーケティングイベントがもたらすインパクトを計測するツールとして紹介されている. しかし, DID が非常にシンプルであれるのは, 厳格な仮定を置いているからであり, 利用する際には多くの注意が伴う. そこで今回は, より発展的な理論について考察したことを垂れ流してみる. あとついでに tsibble パッケージの使い方とかも少しだけ触れている. この問題は CausalImpact の考案以前からある議論についても振り返る必要があるので, まず Rubin (1974

mrkn 2023/02/16

リンク

新型コロナ死亡の20歳未満半数が基礎疾患無し感染症研究所 | NHK

ことしに入って新型コロナウイルスに感染して亡くなった子どもなど、20歳未満の人について国立感染症研究所が調べたところ、詳しい調査ができたおよそ30人のうちのほぼ半数には基礎疾患がなかったことが分かりました。意識障害やおう吐などが多くみられ、呼吸器以外の症状にも注意する必要があるとしています。国立感染症研究所はオミクロン株が広がったことし1月から8月までに発症して亡くなった子どもなど、20歳未満の41人のうち、詳しい状況を調査できた29人について分析し、その結果を14日に開かれた厚生労働省の専門家会合に報告しました。亡くなったのは年齢別に ▽0歳が8人、 ▽1歳から4歳が6人、 ▽5歳から11歳が12人、 ▽12歳から19歳が3人で、ほぼ半数の15人には基礎疾患がありませんでした。ワクチンの接種対象年齢だった15人のうち、2回接種していたのは2人だったということです。医療機関に到着

mrkn 2022/09/15

条件付き確率だけ見せられてもねぇ・・・

リンク

積分とは・対数とは・微分とは〜「分かる」とはどういうことか〜

文系向け「統計学」の授業で、積分・対数・微分を復習する機会があった。その時の「1枚スライド」を公開した。この図をめぐって、「分かる」とはどういうことか、について多くのコメントをいただいた。それを、まとめました。（話が同時並行で進行するので、スレッド風の「まとめ」です。）注意：積分は、統計学の場合、正規分布表を見るために必要。対数の必要性は、尤度関数（尤もらしさ）の対数をとって計算を簡単にする式変形で使うため。微分の必要性は、確率密度関数の最大値（尤度最大の条件）を求めるため。どれも統計学で必須の内容。注意２：（追記8/6）ここに出てくる「指数、対数、微分、積分」は「感染症の数理モデル」の基礎となっている。注意３：（追記8月9日）番外編『「積分」と「源氏物語」〜「晩年の清少納言」から「京都女子大」まで』へのリンクはこちらです。https://togetter.com/li/157284

mrkn 2020/08/06

紙に自分の手で式を書いて図を描いて試行錯誤した人だけが分かるんだと思うよ

リンク

孫さんがPCR検査を大々的にやるとツイートしたら、多くの方から医療崩壊が起こるというメッセージが来ているようですが、なぜ医療崩壊が起こるんでしょうか？に対するKenn Ejimaさんの回答 - Quora

mrkn 2020/03/17

混同行列を使った正しい解説

リンク

数学と実世界が出あうとき

数学と実世界が出あうとき数学の祭典 MathPower 六本木ニコファーレ 2018年10月7日渡辺澄夫東京工業大学この講演では中澤俊彦さん（ドワンゴ）にお世話になりました。御礼を申し上げます。このファイルについてこのファイルは2018年10月7日に数学の祭典 MathPower で講演したときのものです。数学を愛する一般のみなさまに、数学の不思議さや広がりについて楽しんでいただく目的で書かれています。１初めて人工知能や機械学習に出会ったかたは下記をご覧ください。 http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/suzaka2016.pdf ２統計学や機械学習のエンジニアのかたは、下記をご覧ください。 http://watanabe-www.math.dis.titech.ac.jp/users/

mrkn 2019/07/12

味わい深い

リンク

なぜ分散は２乗の和なのか - 小人さんの妄想

Ｑ．なぜ分散は、単純な差（偏差の絶対値）ではなく、差の２乗を計算するのか？Ａ．分散を最も小さくする点が平均値だから。（単純な差を最も小さくする点は中央値となる。） “分散”というキーワードは統計学の基礎中の基礎であり、どんな教科書にも“平均”の次くらいに載っていることがらです。しかしながら、いきなり登場する“分散”の意味が分からず、統計学の入り口で挫折する人は少なくありません。偏差の２乗の平均、つまり、各値と平均との差の２乗の平均を分散といい、分散の平方根の正の方を標準偏差という。統計で、ちらばりを表すものとして、標準偏差や分散が多く用いられる。 -- 高校の教科書（啓林館）より. 教科書にはこのように書かれているのですが、これで分かった気になるでしょうか。・なぜ、差の２乗を計算するのか？・差そのものであってはいけないのか？・なぜ、分散と標準偏差の２種類があるのか？最後の

mrkn 2019/04/13

リンク

古典統計学・ベイズ統計・統計モデリングの関係について - Tarotanのブログ

2019年1月4日 9:30頃追記同ブログ記事に対して黒木さんからTwitterにて以下のようなご指摘をいただきました（ごく一部のツイートだけを抜粋）． #統計もう一度書くと、 * 予測分布の予測性能の比較→AIC, WAIC, LOOCVなど * モデルによるサンプル生成の確率分布がサンプルの真の分布にどれだけ近いかを比較→自由エネルギー, BIC, WBICなど — 黒木玄 Gen Kuroki (@genkuroki) January 3, 2019 ありがとうございます．ご指摘通り，このブログ記事では（最近の統計モデリングにおける特徴のひとつとして）予測性能の評価のほうしか取り上げておらず，特にAICしか触れていません．特異モデルでも妥当であると言われているWAICへの言及ができなかったのは，私がまったく理解していないだけからです．ニューラルネットワークやベイズモデルなど

mrkn 2019/01/03

statistics

リンク

頻度主義統計、ベイズ統計、統計モデリングからみた「真値」【追記あり】 | Sunny side up!

【追記アリ】Twitterなどでいろいろご意見いただいたので追記を載せています。 2018年も終わりそうですね。僕は毎年29日に収まらない仕事を無理やり納めている感じです。全然おさまってないけど、年末だし、なんか記事でも書いてみようと思ったので書いてみます。 Twitterでもよく議論に上がる、頻度主義とベイズ主義の違い、それに真値について書きます。真値ってなんだろうね。よく95%信頼区間は、真値を95%の確率で含む範囲じゃないよ、と言われます。一方で、ベイズ信頼区間は真値を含む確率と解釈していいよ！という事も言われます（これはあとで言うように常に正しいわけではない）。こういうのをどう理解したらいいでしょうか。頻度主義とベイズでは真値の考え方が違うのでしょうか。以下で論じることは、統計学に正しい話というより、こういう考え方を採用すればこうなるよね、という話で、「正しさ」がいくつか並列

mrkn 2019/01/03

statistics

リンク

乱数検定の長年の懸案、離散フーリエ検定テストを完全修正　京都大学

現在、携帯電話など世界中で用いられている標準暗号（AES）。このAESが2001年に選定された際、評価ツールとして乱数性評価テストNIST SP 800-22が使われた。ところが、その一つである「離散フーリエ検定テスト」（略してDFTテストと言う）が理論的に誤っていることが、2003年に公表された。それ以降、世界中の多くの機関・研究者が正しいDFT検定を追求し、数々の修正提案を出してきた。しかし、それらの修正案は、ある“疑似乱数が良い乱数である”という仮定を基準として成立するもので、評価対象である乱数の乱数性を仮定する評価に依らずに、参照分布の正確性を数学的に独立に証明できる完全な修正提案はなかった。このテストは全ての暗号評価・乱数の乱数性の評価に直接応用することができる。さらに、AESの後継となる次世代標準暗号選定では、より正確なランダム性が要求されるため、その際の重要な標準乱数評価

mrkn 2018/08/10

リンク

AVILEN AI Trend | AI特化型メディア

最新のAI（人工知能）情報をAIトレンドとして、わかりやすくお届けするWebメディアです（毎日更新）。ディープラーニング開発・AI人材育成を手掛ける株式会社AVILENが運営しています。機械学習・統計学・Pythonなどの学習記事も満載です。

mrkn 2018/04/26

便利

statistics

リンク

pythonでベイジアンA/Bテスト(RCT)を行ってみた - 猫になりたい

最近はベイズが流行っているので自分もベイズを齧ろうと、冬休みにA/Bテストをpythonで行ってみました。使用したのはpymc3です。事前知識は、信用区間は信頼区間と違って解釈がし易いよ！、A/Bテスト（RCT）ってこんなことをやってるよ！くらいを想定しています。ちなみに個人的にはA/Bテストっていう言葉よりRCTという言葉のほうが好みです。参考資料 A/Bテストテストデータの作成 MCMCによるパラメータ推定とその結果結果の考察点推定を求められたら検定力（サンプルサイズ)についてよくわからない所終わりに参考資料参考資料は以下の通りです。 Pythonで体験するベイズ推論 PyMCによるMCMC入門作者: キャメロンデビッドソン=ピロン,玉木徹出版社/メーカー: 森北出版発売日: 2017/04/06メディア: 単行本（ソフトカバー）この商品を含むブログ (1件)

mrkn 2018/04/19

リンク

統計検定を理解せずに使っている人のために I - J-Stage

318 化学と生物 Vol. 51, No. 5, 2013 セミナー室研究者のためのわかりやすい統計学-1 統計検定を理解せずに使っている人のために I 池田郁男東北大学大学院農学研究科 319 化学と生物 Vol. 51, No. 5, 2013 1 1 320 化学と生物 Vol. 51, No. 5, 2013 2 μ σ σ 3 * 2 3 * 321 化学と生物 Vol. 51, No. 5, 2013 4 * 5 * 6 σ 4 5 6 σ * * 322 化学と生物 Vol. 51, No. 5, 2013 μ μ μ μ μ σ 7 σ σ σ σ σ σ σ σ σ σ 8 8 9 7 σ 323 化学と生物 Vol. 51, No. 5, 2013 9 10 11 * σ σ * * * * 10 11 * * * * 324 化学と生物 Vol. 51, No.

mrkn 2018/03/18

リンク

第５３回　フィッシャー情報量 - SPSS→R備忘録ブログ

2015-09-05 第５３回　フィッシャー情報量推測統計学確率分布第５３回はFisher情報量について書いていきます。辞書で調べてみると、「確率変数Xが母数θに対して持っている『情報』の量を表す」と書かれています。うーん・・・・わかるようでわからない。情報を持っているからどうなの？という疑問が生まれました（個人的には初めて見たときから）。ほんで、いろいろ調べるてみると、「スコア関数」「クラメールラオの不等式」などと関係してるみたいで、さらに？？だったので、数年間から逃げてきたのですが、最近勉強し直してみると理解できたので、このメモブログに書いていきます。・スコア関数　Sc(θ) パラメタを推定するときに最尤法を用いる場合、確率密度関数f(x|θ)ではなく、尤度関数L(θ|x)を考えます。感覚的には、得られたデータxにどのくらいθがのってくるか、というような考え方です。最尤法では

mrkn 2017/12/24

リンク

彼女に振られないための変化検知入門 - Speaker Deck

R の changepoint パッケージの使い方についてです。第66回R勉強会＠東京（#TokyoR）発表資料 https://atnd.org/events/92993

mrkn 2017/12/19

statistics

リンク

情報量規準LOOCVとWAICの比較 - StatModeling Memorandum

この記事はStan Advent Calendar 2016およびR Advent Calendar 2016の12月7日の記事です。StanコードとRコードは記事の最後にあります。背景は以下です。 [1] Aki Vehtari, Andrew Gelman, Jonah Gabry (2015). Practical Bayesian model evaluation using leave-one-out cross-validation and WAIC. arXiv:1507.04544. (url) [2] 渡辺澄夫. 広く使える情報量規準(WAIC)の続き（注４）【WAICとクロスバリデーションの違いについて】 (url) [3] Sumio Watanabe. Comparison of PSIS Cross Validation with WAIC. (url) le

mrkn 2017/11/10

リンク

| Nature

Thank you for visiting nature.com. You are using a browser version with limited support for CSS. To obtain the best experience, we recommend you use a more up to date browser (or turn off compatibility mode in Internet Explorer). In the meantime, to ensure continued support, we are displaying the site without styles and JavaScript.

mrkn 2017/09/22

リンク

グーグル超え狙うディープラーニング企業「ガマロン」の野望 | Forbes JAPAN 公式サイト（フォーブスジャパン）

現在、世界中のテクノロジー企業がこぞって「ディープラーニング」を導入している。ディープラーニングとは、ディープ・ニューラル・ネットワークを用いた機械学習で、例えば猫をあらゆる角度から撮影した画像1万点をニューラルネットワークに学習させると、猫を認識できるようになる。しかし、犬の画像を混ぜてしまうと、システムに混乱が生じる。 AI開発を手掛けるスタートアップ「ガマロン（Gamalon）」は2月14日、数点のデータを学習させるだけで、ディープラーニングと同等の成果を挙げることが可能な機械学習技術の開発に成功したと発表した。ガマロンは、統計モデルを用いた「ベイジアンプログラム合成」により、少ないデータ量で学習させることを可能にした。例えば、システムに猫のひげ、しっぽ、目の画像を学習させると、AIは自ら予測モデルを組み立ててそれが猫であると認識できるようになる。新たな情報が加わるとモデルが更新さ

mrkn 2017/02/17

リンク

「StanとRでベイズ統計モデリング」松浦健太郎という本を書きました - StatModeling Memorandum

僕が筆者なので、この記事は書評ではなく紹介になります。まずこの本はRのシリーズの一冊にもかかわらずStanという統計モデリングのためのプログラミング言語の方がメインです。このようなわがままを許してくれた、ゆるいふところの深い石田先生と共立出版には感謝しかありません。 StanとRでベイズ統計モデリング (Wonderful R) 作者:健太郎, 松浦発売日: 2016/10/25メディア: 単行本目次と概要共立出版のページを見てください。GitHubのリポジトリもあります。前提とする知識「はじめに」の部分で触れていますが、確率と統計の基本的な知識はある方、R（やPython）で簡単なデータ加工や作図が一通りできる方を想定しています。そのため、確率分布なんて聞いたことがない、プログラミングがはじめて、Rがはじめて、という方が読み進めるのは厳しいかもしれません。なお、Rの基本的な関数し

mrkn 2017/02/14

リンク

p値ハッキングについての論文を読んだ - tak0kadaの何でもノート

PLOS Biology: The Extent and Consequences of P-Hacking in Scienceを読んだ。世の中にはp値が小さい(つまり統計的に有意)なデータが尊ばれる傾向がある。そうすると発表される結果は有意なものばかりだし、悪ければ詐称かもしれない。間違った結果を集めてしまうとメタ解析してもバイアスが残る。そこでp-hackの可能性を検定する方法を扱った論文。のはずなんだけど、知識がないからか「本当にこれでいい」のかという疑問が残った。以下概要。 1. p-hackingとは? 研究者がやりがちなバイアスとしてselection bias、inflation biasがある。selection biasは有意でない実験結果が世に出ないこと。inflation biasはいわゆるp-hackingで、「効果量」が小さいのにサンプルサイズを大きくしたり

mrkn 2017/01/16

statistics

リンク

実務の現場においてモデリング（統計学的・機械学習的問わず）を行う上での注意点を挙げてみる - 六本木で働くデータサイエンティストのブログ

気が付いたら僕がデータ分析業界に身を置くようになってそろそろ5年近くになるんですね*1。この5年間の間に色々勉強したり業界内で見聞してきた経験をもとに、「実務の現場においてモデリングを行う上での注意点」についてだらだらと書いてみようと思います。と言うのも、色々な現場で様々なモデリング（統計学的にせよ機械学習的にせよ）が行われていることが伝わってくるようになった一方で、ともすれば「え？こんな基礎的なポイントも守ってないの？」みたいなとんでもないモデリングがまかり通る現場があると愚痴る声を業界内で聞くことが少なくないので。自戒の意も込めて重要なポイントを備忘録としてブログ記事にまとめておくのも有益かなと思った次第です。この記事では手法選択（線形・一般化線形・ベイズ＋MCMC・識別関数・識別モデル・生成モデル・樹木モデル・Deep Learning etc.）の話題は割愛しました。一般に、モ

mrkn 2016/12/28

リンク

はてなブックマーク

タグ

関連タグで絞り込む (87)

statisticsに関するmrknのブックマーク (94)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス