皆さんにクリスマスプレゼントです。 大学院時代に自分のために書き溜めたエコノメの資料『俺の計量経済学』をシェアします。 エコノメの各理論の推定量の導出/推定量の性質の証明などを数学的に丁寧に纏めたものです。線形代数,微積,統計… https://t.co/P8oZE54JPs
はじめに この記事は、ggplot2 パッケージの使い方や使用例のまとめページです。 【目次】 はじめに 関数 ラベル付け関数 作図 円 三角図 ツリー Q-Qプロット カレンダー 利用例 小ネタ 関連パッケージ おわりに 関数 ggplot2や拡張パッケージの関数の解説記事です。 ラベル付け関数 文字列を描画する関数です。 www.anarchive-beta.com www.anarchive-beta.com www.anarchive-beta.com 下2つは拡張パッケージです。 作図 ggplot2を利用して作成する各種グラフの解説記事です。通常の方法で作図する記事とむりくりな方法で作図する記事がありますが、頑張って読んでください。 円 円周を作成します。 www.anarchive-beta.com 三角関数と仲良くなれます。そして円関数と呼びたくなります。 三角図 三角図を
大量のデータが得られても,実験データでないことによる偏りやデータの代表性の問題を無視すると,誤った結論が導かれてしまう.本書では豊富な具体例とともに,偏りのあるデータから正しい推論を行なうための最新の方法とその考え方を示す.さらに,インターネット調査の偏りの補正やデータフュージョンについても紹介する. ■著者からのメッセージ 本書のタイトルは「調査観察データの統計科学」である.ただし,データを得る方法としての調査研究や観察研究に関する本ではない.ここで扱う内容をおおまかにいえば「偏りのあるデータから正しい推論を行なうための統計科学」である.「偏りのあるデータ」とは統制実験,あるいは無作為に実験条件への割り当てが行なわれていない研究で得られるデータ,および無作為抽出が行なわれていないデータのことである. より詳しくいうならば,「実験が行なわれていない研究で得られるデータからの統計的な因果推論
仮説検定において重要なサンプルサイズ。必要以上に大きいと有意に差が出やすくなってしまう一方で逆に小さすぎると本来有意な差も検出されなくなってしまいます。そんな重要なサンプルサイズを決定する要素は次の3つです。 有意水準効果量検出力 これらとサンプルサイズの関係性については、なかなか想像しにくいため、できるだけわかりやすくなるように図解をもとに整理しています。 第1種の過誤、第2種の過誤について まず仮説検定における第1種の過誤、第2種の過誤、検出力などについて基本情報をまとめます。 <第1種の過誤、第2種の過誤について> 第1種の過誤:実際はH0なのにH1と予測してしまった 第2種の過誤:実際はH1なのにH0と予測してしまった <検出力について> 検出力:H1と予測して実際にH1だった 有意水準とは 有意水準とは、その名の通り、有意差があると判断する基準のことです。有意水準>p値(p =
今回から統計学について勉強していきやす( `ー´)ノ 高校では数学Cとして統計学(統計処理)について学習しましたが、大学レベルの統計学、特に、医学統計学を中心にまとめています。 はじめに、統計学は、記述統計学(descriptive statistics)と推測統計学(inferential statistics)に分けられます。記述統計学とは、調査や測定などにより得られた統計資料について、何らかの傾向などの特徴があるかどうかを調べるための扱い方を学ぶ分野で、推測統計学とは、一部のデータの統計処理を行うことにより、資料全体の様相を統計的に推測する分野です。 統計学の歴史については省略です!パソコンがぶっ壊れてTEXがまだ復活していないので、多少見にくい部分があるかもしれません! ********************************************************
検定は有意差を知るための、代表的な統計学の手法です。 有意差検定のやり方 【検定を分かりやすく説明します】基本的に仕事で気になるのは、平均値の有意差ですがおそらくそれと同じくらいに気になるのが、“ばらつき”の有意差だと思います。 という事で今回はばらつきの検定である、F検定を紹介していきます。 このF検定は様々な場面で活用する機会がありますから、ぜひ使えるようになってください。 動画でも解説しています。 参考になったら、ぜひチャンネル登録とグッド評価をお願いします。 F検定って何? F値とは?まず気になる事があると思います。 F検定のFって何? って事です。 これはこの手法を作った(というか推計統計学のパパ)R.A.フィッシャーのFです。 そしてこのF検定では ・F値 とそのF値がとる ・F分布 を使用して検定を行います。 という事で、まずはF値を解説いたします。 F値というのは、ズバリ分
こんにちは!若葉のマフィンです! 今回の記事では、前回の記事 wakaba-mafin.hatenablog.com の続きでダウンロードした日経平均のデータの性質を詳しく見ていきたいと思います! はじめに 準備 日経平均の分布 ヒストグラム 分布のフィッティング 裾の厚い分布? まとめ はじめに まず、株価などの経済のデータはランダムに変動しているとみなすことができるということが知られています。そして株価などの分布に対してOsborne, "Brownian Motion in the Stock Market," 1954などの研究により「対数正規分布」と呼ばれる確率分布を仮定して解析を進めていくことが1つの理論として確立しているようです。 ここで「対数正規分布」とはその名が示す通り、確率変数の対数をとれば正規分布(身長などが従う分布)に従う分布で、確率密度関数は と表されます(なんか
「平均」は統計用語の中で一番多く使われていると思われる言葉ですが、2つの考え方があります。さいころを振って何の目が出たのかを1から6までの数字で記録すれば、平均を求めることができます。理論的に計算すると、さいころの場合、どの目も同じくらいの確率で出る(同様に確からしい)ので、平均は(1+2+3+4+5+6)÷6=3.5となります。この3.5という数字は、全体を「ならす」という考え方で求めた平均です。しかし、統計教育で狙っている平均の指導は、このような全体をならす考え方ではなく、全体の「代表」という考え方です。全体の代表という考え方は、平均を集団の代表とみなし、他のデータは平均の近くにいっぱい散らばっている(分布している)ことを意識しなければなりません。もし、この考え方で「さいころの目の平均が3.5」を解釈すると、さいころをたくさん振ったとき、3.5に近い数字の3または4がたくさん出ることに
今回は、2要因の分散分析をするときの交互作用と単純主効果について説明します。ややこしい話題ですが、具体的なストーリーで説明して、ちょっとでもわかりやすくと思っています。 想定例:学生の専門分野による文章内の図表の挿入効果の違い 今回は、ある文章を読んだ後の理解成績を興味の対象(つまり従属変数)にします。このとき、文系学生(20人)と理系学生(20人)に参加してもらい、文系理系という専門分野の違いが理解成績に影響するかを調べます。 また、文章に関して、図表の有無が操作されていました。これについて図表の有無が理解成績に影響するかを調べます。というわけで、今回は専門分野(理系、文系)と図表(あり、なし)という2つの要因を設定し、従属変数である理解成績に及ぼす影響を2要因分散分析で検討します *1。なお、それぞれの要因の組み合わせの参加人数はそれぞれ10人とします。 主効果 先ずは普通の主効果を考
Understanding Statistical Power and Significance Testing an interactive visualization Created by Kristoffer Magnusson Follow @krstoffr Kristoffer's LinkedIn profile Tweet Type I and Type II errors, β, α, p-values, power and effect sizes – the ritual of null hypothesis significance testing contains many strange concepts. Much has been said about significance testing – most of it negative. Methodolo
そうね。それをわざわざあなただけが声を掛けられるというのはどういう事なのかしら。ひょっとしたらあなただけは今までずっと誰のモニターにも映らず、全く人目に触れない状態だったんじゃないでしょうね。まぁ、それでは私が独り言をずっと繰り返しているだけの寂しい女だと思われてしまっているかもしれないじゃないの。一体どのように責任を取ってくれるのかしら。そもそも一人でずっと話し続けるというのは容易な事ではないのよ。他の事に置き換えるとどれくらいの難しさかしらね。恐らく野球やドッヂボールを一人でするのと同じくらいの難しさじゃないかしら。投げたボールを自ら受け取るというのがいかに虚しい行動か、あなたはちゃんと分かっているのかしら。想像力が欠如したあなたでも流石にこの虚しさは想像出来るんじゃないかと私はちょっと想像してしまうけれど。しっかりと反省して、今感じている罪の意識に負けないくらい誠心誠意、熱心に熱意を
12/26(土):このブログ記事は,理解があやふやのまま書いています.大幅に変更する可能性が高いです.また,数学の訓練も正式に受けていないため,論理や表現がおかしい箇所が沢山あると思います.正確な議論を知りたい場合には,原論文をお読みください. 12/26(土)23:10 修正:Twitterにてuncorrelatedさん(@uncorrelated)が間違いを指摘してくださいました.<最尤推定の標準誤差は尤度原理を満たしていない>と記載していましたが,多くの場合,対数尤度のヘッセ行列から求めるので,<最尤推定の標準誤差は尤度原理を満たす>が正しいです.Mayo(2014, p.227)におけるBirnbaum(1968)での引用も,"standard error of an estimate"としか言っておらず,最尤推定量の標準誤差とは述べていません.私の誤読でした. 12/27(日)
最近ではt検定、分散分析、線形回帰分析などを一般化線形モデルという 一つの概念で捉えられるようになってきました。 一般化線形モデルのメリットは現実の仮定を反映させながら自由な統計解析ができ、非線形データや複雑な階層性のあるデータなどにも柔軟に適応することができるところにあります。 しかし、多くの書籍ではその理論的な背景や数学的な証明に多くのページが割かれていて、「じゃあそれどうやって使うの?」と思ってしまう方もいるかと思います。(私はその典型です...^^;) 理論はそこそこに、実践的な使い方を体感しながら学べる書籍とは以外に少ないものです。 そんな方々に向けて、今回は既存の統計学と一般化線形モデルとの関連などの基本から、階層ベイズ、マルチレベル分析までの発展系を実践的に学べるオススメ書籍を紹介していきます! ①データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・M
はじめに 世界を危機に陥れてるCOVID-19ですが、 昨今勉強を進めている時系列分析で何か知見が得られないか調べてみることにしました。 しかしながら、初学者であるため間違った解釈をしている可能性があります。 どしどし、ご指摘お願いいたしますm(_ _)m やりたいこと VARモデル を使って中国の感染者数から韓国、日本への感染者数に対してグレンジャー因果性があるかを検定する。検定には、Pythonのstatsmodelsを使いました。 www.statsmodels.org VARモデル ARモデル(自己回帰モデル)を多変量に拡張したものであり、以下の式で表されます。 ・・・1 :t時点の目的変数ベクトル :t-i時点の目的変数ベクトル :n×1定数ベクトル :n×n定数ベクトル :ベクトルホワイトノイズ Varモデルの優れている点は、自身の過去のデータだけでなく関係ありそうな他変数の過
【 必ず最後までお読み下さい。読まれずに起きた不都合は関知致しません。】 【 分析代行や、テスト問題解答作成サービスではありません!】 ●以下に関する質問に、お答えします。 ・SPSS、AMOS、エクセル統計(BellCurve版)、 EZR(Easy R on R commander) の使用方法や分析結果の読み方、エラー調査。 ・分析設計、必要データ件数など、統計学一般。 ●一問一答形式です。 回答は原則、WordかExcelファイルで、装飾の無駄を省いた 読めて理解出来ればいいというレベルのものになります。 混雑状況と分量により、2~5日かかる場合があります。 ●表示価格は、例えば対象となる分析が1ケースで、かつ、 質問への【回答作成時間が30分以内の基本料金】です。 当方でのデータチェックや試し分析が必要となる場合や、複数の 質問は【有料オプション】が必要ですので、お問合せ下さい。
筆者の説明 大学で物理、大学院で数学を専攻してました。2 1年ちょっと製造業でデータサイエンティストをやってました。 2021年からSE的な仕事を始めました。 2020年後半~2021年9月現在、勉強の時間があまり取れず記事の更新は停止中です。 twitter では、記事更新のお知らせ、最近勉強してることなどを呟いています。 各分野の代表的な話題のリンク集を置いておきます。 機械学習に関連する話題 ゼロから作るニューラルネットワーク pythonの最もメジャーなライブラリnumpy だけでニューラルネットワークモデルと呼ばれる簡単な画像認識問題を解きます。 ゼロから作るニューラルネットワーク1ゼロから作るニューラルネットワーク2ゼロから作るニューラルネットワーク3 自然言語処理 数理モデルに日本語の意味を理解させる分野です。 自然言語処理入門の入門文章の自動生成をやってみるRNN(リカレン
人がいなくなってしまったので、良品/不良品を仕分けるロボットを導入した。購入する際には、識別率80%くたいですよと言われていたが、導入してみると、識別率は80%もないと感じた。数日分のデータを集めたので、識別率が80%あるのか調べる。 データを20個集めると、正しく識別しているのが15個、間違いが5個だったとしましょう。 ロボットが良品/不良品を識別するという事象を二項分布でモデル化し、\( \theta \)を求めましょう。3計算を楽にするために事前分布はベータ分布とします。また、購入した側としては、事前には何も知らないという事にしたいので、\( \alpha =\beta=1 \)として、一様分布にしましょう。 上の計算に当てはめると、\( n=20 , x=15 \)です。 つまり、事後分布は、 $$\begin{eqnarray} p(\theta |n=20,x=15 ) = {
package main import "fmt" func main() { n := 0 m := 0 for r1 := 1; r1 <= 6; r1++ { for r2 := 1; r2 <= 6; r2++ { if r1+r2 > 7 { n++ } m++ } } fmt.Printf("%v/%v\n", n, m) }
近年の統計科学では、原因と結果の因果関係を正確に知ろうとするアプローチが盛んであり、これらのアプローチは一般に因果推論と呼ばれている。本書で扱う傾向スコアも、因果推論を主眼とする方法の一つである。一般的に、処置の有無をランダムに割り当てることのできない調査観察データでは、処置群と統制群の間に属性の違いが生じる。傾向スコアとは処置の有無に影響を与える複数の情報を集約した要約指標であり、この要約指標を用いて、あたかもランダム化実験が行われたかのように、処置群と統制群の元々の属性の違いを調整する。 本書では、第1章で傾向スコアの基礎となる方法や仮定をレビューし、第2章で傾向スコアのモデリングと評価の概要について説明する。また一般的な傾向スコア法(マッチング、層別化、逆確率加重、共変量調整)をレビューし、第3章では、これらの手法のうちいずれの方法を採用すべきなのかを検討する。さらに、第4章では、処
素人による統計についての私的メモ はじめに ネットで統計について調べていると、(特に日本語のサイトや文献で)言われていることがバラバラな事柄がよくあることに気に付いた。それは主にテクニカルな議論にではなくて、それ以外の説明でその傾向がよく見られた。しかも、書き手が統計の専門家であってもその傾向は変わらない。おそらくその原因は、(専門家もいるので)知識の不足ではなく、用語や定義に無頓着なせいで起こっていることが多いようだ。そこで(英語も含めた)複数の自分が参照できた資料を元に用語の整理をしてみた。なので、統計についてのサイトや文献によってはここにある整理と必ずしも訳語や意味が一致している訳ではありません。複数の資料を精査した個人的な結論なので、正しいかどうかの最終判断は個々人でお願いします。 確率の主要説についての整理 確率の分類 確率の解釈 代表的学者 統計への応用 補足 古典説 clas
仮説検定(以下検定)を実施することで、母集団に差が有るのかどうか評価することが出来ます。 統計の入門書にも、推定と並び必ず記載される程重要な手法です。 しかし、その検定がどれだけ信頼出来るのか、実は入門書の内容だけでは不十分だったりします。 今回は検定の確からしさを保証する、検出力について解説します。 検定の問題点分布の重なり具合検定のフローに関しては以下の記事に書いてあります。 有意差検定のやり方 【検定を分かりやすく説明します】このフローは入門書にも載っているのですが、実は抜け落ちている情報があります。 それは分布の重なり具合です。 一般的に解説されている検定の方法では、 と を区別する方法が抜け落ちています。 後述しますが、この分布の重なり具合は効果量という数字で表現されます。 サンプリングする前に、推測で設定したり、検定後に再計算したりするのです。 サンプルサイズの設定サンプルサイ
ベイズ更新では、そのつど与えられたデータから計算した事後分布を、次のデータが与えられたときは事前分布として使うことで、事後分布を逐次更新してゆく。 たとえば一定のパラメーター を持つ生成過程(たとえば2項分布)から生成されるデータ があったとすると、ベイズの定理より、 となる。これはデータ を一挙に与えられた場合だけど、代わりにデータ をひとつずつ順番に取得して事後分布を更新するのがベイズ更新。まず から始めると、
Jerzy Neyman イェジ(イェルジー)・ネイマン(Jerzy Neyman, 1894年4月16日 - 1981年8月5日)は数理統計学者。エゴン・ピアソンとともに現代の推計統計学の中心的理論を確立した。 人物[編集] 父はポーランド系(元来ユダヤ系だがカトリック信者)の法律家で、ロシア帝国内各地で仕事をしていた。イェジは次男として生まれ、1912年ハリコフ大学に入学、セルゲイ・ベルンシュテインに数学を学んだ。在学中にカール・ピアソンの「科学の文法」を読み強い影響を受けた。ロシア革命後の混乱期も(一時敵国人として拘束されたが)大学で研究を続け、1921年ポーランドに移った。ビドゴシチ農業研究所、翌年にワルシャワの国立天文台で働き、1923年にワルシャワ大学助教授となって確率論と統計学を講じた。 1925年、ロンドン大学のピアソンのもとに留学した。ピアソンはもはや測度論的確率論など最
Julia ときどき R, Python によるコンピュータプログラム,コンピュータ・サイエンス,統計学 算額(その963) (2024年05月18日 | Julia) 算額(その963) 一七 大里郡岡部村岡 稲荷社 文化13年(1816) 埼... 算額(その962) (2024年05月17日 | Julia) 算額(その962) 一七 大里郡岡部村岡 稲荷社 文化13年(1816) 埼... 算額(その961) (2024年05月17日 | Julia) 算額(その961) 一七 大里郡岡部村岡 稲荷社 文化13年(1816) 埼... 算額(その960) (2024年05月17日 | Julia) 算額(その960) 一七 大里郡岡部村岡 稲荷社 文化13年(1816) 埼... 算額(その959) (2024年05月17日 | Julia) 算額(その959) 一七 大里郡岡部村
「R」(R言語)は、統計分析用のフリーソフトウェアとして、世界中で広く使われていますが、スクリプト(コマンド)で入力しなければならないため、プログラミング経験などがない初心者にとっては正直、敷居の高いソフトです。 「R コマンダー」という追加ソフトにより、マウス操作でも利用可能になりますが、それでも色々と制約があるので、使いこなせない人が多いようです。 そこで、ある大学で開発されたフリーソフトを導入することで、初心のかたでも、比較的容易に習得出来るようになります。 と言っても、コマンド入力が必要になる場面もあります。 そのための、インストールから基礎的分析までのマニュアルを作成しました。 ※統計学的な説明は極力省いていますので、取り合えず早く分析したい人向けです。 初心のかたが陥りやすいミスも出来るだけ書いています。 目次: 1. Rコマンダー + EZRのインストール 1.1 Rをまだイ
◆陽性的中度を高めるには 前回は、陽性的中率をどうすれば高くできるのかという話で終わりました。 陽性的中率の式は、 「結果が陽性の人の内、がんかかって「いる」人)/結果が陽性の人=A/A+B」 で表せ、「A」は十分に大きいので、分母の「B」を小さくするにはどうしたら良いのかという話になりました。「B」は「偽陽性」の人数を示していますので、「偽陽性」となる人数を減らせば良いことになります。 「偽陽性」の人数「B」を特異度(D/B+D)を使って表すと、「偽陽性率=1-特異度(D/B+D)」なので、 「B」=(1-特異度(D/B+D))×(がんにかかって「いない」人 (B+D)) で表せます(表1参照)。 表1 偽陽性率の算出 ◇特異度との関係 この値を小さくするには、分子の(1-特異度)を小さく、つまり特異度を大きくするか、分母の「がんにかかって「いない」人を少なくするか、その両方を行うかのい
運営会社 お問い合わせ directed by takashi ouchi. © tukuyomi / takuma sakamoto All Rights Reserved.
こんにちは。研究開発部の糟谷勇児です。 今回は第二回ということで実務の場面を想定した話を書いてみようと思います。 前回はこちらです。 buildersbox.corp-sansan.com 前回は単発ガチャ(1連ガチャ)で出る当たりの数と確率の関係を表す1連ガチャ分布(ベルヌーイ分布)と10連などのN連ガチャで出る当たりの数と確率の関係を表すN連ガチャ分布(二項分布)を紹介しました。 ところで前回は「ドラクエウォーク」を例に話しましたが、私は「ヘブンバーンズレッド」というゲームもやっています。 こちらのガチャは最高レアであるSSが出る確率が3%となっています。 つまり1連ガチャ分布(ベルヌーイ分布)はこんな感じのグラフになります。 10連ガチャ分布(N=10の二項分布)はこういうグラフになります。 さて今回は文字認識などの認識精度について考えてみましょう。 精度というと難しく感じてしまいま
最短距離(最短経路)と組み合わせの問題最短距離の問題は格子状の図形の線上を通り, 図形上の\(\small{ \ 2 \ }\)点を遠回りせずに通る場合の数を求める問題のこと。 簡単に言うと道順の場合の数を求める問題ってことになるからね。基本的な考え方から、応用問題まで考えていくから、きちんと理解していこう。 \(\small{ \ \mathrm{A} \ }\)から\(\small{ \ \mathrm{B} \ }\)に向かう最短経路の数 \(\small{ \ \displaystyle\frac{(縦の移動数+横の移動数)!}{(縦の移動数)!(横の移動数)!} \ }\) 図のように\(\small{ \ \mathrm{A} \ }\)から\(\small{ \ \mathrm{B} \ }\)まで最短に進む場合が何通りあるか考えてみよう。 \(\small{ \ \math
「デジタルトランスフォーメーション(DX)を進めるにはデータを使うことが近道」その考えから、セゾン情報システムズではさまざまなデータをつなぐHULFT・DataSpiderに加わる新たなサービスとして「DataCatalog(仮称)」を企画しています。DataCatalogで実現する「データの地図」とはどういったものなのか、なぜ今それが必要なのか。ITRでBIシステムやデータ分析分野を担当するリサーチ・フェロー 平井 明夫氏と、DataCatalogのプロダクトマネージャーを務めるセゾン情報システムズ 吉崎 智明の対談をお届けします。 使う人が、いつでも必要なデータにアクセスできる 吉崎 最初にDataCatalogを企画した背景からお話しますと、これまで私たちはHULFTやDataSpiderといった製品で「データをつなぐ」ことに関する課題を解決してきました。しかしビッグデータ活用を進め
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く