2群の平均値を比較するにはt 検定を用いる。3 群以上の平均値の比較には分散分析を利用する。分散分析は対象とする全群に対して一度に検定を行うため、全体的な平均値の相違を把握できるが、どの群間に有意差があるかは把握できない。
2群の平均値を比較するにはt 検定を用いる。3 群以上の平均値の比較には分散分析を利用する。分散分析は対象とする全群に対して一度に検定を行うため、全体的な平均値の相違を把握できるが、どの群間に有意差があるかは把握できない。
経済セミナー2022年6・7月号 通巻726号【特集】経済学と再現性問題 日本評論社Amazon 最近は計量経済学・統計学方面の方々との交流が多いんですが、そのご縁で『経済セミナー』の2022年6・7月号が再現性問題を取り上げていたと知り、入手して読んでみました。特集部分の目次を以下に引用すると、 特集= 経済学と再現性問題 【鼎談】再現性の問題にどう向き合うか?……川越敏司×會田剛史×新井康平 心理学における再現性の危機――課題と対応……大坪庸介 経済学における再現性の危機――経済実験での評価と対応……竹内幹 フィールド実験・実証研究における再現性……高野久紀 健全な研究慣習を身に付けるための実験・行動経済学101……山田克宣 再現性問題における統計学の役割と責任……マクリン謙一郎 という内容で、幾つかの分野にまたがって論じられています。特に、このブログ含めて個人的に度々お世話になってい
ベイズ更新では、そのつど与えられたデータから計算した事後分布を、次のデータが与えられたときは事前分布として使うことで、事後分布を逐次更新してゆく。 たとえば一定のパラメーター を持つ生成過程(たとえば2項分布)から生成されるデータ があったとすると、ベイズの定理より、 となる。これはデータ を一挙に与えられた場合だけど、代わりにデータ をひとつずつ順番に取得して事後分布を更新するのがベイズ更新。まず から始めると、
先日、Quora日本語版でこんなやり取りがありました。 基本的にはここで述べた通りの話なのですが、折角なのでブログの方でも記事としてちょっとまとめておこうと思います。題して「何故データサイエンティストになりたかったら、きちんと体系立てて学ばなければならないのか」というお話です。 問題意識としては毎回引き合いに出しているこちらの過去記事で論じられているような「ワナビーデータサイエンティスト」たちをどう導くべきかという議論が以前から各所であり、それらを念頭に置いています。なお毎度のことで恐縮ですが、僕も基本的には独学一本の素人ですので以下の記述に誤りや説明不足の点などあればご指摘くださると幸いです。 一般的なソフトウェア開発と、統計分析や機械学習との違い 統計分析や機械学習を仕事にするなら、その「振る舞い」を体系立てて学ぶ必要がある きちんと体系立てて学ばなかった結果として陥りがちな罠 余談
同じような実験結果が再現できるか?を問う再現性問題を論ずる心理学者は日本でも増えてきて、私もよくそれらを興味深く読むことがある。 ただ、心理学者の語る再現性問題を読んでいて時々気になるのが、心理学は理論を発展させれば再現性問題は解けるかのような言説を何度も見かけたことだ。残念ながら、この言説は少なくともそのままの形では正しくない。遠回りすれば、理論の発展は再現性問題に貢献できるかもしれないが、それをきちんと論じているのを見たことがない。 本当は、私のオリジナルな話はあまりここに書きたくない。一応、英語の関連文献もある程度読んでみたが、直接にこれを論じてるのはなかなか見かけなかった1。私が考える理論の発展と再現性問題の関係は比較的に論理的にシンプルに語ることができるので、それを直接に書いてしまおうと思った。 理論の発展は再現性問題に直接には貢献しない 再現性問題とは、ある仮説を検証する実験の
しばらく前にQuoraにこんなアンサーを書いたことを思い出したので、ついでにリブログ記事として転載の上加筆修正したものを用意してみました。僕にしては珍しくコッテコテの頻度主義的な話題である上に、「p値なんか使うのはやめてしまえ」という記事を以前に書いておきながらこんな議論をするのは自己矛盾かもしれませんが(笑)、これまでの統計学の歴史を紐解くことで、温故知新ということで新たに理解されることもあるのかなと思っています。 小標本のための統計学と、「スチューデント」ことゴセットの話 補足 小標本のための統計学と、「スチューデント」ことゴセットの話 近代統計学とは、「無作為抽出によって得られた小標本を分析することで、その背後にある母集団の性質を推定する」ために改良が積み重ねられてきた営みです。すなわち、統計学は「少量のデータを扱う学問」そのものだとも言えます。 (Skbkekas - 投稿者自身に
はじめに 千葉大学・株式会社Nospareの川久保です. 今回は,初学者レベルから学部上級レベルの統計学関連の教科書を,順を追って紹介していきます.普段,経済学をはじめとする社会科学(経済学・経営学や政治学など)を学ぶ学生に教えているので,タイトルに「社会科学向き」と入れてみましたが,これから紹介する多くの本は,他の応用でも役に立つものが多いはずです. 入門書 大屋幸輔『コア・テキスト統計学』 厳密さと初学者に対する分かりやすさのバランスのとれた本です.演習問題を集めた副読本もあるので,こちらと併せて学習すると効果的だと思います. 久保川達也・国友直人『統計学』 入門書としては,やや硬派な教科書ですが,しっかり学びたい人にはお勧めの教科書です.「1.記述統計」「2.確率」「3.推測統計」と標準的な構成をしている中,最後の第4部では社会・経済データとして標本調査や時系列分析の話題にも触れてい
人がいなくなってしまったので、良品/不良品を仕分けるロボットを導入した。購入する際には、識別率80%くたいですよと言われていたが、導入してみると、識別率は80%もないと感じた。数日分のデータを集めたので、識別率が80%あるのか調べる。 データを20個集めると、正しく識別しているのが15個、間違いが5個だったとしましょう。 ロボットが良品/不良品を識別するという事象を二項分布でモデル化し、\( \theta \)を求めましょう。3計算を楽にするために事前分布はベータ分布とします。また、購入した側としては、事前には何も知らないという事にしたいので、\( \alpha =\beta=1 \)として、一様分布にしましょう。 上の計算に当てはめると、\( n=20 , x=15 \)です。 つまり、事後分布は、 $$\begin{eqnarray} p(\theta |n=20,x=15 ) = {
先日ですが、旧知の*1Grahamianさんのこんなツイートが話題になっていました。 データ分析をするときシンプルに重要なことは「生のデータを眺める」と「データの分布をグラフにする」ことなんじゃないかと思うんですよね。すぐにクロスとかファネルとかコホートとかやりたくなるんですけど、まずは目の前のデータがどんなものか頭にマッピングさせることが長期的に効いてくる感じ。— Grahamian📊データ分析と機械学習 (@grahamian2317) 2021年1月12日 何を当たり前のことを言っているんだと眉を顰める向きもあるかもしれませんが、これだけデータサイエンスやら機械学習(人工知能)やらが喧伝されている昨今においては、少なからぬ現場で「データはどこかのAPIからバルクでダウンロードしてくるor本番DBから転送してくるだけ」「やってきたデータは中身を見もせずにそのまま統計分析や機械学習など
この前、ツイッター上で統計に主義はいらないか?でもめてるのを見た。結果としては大した議論にはならなかったのだが、実はそれと同じ内容を日本の学者が主張しているのを既に見ていて、違和感はあった。海外の学者がそんな主張をしているのを見たことはない。 統計に主義はいらない論は、日本の一部の統計学者が主張している。その学者たちは赤池弘次からの影響を主張しているのも見たことがある。しかし、赤池弘次が確率の解釈や統計のパラダイムを論じている論文1を見つけて読んだら、その影響がどんなものか?かなり怪しく感じた。 正直、日本の学者が非標準的な話を注釈なしで平気でするのには慣れてる(仕方ないので海外の学者を参照する)ので、そこは(直してはほしいが)あまり気にしてない。しかし、統計に関しては海外も含めてそもそも整理されていない所が多すぎる。 統計について私が気づいた注意点 という訳で、私が今のところ気づいた統計
著者のLuke Posey氏は、機械学習エンジニアのキャリアを積んだ後にAIスタートアップSpawner.aiを創業するかたわらMediumに記事を投稿しており、AINOW翻訳記事『無闇にデータサイエンティストを雇うのをやめよう。』の著者でもあります。同氏が最近Mediumに投稿した記事『機械学習エンジニアは10年後には存在しないだろう。』では、近い将来、「機械学習エンジニア」という職種が実効的な意味を持たなくなる、と予想が論じられています。 第三次AIブーム黎明期の頃、機械学習エンジニアは数学と統計学に関する専門知識を習得しているという希少さゆえに、高く評価され高額報酬を手にしていました。この職種には、最先端の技法を製品やサービスに落とし込む「研究者兼技術者」という立ち位置が依然として求められています。 しかし、近い将来、機械学習エンジニアには研究者としての側面が求められるなくなるだろう
途中まで書いて力尽きた記事を勿体無いので公開。以下もここと同じリスト形式内の文はすべて追記として後から付け加えたもの 相変わらず統計の勉強はずっと続けているが、統計的因果推論もその一つだ。私は、自分も教えられた心理学の標準的な統計の知識が間違っていることを知って以来、統計は論理的に理解できるのだと目覚めてしまい、統計の勉強が楽しい。 私の場合は、他の人と違って統計のテクニカルな部分よりもその統計的な考え方の方に興味を持っている。ベイジアンについてはまだ分からないことが多いが、統計的因果推論については理解の目処が多少ついてきたので、半ば自分向けのメモとしてこの記事を書くことにした。なので、あまり真に受けず軽い気持ちで読んでください。 因果推論とは何か? 因果推論とは、特定の要因間に因果関係があるかを証拠から推測することだ。 例えば、あるダイエット法に効果があるか知りたければ、そのダイエット法
追記 再現性をチェックする実験を後日実施しています。併せてお読みください。 以前こんな記事を書きました。 この辺の話はとっくの昔に常識になっていると思っていたのですが、昨今様々な「モデル」が提唱されて公の場で喧伝されることが増えてきており、その中には明らかにこれらの記事で指摘されている問題に引っかかっているものがあるようなので、注意喚起も兼ねて改めてブログ記事として書いてみようと思います。 追記 (May 08, 2020) 本文中にも記事公開当初の初稿の時点でいくつか但し書きを入れてありますが、この記事で最も強調したかったことは「時系列データに対して多項式フィッティングを行うという本来あり得ないモデリングのやり方であっても、交差検証を行えば短期的な予測性能(汎化性能)を改善することができる」ということです。データセットにランダムウォークを選択したのは、単に極値が2つ以上ある時系列を生成し
(Image by Pixabay) 先日、こんな話題を見かけました。 【夏なので怖い話】 こないだ、いかにもエリートな男性と知り合ったんですよ 彼は年収1000万で飛ぶ鳥を落とす勢いのデータサイエンティストだっていうじゃないですか それでふとAICの話題を持ちかけたんです 「あー現実であまり使わない数学の話はわかりません」 …おわかりいただけただろうか?— ゆうな (@kawauSOgood) 2019年8月14日 で、悪ノリした僕はこんなアンケートをやってみたのでした。 データサイエンティストという肩書きで年収1000万円以上の高給取りが、知らなかったとしても許される項目はどれですか— TJO (@TJO_datasci) 2019年8月15日 このアンケート結果こそが、今回の記事を書こうと思ったきっかけです。ある程度知識のある方ならお分かりかと思いますが、ここで挙げた「AIC」「正則
(Image by Pixabay) 某所で時々意見交換させていただいている@maskedanlさんが、面白い記事をnoteにupなさっていたので拝読しました。細かい内容は上記のリンク先から皆さんに直接お読みいただくとして、記事中で某所で僕が放言(笑)したことへのご質問をいただいていたのでした。それは、データサイエンティストや機械学習エンジニアといったデータ分析人材に求められる「素質」について、です。 それは例えば統計学や機械学習はたまたプログラミングといった「スキル」や「素養」とも違う、言ってみれば性格的傾向とか仕事スタイルとかはたまた思想信条のような、もうちょっと属人的で曖昧なものだと思うのですが、個人的な経験からはその「素質」の有無がデータ分析職として育成した結果、ものになるかならないかを分けるように感じられています。 ということで、あくまでも個人的経験に基づく範囲でデータサイエンテ
ちょっと前に「ワインの味わいとデータサイエンス」というお題で話してきたわけですが。 実は「単変量モデルという名の還元主義」vs.「多変量モデルに基づくデータサイエンス」というテーマを一貫して置いていたのですが、あまりそこにスポットライトが当たることはなかったなぁという印象を壇上では抱いていたのでした。ということで、ここでは改めてブログ記事の形で少し詳細に論じてみようかと思います。 なお今回使うデータは面倒なので先にRワークスペースとしてGitHubに置いてあります。DLしてきてお手元のワーキングディレクトリに置いてロードしておきましょう。 ここでは基本的に赤ワインのデータを見たいので、"winequality_red_blog.RData"を使います。白ワインのデータが別にありますが、こちらは以下のアプローチをお読みになった後で皆さん自身で試してもらえればと思います。 定量的に科学するとい
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く