タグ

統計に関するpseudomemeのブックマーク (42)

  • フィッシャーが(整備ではなく)利用したIrisデータセットは使ってはいけないのか?

    Naoki Maejima @naoki_maejima 恥ずかしながら知らなかったんですが、かの有名なirisデータセットに関して、著者のロナルド・フィッシャーが優生学に傾倒していたことから、使用を控える流れになってきているんですね。代わりに提案されているのはパルマーペンギンのデータセットだそう🐧。 garrickadenbuie.com/blog/lets-move… 2022-02-08 17:42:59 kilometer @kilometer00 irisデータの論文が掲載された雑誌が、そのものズバリ「優生学年鑑」なので引用したくないですね…。あと歴史的な経緯でミスコピー版も出回っていて逐一チェックが必要です。 twitter.com/naoki_maejima/… 2022-05-13 08:22:34

    フィッシャーが(整備ではなく)利用したIrisデータセットは使ってはいけないのか?
  • 総務省「誰でも使える統計オープンデータ」無料オンライン講座スタート

    総務省は1月11日、データサイエンスのオンライン講座「誰でも使える統計オープンデータ」を、MOOC講座プラットフォーム「gacco」で開講した。社会人・大学生に、統計オープンデータを活用したデータ分析の手法を解説する講座で、3月7日まで受講できる。 週約3時間×4週間の内容。政府統計の総合窓口「e-Stat」、総務省と統計センターが提供する統計GISAPI機能などを使い、データ分析の手法を学べる。 講師は「統計学が最強の学問である」の著書で知られる統計家の西内啓氏や、総務省統計局の担当者など。 2017年6月に初開講して以来、断続的に開講し、のべ約2万8000人が受講した講座。 関連記事 政府が「ワクチン接種状況ダッシュボード」公開 性別や都道府県別に可視化 政府が、全国の新型コロナワクチンの接種状況を一覧にまとめた「ワクチン接種状況ダッシュボード」を公開。統計情報をまとめたCSVやJS

    総務省「誰でも使える統計オープンデータ」無料オンライン講座スタート
  • えっちな統計学入門 〜性癖アンケートを統計で紐解く〜 Part.1 総論編 - つぶろぐ。

  • Statistical Thinking for the 21st Century

  • Pandasを使ったデータ操作の基本 - ぴよぴよ.py

    データ分析の会社に転職してから3ヶ月。 最初の1ヶ月はPandasの扱いに当に困ったので、 昔メモしてたことを簡単にブログに記録しておく(o ・ω・)ノ 【追記】2017/07/31 0:36 データが一部間違ってたので修正しました Pandasとは pandasでよく使う型 テストデータについて 余談 Pandasでのデータ操作入門 pandasのload データ(csv)のロード データのサイズ データのカラム 行列から必要な列(カラム)を取り出す 条件にマッチするデータを取り出す 1. DataFrame.queryで取り出す True/FalseのSeries型を指定し、Trueの行だけを取り出す 追記(2017/12/14) 行列から必要な行番号を指定してを取り出す グループ分けと集計 新たな列を追加する 固有値を追加する 他の列を加工して新たな列を作る 他の複数列を加工して新

    Pandasを使ったデータ操作の基本 - ぴよぴよ.py
  • R Graphical Manual

    Last data update: 2014.03.03 Data Source R Release (3.2.3) CranContrib BioConductor All Data Type Packages Functions Images Data set Classification

  • 時系列データへの回帰分析 | Logics of Blue

    新規作成:2017年05月16日 最終更新:2017年05月16日 ここでは、時系列データを手にした際に、どのような手順で回帰分析をかけていけばいいのか、フローチャートを交えて解説します。 時系列データは特殊でして、普通の回帰分析を行うと、p値がおかしくなり、正しく検定ができなくなることがよくあります。これを見せかけの回帰と呼びます。 シミュレーションを通して、見せかけの回帰という現象を確認したうえで、それらに対応する手法としての単位根検定・共和分検定・一般化最小二乗法(GLS)の基的な考え方とRでの実装方法について説明します。 ソースコードはまとめてこちらに置いてあります。 スポンサードリンク 目次 時系列データへの回帰分析フローチャート 単位根と見せかけの回帰 データチェック1 単位根検定とADF検定 解決策1 差分系列への回帰分析 差分系列への回帰分析の問題点 データチェック2 共

    時系列データへの回帰分析 | Logics of Blue
  • 藤井四段で学ぶ最尤推定、MAP推定、ベイズ推定 - Qiita

    藤井四段の連勝が止まらないですね。 21日の対局に勝利して、連勝記録を1位タイの28連勝まで伸ばしてきました。26日の対局で勝利すれば単独トップになります。 そんな藤井四段の対戦成績は28勝0負。勝率でいうと1.000です。クラクラするような成績ですが、この「勝率」とは何かを少し数学的にみてみましょう。 単純に言葉だけをみると「藤井四段が勝利する確率」ではないかと考えられます。つまり $$P(\text{勝利}\ |\ \text{藤井四段}) = 1.0$$かのように感じます。 ではここで、26日の対局で藤井四段が勝利する確率はどれだけでしょう? $P(\text{勝利}\ |\ \text{藤井四段}) = 1.0$として考えると、これはつまり藤井四段は必ず勝つので、100%になってしまいます。しかし、もちろんそんなことはありません。藤井四段ですらも負けることはあるはずです。 実はここ

    藤井四段で学ぶ最尤推定、MAP推定、ベイズ推定 - Qiita
  • 日本では受動喫煙が原因で年間1万5千人が死んでいるらしい

    最初に断っておくが,僕はキッズだった頃にイアン・カーティスというミュージシャンの写真を見たことをきっかけに喫煙を始めた頭の弱い子であり,そして別に喫煙が人体に悪影響を及ばさないと主張するつもりはない.また専門は計算機統計学なので,生物統計や統計的因果推論が専門というわけでもない.疫学なんててんで分からない.またすべての文献に目を通す暇もないので,間違いなどもあると思う.その時は指摘してくれるとうれしい. まず疫学が正直何だかわかないので色々ググってみたところ,かちっとした定義が見当たらず,色々な意見を総合してみると「データを用いて疾病罹患や病死の因果関係を研究する」みたいな感じでいいのかなと思う.なのでここではそういう学問だと定義しておく.まあ多分いわゆる統計的因果推論が最近は多様されているのだろう,多分. タイトルにあるように,なんでも受動喫煙が「原因」で年間に約15000人の方がその「

    日本では受動喫煙が原因で年間1万5千人が死んでいるらしい
  • 「この春から統計を学びはじめたい!」という人のための書籍7冊(2017年4月版)|Colorless Green Ideas

    統計をあまりよく知らない人が、統計の勉強をはじめるときに役立つ書籍について。おすすめの書籍を7冊紹介。 はじめに この記事では、統計についてあまりよく知らない人が、統計を学びはじめるときに役に立つ書籍を紹介したいと思う。まず、前半では、統計のまったくの初心者が勉強するときに役立つ書籍を3冊紹介する。後半では、前半に挙げた書籍の内容を大体理解した人が、その理解を定着させるために役立つ書籍を4冊紹介する。 まったくの初心者のために まったくの初心者が、統計を勉強したいというときに一番おすすめなのが、『マンガでわかる統計学』だ。 高橋信. (2004). 『マンガでわかる統計学』 東京:オーム社. マンガだからと言って、あなどってはならない。このはかなりしっかりと組み立てられていて、統計の基礎の基礎がしっかり押さえられるようになっている。このについてのさらに詳しい紹介が「統計学の初心者が入門

    「この春から統計を学びはじめたい!」という人のための書籍7冊(2017年4月版)|Colorless Green Ideas
  • DeNA に対する第三者委員会の調査報告書での信頼区間の説明|Colorless Green Ideas

    DeNA に対する第三者委員会の調査報告書でなされていた信頼区間に関する説明がすこしあやういように思われたので、それについて簡単にコメントを記す。 調査報告書の背景 2017年3月13日、DeNA がキュレーションメディア事業で著作権侵害などの問題を起こしたことに対し、第三者委員会による調査報告書が出された [1] 。この報告書は以下の場所からダウンロードすることができる。 株式会社ディー・エヌ・エー 第三者委員会調査報告書の全文開示公表のお知らせ(容量が大きいPDFなので注意) この調査報告書を読んでみたところ、信頼区間についての説明が少しあやういように思われた。以下、この信頼区間の説明について見ていきたい。 まず、なぜ信頼区間というものがこの報告書に出てきたのだろうか。 この調査報告書では、DeNA のキュレーションメディアでどれだけの複製権・翻案権侵害がなされたかという問題を解き明か

    DeNA に対する第三者委員会の調査報告書での信頼区間の説明|Colorless Green Ideas
    pseudomeme
    pseudomeme 2017/03/14
    信頼区間の話は何回聞いても忘れる・・・
  • ダメな統計学を防ぐための書籍11冊|Colorless Green Ideas

    科学における統計の誤用を扱った『ダメな統計学――悲惨なほど完全なる手引書』を読んだ後に、実際に統計の誤用を防ぐために読むと良いについて紹介する。 はじめに この記事では、科学研究における統計の誤用を扱った『ダメな統計学――悲惨なほど完全なる手引書』を読んだ後に、実際に統計の誤用を防ぐ方法を学ぶために役立つと思われる書籍を紹介する。主に、統計的仮説検定で間違いを犯さないようにする場合に役立つ書籍を紹介するが、それ以外の分野の書籍についても紹介する。 なお、『ダメな統計学――悲惨なほど完全なる手引書』は、科学の世界での統計の誤用について説明したで、私が日語訳に当たった。2017年1月27日から販売された。このの詳しい紹介は、「『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版」という記事に書いたので、そちらもご参照願いたい。 アレックス・ラインハート〔著〕・西原史暁〔訳〕.(201

    ダメな統計学を防ぐための書籍11冊|Colorless Green Ideas
  • 「一様乱数の平均値を正規乱数として代用する」という話をゆるふわ統計的に検証する

    「一様乱数を足し合わせて平均値をとった値は正規分布っぽくなるよ」というツイートを見かけて、「それって統計的にどうなんだろう?」という疑問が湧いたので検証してみました。 はじめに 昨日・一昨日ぐらいに Twitter 上でちょっとした話題になっていた アニメーションの監修で、「 Random();の代わりに、(Random()+Random()+Rrandom()+Random()+Random())/5.0f; を使うと、動きにコクが出る」と言ったら、ピュアオーディオ扱いされるのですが・・・これは根拠のあるアルゴです。 — 深津 貴之 (@fladdict) 2016年11月3日 というツイートに関連して、「一様乱数の平均値を正規乱数として代用する」的なツイートをちらほら見かけて気になっていたので、統計的に検証してみましたよ、というブログエントリです (このツイート自体に対して揶揄するつも

    「一様乱数の平均値を正規乱数として代用する」という話をゆるふわ統計的に検証する
  • Posit

    Grow your data science skills at posit::conf(2024) August 12th-14th in Seattle

    Posit
  • ウェブページ移転 - 統計学的手法の話題 - 生物科学研究所

    このサイトは,生物科学研究所のウェブサイトに統合されました。

  • 40 years of boxplots

    Hadley Wickham, Lisa Stryjewski. 40 years of boxplots. Download: pre-print The boxplot plot has been around for over 40 years. This paper summarises the improvements, extensions and variations since Tukey first introduced his 'schematic plot in 1970. We focus particularly on richer displays of density and extensions to 2d. @TechReport{boxplots, author = {Hadley Wickham and Lisa Stryjewski}, instit

    40 years of boxplots
  • p値を計算したくなる検定の数々を試しにStanによるベイジアンモデリングで代替してみた - 渋谷駅前で働くデータサイエンティストのブログ

    この記事は、やたらはてブを稼いでしまった前回の記事の続きです。 ASAのプレスリリース及び声明の中には、確かに「p値に依拠しない新たなアプローチの例」として予測値を重視するアプローチ*5、ベイジアンモデリング、決定理論的アプローチ*6およびfalse discovery rate*7といったものを用いるべき、という趣旨のコメントが入っています。とは言え、重回帰分析とか機械学習のような多変量モデリング(なおかつサンプルサイズも大きい)を伴うテーマならともかく、統計学的仮説検定のようなサンプルサイズも小さい(データも少ない)シチュエーションでどうやるんだよ的な疑問を持つ人も多いのではないかと。 そんなわけで、実際にそれっぽい各種検定の数々をStanによるベイジアンモデリングで代替してみたので、この記事ではその結果をつらつら紹介してみようと思います。テーマは前々回のこちらの記事の1節で取り上げた

    p値を計算したくなる検定の数々を試しにStanによるベイジアンモデリングで代替してみた - 渋谷駅前で働くデータサイエンティストのブログ
  • ビジネス実務の現場で有用な統計学・機械学習・データマイニング及びその他のデータ分析手法10+2選(2016年版) - 渋谷駅前で働くデータサイエンティストのブログ

    そう言えば3年前にこんなまとめ的エントリを書いたのでした。この内容はそのままかなりの部分が2年前に刊行した拙著の原案にもなったということで、色々思い出深いエントリです。 なのですが。・・・この3年の間に統計学・機械学習・データマイニングの諸手法及びそれを取り巻くビジネスニーズには様々な進歩があり、そろそろこの内容にも陳腐化が目立つようになってきました。ということで、3年間の進歩を反映してアップデートした記事を書いてみようと思います。前回は「10選」でしたが、今回は「10+2選」に改めました。そのラインナップは以下の通り。 統計学的検定(t検定・カイ二乗検定・ANOVAなど) t検定 カイ二乗検定 ANOVA(分散分析) その他の検定 重回帰分析(線形回帰モデル) 一般化線形モデル(GLM:ロジスティック回帰・ポアソン回帰など) ロジスティック回帰 ポアソン回帰 正則化(L1 / L2ノルム

    ビジネス実務の現場で有用な統計学・機械学習・データマイニング及びその他のデータ分析手法10+2選(2016年版) - 渋谷駅前で働くデータサイエンティストのブログ
  • 「p値や有意性に拘り過ぎるな、p < 0.05かどうかが全てを決める時代はもう終わらせよう」というアメリカ統計学会の声明 - 渋谷駅前で働くデータサイエンティストのブログ

    以前から同様の指摘は様々な分野から様々な人々が様々な形で出してきていましたが、アメリカ統計学会が以下のような明示的な声明をこの3月7日(現地時間)に発表したということで注目を集めているようです。 AMERICAN STATISTICAL ASSOCIATION RELEASES STATEMENT ON STATISTICAL SIGNIFICANCE AND P-VALUES Provides Principles to Improve the Conduct and Interpretation of Quantitative Science https://www.amstat.org/newsroom/pressreleases/P-ValueStatement.pdf The ASA's statement on p-values: context, process, and p

    「p値や有意性に拘り過ぎるな、p < 0.05かどうかが全てを決める時代はもう終わらせよう」というアメリカ統計学会の声明 - 渋谷駅前で働くデータサイエンティストのブログ
  • こんなグラフがあって「XX時には野生型と変異体で差があります」を言いたいときに使う検定

    何らかの指標の時系列が複数あるときに、ある時点で2群が違うかどうかを言いたいときにはどんな統計手法を使えば良いか?という質問に対するいろいろなコメントや提案。複数のストリングが混ざってて読みにくい部分や、関連性の低いツイートも混ざってますが、なんとなく全体の話の流れが追えればいいなと思いまとめました。これからも関連ツイート増えると思うので、追加や漏れに気づいた方ぜひ追加してください。

    こんなグラフがあって「XX時には野生型と変異体で差があります」を言いたいときに使う検定