[B! 統計] pseudomemeのブックマーク

フィッシャーが（整備ではなく）利用したIrisデータセットは使ってはいけないのか？

Naoki Maejima @naoki_maejima 恥ずかしながら知らなかったんですが、かの有名なirisデータセットに関して、著者のロナルド・フィッシャーが優生学に傾倒していたことから、使用を控える流れになってきているんですね。代わりに提案されているのはパルマーペンギンのデータセットだそう🐧。 garrickadenbuie.com/blog/lets-move… 2022-02-08 17:42:59 kilometer @kilometer00 irisデータの論文が掲載された雑誌が、そのものズバリ「優生学年鑑」なので引用したくないですね…。あと歴史的な経緯でミスコピー版も出回っていて逐一チェックが必要です。 twitter.com/naoki_maejima/… 2022-05-13 08:22:34

pseudomeme 2022/05/13

リンク

総務省「誰でも使える統計オープンデータ」無料オンライン講座スタート

総務省は1月11日、データサイエンスのオンライン講座「誰でも使える統計オープンデータ」を、MOOC講座プラットフォーム「gacco」で開講した。社会人・大学生に、統計オープンデータを活用したデータ分析の手法を解説する講座で、3月7日まで受講できる。週約3時間×4週間の内容。政府統計の総合窓口「e-Stat」、総務省と統計センターが提供する統計GIS、API機能などを使い、データ分析の手法を学べる。講師は「統計学が最強の学問である」の著書で知られる統計家の西内啓氏や、総務省統計局の担当者など。 2017年6月に初開講して以来、断続的に開講し、のべ約2万8000人が受講した講座。関連記事政府が「ワクチン接種状況ダッシュボード」公開　性別や都道府県別に可視化政府が、全国の新型コロナワクチンの接種状況を一覧にまとめた「ワクチン接種状況ダッシュボード」を公開。統計情報をまとめたCSVやJS

pseudomeme 2022/01/11

統計

リンク

えっちな統計学入門　〜性癖アンケートを統計で紐解く〜　Part.1 総論編 - つぶろぐ。

pseudomeme 2022/01/09

統計

リンク

Statistical Thinking for the 21st Century

pseudomeme 2018/11/23

統計

リンク

Pandasを使ったデータ操作の基本 - ぴよぴよ.py

データ分析の会社に転職してから3ヶ月。最初の1ヶ月はPandasの扱いに本当に困ったので、昔メモしてたことを簡単にブログに記録しておく(o ･ω･)ﾉ【追記】2017/07/31 0:36 データが一部間違ってたので修正しました Pandasとは pandasでよく使う型テストデータについて余談 Pandasでのデータ操作入門 pandasのload データ(csv)のロードデータのサイズデータのカラム行列から必要な列(カラム)を取り出す条件にマッチするデータを取り出す 1. DataFrame.queryで取り出す True/FalseのSeries型を指定し、Trueの行だけを取り出す追記(2017/12/14) 行列から必要な行番号を指定してを取り出すグループ分けと集計新たな列を追加する固有値を追加する他の列を加工して新たな列を作る他の複数列を加工して新

pseudomeme 2017/07/31

リンク

R Graphical Manual

Last data update: 2014.03.03 Data Source R Release (3.2.3) CranContrib BioConductor All Data Type Packages Functions Images Data set Classification

pseudomeme 2017/07/08

統計
R

リンク

時系列データへの回帰分析 | Logics of Blue

新規作成：2017年05月16日最終更新：2017年05月16日ここでは、時系列データを手にした際に、どのような手順で回帰分析をかけていけばいいのか、フローチャートを交えて解説します。時系列データは特殊でして、普通の回帰分析を行うと、p値がおかしくなり、正しく検定ができなくなることがよくあります。これを見せかけの回帰と呼びます。シミュレーションを通して、見せかけの回帰という現象を確認したうえで、それらに対応する手法としての単位根検定・共和分検定・一般化最小二乗法(GLS)の基本的な考え方とRでの実装方法について説明します。ソースコードはまとめてこちらに置いてあります。スポンサードリンク目次時系列データへの回帰分析フローチャート単位根と見せかけの回帰データチェック1　単位根検定とADF検定解決策１　差分系列への回帰分析差分系列への回帰分析の問題点データチェック２　共

pseudomeme 2017/07/04

統計

リンク

藤井四段で学ぶ最尤推定、MAP推定、ベイズ推定 - Qiita

藤井四段の連勝が止まらないですね。 21日の対局に勝利して、連勝記録を１位タイの28連勝まで伸ばしてきました。26日の対局で勝利すれば単独トップになります。そんな藤井四段の対戦成績は28勝0負。勝率でいうと1.000です。クラクラするような成績ですが、この「勝率」とは何かを少し数学的にみてみましょう。単純に言葉だけをみると「藤井四段が勝利する確率」ではないかと考えられます。つまり $$P(\text{勝利}\ |\ \text{藤井四段}) = 1.0$$かのように感じます。ではここで、26日の対局で藤井四段が勝利する確率はどれだけでしょう？ $P(\text{勝利}\ |\ \text{藤井四段}) = 1.0$として考えると、これはつまり藤井四段は必ず勝つので、100%になってしまいます。しかし、もちろんそんなことはありません。藤井四段ですらも負けることはあるはずです。実はここ

pseudomeme 2017/06/28

統計

リンク

日本では受動喫煙が原因で年間1万5千人が死んでいるらしい

最初に断っておくが，僕はキッズだった頃にイアン・カーティスというミュージシャンの写真を見たことをきっかけに喫煙を始めた頭の弱い子であり，そして別に喫煙が人体に悪影響を及ばさないと主張するつもりはない．また専門は計算機統計学なので，生物統計や統計的因果推論が専門というわけでもない．疫学なんててんで分からない．またすべての文献に目を通す暇もないので，間違いなどもあると思う．その時は指摘してくれるとうれしい．まず疫学が正直何だかわかないので色々ググってみたところ，かちっとした定義が見当たらず，色々な意見を総合してみると「データを用いて疾病罹患や病死の因果関係を研究する」みたいな感じでいいのかなと思う．なのでここではそういう学問だと定義しておく．まあ多分いわゆる統計的因果推論が最近は多様されているのだろう，多分．タイトルにあるように，なんでも受動喫煙が「原因」で年間に約15000人の方がその「

pseudomeme 2017/05/28

リンク

「この春から統計を学びはじめたい！」という人のための書籍7冊（2017年4月版）｜Colorless Green Ideas

統計をあまりよく知らない人が、統計の勉強をはじめるときに役立つ書籍について。おすすめの書籍を7冊紹介。はじめにこの記事では、統計についてあまりよく知らない人が、統計を学びはじめるときに役に立つ書籍を紹介したいと思う。まず、前半では、統計のまったくの初心者が勉強するときに役立つ書籍を3冊紹介する。後半では、前半に挙げた書籍の内容を大体理解した人が、その理解を定着させるために役立つ書籍を4冊紹介する。まったくの初心者のためにまったくの初心者が、統計を勉強したいというときに一番おすすめなのが、『マンガでわかる統計学』だ。高橋信. (2004). 『マンガでわかる統計学』東京：オーム社．マンガだからと言って、あなどってはならない。この本はかなりしっかりと組み立てられていて、統計の基礎の基礎がしっかり押さえられるようになっている。この本についてのさらに詳しい紹介が「統計学の初心者が入門

pseudomeme 2017/04/07

本
統計

リンク

DeNA に対する第三者委員会の調査報告書での信頼区間の説明｜Colorless Green Ideas

DeNA に対する第三者委員会の調査報告書でなされていた信頼区間に関する説明がすこしあやういように思われたので、それについて簡単にコメントを記す。調査報告書の背景 2017年3月13日、DeNA がキュレーションメディア事業で著作権侵害などの問題を起こしたことに対し、第三者委員会による調査報告書が出された [1] 。この報告書は以下の場所からダウンロードすることができる。株式会社ディー・エヌ・エー　第三者委員会調査報告書の全文開示公表のお知らせ（容量が大きいPDFなので注意）この調査報告書を読んでみたところ、信頼区間についての説明が少しあやういように思われた。以下、この信頼区間の説明について見ていきたい。まず、なぜ信頼区間というものがこの報告書に出てきたのだろうか。この調査報告書では、DeNA のキュレーションメディアでどれだけの複製権・翻案権侵害がなされたかという問題を解き明か

pseudomeme 2017/03/14

信頼区間の話は何回聞いても忘れる・・・

統計

リンク

ダメな統計学を防ぐための書籍11冊｜Colorless Green Ideas

科学における統計の誤用を扱った『ダメな統計学――悲惨なほど完全なる手引書』を読んだ後に、実際に統計の誤用を防ぐために読むと良い本について紹介する。はじめにこの記事では、科学研究における統計の誤用を扱った『ダメな統計学――悲惨なほど完全なる手引書』を読んだ後に、実際に統計の誤用を防ぐ方法を学ぶために役立つと思われる書籍を紹介する。主に、統計的仮説検定で間違いを犯さないようにする場合に役立つ書籍を紹介するが、それ以外の分野の書籍についても紹介する。なお、『ダメな統計学――悲惨なほど完全なる手引書』は、科学の世界での統計の誤用について説明した本で、私が日本語訳に当たった。2017年1月27日から販売された。この本の詳しい紹介は、「『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版」という記事に書いたので、そちらもご参照願いたい。アレックス・ラインハート〔著〕・西原史暁〔訳〕．(201

pseudomeme 2017/01/30

統計

リンク

「一様乱数の平均値を正規乱数として代用する」という話をゆるふわ統計的に検証する

「一様乱数を足し合わせて平均値をとった値は正規分布っぽくなるよ」というツイートを見かけて、「それって統計的にどうなんだろう？」という疑問が湧いたので検証してみました。はじめに昨日・一昨日ぐらいに Twitter 上でちょっとした話題になっていたアニメーションの監修で、「 Random();の代わりに、(Random()+Random()+Rrandom()+Random()+Random())/5.0f; を使うと、動きにコクが出る」と言ったら、ピュアオーディオ扱いされるのですが・・・これは根拠のあるアルゴです。 — 深津貴之 (@fladdict) 2016年11月3日というツイートに関連して、「一様乱数の平均値を正規乱数として代用する」的なツイートをちらほら見かけて気になっていたので、統計的に検証してみましたよ、というブログエントリです (このツイート自体に対して揶揄するつも

pseudomeme 2016/11/07

統計

リンク

Posit

Grow your data science skills at posit::conf(2024) August 12th-14th in Seattle

pseudomeme 2016/11/02

統計

リンク

ウェブページ移転 - 統計学的手法の話題 - 生物科学研究所

このサイトは，生物科学研究所のウェブサイトに統合されました。

pseudomeme 2016/08/04

統計

リンク

40 years of boxplots

Hadley Wickham, Lisa Stryjewski. 40 years of boxplots. Download: pre-print The boxplot plot has been around for over 40 years. This paper summarises the improvements, extensions and variations since Tukey first introduced his 'schematic plot in 1970. We focus particularly on richer displays of density and extensions to 2d. @Tech Report{boxplots, author = {Hadley Wickham and Lisa Stryjewski}, instit

pseudomeme 2016/04/14

統計

リンク

p値を計算したくなる検定の数々を試しにStanによるベイジアンモデリングで代替してみた - 渋谷駅前で働くデータサイエンティストのブログ

この記事は、やたらはてブを稼いでしまった前回の記事の続きです。 ASAのプレスリリース及び声明の中には、確かに「p値に依拠しない新たなアプローチの例」として予測値を重視するアプローチ*5、ベイジアンモデリング、決定理論的アプローチ*6およびfalse discovery rate*7といったものを用いるべき、という趣旨のコメントが入っています。とは言え、重回帰分析とか機械学習のような多変量モデリング（なおかつサンプルサイズも大きい）を伴うテーマならともかく、統計学的仮説検定のようなサンプルサイズも小さい（データも少ない）シチュエーションでどうやるんだよ的な疑問を持つ人も多いのではないかと。そんなわけで、実際にそれっぽい各種検定の数々をStanによるベイジアンモデリングで代替してみたので、この記事ではその結果をつらつら紹介してみようと思います。テーマは前々回のこちらの記事の1節で取り上げた

pseudomeme 2016/03/10

統計

リンク

ビジネス実務の現場で有用な統計学・機械学習・データマイニング及びその他のデータ分析手法10+2選（2016年版） - 渋谷駅前で働くデータサイエンティストのブログ

そう言えば3年前にこんなまとめ的エントリを書いたのでした。この内容はそのままかなりの部分が2年前に刊行した拙著の原案にもなったということで、色々思い出深いエントリです。なのですが。・・・この3年の間に統計学・機械学習・データマイニングの諸手法及びそれを取り巻くビジネスニーズには様々な進歩があり、そろそろこの内容にも陳腐化が目立つようになってきました。ということで、3年間の進歩を反映してアップデートした記事を書いてみようと思います。前回は「10選」でしたが、今回は「10+2選」に改めました。そのラインナップは以下の通り。統計学的検定（t検定・カイ二乗検定・ANOVAなど） t検定カイ二乗検定 ANOVA（分散分析）その他の検定重回帰分析（線形回帰モデル）一般化線形モデル（GLM：ロジスティック回帰・ポアソン回帰など）ロジスティック回帰ポアソン回帰正則化（L1 / L2ノルム

pseudomeme 2016/03/10

統計

リンク

「p値や有意性に拘り過ぎるな、p < 0.05かどうかが全てを決める時代はもう終わらせよう」というアメリカ統計学会の声明 - 渋谷駅前で働くデータサイエンティストのブログ

以前から同様の指摘は様々な分野から様々な人々が様々な形で出してきていましたが、アメリカ統計学会が以下のような明示的な声明をこの3月7日（現地時間）に発表したということで注目を集めているようです。 AMERICAN STATISTICAL ASSOCIATION RELEASES STATEMENT ON STATISTICAL SIGNIFICANCE AND P-VALUES Provides Principles to Improve the Conduct and Interpretation of Quantitative Science https://www.amstat.org/newsroom/pressreleases/P-ValueStatement.pdf The ASA's statement on p-values: context, process, and p

pseudomeme 2016/03/08

統計

リンク

こんなグラフがあって「XX時には野生型と変異体で差があります」を言いたいときに使う検定

何らかの指標の時系列が複数あるときに、ある時点で２群が違うかどうかを言いたいときにはどんな統計手法を使えば良いか？という質問に対するいろいろなコメントや提案。複数のストリングが混ざってて読みにくい部分や、関連性の低いツイートも混ざってますが、なんとなく全体の話の流れが追えればいいなと思いまとめました。これからも関連ツイート増えると思うので、追加や漏れに気づいた方ぜひ追加してください。

pseudomeme 2016/02/17

統計

リンク

はてなブックマーク

タグ

関連タグで絞り込む (9)

統計に関するpseudomemeのブックマーク (42)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス