[B! 統計] takutakumaのブックマーク

【新卒研修資料】基礎統計学 / Basic of statistics

株式会社ブレインパッドの2023年新卒研修資料です。基礎統計学について扱っています。

takutakuma 2023/09/20

統計

リンク

食べログ3.8問題に終止符を打つ

import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import json import glob import math from pathlib import Path from collections import Counter from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score from sklearn.metrics import confusion_matrix from sklearn.metrics import roc_auc_score from sklearn.model_selection imp

takutakuma 2019/10/16

リンク

[特集] ベイズ推論とMCMCのフリーソフト - 岩波データサイエンス

本巻で使用されているソースコードやデータは以下のURLから取得できます。 https://github.com/iwanami-datascience/vol1 【DSオリジナル】の表記のある動画や原稿は岩波DSウェブサイトのオリジナルコンテンツです。

takutakuma 2017/03/12

統計

リンク

統計的機械学習入門 | 中川研究室

導入pdf 情報の変換過程のモデル化ベイズ統計の意義識別モデルと生成モデル最尤推定、MAP推定データの性質情報理論の諸概念 (KL-divergenceなど) 距離あるいは類似度数学のおさらいpdf 行列の微分線形代数学の役立つ公式多次元正規分布条件付き正規分布 Bayes推論pdf Bayseによる確率分布推定の考え方多項分布、ディリクレ分布事前分布としてのディリクレ分布の意味<\li> 正規分布と事後分布指数型分布族自然共役事前分布の最尤推定線形回帰および識別pdf 線形回帰のモデル正則化項の導入 L2正則化 L1正則化正則化項のBayes的解釈線形識別 2乗誤差最小化の線形識別の問題点生成モデルを利用した識別学習データと予測性能pdf 過学習損失関数と Bias,Variance, Noise K-Nearest Neighbor法への応用 b

takutakuma 2016/09/01

統計

リンク

第3回　機械学習のためのベイズ最適化入門|Tech Book Zone Manatee

応用範囲が広く幅広い視点からの説明になりがちなベイズ最適化について、本記事では機械学習のハイパーパラメータ探索に利用することに限定して解説します。 1. はじめに最近、ベイズ最適化という手法が注目を集めています。ベイズ最適化 (Bayesian Optimization) とは、形状がわからない関数 (ブラックボックス関数) の最大値 (または最小値) を求めるための手法です。ベイズ最適化についての入門記事は Web 上にすでにいくつかありますが、ベイズ最適化は応用範囲が広く、入門記事は様々な応用に向けた幅広い視点からの説明になりがちです。本記事では、機械学習ユーザに向けて、ベイズ最適化を機械学習のハイパーパラメータ探索に利用することに限定して説明します。これにより、機械学習に対して、ベイズ最適化がどのように利用できるのかを分かりやすく解説したいと思います。 2. ハイパーパラメ

takutakuma 2016/08/26

リンク

実務で使う統計手法は、５つ。すごい、そんなシンプル？

このセミナー、冒頭の渋谷直正さん(日本航空旅客販売統括本部Web販売部 1to1マーケティンググループアシスタントマネジャー)のお話がとても参考になりました。まず、渋谷さんはご存知のように、2014年に「データサイエンティスト・オブ・ザ・イヤー」を受賞され、ビジネス・サイドにおける、データサイエンスのリーダー的存在です。その渋谷さんの「実務で使う分析手法は５つで十分、マーケターこそデータサイエンティスト候補」という講演は、多くの示唆に富んだものでした。まず、みなさんが気にしている５つの手法とは、クロス集計ロジスティック回帰決定木アソシエーション分析非階層的クラスター分析（k-meansなど）の５つです。統計の教科書にはさまざまな手法が出てきますが、マーケターが実務で使うのはこの５つ程度だと説明されるのです。でも、この説明には、私も思い当たる部分があります。東大の数学

takutakuma 2015/09/02

統計

リンク

データサイエンティストというかデータ分析職に就くための最低限のスキル要件とは - 渋谷駅前で働くデータサイエンティストのブログ

追記（2017年7月）こちらのスキル要件ですが、2017年版を新たに書きましたので是非そちらをご覧ください。「データサイエンティストというかデータ分析職に就くためのスキル要件」という話題が某所であったんですが、僕にとって馴染みのあるTokyoR界隈で実際に企業のデータ分析職で活躍している人たちのスキルを眺めてみるに、みどりぼん程度の統計学の知識はじパタ程度の機械学習の知識 RかPythonでコードが組める SQLが書けるというのが全員の最大公約数＝下限ラインかなぁと。そんなわけで、ちょろっと色々与太話を書いてみます。なお僕の周りの半径5mに限った真実かもしれませんので、皆さん自身がどこかのデータサイエンティスト（）募集に応募して蹴られたとしても何の保証もいたしかねますので悪しからず。統計学の知識は「みどりぼん以上」データ解析のための統計モデリング入門――一般化線形モデル・階層

takutakuma 2015/03/15

統計

リンク

データに騙されないための3つの方法――「社会実情データ図録」管理人に聞く/本川裕×飯田泰之 - SYNODOS

ニュースサイトや書籍にデータやグラフが掲載されていても、読み方がよくわからないから解説しか読まない。違和感を覚えるものの、データが載っているので、とりあえず納得しておく……。そんな経験をした方も多いだろう。データを確認すれば一目瞭然で間違っている俗説も、怪しいデータで語られた議論も、データが読めれば騙されずにすむ。データをみることの面白さ、データに騙されないためのテクニックについて、「社会実情データ図録」管理人の本川裕氏と飯田泰之が語り合った。（構成／金子昂）飯田　以前から本川さんの「社会実情データ図録」を拝見していました。ずらっと並んでいるありとあらゆる図録から、適当なページを選んで、ぼんやり眺めているだけでもすごく面白い。いつかお会いしてお話をお聞きしたいと思っていたんです。「社会実情データ図録」 http://www2.ttcn.ne.jp/honkawa/ 本川　ツイッターで、

takutakuma 2014/09/02

後で読む

リンク

ネイト・シルバーが語る「データ・サイエンティストになるために必要なこと」 « クーリエ・ジャポンの現場から（編集部ブログ）

翻訳担当の阿部です。昨年、米国で話題になったネイト・シルバーの著書『シグナルとノイズ』の邦訳が刊行されるかもしれないようです（Amazonのサイトでは予約受付中となっていますが、日経BP社によれば、まだ刊行が決まってはいないとのことでした）。シルバーは米国の作家・統計家・ブロガー。シカゴ大学で経済学を学んだ後、KPMGに職を得ますが、仕事が退屈に感じられ、オンラインポーカーで1年に10万ドル以上稼いだり、野球選手のパフォーマンスを予測するシステムを開発したりするようになった人物です。近年は自身が運営するブログ「ファイヴ・サーティエイト・ドットコム」で、米国の大統領選の結果を予測したことで知られています。世論調査や経済データを解析し、08年の大統領選では50州中49州の投票結果を的中させ、昨年の大統領選では全50州の投票結果を的中させました（ネイト・シルバーの人物像については、現在発

takutakuma 2013/10/22

統計

リンク

オンラインで無料で読める統計書22冊｜Colorless Green Ideas

はじめに今回は、ウェブを通じて無料で読むことができる統計に関する書籍を紹介したい。英語で書かれた本が多いが、日本語で書かれた本も若干ある。入門書まず、統計の初学者のために書かれた入門書を紹介したいと思う。福井正康 (2002). 『基礎からの統計学』基礎から扱っている統計の入門書である。統計を扱う際に必要となる場合の数、確率などについて詳しく説明している。理解を助けるための演習問題とその解答がついている。統計処理用のソフトとしてはExcelを使っている。同じサイトに社会科学系の学生向けの数学の教科書もある。小波秀雄 (2013). 『統計学入門』基礎から扱っている統計の入門書。内容としては、記述統計、確率、確率分布、簡単な推定・検定、相関と線形回帰などがある。確率や確率分布などの理論的な話が占める分量が多いので、分量のわりには、具体的な統計手法はあんまり載っていない。もちろん理論

takutakuma 2013/08/12

統計

リンク

Rで計量時系列分析：はじめに覚えておきたいこと - 渋谷駅前で働くデータサイエンティストのブログ

機械学習は全然専門ではない僕が知ったかぶりをするのも何なので*1、もっともっと以前からそこそこやっている*2計量時系列分析の話でもしてお茶を濁してみることにします（笑）。もうしつこ過ぎて自分でも嫌になってきたんですが（笑）、このシリーズでベースにするテキストは以下の2冊。沖本テキストとHamiltonテキストです*3。他にも良いテキストはあるんじゃないかと思いますが、ここではこの2冊をベースにしていきます。なお、ほとんど沖本テキストからの抜粋なのでお持ちの方はそちらを読んでもらった方が圧倒的に早いです、悪しからず。経済・ファイナンスデータの計量時系列分析 (統計ライブラリー) 作者: 沖本竜義出版社/メーカー: 朝倉書店発売日: 2010/02/01メディア: 単行本購入: 4人クリック: 101回この商品を含むブログ (6件) を見る Time Series Analysis 作者

takutakuma 2013/07/04

R
統計

リンク

統計の基本事項

トップページ→研究分野と周辺→システムの評価→ 基本統計量平均（算術平均）値は、（データ値の総和）÷（データ数）となる。（或るデータの値）－（平均値）を、そのデータの偏差という。偏差の絶対値の大きいデータが多ければ、そのデータ群はばらつきが大きい。データ群のばらつきの大きさを単純に偏差の総和とすると、偏差には正負があるので相殺されてしまう。そこで、各データの偏差を二乗する（こうすれば必ず正の値になる）。（各データの偏差の二乗の総和）÷（データ数）をそのデータ群の分散と呼び、ばらつきの大きさを表す。また、分散の平方根を標準偏差という。英語では偏差はDeviation、分散はVariance、標準偏差はStandard Deviationとなるので、標準偏差はS.D.と略記される事も多い。統計の最も基本的な量である基本統計量としては、他に最大値、最小値、範囲（最大値－最小値）、中央値（デ

takutakuma 2013/06/23

統計

リンク

櫻田潤 | インフォグラフィック・エディター

ビジュアルの力で世界を丸くする。地球の形状が「丸い」のは、そこで暮らす僕たちにひとつの「ビジョン」を指し示しています。地球の形と同じように、世界で起こっていることのすべてが丸く収まっていれば良いのですが、現実は違います。大小いろいろな規模の摩擦がいたるところに発生し、繰り返されます。その解決に必要なのは、お互いの「考え」や「価値観」「立場」、「状況」「状態」を示し、認め合うことです。そのために、「ビジュアル」の力を活用していきます。

takutakuma 2013/06/21

統計

リンク

Webデータ分析＆データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ

追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。主に自分向けのまとめという意味合いが強いんですが（笑）、僕が実際に2013年6月現在webデータ分析＆データサイエンスの実務でツール・ライブラリ・パッケージを利用しているものに限って、統計学・機械学習系の分析手法を10個挙げて紹介してみようと思います。追記回帰分析（特に線形重回帰分析）独立性の検定（カイ二乗検定・フィッシャーの正確確率検定）主成分分析(PCA) / 因子分析クラスタリング決定木 / 回帰木サポートベクターマシン(SVM) ロジスティック回帰ランダムフォレストアソシエーション分析（バスケット分析・相関ルール抽出）計量時系列分析おわりにおまけ1：「素性ベクトル＋分類ラベル」なるデータ前処理おまけ2：グラフ理論*10 {igraph}パッケージでグラ

takutakuma 2013/06/10

統計

リンク

無料で利用できるデータベース＆レファレンスサービスまとめ

takutakuma 2013/06/10

統計

リンク

統計学入門−目次

takutakuma 2013/04/01

統計

リンク

佐藤吉宗先生の統計学入門（１）－偽陽性問題－

Yoshihiro Sato @yoshisatose 最近、TLで偽陽性の話題を目にするので、一つ練習問題を紹介します。これは昨秋、私が担当している統計学（1年生向け）の試験で出題した問題で、あとで複数の学生から「とても面白い問題だった」という反応がありました。「ベイズの定理」の問題なので、分かる人には簡単です。四則演算で解けます。 2013-03-18 21:31:42 Yoshihiro Sato @yoshisatose 【問題】人口の5%がある病気に罹っているとします。この病気に罹っているかどうかを確かめる検査があるのですが完全なものではなく、病気に実際に罹っている人が受けると90%の確率で陽性となり、病気に罹っていない人が受けると90%の確率で陰性と出ます。（続く…） 2013-03-18 21:32:29

takutakuma 2013/03/19

統計

リンク

若き経済学者のアメリカ

もちろん僕はそういうアツさが決してキライではない。だから確かに一読の価値はある内容だとは思う。ただ、「これからの10年で最もセクシーな職業」というハル・ヴァリアンの有名な台詞に言及してはいるものの、本書の中身からは統計学のセクシーさが最後まで伝わって来なかったのが、個人的にはとても残念でならない。以下の３冊と比肩するくらいの、セクシーでワイルドでエキサイティングな統計学書が登場したかと思ったのだが、果たしてそれは期待し過ぎだっただろうか。

takutakuma 2013/03/04

統計

リンク

データサイエンティストではない人に知っておいて欲しい事 - hotokuとは

統計を専門にしている訳ではない人と話していて感じた違和感があったので、書き留めておきたい。疑うべき順番はモデル → 推定法データ分析をしていれば、当然、期待を掛けたモデルのデータへの当てはまりそうが悪いという事が度々ある。こういう時、統計屋さんとして自然に浮かぶのは「モデルが間違っている」という発想である。と思うのだが、非統計屋さんと話していると、このような時に「別の推定法を試してみたらどうだろう」と言われる事がある。多分、目の前のモデルに対する過度の期待から来るのだろうと思うが、このような態度では統計的に見ると妥当性を欠いた分析をしてしまう危険を孕んでいる。ひとつの事例とある線型状態空間モデルのパラメータを推定した所、どうしてもデータに合わない部分があった。実は、それが合わない理由は簡単で、ある潜在変数は常に正であるはずなのだ。線型状態空間モデルでは、潜在変数の分布は正規分布で