タグ

統計に関するotakumesiのブックマーク (20)

  • 機械学習のための仮説検定 | POSTD

    統計学者は、さまざまな機械学習のモデルに関して、複雑な推論を行うべく多くの時間を費やしてきましたが、実は、これを完全に一般化できる非常に簡単で単純な方法があります。テストセットにある2つのモデルのパフォーマンスを、対応のあるt検定を使って比較するのです。 以下に詳細を記載します。 ある真の分散 $ (X,Y) $ から独立同分布で導かれた $n$ 対の $ (x,y) $ があるとしましょう。 “機械学習” は、 $ (x,y) $ の例が与えられた時、 $ x $ を使って $ y $ を推定しようとする問題です。 最終的に、 $ y $ の妥当な推定と思われる関数 $ f(x) $ を生成します。 典型的には損失関数 $ L(y,f(x)) $ を有していますが、この損失関数とは、推定がどれほど良好かを表すものです。 推定量は、期待損失 $ L(f)=E[L(Y,f(X))] $ によ

    機械学習のための仮説検定 | POSTD
  • 私たちはいかにして環状線で”悪さをする列車”を捕まえたか | プログラミング | POSTD

    文:Daniel Sim 分析:Lee Shangqian、Daniel Sim、Clarence Ng ここ数ヶ月、シンガポールのMRT環状線では列車が何度も止まるものの、その原因が分からないため、通勤客の大きな混乱や心配の種となっていました。 私も多くの同僚と同じように環状線を使ってワンノースのオフィスに通っています。そのため、11月5日に列車が止まる原因を調査する依頼がチームに来た時は、ためらうことなく業務に携わることを志願しました。 鉄道運営会社SMRTと陸上交通庁(LTA)による事前調査から、いくつかの電車の信号を消失させる信号の干渉があり、それがインシデントを引き起こすことが既に分かっていました。信号が消失すると列車の安全機能である緊急ブレーキが作動するため、不規則に電車が止まる原因となります。 しかし8月に初めて発生した今回のインシデントは、不規則に起こっているように見えるた

    私たちはいかにして環状線で”悪さをする列車”を捕まえたか | プログラミング | POSTD
  • (PDF) 数式の読み方,大学で学ぶ数学公式 文責 澤野嘉宏 首都大学東京

  • エラーページ - ヤフー株式会社

    指定されたURLは存在しません。 URLが正しく入力されていないか、このページが削除された可能性があります。

    エラーページ - ヤフー株式会社
  • 「正答率100%」になってしまう機械学習モデルの例を挙げてみる - 渋谷駅前で働くデータサイエンティストのブログ

    何か僕がシンガポールに出張している間に妙なニュースが流れていたようで。 京大ビッグデータ副作用論文。機械学習知らない私でも疑問なのは、@sz_drさんも指摘してるが y'=a1*SCORE+a2*ACT+a3*GeneID+b (1) という式で、GeneIDという定量的に性質を示す値でないものを線形結合に加えているところだと思う。詳しい人教えて— torusengoku (@torusengoku) 2016年1月25日 (※記事そのものへのリンクは控えました) 見る人が見れば「ああこれはleakageだな」と一瞥して終わるところなんですが、そもそもleakageってどういうことなのかピンと来ない人もいるかと思いますので、以前取り上げたデータ分析題材を例にとって実演してみようと思います。お題はこちら。 何故これを選んだかというと、このテニス四大大会データには上記で話題になっていた"Gen

    「正答率100%」になってしまう機械学習モデルの例を挙げてみる - 渋谷駅前で働くデータサイエンティストのブログ
  • 主成分分析とクラスター分析による地域類型

    2002年度の2年生には,主成分分析とクラスター分析を用いて,各自が受け持った県を対象に地域類型を実施してもらいました。変数の選択は各自にまかせたので,通常研究者が使用するものとは異なった変数が使われている場合があります。よって,成分名称の付け方で苦労していた学生もいます。ここでは,分析結果の報告と,主成分得点をクラスター分析することによって得られた類型図を掲載しています。 1, 主成分分析からの考察 宮城県の市町村別の地域分類をするために、私は多変量解析を行い、それにあたって、主成分分析、クラスター分析を用いた。ここでは主成分分析から得られた考察、分析結果を発表する。まず、主成分分析をするために以下の入力変数を用いた。 �@ 人口密度:人/平方キロメートル(2000年宮城県内各市町村別の総人口/総面積) �A 人口増加率:%((2000年宮城県内各市町村別の総人口-前年総人口)/1999

  • 人類は少子高齢化しました - A Successful Failure

    2015年11月26日 人類は少子高齢化しました Tweet TEDにおける伝説的なプレゼンの一つにHans RoslingによるStats that reshape your worldviewがある。1000万回以上も視聴されたプレゼンなので見たことがある方も多いだろう。彼はTrendalyzerという自作のソフトを用いて、統計データを視覚化し世界の様相を伝えている。 Trendalyzerはここで配布されている。また、後にTrendalyzerはGoogleに買収され、Google Visualization APIとして配布されている。さらに、様々な長期的統計データもここに整理・集約されている。 彼は2006年に行われたプレゼンにおいて、先進国は長寿で少家族、発展途上国は短命で大家族という先入観は今や正しくなく、世界全体が少子化・長寿化に向かっていることを示した。次のVizは彼が示

    人類は少子高齢化しました - A Successful Failure
  • 文系でも機械学習がわかるようになる教科書 - EchizenBlog-Zwei

    社内の有志で機械学習数学の勉強会をいくつかやっています(私以外の方が主催しているものもある)。とくに理系ではない方も参加されていますが、きちんと頑張ればだんだん機械学習ができるようになるということがわかってきたのでメモしておきます。 なお、機械学習をとりあえず実装するだけだったらもっと簡単に学ぶ方法もいろいろあり、今回はあくまで正攻法で機械学習を勉強する、という観点での書籍の選択となっています。急がば回れという言葉もあるように、焦って成果を求めないのであれば地道に頑張るほうが後々応用が効いて良いということもあります。 高専の数学 おそらく数学ができないという方は高校の数学あたりから理解が怪しいことになっていると思います。「高専の数学」は中学数学までの前提知識で読める教科書で、わかりやすい例題や理解の助けになる練習問題が多数用意されているため、きちんと問題を解いていけば無理なく高専の数学(

    文系でも機械学習がわかるようになる教科書 - EchizenBlog-Zwei
  • 文系のための「主成分分析の可視化」(2)

    主成分分析の解釈の仕方が理解できたところで、 いよいよ、一般的な主成分分析の可視化方法である「バイプロット」を実行してみる。 今回の話は、ソフトウェアが既定で設定している値を鵜呑みにしてはいけない例。 数理的な背景を理解していれば、簡単に理解できることである。 「文系だから深く知る必要は無い。使えれば良い」などと言う人がいる。 学生であっても、時には研究者もそのようなこと言う。最低限の知識は必要。 何度も主張しているが、私は、数学が苦手な文系研究者である。 さて、「最低限の知識」との線引きは確かに困難であるが、 少なくとも、間違った解釈をしないための知識は必要であろう。 特異値分解は、必要最低限の知識に加えても良いと思う。 特異値分解を概念的に理解しておけば、逆行列や主成分分析の理解も楽である。 一般的な教科書では、主成分分析を固有ベクトルと固有値から説明するが、 文系人間には、理解しにく

    文系のための「主成分分析の可視化」(2)
  • Rのprcomp()関数で主成分分析をするときの注意点 - StatsBeginner: 初学者の統計学習ノート

    Rでの主成分分析の実行 前々回のエントリで学習した永田・棟近教科書の第9章「主成分分析」にのっている計算例を、自分でRにより実行してみることとする。 前半では、教科書の計算例の実行、後半では、Rのprcomp()関数を使うときに注意しなきゃなと思った点をメモしておく。 永田・棟近教科書の第9章「主成分分析」をRで実行してみる まず、データの入力。 > # データの入力 > > 生徒NO <- seq(1, 10, 1) > 国語 <- c(86,71,42,62,96,39,50,78,51,89) > 英語 <- c(79,75,43,58,97,33,53,66,44,92) > 数学 <- c(67,78,39,98,61,45,64,52,76,93) > 理科 <- c(68,84,44,95,63,50,72,47,72,91) データを確認のため表示させてみる。 > 成績d

    Rのprcomp()関数で主成分分析をするときの注意点 - StatsBeginner: 初学者の統計学習ノート
  • Rの基本パッケージ中の多変量解析関数一覧 - RjpWiki

  • JIN'S PAGE

    R、R言語、R環境・・・・・・ Rのダウンロードとインストール リンク集 題名 Chap_01 データ解析・マイニングとR言語 Chap_02 Rでのデータの入出力 Chap_03 Rでのデータの編集と演算 Chap_04 Rと基統計量 Chap_05 Rでの関数オブジェクト Chap_06 Rでのデータの視覚化(1) Chap_07 Rでのデータの視覚化(2) Chap_08 Rでのデータの視覚化(3) Chap_09 GGobiとデータの視覚化(Rgobi) Chap_10 Rと確率分布 Chap_11 Rと推定 Chap_12 Rと検定 Chap_13 Rと分散分析 Chap_14 Rと回帰分析 Chap_15 Rと重回帰分析 Chap_16 Rと一般化線形モデル Chap_17 Rと非線形モデル Chap_18 Rと判別分析 Chap_19 Rと樹木モデル Chap_20 WEK

  • 主成分分析と因子分析

    ここではデータとして2022年度全国学力・学習状況調査の結果を使う: df = read.csv("http://okumuralab.org/~okumura/python/data/atest2022.csv") 頭の部分だけ表示してみる: head(df) 小国 小算 小理 中国 中数 中理 1 64.44456 61.07105 62.87208 68.59639 48.93763 48.96912 2 67.81161 63.19436 65.83762 69.13618 51.55864 48.98470 3 66.98455 61.59387 63.19816 69.80850 48.52725 47.56724 4 63.68711 60.15438 61.49521 69.14642 48.57422 49.72042 5 70.78273 66.45425 70.614

  • biunit

    農学生命情報科学特論 I @東京大学アグリバイオインフォマティクス教育研究ユニット (2023-10) プログラミング言語未経験者を対象とした Python 入門講義。農学や分子生物学などの分野で利用される Python の最新事例を紹介しながら、Python の基礎文法の講義を行う。

  • 統計的消去で擬似相関を見抜こう! - ほくそ笑む

    今日は初心者向け記事です。 はじめに ある範囲の年齢の小学生32人を無作為に選び、算数のテストを受けてもらい、さらにその身長を測定しました。 身長に対する算数の点数のグラフは次のようになりました。 なんと、身長の高い子供の方が、算数の点数が高いという結果になりました! 身長が算数の能力に関係しているなんて、すごい発見です! しかしながら、結論から言うと、この結果は間違っています。 なぜなら、抽出したのは「ある範囲の年齢の小学生」であり、年齢の高い子も低い子も含まれているからです。 年齢が高いほど算数能力は高くなり、年齢が高いほど身長も高くなることは容易に推測できます。 この関係を図で表すと次のようになります。 つまり、年齢と算数能力に相関があり、年齢と身長にも相関があるため、身長と算数能力にも見かけ上の相関が見えているのです。 このような相関を擬似相関と言います。 統計解析では、このような

    統計的消去で擬似相関を見抜こう! - ほくそ笑む
  • Rによる棒グラフの描き方

    棒グラフはコマンド"barplot"にて作成する。"barplot(height)"のように用い、この"height"に描画したいデータを入力する。ベクトルまたは行列形式のデータを読み込むことができる。ベクトルを与えた場合は、各要素の値が棒の高さ (長さ) として描画される。行列を与えた場合は、オプションにより、積み上げ棒グラフかグループごと (列ごと) に要素がまとめられた棒グラフが描かれる。 まず、以下のコマンドにてベクトル型および行列型のデータを準備する。"dat_v"がベクトル、"dat_m"が2行5列の行列である。

    Rによる棒グラフの描き方
  • Rでラベル付き散布図を作成して保存するまで - 503 Service Unavailable

    この程度のことだけれど意外に少し情報探すのにも苦労したのでメモ。散布図を書く場合、どの点がどの数値なのかのラベルが欲しい時がある。Rの場合、maptoolsパッケージを用いるとうまく出力できるのでその方法を紹介する。 データの準備 maptools関数*1を読み込んで、データを準備。*2 #今回使うライブラリ library(maptools) #データの準備 CC <- c("CAN","DNK","FIN","FRA","DEU","ITA","JPN","KOR","NLD","POL","SWE","GBR","USA") PAR <- c(13.7,15.7,16.6,16.6,20.2,20.1,22.1,10.3,14.9,13.5,17.6,15.6,12.8) SE <- c(3.8,7.4,8.6,11.5,8.5,12.2,9.3,1.9,5.4,8.9,9.4,6.

    Rでラベル付き散布図を作成して保存するまで - 503 Service Unavailable
  • 国文学研究資料館、『国文研古典籍データセット(第0.1版)』を公開へ

    国文学研究資料館が、古典籍を自由に研究・活用してもらうため、国立情報学研究所の協力のもと、同館所蔵の日の古典籍350点の全冊画像データ(画像約6万3千コマ)とその書誌データを、同研究所の「情報学研究データリポジトリIDR」より、データセットとして、2015年11月10日から一般公開すると発表しています。 データセットの構成は以下の通りとのことです。 ・古典籍画像データ:350点におよぶ日の古典作品について、その全冊(約63,000コマ)のJPEG形式の画像データ。 ・書誌データ:350点に関する当館作成の書誌データをテキスト形式でまとめたもの。一部の作品には当館で付与した略解題も含む。 ・文テキストデータ:一部の作品について、その翻刻文のテキストデータを付す。 ・タグデータ:一部の作品について、当館で付与作業を行っている1枚1枚の画像に対する文中の固有名詞のタグ情報をCSV形式のデ

    国文学研究資料館、『国文研古典籍データセット(第0.1版)』を公開へ
  • Python 機械学習プログラミング データ分析ライブラリー解説編

    ITエンジニアのための機械学習理論入門」で提供しているサンプルコードに含まれるデータ分析ライブラリ(NumPy/pandasなど)を解説した資料です。 下記の書籍のサンプルコードが理解できるようになることが目標です。 - ITエンジニアのための機械学習理論入門(技術評論社) - http://www.amazon.co.jp/dp/4774176982/ 2015/10/25 ver1.0 公開 2015/10/26 ver1.1 微修正 2016/05/25 ver1.4 subplotの順番を修正 2016/11/15 ver2.0 改訂版公開 2016/11/16 ver2.1 改行幅修正 2017/01/10 ver2.2 微修正 2017/01/12 ver2.3 微修正

    Python 機械学習プログラミング データ分析ライブラリー解説編
  • 教師なし学習による異常値検知: マハラノビス距離 (理論編) - Qiita

    マハラノビス距離に基づく異常値検知について説明をします. 実装編はこちら これは,教師なし学習により,データのパタンを学習し,このデータから著しく外れたデータを異常値として検出する方法です. マハラノビス距離とは,統計学で用いられる距離を表す手法の1つです. 似た距離の表す手法としてユークリッド距離がありますね. おさらい まずはじめにユークリッド距離の説明をしておさらいをしたいと思います. ユークリッド距離とは,いわゆる「一般的」な距離を表す手法です. ピタゴラスの定理で求められることはご存知だと思います. 簡単に2次元平面で考えると,

    教師なし学習による異常値検知: マハラノビス距離 (理論編) - Qiita
  • 1