[B! statistics] [2ページ] InoHiroのブックマーク

CAGR（年平均成長率）

突然ですが、CAGR（年平均成長率）ってご存知ですか？ちょっと聞き慣れない言葉かもしれません…。　「う～ん、また厄介そうなものが出てきたなぁ～、アルファベット4文字って嫌な予感…」と毛嫌いしないでください。CAGRはみなさんの味方ですよ（笑）！ここで紹介したのは、CAGR（Compound Annual Growth Rate）を使えるようになると、なにかと便利だからなんです。例えば次のような表を見てください。これは、Ａ社の売り上げ推移を示しました。この表から売り上げの推移を読み取って、毎年平均して何％ずつ売り上げが成長しているのか計算できますか？前年度からの伸び率（単年の伸び率）は割り算をすることで、簡単に計算できますが（上表参照）、3年分の平均、5年分の平均を計算しようとすると迷ってしまいますよね。（少なくとも私は迷っていました…）例えば2000年から2002年までの3年分の推移

InoHiro 2015/03/31

statistics

リンク

浅野の講義・統計学（2011年度秋学期）

この講義についてこの講義は，2011年度秋学期は宮下教授の代理で浅野が担当します。シラバスと講義の案内関西大学シラバス検索（「科目検索」で「統計学」を検索し，「複数クラス科目」の"70438"を表示させてください）教科書は，宮下教授の指定通り，野口・又賀「社会科学のための統計学」（日科技連）を用います（シラバスに書いてある本は絶版になったため，指定教科書が変更されています）。同時に，浅野が用意した下記の参考プリントも用います。講義案内プリント

InoHiro 2015/03/27

statistics

リンク

特性関数 (確率論) - Wikipedia

性質[編集] 確率変数の特性関数は、測度が有限な空間上の有界な連続関数の積分であるため、常に存在する。特性関数は空間全体について一様連続である。ゼロ付近では根を持たない (φ(0) = 1)。有界である (|φ(t)| ≤ 1)。エルミート関数である（φ(−t) = φ(t)）。原点を中心として対称性のある確率変数の特性関数は実数関数であり偶関数である。累積分布関数と特性関数の間には全単射が存在する。すなわち、2 つの任意の確率変数 X1 と X2 について、次が成り立つ：確率変数 X に最大 k-次のモーメントがある場合、その特性関数 φX は実数直線全体について k 階連続微分可能である。このとき、次が成り立つ：特性関数 φX がゼロにおいて k 階の導関数を持つなら、確率変数 X は k が偶数なら最大で k-次のモーメントを持つが、k が奇数なら最大で k − 1-次

InoHiro 2015/03/23

リンク

独立 (確率論) - Wikipedia

確率論における独立（どくりつ、英: independent）とは、2つの事象が何れも起こる確率がそれぞれの確率の積に等しいことをいう。一方の事象が起こったことが分かっても、他方の事象の確率が変化しないことを意味する。この「独立」の概念は、2個以上の事象、2個以上の確率変数、2個以上の試行に対して定義される。 2つの確率変数が独立であるとは、「ある確率変数の値が一定範囲に入る事象」と「別の確率変数の値が別の一定範囲に入る事象」が、考えられるどのような「一定範囲」（「考えられる」とは通常ボレル集合族を指す）を定めても事象として独立であることをいう。2つの確率変数が独立である場合は、一方の変数が値をとっても、他方の変数の確率分布が変化しないことを意味する[1]。確率論における独立は、他の分野における独立性の概念と区別する意味で、確率論的独立（かくりつろんてきどくりつ、英: stochasti

InoHiro 2015/03/23

リンク

同時確率分布

■記号と用語右図１のような「普通のさいころ」１個と，６の目を１の目に書き換えてⅠの目が２つあるように「細工をしたさいころ」１個の合計２個のさいころを投げて，出た目の数を各々X, Yとします．このとき，X, Yの出方に応じて確率を考えるには，右の表１のようにX, Yの確率分布を同時に考えます．このように，２つの確率変数の分布を同時に考えたものを同時確率分布（または同時分布，結合確率分布）といいます．

InoHiro 2015/03/23

statistics

リンク

データサイエンティストというかデータ分析職に就くための最低限のスキル要件とは - 渋谷駅前で働くデータサイエンティストのブログ

追記（2017年7月）こちらのスキル要件ですが、2017年版を新たに書きましたので是非そちらをご覧ください。「データサイエンティストというかデータ分析職に就くためのスキル要件」という話題が某所であったんですが、僕にとって馴染みのあるTokyoR界隈で実際に企業のデータ分析職で活躍している人たちのスキルを眺めてみるに、みどりぼん程度の統計学の知識はじパタ程度の機械学習の知識 RかPythonでコードが組める SQLが書けるというのが全員の最大公約数＝下限ラインかなぁと。そんなわけで、ちょろっと色々与太話を書いてみます。なお僕の周りの半径5mに限った真実かもしれませんので、皆さん自身がどこかのデータサイエンティスト（）募集に応募して蹴られたとしても何の保証もいたしかねますので悪しからず。統計学の知識は「みどりぼん以上」データ解析のための統計モデリング入門――一般化線形モデル・階層

InoHiro 2015/03/14

リンク

同時分布 - Wikipedia

同時確率分布（どうじかくりつぶんぷ、英: joint probability distribution）あるいは同時分布（どうじぶんぷ、英: joint distribution）、結合確率分布（けつごうかくりつぶんぷ）や結合分布（けつごうぶんぷ）とは、確率論において、複数の確率変数の組を確率要素とする確率の確率分布のことである。離散型確率変数なら同時確率質量関数（同時確率関数ともいう）、連続型確率変数で連続確率分布ならば同時確率密度関数で表される。定義[編集] 確率論では、n 個の確率変数 X1, X2, …, Xn の同時確率分布とは、確率変数の組 (X1, X2, …, Xn) ∈ Rn に確率を対応させる関数のことである。同時確率分布は Rn 上の測度であり、記号と書かれる。同時累積分布関数（joint cumulative distribution function）、

InoHiro 2015/02/17

statistics

リンク

ダメな統計学：目次｜Colorless Green Ideas

2017年1月20日追記：『ダメな統計学――悲惨なほど完全なる手引書』という本が出版されることになった。この本は、ここに掲載されているウェブ版の『ダメな統計学』に大幅に加筆したものだ。ウェブ版の『ダメな統計学』を読んで興味を持った方は、書籍となった『ダメな統計学』をぜひ読んでいただければと思う。書籍版の詳細については「『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版」という記事をご参照願いたい。ここに公開する『ダメな統計学』は、アレックス・ラインハート (Alex Reinhart) 氏が書いたStatistics Done Wrongの全訳である。この文章は全部で13章から構成されている。詳しくは以下の目次を参照されたい。はじめにデータ分析入門検定力と検定力の足りない統計擬似反復：データを賢く選べ p値と基準率の誤り有意であるかないかの違いが有意差でない場合停止規則と

InoHiro 2014/12/17

statistics

リンク

GitHub - escline/linefit: LineFit Ruby Gem does weighted or unweighted least-squares line fitting to two-dimensional data (y = a + b * x). (Linear Regression)

Contents: NAME SYNOPSIS DESCRIPTION ALGORITHM LIMITATIONS EXAMPLES METHODS SEE ALSO AUTHOR LICENSE DISCLAIMER NAME LineFit - Least squares line fit, weighted or unweighted SYNOPSIS require 'linefit' lineFit = LineFit.new lineFit.setData(x,y) intercept, slope = lineFit.coefficients rSquared = lineFit.rSquared meanSquaredError = lineFit.meanSqError durbinWatson = lineFit.durbinWatson sigma = lineFit

InoHiro 2014/12/08

リンク

政治学方法論 I：線形回帰分析（1）

InoHiro 2014/12/08

リンク

ビジネス統計解析

ビジネス統計解析講義概要：授業シラバス（pdfファイル）【講義資料（データ）】４月２６日演習問題の解答（pdf）フリーソフト「R」の導入手順の説明ファイルフリーソフト「R」の基本操作の説明ファイル１章のファイル１章の演解答ファイル２章のファイル３章のファイル３章の演解答ファイル４章のファイル４章のqccファイル５章のファイル５章の演解答ファイル６章のファイル６章の演解答ファイル７章のファイル７章の演解答ファイル８章のファイル８章の演解答ファイル【ビジネスデータ解析講義資料】目次のファイル 2章のファイル 3章のファイル 4章のファイル 5章のファイル txtファイル【多変量解析法の関連情報】行列の固有値固有ベクトルを求めるプログラム　【統計解析ソフト「Ｒ」のソース＆関連情報】 RjpWiki　(「R」情報交換Ｗｉｋｉサイト) R-2.2.

InoHiro 2014/12/08

リンク

t値とp値の違い | XICA-Labs

回帰分析の結果を見る際の一つの重要なチェック項目として、説明変数の係数や定数項が有意である（すなわち、統計分析によって導かれた値が「意味」が「有る」ものである）か否かに着目します。その際、キーワードとなるのがt値とp値です。 t 値とは何か？ t 値は、説明変数の係数や定数項の確からしさの度合いを判断する際に使用する数値であり、t 値の絶対値が大きければ大きいほど、強く有意であると判断できます。（注1）具体的には、t 値が「-2以下」か「+2以上」であれば有意であると一般的には判断されます。つまり、絶対値 2 以上（ t ≧｜2｜）あると有意であると判断できます。ただし、サンプルサイズによってその基準は異なってきます。 p 値とは何か？一方、p 値とは、説明変数の係数や定数項が”たまたま”その値である確率を示しています。例えば、ある説明変数の係数の p 値が 5 %以下であった場合、「

InoHiro 2014/12/03

statistics

リンク

Assessing Trend Line Significance

InoHiro 2014/12/03

リンク

生活定点1992-2018｜博報堂生活総研

生活定点とは？ 1992年から隔年で実施している生活者の意識調査です。同じ質問を繰り返し投げ掛け、その回答の変化を定点観測しています。

InoHiro 2014/10/22

statistics

リンク

移動平均 - Wikipedia

移動平均は、時系列データ（より一般的には時系列に限らず系列データ）を平滑化する手法である。音声や画像等のデジタル信号処理に留まらず、金融（特にテクニカル分析）分野、気象、水象を含む計測分野等、広い技術分野で使われる。有限インパルス応答に対するローパスフィルタ（デジタルフィルタ）の一種であり、分野によっては移動積分とも呼ばれる。主要なものは、単純移動平均と加重移動平均と指数移動平均の3種類である。普通、移動平均といえば、単純移動平均のことをいう。単純移動平均[編集] 単純移動平均 (英: Simple Moving Average; SMA) は、直近の n 個のデータの重み付けのない単純な平均である。例えば、10日間の終値の単純移動平均とは、直近の10日間の終値の平均である。それら終値を , , ..., とすると、単純移動平均 SMA(p,10) を求める式は次のようになる: 翌日の

InoHiro 2014/09/24

リンク

ハンバーガー統計学にようこそ！

｜向後研究室ホームへ｜次へ→ ハンバーガーショップで学ぶ楽しい統計学 ──平均から分散分析まで── Web独習教材「ハンバーガーショップで学ぶ楽しい統計学《にようこそ！この教材は、実際に大学の授業で使用したものです。それを一般公開しますので、どうぞお役立てください。下のメニューに従って１章から７章まで順番に学習していくと、平均から分散分析までを習得することができます。大学の卒業論文レベルで使う統計学として、きっと役立つことでしょう。なお、相関（相関から因子分析まで）については、姉妹編の「アイスクリーム屋さんで学ぶ楽しい統計学《が公開されています。さあ、がんばって進めていきましょう。教材メニュー

InoHiro 2014/09/22

statistics

リンク

3.1 チキンの売り上げは少ないのか

この表によると、ワクワクのチキンの売り上げは165個で、それに対してモグモグのチキンの売り上げは135個でした。しかし、このチキンの売り上げ数だけを単純に比べても、両店で違いがあるかどうかは分かりません。なぜなら、両店の全体の売り上げ数が違うからです。そこで、ハンバーガーショップの定番商品であるポテトの売り上げ数を基準にして比べることにします。ワクワクでは、ポテト435個に対してチキン165個で、約4割です。対するモグモグでは、ポテト265個に対してチキン135個で、約5割です。これで見る限り、モグモグの方がチキンの売り上げの割合が多そうに思えます。さて、これだけで、「モグモグの方がチキンの売り上げが、割合として多い」と断言していいのでしょうか。統計学では、これをどのように考えるのでしょうか。仮説を立てる統計学では、まず「仮説」を立てるところから出発します。仮説とは、「○○であ

InoHiro 2014/09/22

statistics

リンク

株式会社ALBERT（レコメンドエンジン）

データ分析から導き出されたインサイト無しにAI（人工知能）の活用は始まりません。私たちは、各業界知識とデータ・アナリティクス技術を駆使しデータドリブン経営を強力に支援します。データ、アナリティクス、AIは企業にとって競合他社との差別化を図るかつてないほど大きな要因になっています。今日の経営幹部が効率を向上しながら新たな収益源を開拓し、新しいビジネスモデルをタイムリーに構築する方法を模索する中、価値を生み出し成長を続ける企業には「データ活用」という共通項があります。私たちは、無数のデータから企業にとって本当に必要なデータを活用するための方法を知っています。将来を見据えたオペレーション体制を備えている企業の半数以上（52％）は、すでにデータとアナリティクスを大規模に活用しています。データとAIに関する取り組みをビジネス戦略に沿って実施することで投資利益率を迅速に最大化し、最終的にはAIをビ

InoHiro 2014/07/30

リンク

統計的機械学習入門 | 中川研究室

導入pdf 情報の変換過程のモデル化ベイズ統計の意義識別モデルと生成モデル最尤推定、MAP推定データの性質情報理論の諸概念 (KL-divergenceなど) 距離あるいは類似度数学のおさらいpdf 行列の微分線形代数学の役立つ公式多次元正規分布条件付き正規分布 Bayes推論pdf Bayseによる確率分布推定の考え方多項分布、ディリクレ分布事前分布としてのディリクレ分布の意味<\li> 正規分布と事後分布指数型分布族自然共役事前分布の最尤推定線形回帰および識別pdf 線形回帰のモデル正則化項の導入 L2正則化 L1正則化正則化項のBayes的解釈線形識別 2乗誤差最小化の線形識別の問題点生成モデルを利用した識別学習データと予測性能pdf 過学習損失関数と Bias,Variance, Noise K-Nearest Neighbor法への応用 b