サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
中東情勢
bellcurve.jp
※コラム「統計備忘録」の記事一覧はこちら※ 外れ値と異常値、どちらも英語の outlier の訳語として用いられています。外れ値とは、実験や調査で観測された値の中で、真の値の推定値*1からの残差*2が異常に大きい観測値のことです。同じ本の中で、外れ値と異常値を使い分けていることがありますが、この場合、外れ値の中でも外れ値となった理由があるものを異常値としています。例えば、子供の平熱を調べていたら風邪で熱を出している子が紛れ込んでしまったような場合です。 さて、どれくらいだと異常に大きいとみなすのかというと、正規分布するような値であれば、残差が標準偏差の 2倍から3倍以上あるときとすることが多いですね。確率的には、残差が標準偏差の 2倍以上とするなら4.6%程度、3倍以上とするなら 0.3%程度の出現率ということになります。エクセル統計では外れ値検定に含まれる「スミルノフ・グラブス検定」とい
2つの累積相対度数を用いて描かれたローレンツ曲線を使うと、「偏り=不均等さ」を確認できます。 例えば、次の各都道府県内にある映画館のスクリーン数のデータから作成したローレンツ曲線の赤い矢印をたどると、約80%の都道府県内で全国のすべてのスクリーン数の40%強があるということが分かります。逆に、残りの約20%の都道府県内には60%弱ものスクリーン数があるということなので、スクリーンの分布は不均等であることが分かります。 この「偏り」や「不均等さ」を数値で表したものが「ジニ係数」です。ジニ係数は完全平等線((0,0)と(1,1)を結ぶ線:図中の黒破線)とローレンツ曲線との間の面積(次の図の橙色部分)を2倍した値になります。ジニ係数は0から1までの値をとり、1に近いほど偏りが大きく、0に近いほど偏りが小さいことを表します。 ■ジニ係数が0の場合 不均等さが全くない場合、ローレンツ曲線は次の図のよ
■検定統計量 身長や体重などについて検定を行う場合は、コインの裏表が出る確率とは異なり、取りうる値がどのくらいの確率でその値となるかが分かりません。そこで、身長や体重の値を「検定するための値」に変換します。このようにして算出された値が検定統計量(統計量と呼ばれることもあります)となります。 検定では、データから算出された検定統計量より極端な値をとる確率が有意水準と比較して大きいのか、小さいのかに基づいて帰無仮説を棄却するかどうかを判断します。検定統計量にはいくつかの種類がありますが、ここでは代表的な2つについて説明します。 1. 統計量z(=z値) 平均が0、分散が1となるようにデータを標準化した値のことです。例えば標本平均を標準化した値は次の式から算出できます(:データの平均、:母平均、:母分散、:サンプルサイズ)。分母のは標本平均の標準誤差=標本平均の標準偏差を表します。統計量zは標準
次のデータは2015年12月末時点の各都道府県内にある映画館のスクリーンの合計数と可住地面積100当たりの薬局数を表したものです。このデータを用いて相関係数を算出すると、「0.82」でした。つまり、映画館のスクリーン数と薬局の数には強い相関があるという結果でした。 出典:総務省統計局 社会生活統計指標-都道府県の指標-2015 しかし、一般的に考えて都道府県ごとの映画館のスクリーン数と可住地面積100当たりの薬局の数は直接的に関係がないような気がします。映画館のスクリーン数が多いから薬局の出店数が増えるわけでも、薬局の数が多いから映画館のスクリーン数が増えるわけでもないためです。このような場合には、「第3の因子」の存在を考慮する必要があります。
統計学では、変数をその性質に応じて4つの尺度に分けて考えることがあります。Wikipediaによると、提案したのはスタンレー・スティーブンズ(Stanley Smith Stevens)です。1946年にサイエンス誌に発表された"On the theory of scales of measurement"という論文の中で、変数の4つの尺度、「名義尺度」「順序尺度」「間隔尺度」「比例尺度」について説明しています。 それぞれの尺度については具体例を見たほうが分かりやすいと思いますので、次に例を示します。 ■名義尺度 他と区別し分類するための名称のようなもの 例:男女、血液型、郵便番号、住所、本籍地、所属学部、学籍番号 使える統計量:各ケースの数、計数(count)、頻度(frequency)、最頻値、連関係数 ■順序尺度 順序や大小には意味があるが間隔には意味がないもの 例えば、1位+2位≠
重回帰分析は複数の説明変数(i=1, 2, 3, ・・・)を用いて目的変数を表す回帰式を算出することです。例えば、次のようなデータについて考えてみます。 出典:総務省統計局 社会生活統計指標-都道府県の指標-2015 このデータでは年日照時間を目的変数とし、残りの4変数を説明変数とします。年平均気温を、人口密度を、持ち家比率を、降水量をとするとき、次のような重回帰式を求めることを考えます。 ある偏回帰係数は、それ以外の説明変数の値を固定した(変化させない)場合に、その説明変数が1増加するとyがどれだけ増加/減少するかを示しています。例えば、人口密度、持ち家比率、降水量を固定した場合、年平均気温が1℃上がると年日照時間が77.2時間増加すると考えられます。 ■標準偏回帰係数 標準偏回帰係数は、説明変数および目的変数をそれぞれ標準化した値から算出される偏回帰係数のことです。標準偏回帰係数は重回
※コラム「統計備忘録」の記事一覧はこちら※ 前回は「割合と比率」について何が違うのか調べてみたが、私の結論としては和語と漢語の違いということに落ち着いた。これ以外にも「率」とか「比」なんかも、使い分けに不安を覚えることがある。そこで、疫学の本を見てみることにした。 日本疫学会が監修した『はじめて学ぶやさしい疫学 改訂第2版』を読むと、「割合」、「率」、「比」を次のように説明している。 割合 proportion 特定部分の全体に占める大きさ 例)肥満者の割合=肥満者数/対象者全体の人数 (対象者全体の人数=非肥満者数+肥満者数) 率 rate 割合とほぼ同じ意味ではあるが、単位時間当たりの変化を表す場合が多い。 例)死産率=死産数/出産数 (出産数=出生数+死産数) 出生数、死産数は1年間の発生数 比 ratio 二つの量の比較に用いる(分子と分母が異なる) 例)死産比=死産数/出生数、男
例えば、ある街で1年間(365日)のうち雪が降る日数は平均20日のポアソン分布に従うとします。このとき、この街で1年間に雪が降る日数の期待値とその分散はともに「20」になります。 例題1: エクセル統計開発者のKさんのもとには、1時間あたり平均5通のお問い合わせメールが届きます。1時間にお問い合わせメールが届く数がポアソン分布に従うとすると、終業時刻までの1時間の間にお問い合わせメールが1通も届かない確率はいくらでしょうか。 1時間あたりの平均お問い合わせメール数が「5」と与えられているので、となります。したがって、1時間の間にお問い合わせメールが1通も届かない確率は、 です。すなわち、お問い合わせメールが1通以上来る確率は(=99.3%)となることから、終業までの1時間の間、Kさんはのんびりできなさそうです。 例題2: 当選確率がである宝くじを200枚買う時、200枚のうち1枚だけが当た
期待値とは、1回の試行で得られる値の平均値のことで、得られうるすべての値とそれが起こる確率の積を足し合わせたものです。例えば次の表に示すように、n通りの結果があり、それぞれの起こる確率がであるとします。
Excelで重回帰分析(6)―重回帰分析の分散分析とt検定 2017/08/15 カテゴリ:コラム「統計備忘録」 タグ:重回帰分析, 統計備忘録, 分析ツール ※コラム「統計備忘録」の記事一覧はこちら※ Excelの分析ツールを使って重回帰分析を行うと、2種類の検定結果が出力されてきます。1つは分散分析表、「母重相関係数は 0(ゼロ)である」という帰無仮説を検定しています。もう1つは偏回帰係数に続いて出力される t 検定の結果で、「偏回帰係数は 0 である」という帰無仮説を検定しています。 分散分析表のチェックポイントは「有意F」の値です。この値は、「回帰」と「残差」の2つの「自由度」に基づくF分布における「観測された分差比(=F値)」の上側確率です。一般的な統計ソフトなら「p値」として示されています(同じ分析ツールでも分散分析の出力では「P値」を使っています)。 有意水準を p<0.05
確率変数の期待値は、確率変数がとる値とその値をとる確率の積を全て足し合わせたもので、確率変数の平均値を表します。期待値は分布の特徴を掴むために用いられる情報の一つであり、Expectation(期待)の頭文字の「」を用いて表します。例えば、確率変数の期待値は「」と表します。 ■離散型確率変数の場合 離散型確率変数の期待値の場合の期待値は、確率変数がとり得るそれぞれの値に対応する確率を掛け、掛けた結果を全て足し合わせることで算出できます。
統計学を勉強する上で、数学は避けては通れません。数学を一切使わない統計の解説というのは、インチキと言っても差し支えないか、抽象的な説明になりすぎて逆に理解しにくいかのどちらかです。 「統計学の時間 Step1. 基礎編」は、統計検定®2級を目標に作成しています。統計検定®2級の範囲に含まれる定義や分析方法の仕組みを全て理解しようとすると、大学で学ぶ数学の知識が必要になりますが、統計検定®2級程度の統計学を使ってデータを分析することが目的であれば、高校数学までの知識で十分です。 ただし、いきなり高校数学を大前提にすると読み進めるのが難しい部分もあるので、以下に挙げたような数学の範囲がある程度分かっていることを前提として、各コンテンツを作成しています。どうしても苦手な分野がある方は「数学ノート」の「統計学で使う数学」を使って復習してみてください。 ■想定している前提知識(中学校の範囲) 分数の
分散は「データがどの程度平均値の周りにばらついているか」を表す指標です。ただし、注意しなければならないのは「分散同士は比べることはできるが、分散と平均を足し算したり、分散と平均を比較したりすることはできない」という点です。これは、分散を計算する際に各データを2乗したものを用いていることが原因です。 例えば100人の身長を「cm」の単位で測定した場合には、平均の単位は「cm」となりますが、分散の単位はその2乗の「cm2」となるため、平均と分散の値をそのまま比較したり計算したりすることはできません。 そこで、分散の「平方根」を計算することで2乗された単位は元に戻り、足したり引いたりすることができるようになります。分散の正の平方根のことを「標準偏差」と言います。 英語では、standard deviationと表記され、SDと略されることもあります。記号は「(小文字のシグマ)」を用いて表されるこ
P値 P-value 統計的仮説検定において、帰無仮説の元で検定統計量がその値となる確率のこと。P値が小さいほど、検定統計量がその値となることはあまり起こりえないことを意味する。 一般的にP値が5%または1%以下の場合に帰無仮説を偽として棄却し、対立仮説を採択する。 ア行カ行サ行タ行ナ行ハ行マ行ヤ行ラ行ワ行英字記号 Excel:このマークは、Excel に用意された関数により計算できることを示しています。 エクセル統計:このマークは、エクセル統計2012以降に解析手法が搭載されていることを示しています。括弧()内の数字は搭載した年を示しています。 秀吉:このマークは、秀吉Dplusに解析手法が搭載されていることを示しています。 ※「エクセル統計」、「秀吉Dplus」は株式会社会社情報サービスのソフトウェア製品です。
※コラム「統計備忘録」の記事一覧はこちら※ 検定を行うと「*(アスタリスク)」の有無だけをチェックして、p値を調べない人がいるようだ。 エクセル統計を含めて多くの統計ソフトでは、検定結果に、検定統計量のtやFなどの値と、統計量から導かれたp値を出力する。さらに、p値が0.05未満(p<0.05,5%未満)になるとアスタリスクを1つ出力する。0.01未満になれば2つ出力する。 p値は「帰無仮説が正しいという前提において、それ以上、偏った検定統計量が得られる確率」を示している。 帰無仮説が「母集団Aと母集団Bの平均は等しい」とすると、p値は「2つの母集団AとBから、サンプリング可能なすべての組み合わせの総数を1として、その中で、今回の平均値の差以上に、平均値の差が生じるサンプルの組み合わせが占める比率」ということになる。 帰無仮説が正しいのに棄却してしまう誤りを「第1種の過誤(Type I e
データの中には株価や気温の変化、朝顔の成長記録など、「時間」と「その時間に記録された値」からなるものがあります。このような時間の経過に従って測定されたデータのことを「時系列データ」といいます。時系列データを使って、時間の経過による値の変化を分析することを「時系列分析」といいます。時系列分析によって何らかの傾向が見られた場合、その傾向から将来の予測を行うことができます。 株価や気温など時間で細かく変化するデータを眺めると、変動が細かすぎて全体の傾向を掴みにくい場合があります。そのようなときには「移動平均」を用いることで、変化をより滑らかにしてデータを俯瞰できます。 次のデータは、2015年8月の新宿御苑における1時間ごとの気温の測定結果です。毎時データなので、日中と夜間の気温変化を読み取ることはできますが、8月全体を通しての変動は簡単には読み取れそうにありません。 このような場合には、移動平
直線的な相関関係の強さを表す指標の一つに「相関係数(ピアソンの積率相関係数)」があります。2つの要素xとyからなるn個のデータ(, : i=1, 2,…, n)が得られたとき、その相関係数は次の式から算出されます。 この式の分母はx、yそれぞれの標準偏差の積になっています。また、分子はxとyの「共分散」です。 共分散は、xとyそれぞれの平均値に対する、xとyのペアの値の散らばり方を表すものです。例えば、とが共に正もしくは負である場合、となります。一方、とが正と負もしくは負と正である場合、となります。このの平均値が共分散なので、共分散が正→xとyのペアの値が共に正もしくは負→相関係数が正の値となります。 相関係数rには次のような特徴があります。 rは-1から1までのいずれかの値をとる |r|が1に近いほど相関が強く、0に近いほど相関が弱い |r|が0に近くても、何らかの関係がある場合がある
「統計学の時間 Step1. 初級編」は統計検定®2級程度の統計の知識を身につけることを目的としています。統計検定®は「一般財団法人 統計質保証推進協会」が実施する統計の実力をはかるための試験で、1級、準1級、2級、3級、4級の5つの級があります。CBT(Computer Based Testing)方式により、1級以外は希望の場所・日時で受験することができるようになりました(詳しくはこちら)。 大学の一般教養レベルの「2級」が統計学の基礎知識がひと通り身につくレベルとなっています。 ■おすすめの4冊! ここでは、統計検定®2級をめざすために目を通しておくとよいと思われる本を紹介します。まずは超有名な通称「赤本」、こと東京大学出版会の『統計学入門 (基礎統計学)』です。この本をひと通り理解できれば統計検定®2級を突破できる力が身につきます。 ただし、この「赤本」は統計学に初めて触れる方にと
ヒストグラムを作る際に大事な点は、階級の幅(度数を集計するための区間の大きさ)をどのくらいの大きさにするかという点です。2-1章で使用した各都道府県内にある映画館のスクリーン数のデータを用いて2つのヒストグラムを作成してみました。 ■階級の幅が200のヒストグラム 階級幅が200のヒストグラムでは、都道府県ごとのスクリーン数の分布がよく分かりません。一方、階級幅が18ののヒストグラムでは分布は分かるもののやや細か過ぎる印象を与えます。さらに階級の区切り方が中途半端であるため、階級値が分かりづらくなってしまっています。 階級の幅の決め方にルールはありませんが、グラフを一目見て分布の特徴が捉えられるようにすることが推奨されます。階級幅が大きすぎても、逆に小さすぎてもデータの大まかな分布が分かりづらくなってしまいます。階級幅の決め方で困った場合には、「スタージェスの公式」を使うこともできます。こ
■正規分布 正規分布は統計学における検定や推定、モデルの作成など様々な場面で活用される連続型確率分布です。多くの統計的手法において、データが正規分布に従うことを仮定します。正規分布は次の図のように左右対称の形をしており、横軸は確率変数を、縦軸はそのときの確率密度を表します。
単純無作為抽出法は標本調査の最も基本的な方法ですが、母集団から完全に無作為に調査対象を取り出すのは、非常に手間と時間がかかる場合があります。そこで、母集団の特徴を反映させつつより手間を軽減させた様々な無作為抽出法があります。 ■層化抽出法(層別抽出法) 母集団をあらかじめいくつかの層(グループ)に分けておき、各層の中から必要な数の調査対象を無作為に抽出する方法 【例】男女比が7:3の高校で、10人の学生を対象に意識調査を行う場合、男子の中から7名を、女子の中から3名をそれぞれに無作為に抽出する(このように、層の大きさに比例させて調査対象を抽出する方法を層化抽出法の中でも特に「比例配分法」といいます) 【メリット】母集団内情報(年齢別、性別など)の比較を行える、推定精度が高くなる、各層において分布が大きく異なる場合に使うことができる 【デメリット】母集団の構成情報を事前に知っておく必要がある
データから回帰式を推定すると、データの「予測値」が算出できます。これは、ある値xから予測されるの値のことです。27‐1章で示した、を人口10万人あたりの薬局の数、を人口密度とした場合のデータから求められた回帰式を使って予測値を求めてみます。回帰式は
交絡因子 confounding factor / confounder 交絡を発生させる要因のこと。 例えば、飲酒者と非飲酒者では飲酒者の肺癌発生率が高くなる。これは交絡因子である喫煙の影響によるもので、飲酒者に喫煙者が多いことによる。喫煙の有無で分けてから、飲酒者と非飲酒者の肺癌発生率を比べると違いは無くなり、飲酒は肺癌の発症と関連の無いことが分かる。 ア行カ行サ行タ行ナ行ハ行マ行ヤ行ラ行ワ行英字記号 Excel:このマークは、Excel に用意された関数により計算できることを示しています。 エクセル統計:このマークは、エクセル統計2012以降に解析手法が搭載されていることを示しています。括弧()内の数字は搭載した年を示しています。 秀吉:このマークは、秀吉Dplusに解析手法が搭載されていることを示しています。 ※「エクセル統計」、「秀吉Dplus」は株式会社会社情報サービスのソフト
この章では、「肥料の量×土の種類」で示される「交互作用(Interaction)」について説明します。交互作用は2つの因子が組み合わさることで初めて現れる相乗効果のことです。「肥料の量×土の種類」の場合、肥料の量と土の種類が相互に影響を及ぼし合っていることを表します。また、交互作用による効果のことを「交互作用効果」といいます。 交互作用に対して、1つの因子に絞った場合の効果(この場合は肥料の量や土の種類のこと)のことを「主効果」といいます。 ■交互作用図 「肥料の量×土の種類」の「交互作用」を理解するにあたって、まず「土の種類」ごとに「収量の平均値」の折れ線グラフを描きます。横軸は「肥料の量」です。このグラフは「交互作用図」とよばれます。 ■交互作用効果 「土の種類」ごとの「収量の平均値」の折れ線グラフを見ると、土Aも土Bも肥料の量が増えるに連れて収量が増えていますが、土Bのほうが収量の伸
2つの独立した母集団があり、それぞれの母集団から抽出した標本の平均に差があるかどうかを検定することを「2標本t検定」といいます。例えば、ある学校で行ったテストの点数が1組と2組とで差があるかどうかの検定や、被験者に対してある薬を投与する前後で血圧がどう変化したかの検定に使います。ただし、2つのデータが「対応のあるデータ」か「対応のないデータ」かによって検定統計量の算出方法が異なります。 ■対応がない場合の2標本t検定の方法 異なる対象から抽出された2つの標本は「対応のないデータ(対応なし)」です。 例えば、1組と2組の生徒は異なるので、それぞれのクラスから抽出された2つの標本は「対応のないデータ」となります。 対応がない場合の2標本t検定では、2つの標本に対応がないことを加味した検定統計量を用いる必要があります。20-6章で学んだように、母分散が分からない場合、1群目の標本平均を、母平均を
■ポアソン分布の"素"となる二項分布 ある交差点で1年間のうち事故が起こる日数とその確率について考えます。これは、事故が起こるか起こらないかのベルヌーイ試行と考えることができます。ここでは1日に事故が起こる確率をとします。このとき、1年間()のうち事故が起こる日数を確率変数とすると、日事故が起こる確率は二項分布の一般式にあてはめて次のように計算できます(ただし、1日に2回以上事故は起こらないものとします)。 二項分布では、確率変数の期待値はによって求められることは13-2章で既に学びました。はある事象が起こる平均回数を表します。 ■ポアソン分布 ここでを一定の値「(ラムダ)」とおき、のままでを十分大きくを十分に小さくした場合の二項分布は、平均のポアソン分布に近似することができます。ポアソン分布は「ある期間に平均 回起こる現象が、ある期間に回起きる確率の分布」と言い換えられます。 がポアソン
25-1章の母比率の検定と同じ問題について、この章では二項分布を用いた検定を行ってみます。 例題: あるサイコロを12,000回投げたときに1が2,200回出ました。このサイコロはどの目も等しく出る歪みのないサイコロといえるでしょうか。 サイコロを投げて1が出るか、出ないかという試行は2種類の結果しか得られないので、サイコロをn回投げたときに回1が出る確率は二項分布に従います。 仮説を立てる 帰無仮説は「このサイコロを12,000回振ったときに1が出るのは2,000回(=12,000/6)である」とします。したがって、対立仮説は「このサイコロを12,000回投げたときに1が出るのは2,000回ではない」となります。 有意水準を設定する とします。 適切な検定統計量を決める 二項分布の場合、を確率変数とすると「期待値、分散」が成り立つことは13-2章で既に学びました。したがって、次の式から得
「95%信頼区間」とは、「正規分布に従う母集団から標本を取ってきてその平均から95%信頼区間を求めた時に、その区間の中に95%の確率で母平均が含まれる」という意味だと思う人がいるかもしれませんが、これは間違いです。 母平均は決まった値(定数)であり、確率的に変化することはありません。つまり、算出された信頼区間に母平均が「含まれる」か「含まれない」かのどちらかしかありえません。したがって、「母平均が、95%の"確率"で推定した信頼区間に含まれる」と言うことはできません。 正しくは、「母集団から標本を取ってきて、その平均から95%信頼区間を求める、という作業を100回やったときに、95回はその区間の中に母平均が含まれる」という"頻度"もしくは"割合"を意味します。 例えば日本人全員の平均身長(=母平均)が170cmであるとします。このときに、ランダムに選ばれた100人の身長から95%信頼区間を
統計学の書籍や論文には必ずといってよいほどギリシャ文字が使われています。しかし、いきなり登場されると読み方がわからず、そこで勉強がストップしてしまう恐れがあります。 下の表はギリシャ文字の読み方と、一般的な統計記号としての意味の一覧です。統計記号の使い方については今後おいおい登場すると思いますので、勉強をしていて読み方の分からないギリシャ文字が出てきたら、この表を見て確認してみてください。 なお、下表の中で特に記載のないものは、多くの場合ギリシャ文字の「小文字」を使います。
次のページ
このページを最初にブックマークしてみませんか?
『BellCurve(ベルカーブ)─統計解析ソフト・アンケート集計ソフト』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く