サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
中東情勢
www.snap-tck.com
19.1 正準相関 (1) 複数の項目間の相関関係 一般に、医学分野では人体の生理的な機能を複数の臨床検査値によって総合的に評価します。 例えば腎機能を尿素窒素(BUN)、クレアチニンなどによって総合的に評価したり、肝機能をAST(GOT)、ALT(GPT)、γ-GTPなどによって総合的に評価したりします。 そしてそういった2種類の機能がお互いに影響を及ぼし合っているかどうかを検討するために、それらの間の相関関係を評価したい時があります。 その場合、最も単純な方法は2種類の臨床検査値グループについて総当りで相関係数を求め、それらを総合的に評価する方法です。 この方法では、例えば前述の腎機能に関する2個の臨床検査値と肝機能に関する3個の臨床検査値について、図19.1.1(1)のように全部で3×2=6種類の単相関係数が求められます。 そして同じグループの臨床検査値間には相関があることを考慮した
この章では統計学で取り扱うデータの種類とそれに対応した統計学手法、パラメトリック手法とノンパラメトリック手法の違い、データの基本的な処理方法などを解説します。 2.1 データの種類と統計手法 (1) 尺度によるデータの分類 統計学で取り扱うデータは、大雑把に言って測ったものと数えたものに大別されます。 そしてそのようなデータの種類によってデータを分類する基準のことを尺度(scale)といいます。 このあたりも簡単なものをわざわざ難しくする数学者の面目躍如たるところであります。 尺度によってデータの種類を分類すると次のようになります。 I. 計量値(measured) 身長160cm、体重60kgというように測る性質のデータのことで、単に「データ」と言えば大抵はこのデータを指します。 このデータは数値と数値の間隔が等しいかどうかで、さらに次のように分類されます。 I-1 計量尺度(metri
○計量尺度として扱った場合 例数 = 10 平均値 = 225 標準偏差 = 6 標準誤差 = 1.8 母平均μの95%信頼区間 = 225±4.1 → 下限:μL = 220.9 上限:μU = 229.1 ○順序尺度として扱った場合 例数 = 10 中央値 = 223 範囲 = 19 (正規分布の場合:) 母中央値μ'の95%信頼区間 下限:μ'L = 221 上限:μ'U = 231 なにぶん例数が少ないのではっきりとは言えないものの、図3.1.1の度数分布と図3.1.2の累積度数分布を見ると、データの分布が少し左に偏っていて——これを左傾といいます——正規分布から少しずれているようです。 そのため平均値225は中央値223よりもやや大きく、7番目のデータと同じ値になっています。 しかし計量尺度として扱った時も順序尺度として扱った時も要約値は大して変わらず、この程度のズレなら
1.5 有意性検定の考え方 (1) 信頼区間と検定 次は、いよいよ検定について説明しましょう。 検定は○×式の定性試験ですから、最初に必ず基準値と問題を設定します。 またまた第1節の体重測定の例を取り上げて、次のような問題について調べてみることにしましょう。 ここでは仮に50kgが医学的に意味のある標準体重だと考えて、この値を基準値μ0にします。 基準値は、このように医学的な正常値とか対照群の平均値とか治療前値のような科学的に有意義な値にします。 この問題に対する答えは2つあり、次のように表現できます。 H0:日本人の平均体重は50kgである(μ = μ0 または δ = μ - μ0=0) … 問題の答えは○ H1:日本人の平均体重は50kgではない(μ ≠ μ0 または δ = μ - μ0≠0) … 問題の答えは× 「H」はHypothesis(仮説)の意味で、これらの回答がまだ仮説
5.4 級内相関係数と一致係数 相関係数は2つのデータの大小関係が一致しているかどうかを表す指標です。 そのためデータの大小関係さえ一致していれば、データの値そのものが一致していなくても高い値になります。 しかし場合によってはデータの値そのものが一致しているかどうかを調べたい時があります。 例えば臨床検査値の新しい測定方法を開発し、その測定値が従来の方法で測定した値と一致しているかどうかを調べたい時とか、同一症例の疾患の重症度を複数の医師が判定し、それらの重症度判定が一致しているかどうかを調べたい時などがそれに相当します。 そのような時のために一致度を表す指標が色々と考えられています。 (1) 級内相関係数(ICC:Intraclass Correlation Coefficient) ある疾患にかかっている患者が10名いて、その人達の重症度を3名の評価者が評価したデータが表5.4.1のよ
11.6 パラメトリック生命表解析 (1) パラメトリックモデル 第4節で「ハザード関数λ(t)の具体的な姿を規定するのは困難な場合が多い」と説明しましたが、あえてハザード関数の具体的な姿を規定して生命表解析を行う手法があります。 その手法はパラメトリック生命表解析と呼ばれ、その手法で用いられるモデルはパラメトリックモデルと呼ばれます。 これに対して第1節と第2節で説明した生存率の計算方法と比較方法はノンパラメトリック生命表解析と呼ばれ、第4節で説明した比例ハザードモデルはセミパラメトリックモデルまたはセミノンパラメトリックモデルと呼ばれます。 最も単純なパラメトリックモデルは第3節で例として説明したハザード関数が常に一定と仮定するモデルです。 このモデルは死亡率関数f(t)つまり生存時間の分布が指数分布になるので指数分布モデルまたは標的モデルと呼ばれます。 λ(t) = λ(定数) S
9.3 1変量の場合 (1) 尤度と最尤法 判別分析では尤度(ユウド、likelihood)という概念が重要になります。 尤度は確率の親戚で、特定の母数の「もっともらしさ」を表す値です。 例えばある母集団があり、そのTCは母平均が200、母標準偏差が20の正規分布をしていたとします。 この母集団からひとつのデータをサンプリングした時、それが240である確率は理論的に計算することができます。 そしてこの場合、サンプリングしたデータの値は正規分布に従って確率的に変動するので確率変数になります。 それに対して母平均と母標準偏差は定数であり変動しません。 しかし研究現場で我々が実際に手にすることができるのは標本集団のデータだけです。 そのため母集団の母数は、標本集団のデータに基づいてもっともらしい値をあれこれと推測するしかありません。 したがって我々にとっては標本集団のデータは値が変動しない定数で
出現率の最も小さい2枚の葉について節点を1つ作り、その節点と2枚の葉を枝で結ぶ。 そして枝の一方には「0」、他方には「1」のラベルを付ける。
感度: (95%信頼区間:0.55-0.997) 特異度: (95%信頼区間:0.60-0.98) 正診率: (95%信頼区間:0.69-0.97) 陽性尤度比: (95%信頼区間:1.83-24.93) 陰性尤度比: (95%信頼区間:0.02-0.75) 陽性予測値: (95%信頼区間:0.55-0.94) 陰性予測値: (95%信頼区間:0.67-0.99) ※正診率と陽性予測値・陰性予測値は表9.2.2のデータが動脈硬化症の一般的な有病率を反映していると仮定して計算した値 陽性尤度比は疾患群の検査結果が陽性になる確率つまり真陽性確率(感度)と、正常群の検査結果が陽性になる確率つまり偽陽性確率(1−特異度)の比です。 陰性尤度比は疾患群の検査結果が陰性になる確率つまり偽陰性確率(1−感度)と、正常群の検査結果が陰性になる確率つまり真陰性確率(特異度)の比です。 感度と特異度が大きいと
この章では多標本のデータ処理に用いる統計手法について解説します。 それらの手法は第3章で説明した1・2標本のデータ処理に用いる統計手法を拡張したものであり、より汎用性があります。 4.1 多標本の計量値 データが計量値で標本の数が多数の時に、平均値について色々な推測をするには分散分析(ANOVA:ANalysis Of VAriance、アノーバ)と呼ばれる手法を用います。 多標本の比較をする場合、t検定つまり平均値の検定を何回も使用して2標本ずつ比較することがあります。 しかしそれは適切ではなく、本当はこの分散分析を用いなければなりません。 t検定は分散分析において標本の数が2つの時の別名であり、多標本に用いるべき手法ではありません。 それについては後でまた詳しく説明します。 分散分析には目的に応じて色々な手法があります。 その中でデータに対応がない時に用いる一元配置(one-way l
1.4 推定 (1) 推定と検定 データの要約法の次は推定と検定について説明しましょう。 そもそも推測統計学すなわち近代統計学では標本集団の要約値から母集団の要約値つまり母数を確率的に推測し、それによって母集団の様子を記述します。 この時、母数を推測する手法として推定(estimation)と検定(test)の2種類があります。 推定は母数がどれほどの値なのかを推測する手法であり、検定は母数が科学的に意味のある基準値と等しいか等しくないかを○×式で推測する手法です。 つまり推定はpH計のような定量試験に相当し、検定はリトマス試験紙のような定性試験に相当するといえるでしょう。 統計学はこの2本の柱からできていて、当然、定量試験である推定の方がより重要です。 ところが実際の研究現場では推定よりも検定の方がはるかに頻繁に利用されていて、検定の方が重要だと思い込んでいる人が多いのは何とも残念なこと
5.2 間違いやすい相関と回帰 (1) 葬患係数と怪奇直線 次に間違いやすい例を2、3挙げてみましょう。 表5.1.1と全く同じxに対して表5.2.1のような4種類のyがあったとします。 表5.2.1 xと4種類のy No.xy1y2y3y4 1
このようにして求めたrsをスピアマンの順位相関係数(Spearman's rank correlation coefficient)といいます。 実測値の代わりに順位を用いただけですから、この相関係数と寄与率の意味は通常の相関係数と同じですし、値も第1節の結果とほとんど変わりません。 なおこのデータには同位の値はありませんが、もし同位の値があれば今までと同じように平均順位を用いて計算します。 (→3.2 1標本の計数値 (注2)) また普通の相関係数と同様に、順位相関係数の検定と推定を行なうことができます。 検定は普通の相関係数と同じようにt分布を利用する方法と、正規分布を利用する方法があります。 統計学の解説書などではt分布を利用する方法がよく紹介されていますが、ウィルコクソンの2標本検定との関連を考えると正規分布を利用する方法の方が合理的です。 (注1) 帰無仮説 H0:ρs(母順位相
10.4 変数選択法 (1) 変数選択法の種類 重回帰分析や判別分析と同様に、ロジスティック回帰分析にも各種の変数選択法が考えられています。 ロジスティック回帰分析は目的変数がロジットになった重回帰分析に相当するため、変数の選択法も次のようにほとんど同じものがあります。 (→7.3 変数の選択) 変数指定法:医学・薬学等の実質科学的理論や知識によって適当な変数を指定する。 総当たり法:全ての変数の組み合わせを計算し、最も良いと思われるものを選択する。 逐次選択法: 一定の規則に従って変数を逐次選択していく。 これらの手法のうち最も多用されるのは3番の逐次選択法です。 この方法は変数の選択規則によって次のように細分化されます。 なお重回帰分析では重寄与率の増減分を反映するF値を変数選択の指標にしました。 しかしロジスティック回帰分析では重寄与率の増減分を反映する統計量を変数選択の指標にします
理論・仮説の確認・修正 検証型研究で得られた結果に基づいて仮説を確認または修正し、科学的な理論を確認または修正する。 これにより新たな問題提起や理論の修正などをして、適当な研究段階にフィードバックする。 W型解決法は科学研究だけでなく色々な方面に応用することができます。 例えばこれを仕事に応用するとPDCA(Plan・Do・Check・Action)などのマネジメント・サイクルを詳細化したものになり、それにマクレガーのY理論を組み合わせたものが近代的な業務管理手法の代表的なものである──なんてぇことには、興味が全く持てなくなりました。 組織論なんてクソくらえっ!凸(-"-) > 会社時代の僕 ……つい私情に走ってしまい、失礼しました。 模式図に示したように、科学的研究における統計学の役目はデータの数学的な要約をすることです。 その際、W型の左側にある調査や観察で得られたデータには主に記述統
10.5 順序ロジスティック回帰分析 (1) 累積ロジスティックモデル 今まで説明したデータは目的変数が「0:反応無、1:反応有」という2分類のものでした。 しかし表10.5.1のように、目的変数が3分類以上のグレードデータつまり順序分類尺度のデータという時もあります。 このようなデータはグレードデータをそのまま計量尺度として扱い、重回帰分析を適用するのが普通です。 しかしグレードデータにロジスティックモデルを当てはめ、ロジスティック回帰分析を適用することもできます。 表10.5.1 目的変数が順序分類尺度のデータ No.重症度 1:軽症 2:中等症 3:重症説明変数 x1x2x3 1
7.3 変数の選択 (1) 変数選択法の種類 重回帰モデルの説明変数がやたらに多いと、重回帰式を科学的に解釈する時にも、それによって目的変数の値を予測する時にも何かと面倒であまり実用的ではありません。 そこで説明変数を選択するための手法が次のように色々と考えられています。 変数指定法:医学・薬学等の科学的理論や知識によって最適な説明変数を指定する。 総当たり法:全ての説明変数の組み合わせを計算し、最も良いと思われるものを選択する。 逐次選択法:一定の規則に従って説明変数を逐次選択していく。 もし1番の変数指定法ができるのなら、それが最善です。 しかし実際には重回帰分析結果から、逆に科学的にも影響の強そうな説明変数の見当をつけることが多いと思います。 重回帰分析に限らず多変量解析は探索的な性質の強い手法なので、事前に最適な変数が指定できる場合は少ないのです。 2番の総当たり法は、いわば力まか
この章では統計学の基本的な概念と簡単な歴史を説明し、統計学の2本柱である推定と検定の原理を解説します。 そして科学的研究の種類と科学的研究における統計学の役割についても説明します。 1.1 統計学とは何ぞや? 「これすなわち、読んで字のごとく統一して(統べて)計る学問であ〜る!」 ……などと、いきなり禅問答じみたことを大上段にふりかざしましたが、統計学は沢山のデータを要約し、中に含まれている情報を把握しやすくするための手段です。 例えば「クイズ100人に聞きました!」ではありませんが、日本人100人について体重を測定したデータがあるとします。 そうすると、当然、データが100個あります。 この100個のデータを眺めて、 「ウン、このデータに含まれている情報はこれこれである!」 などといい切れる人はテレビ局お得意の「ヤラセ」でもしない限りまずいないでしょう。 そこで情報を読み取りやすくするた
6.3 多変量解析の分類 (1) 内的基準と外的基準 一口に多変量解析といっても多種多様な手法があり、お互いに密接な関係を持っています。 それらの手法を大雑把に分類してみましょう。 第2節で説明したように、多変量解析を適用するデータにはTCやTGのようにその項目だけで独立して測定されたものと、重症度のように他のデータを要約して得られたものとがあります。 あるデータが直接にしろ間接にしろ結果として他のデータに影響を与えている時、影響を与えているデータを説明変数または独立変数と呼び、影響を与えられているデータを目的変数または従属変数と呼びます。 この分類からすればTCとTGは説明変数、重症度は目的変数であると考えることができます。 (→5.1 相関係数と回帰直線) 多変量解析では説明変数を内的基準と呼び、目的変数を外的基準または基準変数(criterion variable)と呼ぶことがありま
8.3 共分散分析と層別解析 (1) 共分散分析による背景因子の補正 結果に影響をおよぼす項目の代表として、臨床試験における背景因子があります。 一般的な臨床試験では対象を無作為にいくつかの群に分けて、それぞれ異なった薬剤を投与し、その薬効を比較する群間比較試験いわゆる無作為化比較対照試験(RCT:Randomized Controlled Trial)を行います。 このデザインの試験では、まず最初にそれぞれの群の背景因子を調べて、それが一致しているかどうかを検討します。 これは結論を当てはめるべき準母集団がどのような特徴を持っているのか、そして各群の準母集団に違いがあるかどうかを調べるための手続きです。 (→1.9 科学的研究のデザイン) この場合、背景因子について各群の平均値や割合がばらついているかどうかという有意性検定を行い、有意にならなければ各群の背景因子はほぼ等しいと結論するのが
7.2 重回帰分析結果の解釈 (1) 各種パラメーターの意味 重回帰式の信頼性の目安として重寄与率(multiple coefficient of determination)R2という値があります。 これは単回帰分析における寄与率を多変量に拡張したものであり、重回帰式によって計算した目的変数yの推定値の寄与率に相当します。 そのため重寄与率は目的変数の全変動(yの平方和)のうち、p個の説明変数全体によって説明される割合を表します。 重寄与率の平方根Rは重相関係数(multiple correlation coefficient)という値になり、重相関分析の指標として用います。 これは単相関分析における相関係数を多変量に拡張したものであり、とyの相関係数に相当します。 そのため重相関係数は目的変数とp個の説明変数全体の間に因果関係を想定せず、相互に影響を及ぼし合っているという相関関係を想定
この章では相関分析と回帰分析の計算原理と使い分け、そして間違いやすい相関と回帰、さらに一致係数と各種手法の相互関係について解説します。 5.1 相関係数と回帰直線 あるデータと別のデータの間の関連性を分析する手法には相関係数(correlation coefficient)を中心にした相関分析と回帰直線(regression line)を中心にした回帰分析があります。 これらの手法は広く利用されているわりに――あるいは利用されているからこそ――しばしば間違って用いられます。 誤用の原因は値の計算原理と深く関わっているので、原理をよく理解して正しく利用するようにしましょう。 (1) 相関分析(correlation analysis) 相関係数は2種類のデータについて、一方の値が大きい時に他方の値も大きい(または小さい)かどうかを現象論的に要約する値です。 そのため因果関係ではなく相関関係の
1.3 データの要約方法 (1) 度数分布図 統計学ではデータをどのようにして要約し、集団の様子をどのように記述するのでしょうか? それを説明するために第1節の体重測定の例をもう一度取り上げてみましょう。 データを要約したい時は、まず始めにデータを見やすいようにグラフ化します。 それには横軸にデータの値を取り、縦軸にその数をプロットした度数分布図(frequency distribution)を用います。 一般的な度数分布図ではデータの値をいくつかの区間に区切り、その区間の中に入るデータの数を柱状グラフとしてプロットします。 この図が度数分布図と呼ばれるわけは、データの数のことを数学では度数と呼ぶからです。 体重測定のデータを度数分布図で表したところ、図1.3.1のようになったとします。 このように最初にデータを目に見えるようにグラフ化する(見える化する)のは大変重要です。 これによってデ
10.3 ロジスティック回帰分析の計算方法 (1) 最小2乗法を利用する方法 ロジスティック回帰分析ではロジットの回帰誤差が特殊な分布になり、普通はその分布を理論的に確定することができません。 そのため回帰誤差が近似的に正規分布すると見なして、重回帰分析と同じように最小2乗法を利用して回帰分析を行う方法と、最尤法を利用した繰り返し近似計算によって回帰分析を行う方法の2種類があります。 最初に最小2乗法を利用する方法について説明しましょう。 この場合の線形ロジスティックモデルは次のようになります。 このモデルでは説明変数xjの値を研究者が任意に指定した時、ロジットの回帰誤差εが近似的に正規分布すると仮定します。 ただしロジスティック回帰式を計算するには回帰誤差の正規性は必要ではなく、検定を行う時だけ回帰誤差の正規性が必要になります。 そして説明変数は研究者が任意の値を指定するので誤差がなく、
この時、血圧の変化量がその投与前値によって影響を受け、しかも2群の血圧の投与前値が異なっていたとすると、2つの薬剤の降圧効果を公平に比較できない恐れがあります。 つまり仮に2群の血圧変化量に違いがあったとしても、それは薬効の違いを表すものではなく、単に投与前値の違いを反映しているだけかもしれないからです。 表8.1.1の結果ではB剤投与群の方がよく低下していて、一見するとB剤の方が降圧効果が大きいように見えます。 しかし2群の投与前値が異なっているため、いきなり速断を下すのは危険です。 そこで例によってデータをグラフ表示してみることにしましょう。 説明のために投与前後の散布図と、投与前と変化量の散布図を並べて描いてみます。 図8.1.2のグラフを見るとB剤投与群のプロットの方が下にあり、よく低下しているように見えます。 しかし両群の投与前値がかなり違っており、しかもそれが変化量に影響を与え
国際放射線防護委員会は「被曝量とガン死亡率の関係は直線であり、集団の閾値はない」というLNT仮説(Linear Non-Threshold hypothesis)に基づいて致死リスク係数を推測しています。 用量反応解析の理論からすれば、LNT仮説は、ある人がガンで死亡する最低の被曝量つまり個人的な閾値の最低値が無限小つまり放射線1本(光子1個)であり、しかも個人的な閾値が放射線1本の人の割合も、1mSvの人の割合も、1Sv=1000mSvの人の割合も全て同じであるという仮定です。 これはたった1滴のお酒で酔いつぶれてしまう人の割合も、1合のお酒で酔いつぶれてしまう人の割合も、1升のお酒で酔いつぶれてしまう人の割合も全て同じであるという仮説に相当し、現実にはとても有り得ない仮説です。 (→解説4 個人的な閾値) また死亡率が低い時、死亡率は指数関数的に増加することが多いため、死亡率の評価には
最終更新日:2011年4月22日 原資料へ webmaster@snap-tck.com Copyleft (C) 2000 SNAP(Sugimoto Norio Art Production)
次のページ
このページを最初にブックマークしてみませんか?
『我楽多頓陳館--雑学と統計学の館』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く