タグ

関連タグで絞り込む (381)

タグの絞り込みを解除

統計に関するchess-newsのブックマーク (268)

  • 10-6. ベイズの定理の使い方 | 統計学の時間 | 統計WEB

    例題: 日人の0.01%が罹患しているある病気について考えます。この病気の検査方法では、実際に病気に罹患している人が陽性と判定される確率が95%、逆に罹患していない人が陰性と判定される確率は80%であると言われています。 ある人がこの病気の検査を受けて陽性という判定を受けた時、当にこの病気に罹患している確率はいくらでしょうか。 検査で陽性になる事象を事象、検査で陰性になる事象を事象(事象Aの余事象)、実際に病気に罹患している事象を事象、罹患していない事象を事象とします。ベイズの定理を使うと、求める確率はとなります。 問題文から、それぞれの確率は次のようになります。 病気に罹患している確率: 病気に罹患していない確率: 実際に罹患している人が検査で陽性となる確率: 実際に罹患していない人が検査で陰性となる確率: 実際に罹患していない人が検査で陽性となる確率: これらの値を①の式に当てはめ

  • 統計検定 データサイエンスエキスパート|統計検定:Japan Statistical Society Certificate

    統計検定 データサイエンスエキスパート(DSエキスパート) 実施趣旨 社会が大量のデータを生み出し、価値を創出する「データ時代」となり、データサイエンスの重要性が広く認識されるようになりました。この分野の専門的な人材に対する社会からの需要も大きくなっています。 「データサイエンス発展」を踏まえて、「データサイエンスエキスパート」では大学専門レベルでの高度な内容について、CBT方式で評価・認証します。試験内容は、上記の数理・データサイエンス・AI教育強化拠点コンソーシアムの「スキルセット及び学修目標 第二次報告」および、モデルカリキュラム(応用基礎レベル)に準拠しています。これによりデータサイエンスに関する専門的なスキルを客観的に評価します。 試験内容 データサイエンスエキスパートの具体的な内容は、数理・データサイエンス・AI教育強化拠点コンソーシアムの「スキルセット及び学修目標 第二次報告

  • 15-6. 2変数の期待値と分散 | 統計学の時間 | 統計WEB

    12-3章では確率変数の期待値について、12-5章では確率変数の分散について学びました。この章では、2つの確率変数の和、差、共分散、相関係数について学びます。 ■2つの確率変数の期待値 2つの確率変数とYの和、差の期待値は、次に示すように、それぞれの期待値、の和、差に等しくなります。

  • 分散の加法性

    平均値と分散を持つ2つのものがあったときに、それらを合わせたものの分散は、それぞれの分散を足し合わせた値になります。このことを「分散の加法性」といいます。 2つの確率変数XとYがあって、XとYが独立であるときには、XとYを合わせたものの分散は、X+Yとなるのです。また、XからYを引いたものの分散も同じくX+Yとなります。 $$V(X±Y) = V(X) + V(Y)$$ が成り立ちます。 ※ちなみに期待値については、 $$E(X+Y) = E(X) + E(Y)$$ が成り立ちます。 部品を合わせてつくる製品の寸法のばらつき たとえば、部品A、部品Bの2つの部品を組み合わせて製品をつくる場合、完成品の長さの分散は、「部品Aの分散」と「部品Bの分散」を足し合わせた数値になります。どの部品Aが選ばれるか、どの部品Bが選ばれるかは互いに影響を与えず、独立していなければなりません。 部品Aの分散は

    分散の加法性
  • 傾向検定 | 大阪大学腎臓内科

    Clinical Journal Club 17. 傾向検定 独立している2群間において正規分布している連続変数を比較する場合、適応すべき検定は対応のないt検定(unpaired t test)です。それでは、独立した3群以上の多群間比較を行う場合には、どのような検定を適応するべきでしょうか? 下図の第1、2、3、4群は、標準偏差(standard deviation: SD)を1.00に固定し、平均値を0.00、0.10、0.20、0.30に設定し、乱数を100個発生させて作成した標です。実際の平均値±SDは、第1群 0.03±1.07、第2群 0.09±1.08、第3群 0.26±1.05、第4群 0.38±0.86です。以下、様々な検定法を用いて、この4群間に統計学的に有意な差が認められるかを確認してみましょう。 2群間比較(対応のないt検定)の繰り返し 特に基礎研究の論文でよく見

  • ABテスト・LPOのための統計学【社内向けサディスティックエディション】データアーティスト株式会社

    ABテストにおける統計の重要性が語られ始めてきております。データアーティスト社内教育用に使っている資料でございます。 少しでも皆様のお役にたちますと幸いです。

    ABテスト・LPOのための統計学【社内向けサディスティックエディション】データアーティスト株式会社
    chess-news
    chess-news 2023/07/12
    “ABテストにおける統計の重要性が語られ始めてきております。データアーティスト社内教育用に使っている資料でございます。 少”
  • 3σと不良品発生の確率を予測する「標準正規分布表」

    バラツキの要因「4M」 前回は、正規分布を説明する上で必要となる用語について話しました。ここで話をしていたのは、“バラツキ”についてでした(連載バックナンバーはこちら)。 さてバラツキの要因は何だったでしょうか? まずは復習です。バラツキの要因は「4M」です。 これらの要因によって、加工されるものにはバラツキが生じます。 ところが「今の時代、バラツキ0でモノが作れる」と言う人はいないでしょうか? 確かに、最新の技術、最新の設備、最適な環境下で製造することによって、そのバラツキは最小限になるのでしょう。しかしどんなに優れたツールであっても、そのツールを駆動させるための機構があり、その機構と制御によって部品は加工されます。また同一環境においても、温度というパラメータは存在します。±0℃という制御は困難ですので、部品加工においてバラツキ0というのは、あり得ない世界です。 こんな話もあります。 「

    3σと不良品発生の確率を予測する「標準正規分布表」
  • 大津のしきい値選定法

    各画素が区間 の範囲の濃淡値 をもつような画像を考える。このとき、 画像の濃淡値の分布は、ヒストグラム で与えられる。こ こで、 はその画像に濃淡値 があらわれる頻度を表す。これを全画素数 で正規化して、正規化ヒストグラムを とする。 今、しきい値 によって各画素を2つのクラス と (対象領域と背 景、あるいはその逆)に分類することを考える。ここで、 は濃淡値が の範囲にある画素の集合であり、 は濃淡値が の範囲にある画素の集合である。このとき、しきい値 に依存 して各クラスの統計量は、

    chess-news
    chess-news 2023/07/12
     大津のしきい値 大津の方法
  • Kittlerによる二値化フィルタ - Thoth Children

    Kittlerによる二値化フィルタは、背景と前景に二つの異なる正規分布を仮定して平均的に誤り率を下げるように閾値を調整する二値化フィルタ.人手であらかじめパラメータを決める必要はない. Kittlerの方法 0. 任意の閾値を指定する. 1.「背景の正規分布」と「前景の正規分布」を求める. 閾値に従って、背景グループと前景グループのピクセルでまとめる. 各グループの値から、平均と分散と比率を求める. 2. 1.で求めた値から下記の評価値を計算する.\(T\)は閾値,\(w_1,w_2\)は比率,\(\sigma_1,\sigma_2\)は分散. $$J(T) = w_1(T)log(\frac{\sigma_1(T)}{w_1(T)})+w_2(T)log(\frac{\sigma_2(T)}{w_2(T)})$$ 3. 閾値を変えながら2の評価値が最小になる閾値を求める. 大津の方法では

    Kittlerによる二値化フィルタ - Thoth Children
  • 多変量統計的プロセス管理(MSPC)を実装してみた - Qiita

    製造業出身のデータサイエンティストがお送りする記事 今回は製造業で使える異常検知手法を実装し整理しました。 はじめに 最近では製造業の現場でも機械学習を活用した取組みが増え始めていると思います。 今回は、異常検知プロジェクトで活用した多変量統計的プロセス管理(MSPC)を整理しました。 製造業における異常検知とは 製造業では、予防保全という言葉があります。予防保全とは、生産ラインにおける機械設備の故障、不具合発生、性能低下などを未然に防ぐ保全方法を指しており、設備が壊れて生産ラインがストップすることを防ぐ目的で行っております。 他にも通常操業から異常な製品が生産されることを未然に防ぐために操業の異常検知などもあります。 今回、ご紹介する異常検知手法(MSPC)はどちらにも活用できる手法となっております。 多変量統計的プロセス管理(MSPC)とは MSPCで使用するデータは、使用するデータは

    多変量統計的プロセス管理(MSPC)を実装してみた - Qiita
  • Rによる統計入門

    はじめに このページでは R を用いた統計分析の基を解説しています。 目次 RとRStudioの導入 Google ColaboratoryでR言語を使う Rのデータ構造 データセットの作成と加工 その他のRの概念 図の作成 基的な統計分析 回帰分析 因子分析 テスト課題 画面上部の左端のアイコンを押すか、キーボードの S キーを押すとメニューの表示・非表示を切り替えることができます。

  • https://twitter.com/TomoCodeHQ/status/1622190824649035777

    https://twitter.com/TomoCodeHQ/status/1622190824649035777
  • 「水分さえ与えれば死なない」署員、漫然と男性放置か 勾留中に死亡:朝日新聞デジタル

    ","naka5":"<!-- BFF501 PC記事下(中⑤企画)パーツ=1541 -->","naka6":"<!-- BFF486 PC記事下(中⑥デジ編)パーツ=8826 --><!-- /news/esi/ichikiji/c6/default.htm -->","naka6Sp":"<!-- BFF3053 SP記事下(中⑥デジ編)パーツ=8826 -->","adcreative72":"<!-- BFF920 広告枠)ADCREATIVE-72 こんな特集も -->\n<!-- Ad BGN -->\n<!-- dfptag PC誘導枠5行 ★ここから -->\n<div class=\"p_infeed_list_wrapper\" id=\"p_infeed_list1\">\n <div class=\"p_infeed_list\">\n <div class=\"

    「水分さえ与えれば死なない」署員、漫然と男性放置か 勾留中に死亡:朝日新聞デジタル
  • GBDTの仕組みと手順を図と具体例で直感的に理解する

    LightgbmやXgboostを利用する際に知っておくべき基的なアルゴリズム「GBDT」を直感的に理解できるように数式を控えた説明をしています。 対象者 GBDTを理解してLightgbmやXgboostを活用したい人 GBDTやXgboostの解説記事の数式が難しく感じる人 ※GBDTを直感的に理解してもらうために、簡略化された説明をしています。 GBDTのメリット・良さ 精度が比較的高い 欠損値を扱える 不要な特徴量を追加しても精度が落ちにくい 汎用性が高い(下図を参照) LightgbmやXgboostの理解に役立つ 引用元:門脇大輔、阪田隆司、保坂佳祐、平松雄司(2019)『Kaggleで勝つデータ分析技術技術評論社(230) GBDTとは G... Gradient(勾配) B... Boosting(ブースティング) = アンサンブル手法の1つ D... Decisio

    GBDTの仕組みと手順を図と具体例で直感的に理解する
  • 回帰分析の評価指標 | 決定係数や二乗平均平方根誤差などを利用して回帰モデルを評価

    2020.03.31 回帰分析で得られたモデルの適合の良さかを評価する指標として、二乗平均平方根誤差(RMSE)、平均絶対誤差(MAE)や決定係数 R2 などが用いられている。解析目的に応じて、これらを使い分ける。例えば、大きな誤差(観測値と回帰モデル出力値の差)を出すサンプルを出来るだけ少なくしたい場合は RMSE を使用するが、全サンプルの誤差を平等に評価して、サンプル全体の誤差をできるだけ小さくしたい場合は MAE を使用する。 回帰モデルを評価するこれらの指標は、観測値と回帰モデルの出力値の差として計算されているため、モデルの複雑さが考慮されていない。単純なモデル(説明変数の少ないモデル)は、適合不足となり、RMSE や MAE が大きくなりがちである。一方で複雑なモデル(説明変数の多いモデル)であれば、過剰適合になり RMSE や MAE が小さくなりがちである。そのため、モデル

  • Amazon.co.jp: ベイズ統計の理論と方法: 渡辺澄夫: 本

    Amazon.co.jp: ベイズ統計の理論と方法: 渡辺澄夫: 本
    chess-news
    chess-news 2022/11/14
     定番・おすすめらしい
  • 文系の大学4年生は勉強していない? 国が調査結果を発表:朝日新聞デジタル

    ","naka5":"<!-- BFF501 PC記事下(中⑤企画)パーツ=1541 -->","naka6":"<!-- BFF486 PC記事下(中⑥デジ編)パーツ=8826 --><!-- /news/esi/ichikiji/c6/default.htm -->","naka6Sp":"<!-- BFF3053 SP記事下(中⑥デジ編)パーツ=8826 -->","adcreative72":"<!-- BFF920 広告枠)ADCREATIVE-72 こんな特集も -->\n<!-- Ad BGN -->\n<!-- dfptag PC誘導枠5行 ★ここから -->\n<div class=\"p_infeed_list_wrapper\" id=\"p_infeed_list1\">\n <div class=\"p_infeed_list\">\n <div class=\"

    文系の大学4年生は勉強していない? 国が調査結果を発表:朝日新聞デジタル
    chess-news
    chess-news 2022/10/22
    文系だけじゃないよね。タイトルどうした?
  • 腕に針を刺して体内の血糖値を常時記録する「フリースタイルリブレ」で糖質と血糖値の関係を徹底的に調査した

    腕にセンサー付きの針をぶっさしてスマホで体内の血糖値をモニタリングできるデバイスを使って、事と血糖値の関係を調査してみました。 目的は、ダイエットと健康のために事と血糖値の関係を正しく知り、血糖値をコントロールできるようになること。 特に血糖値が急激に上がる「血糖値スパイク」というのを恐れてます。血糖値スパイクはその名の通り血糖値が急激に上がり血管にダメージを与えるもの(らしい)。血管を大切にしたいのでどうしたら血糖値スパイクを避けられるのか知りたい! フリースタイルリブレとは 極細の針がついたセンサーを腕につけっぱなしにして2週間常時体内の血糖値を計測できるというもの。2週間たったら新しいものに取り換えが必要。(電池交換式等ではなく、2週間の使い捨てです。) 腕に針をさすと言っても、刺す瞬間ちょっと痛いくらいで日常生活は何ら支障ありません。針もめっちゃ細くて下の写真のようにアプリケー

    腕に針を刺して体内の血糖値を常時記録する「フリースタイルリブレ」で糖質と血糖値の関係を徹底的に調査した
  • Rを用いた データ解析の基礎と応用2022

    Step 3:データを可視化しよう! データ可視化の重要性 ggplot2でデータを眺めよう geom_histogram ヒストグラム geom_density 密度分布 geom_point 散布図 aes(color) 色を表現する facet_wrap, facet_grid グラフを分ける geom_boxplot 箱ヒゲ theme_*** 全体の雰囲気を変える color(aesの外) 線を特定の色にする fill(aesの外) 特定の色で塗りつぶす color(aesの中) 線を値に応じた色にする coord_cartesian 軸の範囲を変える labs タイトルや軸ラベルを書く/書き換える theme 文字の大きさなどを細かく設定 ggsave() 図をファイルとして保存 その他のグラフの描き方を知りたい方は ggplot2公式サイト Jaehyun Songさんの解説

  • 「NHK全国ハザードマップ」を公開した理由 34テラバイトのデータと格闘 - NHK

    34テラバイトのデータと格闘して「全国ハザードマップ」を公開した理由 5月下旬に公開を開始したNHKの「全国ハザードマップ」。川の氾濫による洪水リスクを中心に掲載し、多くの方に活用頂いています。 ⇒「NHK全国ハザードマップ」の紹介記事はこちら 一方で、「市町村が出しているハザードマップがあれば十分だ」「リスクを網羅していない不完全なマップの公開は良くない」「NHKではなく国が取り組むべき仕事ではないか」といった意見も頂きました。 今回なぜ、このような取り組みを行ったのか。どうやってデータを収集して地図を作ったのか。詳しく説明します。 なぜ「デジタルデータ」を集めたのか? 私たちはこれまで「ハザードマップを見て下さい」という呼びかけを、テレビやラジオのニュースや番組、ネット記事、SNSなどで繰り返してきました。 なぜなら、自分の暮らす場所のリスクを知ることが、災害から命を守るスタートだから

    「NHK全国ハザードマップ」を公開した理由 34テラバイトのデータと格闘 - NHK
    chess-news
    chess-news 2022/06/22
    nhkの仕事なのかな?