[B! 統計] chess-newsのブックマーク

10-6. ベイズの定理の使い方 | 統計学の時間 | 統計WEB

例題：日本人の0.01%が罹患しているある病気について考えます。この病気の検査方法では、実際に病気に罹患している人が陽性と判定される確率が95%、逆に罹患していない人が陰性と判定される確率は80%であると言われています。ある人がこの病気の検査を受けて陽性という判定を受けた時、本当にこの病気に罹患している確率はいくらでしょうか。検査で陽性になる事象を事象、検査で陰性になる事象を事象（事象Aの余事象）、実際に病気に罹患している事象を事象、罹患していない事象を事象とします。ベイズの定理を使うと、求める確率はとなります。問題文から、それぞれの確率は次のようになります。病気に罹患している確率：病気に罹患していない確率：実際に罹患している人が検査で陽性となる確率：実際に罹患していない人が検査で陰性となる確率：実際に罹患していない人が検査で陽性となる確率：これらの値を①の式に当てはめ

chess-news 2024/02/21

リンク

統計検定データサイエンスエキスパート｜統計検定：Japan Statistical Society Certificate

統計検定データサイエンスエキスパート（DSエキスパート）実施趣旨社会が大量のデータを生み出し、価値を創出する「データ時代」となり、データサイエンスの重要性が広く認識されるようになりました。この分野の専門的な人材に対する社会からの需要も大きくなっています。「データサイエンス発展」を踏まえて、「データサイエンスエキスパート」では大学専門レベルでの高度な内容について、CBT方式で評価・認証します。試験内容は、上記の数理・データサイエンス・AI 教育強化拠点コンソーシアムの「スキルセット及び学修目標第二次報告」および、モデルカリキュラム（応用基礎レベル）に準拠しています。これによりデータサイエンスに関する専門的なスキルを客観的に評価します。試験内容データサイエンスエキスパートの具体的な内容は、数理・データサイエンス・AI 教育強化拠点コンソーシアムの「スキルセット及び学修目標第二次報告

chess-news 2023/07/25

リンク

15-6. 2変数の期待値と分散 | 統計学の時間 | 統計WEB

12-3章では確率変数の期待値について、12-5章では確率変数の分散について学びました。この章では、2つの確率変数の和、差、共分散、相関係数について学びます。 ■2つの確率変数の期待値 2つの確率変数とYの和、差の期待値は、次に示すように、それぞれの期待値、の和、差に等しくなります。

chess-news 2023/07/20

リンク

分散の加法性

平均値と分散を持つ2つのものがあったときに、それらを合わせたものの分散は、それぞれの分散を足し合わせた値になります。このことを「分散の加法性」といいます。 2つの確率変数XとYがあって、XとYが独立であるときには、XとYを合わせたものの分散は、X＋Yとなるのです。また、XからYを引いたものの分散も同じくX＋Yとなります。 $$V（X±Y）＝ V（X）＋ V（Y）$$ が成り立ちます。 ※ちなみに期待値については、 $$E（X＋Y）＝ E（X）＋ E（Y）$$ が成り立ちます。部品を合わせてつくる製品の寸法のばらつきたとえば、部品A、部品Bの2つの部品を組み合わせて製品をつくる場合、完成品の長さの分散は、「部品Aの分散」と「部品Bの分散」を足し合わせた数値になります。どの部品Aが選ばれるか、どの部品Bが選ばれるかは互いに影響を与えず、独立していなければなりません。部品Aの分散は

chess-news 2023/07/20

リンク

傾向検定 | 大阪大学腎臓内科

Clinical Journal Club 17. 傾向検定独立している2群間において正規分布している連続変数を比較する場合、適応すべき検定は対応のないt検定（unpaired t test）です。それでは、独立した3群以上の多群間比較を行う場合には、どのような検定を適応するべきでしょうか？下図の第1、2、3、4群は、標準偏差（standard deviation: SD)を1.00に固定し、平均値を0.00、0.10、0.20、0.30に設定し、乱数を100個発生させて作成した標本です。実際の平均値±SDは、第1群 0.03±1.07、第2群 0.09±1.08、第3群 0.26±1.05、第4群 0.38±0.86です。以下、様々な検定法を用いて、この4群間に統計学的に有意な差が認められるかを確認してみましょう。 2群間比較（対応のないt検定）の繰り返し特に基礎研究の論文でよく見

chess-news 2023/07/13

統計

リンク

ABテスト・LPOのための統計学【社内向けサディスティックエディション】データアーティスト株式会社

ABテストにおける統計の重要性が語られ始めてきております。データアーティスト社内教育用に使っている資料でございます。少しでも皆様のお役にたちますと幸いです。

chess-news 2023/07/12

“ABテストにおける統計の重要性が語られ始めてきております。データアーティスト社内教育用に使っている資料でございます。少”

リンク

3σと不良品発生の確率を予測する「標準正規分布表」

バラツキの要因「4M」前回は、正規分布を説明する上で必要となる用語について話しました。ここで話をしていたのは、“バラツキ”についてでした（連載バックナンバーはこちら）。さてバラツキの要因は何だったでしょうか？　まずは復習です。バラツキの要因は「4M」です。これらの要因によって、加工されるものにはバラツキが生じます。ところが「今の時代、バラツキ0でモノが作れる」と言う人はいないでしょうか？　確かに、最新の技術、最新の設備、最適な環境下で製造することによって、そのバラツキは最小限になるのでしょう。しかしどんなに優れたツールであっても、そのツールを駆動させるための機構があり、その機構と制御によって部品は加工されます。また同一環境においても、温度というパラメータは存在します。±0℃という制御は困難ですので、部品加工においてバラツキ0というのは、あり得ない世界です。こんな話もあります。「

chess-news 2023/07/12

リンク

大津のしきい値選定法

各画素が区間の範囲の濃淡値をもつような画像を考える。このとき、画像の濃淡値の分布は、ヒストグラムで与えられる。ここで、はその画像に濃淡値があらわれる頻度を表す。これを全画素数で正規化して、正規化ヒストグラムをとする。今、しきい値によって各画素を２つのクラスと（対象領域と背景、あるいはその逆）に分類することを考える。ここで、は濃淡値がの範囲にある画素の集合であり、は濃淡値がの範囲にある画素の集合である。このとき、しきい値に依存して各クラスの統計量は、

chess-news 2023/07/12

　大津のしきい値　大津の方法

統計

リンク

Kittlerによる二値化フィルタ - Thoth Children

Kittlerによる二値化フィルタは、背景と前景に二つの異なる正規分布を仮定して平均的に誤り率を下げるように閾値を調整する二値化フィルタ.人手であらかじめパラメータを決める必要はない. Kittlerの方法 0. 任意の閾値を指定する. 1.「背景の正規分布」と「前景の正規分布」を求める. 閾値に従って、背景グループと前景グループのピクセルでまとめる. 各グループの値から、平均と分散と比率を求める. 2. 1.で求めた値から下記の評価値を計算する.$T$は閾値,$w_1,w_2$は比率,$\sigma_1,\sigma_2$は分散. $$J(T) = w_1(T)log(\frac{\sigma_1(T)}{w_1(T)})+w_2(T)log(\frac{\sigma_2(T)}{w_2(T)})$$ 3. 閾値を変えながら2の評価値が最小になる閾値を求める. 大津の方法では

chess-news 2023/06/21

リンク

多変量統計的プロセス管理（MSPC）を実装してみた - Qiita

製造業出身のデータサイエンティストがお送りする記事今回は製造業で使える異常検知手法を実装し整理しました。はじめに最近では製造業の現場でも機械学習を活用した取組みが増え始めていると思います。今回は、異常検知プロジェクトで活用した多変量統計的プロセス管理（MSPC）を整理しました。製造業における異常検知とは製造業では、予防保全という言葉があります。予防保全とは、生産ラインにおける機械設備の故障、不具合発生、性能低下などを未然に防ぐ保全方法を指しており、設備が壊れて生産ラインがストップすることを防ぐ目的で行っております。他にも通常操業から異常な製品が生産されることを未然に防ぐために操業の異常検知などもあります。今回、ご紹介する異常検知手法（MSPC）はどちらにも活用できる手法となっております。多変量統計的プロセス管理（MSPC）とは MSPCで使用するデータは、使用するデータは

chess-news 2023/05/24

統計
MSPC

リンク

Rによる統計入門

はじめにこのページでは R を用いた統計分析の基本を解説しています。目次 RとRStudioの導入 Google ColaboratoryでR言語を使う Rのデータ構造データセットの作成と加工その他のRの概念図の作成基本的な統計分析回帰分析因子分析テスト課題画面上部の左端のアイコンを押すか、キーボードの S キーを押すとメニューの表示・非表示を切り替えることができます。

chess-news 2023/05/19

リンク

https://twitter.com/TomoCodeHQ/status/1622190824649035777

chess-news 2023/02/06

統計

リンク

「水分さえ与えれば死なない」署員、漫然と男性放置か　勾留中に死亡：朝日新聞デジタル

","naka5":"","naka6":"","naka6Sp":"","adcreative72":"\n\n\n<div class=\"p_infeed_list_wrapper\" id=\"p_infeed_list1\">\n <div class=\"p_infeed_list\">\n <div class=\"

chess-news 2022/12/25

リンク

GBDTの仕組みと手順を図と具体例で直感的に理解する

LightgbmやXgboostを利用する際に知っておくべき基本的なアルゴリズム「GBDT」を直感的に理解できるように数式を控えた説明をしています。対象者 GBDTを理解してLightgbmやXgboostを活用したい人 GBDTやXgboostの解説記事の数式が難しく感じる人 ※GBDTを直感的に理解してもらうために、簡略化された説明をしています。 GBDTのメリット・良さ精度が比較的高い欠損値を扱える不要な特徴量を追加しても精度が落ちにくい汎用性が高い（下図を参照） LightgbmやXgboostの理解に役立つ引用元：門脇大輔、阪田隆司、保坂佳祐、平松雄司（2019）『Kaggleで勝つデータ分析の技術』技術評論社（230） GBDTとは G... Gradient(勾配) B... Boosting(ブースティング) = アンサンブル手法の1つ D... Decisio

chess-news 2022/12/15

リンク

回帰分析の評価指標 | 決定係数や二乗平均平方根誤差などを利用して回帰モデルを評価

2020.03.31 回帰分析で得られたモデルの適合の良さかを評価する指標として、二乗平均平方根誤差（RMSE）、平均絶対誤差（MAE）や決定係数 R2 などが用いられている。解析目的に応じて、これらを使い分ける。例えば、大きな誤差（観測値と回帰モデル出力値の差）を出すサンプルを出来るだけ少なくしたい場合は RMSE を使用するが、全サンプルの誤差を平等に評価して、サンプル全体の誤差をできるだけ小さくしたい場合は MAE を使用する。回帰モデルを評価するこれらの指標は、観測値と回帰モデルの出力値の差として計算されているため、モデルの複雑さが考慮されていない。単純なモデル（説明変数の少ないモデル）は、適合不足となり、RMSE や MAE が大きくなりがちである。一方で複雑なモデル（説明変数の多いモデル）であれば、過剰適合になり RMSE や MAE が小さくなりがちである。そのため、モデル

chess-news 2022/12/15

統計

リンク

Amazon.co.jp: ベイズ統計の理論と方法: 渡辺澄夫: 本

chess-news 2022/11/14

　定番・おすすめらしい

リンク

文系の大学4年生は勉強していない？　国が調査結果を発表：朝日新聞デジタル

","naka5":"","naka6":"","naka6Sp":"","adcreative72":"\n\n\n<div class=\"p_infeed_list_wrapper\" id=\"p_infeed_list1\">\n <div class=\"p_infeed_list\">\n <div class=\"

chess-news 2022/10/22

文系だけじゃないよね。タイトルどうした？

リンク

腕に針を刺して体内の血糖値を常時記録する「フリースタイルリブレ」で糖質と血糖値の関係を徹底的に調査した

腕にセンサー付きの針をぶっさしてスマホで体内の血糖値をモニタリングできるデバイスを使って、食事と血糖値の関係を調査してみました。目的は、ダイエットと健康のために食事と血糖値の関係を正しく知り、血糖値をコントロールできるようになること。特に血糖値が急激に上がる「血糖値スパイク」というのを恐れてます。血糖値スパイクはその名の通り血糖値が急激に上がり血管にダメージを与えるもの（らしい）。血管を大切にしたいのでどうしたら血糖値スパイクを避けられるのか知りたい！フリースタイルリブレとは極細の針がついたセンサーを腕につけっぱなしにして2週間常時体内の血糖値を計測できるというもの。2週間たったら新しいものに取り換えが必要。（電池交換式等ではなく、2週間の使い捨てです。）腕に針をさすと言っても、刺す瞬間ちょっと痛いくらいで日常生活は何ら支障ありません。針もめっちゃ細くて下の写真のようにアプリケー

chess-news 2022/08/09

リンク

Rを用いたデータ解析の基礎と応用2022

Step 3：データを可視化しよう！データ可視化の重要性 ggplot2でデータを眺めよう geom_histogram ヒストグラム geom_density 密度分布 geom_point 散布図 aes(color) 色を表現する facet_wrap, facet_grid グラフを分ける geom_boxplot 箱ヒゲ theme_*** 全体の雰囲気を変える color（aesの外）線を特定の色にする fill（aesの外）特定の色で塗りつぶす color（aesの中）線を値に応じた色にする coord_cartesian 軸の範囲を変える labs タイトルや軸ラベルを書く／書き換える theme 文字の大きさなどを細かく設定 ggsave() 図をファイルとして保存その他のグラフの描き方を知りたい方は ggplot2公式サイト Jaehyun Songさんの解説

chess-news 2022/07/15

リンク

「NHK全国ハザードマップ」を公開した理由 34テラバイトのデータと格闘 - NHK

34テラバイトのデータと格闘して「全国ハザードマップ」を公開した理由 5月下旬に公開を開始したNHKの「全国ハザードマップ」。川の氾濫による洪水リスクを中心に掲載し、多くの方に活用頂いています。 ⇒「NHK全国ハザードマップ」の紹介記事はこちら一方で、「市町村が出しているハザードマップがあれば十分だ」「リスクを網羅していない不完全なマップの公開は良くない」「NHKではなく国が取り組むべき仕事ではないか」といった意見も頂きました。今回なぜ、このような取り組みを行ったのか。どうやってデータを収集して地図を作ったのか。詳しく説明します。なぜ「デジタルデータ」を集めたのか？私たちはこれまで「ハザードマップを見て下さい」という呼びかけを、テレビやラジオのニュースや番組、ネット記事、SNSなどで繰り返してきました。なぜなら、自分の暮らす場所のリスクを知ることが、災害から命を守るスタートだから

chess-news 2022/06/22

nhkの仕事なのかな？

リンク

はてなブックマーク

タグ

関連タグで絞り込む (381)

統計に関するchess-newsのブックマーク (268)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス