[B! 統計] misshikiのブックマーク

やさしいデータ分析【確率分布編】　新連載開始！

この連載は、データをさまざまな角度から分析し、その背後にある有益な情報を取り出す方法を学ぶ『社会人1年生から学ぶ、やさしいデータ分析』連載（記述統計と回帰分析編）の続編で、確率分布に焦点を当てています。この確率分布編では、推測統計の基礎となるさまざまな確率分布の特徴や応用例を説明します。身近に使える表計算ソフト（Microsoft ExcelやGoogleスプレッドシート）を使いながら具体的に事例を見ていきます。必要に応じて、Pythonのプログラムや統計ソフト「R」などでの作成例にも触れることにします。数学などの前提知識は特に問いません。中学・高校の教科書レベルの数式が登場するかもしれませんが、必要に応じて説明を付け加えるのでご心配なく。肩の力を抜いてぜひとも気楽に読み進めてください。筆者紹介： IT系ライターの傍ら、非常勤講師として東大で情報・プログラミング関連の授業を、一橋大

misshiki 2024/05/09

“推測統計の基礎となる確率分布の意味や種類、特徴を解説。離散型分布と連続型分布の違いや種類、確率分布を表す確率質量関数／確率密度関数と累積分布関数の意味や特徴などを見ながら連載の全体像を紹介します。”

リンク

Python Dashによりデータ分析結果の共有を効率化する取り組み - ZOZO TECH BLOG

はじめにこんにちは、検索基盤部の伊澤です。検索基盤部では普段から、ZOZOTOWNの検索機能に関するデータ分析や、データ分析を踏まえた検索性能の改善に取り組んでいます。検索に関するデータ分析では、検索クエリの傾向把握や課題のあるクエリの特定のために、検索クエリごとの検索結果のクリック率やコンバージョン率といったパフォーマンス指標を評価しています。本記事では、検索クエリごとのデータ分析に関する情報共有を効率化するため、ウェブフレームワークの「Dash」で開発したダッシュボードを活用した事例を紹介します。目次はじめに目次検索クエリごとのデータ分析の重要性分析結果のチーム内共有時の課題 Dashを用いたダッシュボードの開発 Dashとは Dashを選定した理由検索クエリごとのパフォーマンス指標のダッシュボード 1. 検索クエリごとのパフォーマンス指標のテーブル 2. 検索クエリ

misshiki 2024/05/07

“検索クエリごとのデータ分析に関する情報共有を効率化するため、ウェブフレームワークの「Dash」で開発したダッシュボードを活用した事例を紹介します。”

リンク

はじめての「相関と因果とエビデンス」入門：“動機づけられた推論” に抗うために

人文系大学生〜学部卒の方々を念頭に置いた講演でのスライドです。Enjoy！＊書籍：林岳彦著『はじめての統計的因果推論』（岩波書店）の情報はこちら→ https://www.iwanami.co.jp/book/b639904.html

misshiki 2024/04/30

全156ページのスライド資料。

リンク

ベイズ統計学を勉強する参考書のフロー - Qiita

慶應義塾大学・株式会社Nospareの菅澤です．今回はベイズ統計学を勉強するための参考書の順番 (私見) について紹介していきます． 3年ほど前に『日本語で学べるベイズ統計学の教科書10冊』を紹介しましたが，今回は「どのような順番でどの参考書を読んでいくと比較的スムーズに勉強が進められるのか」に焦点を当て，比較的最近の書籍や英語の書籍まで含めて紹介していきます．まずは全体的なフローのイメージを提示しておきます．今回の記事では，「ベイズ統計学を勉強すること」のスタートとゴールを以下のように定めます． (スタート) 統計学の基礎的な内容 (統計検定2級程度の内容) は身についている (ゴール) ベイズモデリングに関する最新の論文がある程度理解して読め，自力でモデルを組んだり実装することができるまた，このゴールへの道のりとして，大きく2通りのルートを想定します． (ルートA: フルスクラ

misshiki 2024/04/22

リンク

2024年も無料で学べる　総務省が「社会人のためのデータサイエンス入門」を開講

受講するには総務省のWebサイトへの登録が必要だが、登録料や受講料は無料だ。ドコモgaccoが運営するオンライン講座プラットフォーム「gacco」で受講できる。講座は1回当たり10分程度社会人のためのデータサイエンス入門は、社会人や大学生を対象とした、統計データ分析の基本的な知識を学べる入門編講座で総務省は「統計学の基礎や統計データの見方などを学習し、身近なデータの活用に役立てられる」としている。2015年3月に開講し、これまで延べ約19万2000人が受講した。関連記事密ベクトル（Dense Vector）とは？　疎ベクトル（Sparse Vector）との違い全てまたはほとんどの成分が0以外の数値を持つベクトルを「密ベクトル」と呼び、その代表例にはテキストなどのEmbedding（埋め込み表現）がある。また、大部分の成分が0で、一部のみが0以外の数値を持つベクトルを「疎ベクトル

misshiki 2024/04/12

“データサイエンスのオンライン講座「社会人のためのデータサイエンス入門」を同年6月11日に開講”

リンク

ベイズ統計でKaggleを解いてみる - Qiita

はじめに概要ベイズ統計を用いてKaggleの1タイタニック問題を解いてみる．分析は以下の手順で行う．データの可視化・理解データの加工・前処理ベイズ統計分析モデルの記述デザイン行列・データリストの作成 Stanファイルの記述 MCMC! 結果の評価実行環境 Mac OS Sonoma 14.1 R version 4.3.1 RStudio version 2023.12.1+402 > R.versions version.string R version 4.3.1 (2023-06-16) > sessionInfo() other attached packages: [1] posterior_1.5.0 cmdstanr_0.6.1 lubridate_1.9.3 forcats_1.0.0 [5] stringr_1.5.0 dplyr_1.1.3 purrr

misshiki 2024/04/11

リンク

ABテストにおける分散削減手法①〜少ないサンプルから小さな改善効果を検出する〜｜あならいずパンダ

マネーフォワード分析推進部の石田と申します。社内では、データサイエンティストとして施策効果検証系の案件を中心に担当しています。本稿から2回に渡って、「ABテストにおける分散削減手法」というテーマで記事を執筆したいと思います。馴染みのない方もいらっしゃるかもしれませんが、ABテストへ分散削減手法を適用することで、例えば以下に挙げたメリットを享受することができます。必要サンプルサイズを低減できるため、意思決定サイクルを高速化できるより小さな改善効果を検出できる魅力的だと感じていただけた方は、ぜひ最後まで本稿をお読みください！目次想定する読者層と書いてある内容本稿のメインターゲットは、以下のような方です。統計的仮説検定の理論を少し勉強したことがあるけど、分散削減と言われてもあまりピンと来ていない確率変数、標本平均、分散、正規分布の意味は分かるけど、t検定の検定統計量がパッと

misshiki 2024/04/01

“ABテストへ分散削減手法を適用することで、例えば以下に挙げたメリットを享受することができます。必要サンプルサイズを低減できるため、意思決定サイクルを高速化できるより小さな改善効果を検出できる”

リンク

社会人1年生から学ぶ、やさしいデータ分析

この連載では、データをさまざまな角度から分析し、その背後にある有益な情報を取り出す方法を学びます。データの収集方法、データの取り扱い、分析の手法などについての考え方を具体例で説明するとともに、身近に使える表計算ソフト（ExcelやGoogleスプレッドシート）を利用した作成例を紹介します。必要に応じて、Pythonのプログラムや統計ソフトRなどでの作成例にも触れることにします。数学などの前提知識は特に問いません。肩の力を抜いてぜひとも気楽に読み進めてください。第1回　高校生に負けない！　社会人が学ぶべき、やさしいデータ分析（2023/04/20）もはや中学・高校生も学んでいるデータ分析＆データサイエンスデータ分析／データサイエンスが重要視されるのはなぜ？この連載で取り扱う内容第2回　データ分析の進め方と、分析前に知っておきたいデータの種類（2023/05/11）データ分析

misshiki 2024/03/28

記述統計編と回帰分析編の連載が完結。全17本の記事。次の連載は確率分布編と推測統計編。

リンク

セル結合を回避しながら表の見た目も確保するなど、「構造化Excelテク」12本まとめ

「Microsoft Excel（エクセル）」で表を作成する際、ついつい見栄えを優先して、セルを結合したり、セル内に単位などを直接入力したりしていないだろうか。単に閲覧するだけの「表」を作るなら、問題ないだろう。しかし、データとして活用する場合には、機械処理する際の障害となるなど不都合な点もある。総務省統計局が公開した各府省が政府統計の総合窓口（e-Stat）に掲載する統計表の表記方法の統一ルール「統計表における機械判読可能なデータの表記方法の統一ルールの策定」では、こうした機械処理に向かないExcelの表を作成しないことを推奨しており、ガイドラインを示している。この統一ルールは本来、e-Statで統計表を公開する各府省向けのものだ。しかし、一般企業などにおいても参考にすべき点が多い。そこで、Tech TIPSの中で「構造化Excelテク」として、この統一ルールの中から幾つかのルールを

misshiki 2024/03/27

“e-Stat掲載の統計表の表記方法の統一ルールは一般企業でも参考にすべき点が多い。幾つかのルールを紹介し、どのように作表すべきなのか、また既に作られたものを機械処理に向いた表に変換する方法を紹介。”

リンク

受験者数と合格率（CBT方式）｜統計検定：Japan Statistical Society Certificate

各年の受験者総数と各級各年の合格率（CBT方式）コンピュータ上で実施するCBT（Computer Based Testing）方式の「統計検定」の各年の受験者総数と各級の各年の合格率を示します。各年の受験者総数年受験者数

misshiki 2024/03/19

“CBT（Computer Based Testing）方式の「統計検定」の各年の受験者総数と各級の各年の合格率”右肩上がりに受験者数が増えている。

統計

リンク

検索サジェストにおける多様性評価指標とゴール指標の相関について - ZOZO TECH BLOG

はじめにこんにちは、検索基盤部の広渡です。検索基盤部では、検索クエリのサジェスト（以下、サジェスト）の改善を行なっています。ここでサジェストは一般的に「Query Auto Completion」と呼ばれる、検索クエリを入力した際に入力の続きを補完したキーワードを提示する機能を指します。 ZOZOTOWNにおいては検索クエリを入力したとき、最大10件の検索クエリのサジェスト（以下、サジェストリスト）が表示されます（なお、ランキングを考慮しない場合はサジェスト集合と呼ぶこととします）。また、サジェストリストのランキングはユーザーの行動ログを用いて計算されたスコアによって決定されます。サジェストの具体的な説明や過去の改善事例は以下の記事を参照してください。 tech blog.zozo.com tech blog.zozo.com サジェストリストをチーム内で定性評価したところ、類似したサジェス

misshiki 2024/03/15

“サジェストにおける多様性評価指標と、それらの指標とCTR/CVRとの相関について紹介しました。実際に多様性評価指標を使うと、通常のnDCGに比べてCTR/CVRと相関することが分かりました。”

リンク

「p値とは何か？」を説明できますか - ai_math_runningのブログ

この記事の概要 p値を理解するには統計学の基礎知識が必要統計学は「自然界の現象にはばらつきがあり」「測定値には誤差がある」から必要知りたい事・言いたい事に対し「逆の事」を考えるその「逆の事」が正しい確率がp値 p値が十分に小さければ「逆の事」は滅多に起こらないので「言いたい事」が言えるこの記事の概要この記事のお題 p値の説明に必要な事統計学はなぜ必要なのか？言いたい事を言うために逆の事*1を考える「p値」とは「逆の事」が正しい確率この記事のお題今日のお題は、こちらの記事についてです。 diamond.jp まず、その前に、この記事の前の記事が素晴らしかったんです。【「0.05」の謎】統計学好きでも意外と知らない「統計的に有意」の本当の正体 | Science Fictions あなたが知らない科学の真実 | ダイヤモンド・オンラインなので、その記事のブクマに次のよう

misshiki 2024/03/07

“p値の説明としては、これじゃぁ分かりにくいだろう、と思ったので。なので、p値の説明を試みてみようと思います。”

統計

リンク

【統計学「p値」の謎】統計学好きでも意外と説明できない「p値」の正体

心理学者。キングス・カレッジ・ロンドンの精神医学・心理学・神経科学研究所の講師。2015年に科学的心理学会（アメリカ）の「期待の星（ライジンング・スター）」賞を受賞。『タイムズ』『ワシントン・ポスト』『ワイアード』などに数多く寄稿し、BBCラジオなどの出演もある。 Science Fictions　あなたが知らない科学の真実スタンフォード監獄実験はイカサマだった！権威ある心理学研究の100件のうち、再現に成功したのはたったの39％!? 科学の信頼性を根底から揺るがす「再現性の危機」に迫る真実の書、日本上陸！科学における不正・怠慢・バイアス・誇張が起きる仕組みを多数の実例とともに解説。既存の本で知ったウンチクを得意げに語る人に読ませたい、真実の書。バックナンバー一覧「すべての科学研究は真実である」と考えるのは、あまりに無邪気だ――。科学の「再現性の危機」をご存じだろうか。心理学、

misshiki 2024/03/05

統計

リンク

関数データに対する主成分分析～方法論の紹介とRによる実装～

経時データが観測されたとき、各観測のデータを関数として扱いその特徴を定量化するための方法について紹介します。Rによる分析コードとその解説も入れています。（p6の「こちらのページ」はp33を指しています）

misshiki 2024/02/27

全39ページのスライド資料。

R
統計

リンク

【機械学習】AUCとGini係数の関係を理解する【評価指標】 - Qiita

はじめに二値分類の評価指標について「AUCとGini係数ってどんな関係だっけ？」と毎回忘れては調べているので、いい加減覚える意味で体系的にまとめてみる。この記事では AUCとは何か？ Gini係数とは何か両者はどんな関係があるか？を理解することを目的とする。最初に結論 AUCとGini係数の間にはの関係がある。 AUCは0.5から1の範囲を取るため、Gini係数は0から1までの範囲を取る。どちらも値が大きいほど分類性能が良いことを表す。最終的にこの式を理解することを目的としよう。 AUCを理解しよう AUC （Area Under the Curve）は二値分類における有名な評価指標の一つであり、文字通り、「ROC曲線下の面積」を表す。 ROC曲線とは？ ROC (Receiver Operating Charastaristic Curve)は受信者操作特性と呼ばれる

misshiki 2024/02/27

リンク

［データ分析］重回帰分析による予測（線形回帰、多項式回帰）～年式、走行距離、排気量から中古車の価格を予測

筆者紹介： IT系ライターの傍ら、非常勤講師として東大で情報・プログラミング関連の授業を、一橋大でAI関連の授業を担当。書道、絵画を経て、ピアノとバイオリンを独学で始めるも学習曲線は常に平坦。趣味の献血は、最近脈拍が多く99回で一旦中断。さらにリターンライダーを目指し、大型二輪免許を取得。1年かけてコツコツと貯金し、ようやくバイクを購入（またもや金欠）。前回は単回帰分析により、説明変数xの値から目的変数yの値を予測するための回帰式を求めたり、回帰式を基に予測を行ったりしました。今回は、説明変数が複数ある場合の重回帰分析に取り組みます。図1の例であれば、年式が説明変数x1、走行距離が説明変数x2、排気量が説明変数x3となり、本体価格が目的変数yとなります。図1のデータでは実際のメーカーや車種の名称が使われていますが、本体価格などの値は架空のものです。図1　重回帰分析を利用して中古車の価

misshiki 2024/02/22

いよいよこの連載の山場の重回帰分析の説明。カテゴリ変数の数値化や多重共線性にも触れている。

リンク

基礎から学ぶ統計学

本章では、二項検定を学びます。二項検定は、本書で学ぶ統計手法の中では、最も使用頻度が低い手法です。しかし、統計学の入門に最適な学習項目です。理由が3つあります。第一に、高校1～2年で学んだ数学だけで、この手法の原理を完全に理解できます。統計手法はたくさんありますが、唯一この手法だけは、全て手作りの計算で実行できます。第二に、面倒な検定統計量の計算を必要としません。第三に、二項検定には、検定の論理の全てが詰まっています。こうした理由から、読者のお父さんやお母さん、もしくは、お爺ちゃんやお婆ちゃんの世代では、二項検定は、高校の数学の教科書で解説されていました。この「とても分かりやすい」という長所を、活用しない手はありません。本書では、統計学の学習を、二項検定から始めます。本章では、当時の大学入試の頻出問題をさらに簡単にした例題を使って、学びます。… 本書の使い方統計学を学ぶ心がけ／予備知識／

misshiki 2024/02/07

“2022年09月13日発行”

統計

リンク

統計検定準1級で最優秀成績賞を一発取得した勉強方法 - データサイエンス学習記録

統計検定準1級で最優秀成績書を一発で取得したので勉強方法をまとめようと思います。これから受験される方の参考になれば幸いです。受験前の私の状況受験のきっかけ統計検定準1級概要統計検定準1級の勉強法使用した教材勉強スケジュールと勉強時間勉強方法試験本番試験結果試験の所感統計検定準1級取得後受験前の私の状況理系院卒大学時代に教養で統計や数学は習っていましたが、ほとんど忘れている状態。仕事ではエクセルで簡単なデータ分析をしたことある程度。統計検定2級を取得済み。受験のきっかけ統計検定2級を取得し、統計に興味が湧きました。詳しく統計を勉強してみたいと思い統計検定準１級の勉強を決意しました。統計検定準1級概要統計検定準１級は、２級までの基礎知識をもとに、実社会の様々な問題に対して適切な統計学の諸手法を応用できる能力を問うものです。詳細は公式HPをご確認くださ

misshiki 2024/01/29

“ワークブックは各分野の内容が簡潔にまとまっていますが、説明や式の導出などは少なく、数学や統計の下地がない方は苦労する可能性が高い。とけたろうさんのブログに統計検定準1級の内容がわかりやすくまとまっ”

統計

リンク

距離の絶対値を取る「最小絶対値法」、なぜ機械学習であまり使わない？

機械学習の最も基礎的な手法が最小二乗法だ。この特集では、Pythonで最小二乗法のプログラムを実装することで、その仕組みを学んでいく。最小二乗法では、回帰式とデータ間の距離を二乗することでマイナスの値が出てこないようにしますが、「マイナスの値を出したくないのなら、距離の絶対値を取ってもよいのではないか」と思われた方もいるでしょう。というよりも、絶対値という概念を知っていれば、そう考える方が自然と言えるかもしれません。実は、距離の絶対値を取る「最小絶対値法」という手法があります。最小絶対値法による回帰は「ロバスト回帰」と呼ばれます。回帰式とデータ間の距離を「誤差」と考えるとしましょう。その誤差の値が最も一般的な確率分布である“正規分布”になるときは、最小二乗法で良い結果が得られます。一方、「外れ値」があり、誤差が正規分布にならないときは、最小絶対値法の方が良い結果になることが多いようです

misshiki 2024/01/22

リンク

機械学習の基礎の基礎、最小二乗法を学ぶ

機械学習の最も基礎的な手法が最小二乗法だ。この特集では、Pythonで最小二乗法のプログラムを実装することで、その仕組みを学んでいく。出典：日経ソフトウエア、2024年1月号 pp.6-21 「今から始める機械学習入門　Part1　基礎となる『最小二乗法』をマスターする」を改題、編集記事は執筆時の情報に基づいており、現在では異なる場合があります。

misshiki 2024/01/18

“機械学習の最も基礎的な手法が最小二乗法だ。この特集では、Pythonで最小二乗法のプログラムを実装することで、その仕組みを学んでいく。”

リンク

はてなブックマーク

タグ

関連タグで絞り込む (26)

統計に関するmisshikiのブックマーク (329)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス