タグ

データサイエンスと統計に関するmisshikiのブックマーク (57)

  • やさしいデータ分析【確率分布編】 新連載開始!

    この連載は、データをさまざまな角度から分析し、その背後にある有益な情報を取り出す方法を学ぶ『社会人1年生から学ぶ、やさしいデータ分析』連載(記述統計と回帰分析編)の続編で、確率分布に焦点を当てています。 この確率分布編では、推測統計の基礎となるさまざまな確率分布の特徴や応用例を説明します。身近に使える表計算ソフト(Microsoft ExcelGoogleスプレッドシート)を使いながら具体的に事例を見ていきます。 必要に応じて、Pythonのプログラムや統計ソフト「R」などでの作成例にも触れることにします。 数学などの前提知識は特に問いません。中学・高校の教科書レベルの数式が登場するかもしれませんが、必要に応じて説明を付け加えるのでご心配なく。肩の力を抜いてぜひとも気楽に読み進めてください。 筆者紹介: IT系ライターの傍ら、非常勤講師として東大で情報・プログラミング関連の授業を、一橋大

    やさしいデータ分析【確率分布編】 新連載開始!
    misshiki
    misshiki 2024/05/09
    “推測統計の基礎となる確率分布の意味や種類、特徴を解説。離散型分布と連続型分布の違いや種類、確率分布を表す確率質量関数/確率密度関数と累積分布関数の意味や特徴などを見ながら連載の全体像を紹介します。”
  • はじめての「相関と因果とエビデンス」入門:“動機づけられた推論” に抗うために

    人文系大学生〜学部卒の方々を念頭に置いた講演でのスライドです。Enjoy! *書籍:林岳彦著『はじめての統計的因果推論』(岩波書店)の情報はこちら→ https://www.iwanami.co.jp/book/b639904.html

    はじめての「相関と因果とエビデンス」入門:“動機づけられた推論” に抗うために
    misshiki
    misshiki 2024/04/30
    全156ページのスライド資料。
  • ベイズ統計学を勉強する参考書のフロー - Qiita

    慶應義塾大学・株式会社Nospareの菅澤です. 今回はベイズ統計学を勉強するための参考書の順番 (私見) について紹介していきます. 3年ほど前に『日語で学べるベイズ統計学の教科書10冊』を紹介しましたが,今回は「どのような順番でどの参考書を読んでいくと比較的スムーズに勉強が進められるのか」に焦点を当て,比較的最近の書籍や英語の書籍まで含めて紹介していきます. まずは全体的なフローのイメージを提示しておきます. 今回の記事では,「ベイズ統計学を勉強すること」のスタートとゴールを以下のように定めます. (スタート) 統計学の基礎的な内容 (統計検定2級程度の内容) は身についている (ゴール) ベイズモデリングに関する最新の論文がある程度理解して読め,自力でモデルを組んだり実装することができる また,このゴールへの道のりとして,大きく2通りのルートを想定します. (ルートA: フルスクラ

    ベイズ統計学を勉強する参考書のフロー - Qiita
  • 2024年も無料で学べる 総務省が「社会人のためのデータサイエンス入門」を開講

    受講するには総務省のWebサイトへの登録が必要だが、登録料や受講料は無料だ。ドコモgaccoが運営するオンライン講座プラットフォーム「gacco」で受講できる。 講座は1回当たり10分程度 社会人のためのデータサイエンス入門は、社会人や大学生を対象とした、統計データ分析の基的な知識を学べる入門編講座で総務省は「統計学の基礎や統計データの見方などを学習し、身近なデータの活用に役立てられる」としている。2015年3月に開講し、これまで延べ約19万2000人が受講した。 関連記事 密ベクトル(Dense Vector)とは? 疎ベクトル(Sparse Vector)との違い 全てまたはほとんどの成分が0以外の数値を持つベクトルを「密ベクトル」と呼び、その代表例にはテキストなどのEmbedding(埋め込み表現)がある。また、大部分の成分が0で、一部のみが0以外の数値を持つベクトルを「疎ベクトル

    2024年も無料で学べる 総務省が「社会人のためのデータサイエンス入門」を開講
    misshiki
    misshiki 2024/04/12
    “データサイエンスのオンライン講座「社会人のためのデータサイエンス入門」を同年6月11日に開講”
  • 社会人1年生から学ぶ、やさしいデータ分析

    この連載では、データをさまざまな角度から分析し、その背後にある有益な情報を取り出す方法を学びます。 データの収集方法、データの取り扱い、分析の手法などについての考え方を具体例で説明するとともに、身近に使える表計算ソフト(ExcelGoogleスプレッドシート)を利用した作成例を紹介します。 必要に応じて、Pythonのプログラムや統計ソフトRなどでの作成例にも触れることにします。 数学などの前提知識は特に問いません。肩の力を抜いてぜひとも気楽に読み進めてください。 第1回 高校生に負けない! 社会人が学ぶべき、やさしいデータ分析2023/04/20) もはや中学・高校生も学んでいるデータ分析&データサイエンス データ分析/データサイエンスが重要視されるのはなぜ? この連載で取り扱う内容 第2回 データ分析の進め方と、分析前に知っておきたいデータの種類(2023/05/11) データ分析

    社会人1年生から学ぶ、やさしいデータ分析
    misshiki
    misshiki 2024/03/28
    記述統計編と回帰分析編の連載が完結。全17本の記事。次の連載は確率分布編と推測統計編。
  • 統計検定1級(R)の勉強の仕方【2023年末版】 - Qiita

    統計検定(R)は一般財団法人統計質保証推進協会の登録商標です。 0.はじめに この記事は統計検定1級(R)を受けた著者が自身の実施した勉強の仕方や、有益だった書籍やwebコンテンツをまとめたものです。これから勉強を始める方の見通しになるようにしたつもりです。他の合格者の方も同じように書かれていますから、コレ以外にも良い方法はあるかもしれませんので参考程度に考えて下さい。 なお応用に関しては理工学の受験だったため、それを中心とした解説を行います。 これまでにも過去の合格者で同じような情報を書いている人はいましたが時代の変化と共に教材もアップデートされ傾向も変わりつつあります。こちらは2023年末に執筆しているため、その時点の情報を元に著者がやって良かった教材などを中心に紹介しています。将来陳腐化している可能性は十分にあるので、必要に応じて取捨選択してください。 結論が知りたい人は先に最後の方

    統計検定1級(R)の勉強の仕方【2023年末版】 - Qiita
    misshiki
    misshiki 2024/01/15
    “あくまで統計検定1級をクリアする視点についての解説です。効果的な教材や視点を紹介。”
  • 「仮説ドリブン」という名の甘い罠 - 渋谷駅前で働くデータサイエンティストのブログ

    今回の記事では、ちょっと感覚的でふわっとした話をしようと思います。それは「『仮説ドリブン』という考え方には往々にして落とし穴があるのではないか?」という問題提起です。 そもそも、「仮説ドリブン」(仮説駆動型:hypothesis-driven)というアプローチは実験科学分野出身の我が身にとっては、個人的には馴染み深いものです。まだ僕がポスドクだった頃、国際会議に際して日人研究者同士で集まる会が毎回あったのですが、その席上でお話を聞く機会があった当時のトップ研究者の先生から「この世の森羅万象は網羅しようとするにはあまりにも広大過ぎる、故に森羅万象を区切って『仮説で白黒つけられる範囲』に絞り、これを検証するということを繰り返して前に進むべき」ということを聞かされ、感銘を受けたのを覚えています。 実際、仮説ドリブンの考え方は非常に有用なものであり、今現在僕自身が主戦場とする広告・マーケティング

    「仮説ドリブン」という名の甘い罠 - 渋谷駅前で働くデータサイエンティストのブログ
    misshiki
    misshiki 2023/12/21
    “要は「仮説を証明さえ出来ればOK...」という安易な姿勢が、無意識のうちに「自説に都合の良い少量のサンプルだけ集めれば良い」という近視眼的なアプローチに繋がってしまったということですね。”
  • 総務省|統計制度|統計の調査環境の整備

    児童生徒が身近な現象や社会の課題を研究することを通して、課題学習や自由研究の取り組み方を学ぶ、中学生以上向け教材である学習ワークブック「生徒のための統計活用~基礎編~」を開発いたしました。 生徒のための統計活用~基礎編~ 生徒のための統計活用~基礎編~ (20,479KB) はじめに(112KB) 目次(64KB) 第1部 統計的探究プロセスの考え方(2,790KB) 第2部 統計的探究を実践してみよう(4,116KB) 第3部 統計的探究プロセスを身近なものにしよう(4,119KB) 第4部 さまざまな統計データをいかに活用するか(3,700KB) 第5部 統計をさらに知る(5,549KB) 後付(97KB) 書は、既に中学生以上の生徒のみなさんを対象に刊行している、探究的な学習の取組み方を学ぶ学習ワークブック(基礎編)に続く上級編として編集されたものです。 基礎編にはない実践的な事例

    総務省|統計制度|統計の調査環境の整備
    misshiki
    misshiki 2023/12/11
    『生徒のための統計活用~基礎編~』『大学での学びにつながる、統計で身近な現象や社会の課題を探求するスタディガイド、高校からの 統計・データサイエンス活用 ~上級編~』
  • [データ分析]ヒストグラムや箱ひげ図で「分布」を可視化 ~ 集団の特徴や外れ値を見つける

    この連載では、データをさまざまな角度から分析し、その背後にある有益な情報を取り出す方法を学びます。 データの収集方法、データの取り扱い、分析の手法などについての考え方を具体例で説明するとともに、身近に使える表計算ソフト(ExcelGoogleスプレッドシート)を利用した作成例を紹介します。 必要に応じて、Pythonのプログラムや統計ソフトRなどでの作成例にも触れることにします。 数学などの前提知識は特に問いません。肩の力を抜いてぜひとも気楽に読み進めてください。 筆者紹介: IT系ライターの傍ら、非常勤講師として東大で情報・プログラミング関連の授業を、一橋大でAI関連の授業を担当。書道、絵画を経て、ピアノとバイオリンを独学で始めるも学習曲線は常に平坦。趣味の献血は、最近脈拍が多く99回で一旦中断。さらにリターンライダーを目指し、大型二輪免許を取得。1年かけてコツコツと貯金し、ようやくバ

    [データ分析]ヒストグラムや箱ひげ図で「分布」を可視化 ~ 集団の特徴や外れ値を見つける
    misshiki
    misshiki 2023/10/26
    “グラフを使って集団の特徴や外れ値を可視化します。ヒストグラムや箱ひげ図の作成方法と、ピボットテーブル/ピボットグラフによる視覚的な分析のコツを、ケーススタディを通して学びましょう。”
  • データ分析の基礎 - Qiita

    1. データ分析の概要と目的 データ分析とは、大量のデータから有用な情報や知識を抽出するプロセスです。 このプロセスには、データの収集、前処理、探索、モデリング、評価、そして最終的な知識の抽出が含まれます。 データ分析の主な目的は以下の通りです ビジネスの意思決定をサポートする 新しい市場の機会を発見する 顧客の行動や傾向を理解する 製品やサービスの改善 予測や予測モデリングを行う 2. Pythonにおけるデータ分析のライブラリの紹介 Pythonデータ分析のための多くのライブラリを持っています。 以下はその中でも特に人気のあるライブラリです Pandas: データの前処理や探索的データ分析に使用されるライブラリ NumPy: 数値計算を効率的に行うためのライブラリ Matplotlib & Seaborn: データの可視化に使用されるライブラリ Scikit-learn: 機械学習

    データ分析の基礎 - Qiita
    misshiki
    misshiki 2023/09/26
    “ Pythonにおけるデータ分析”
  • 23/9/24 データサイエンス系資格だいたい全部取った - LWのサイゼリヤ

    欲しかったデータサイエンス系の資格を全部取ったのでまとめます。 エンジニアではなくデータサイエンティスト寄りのため、AWS絡みやオラクルマスター等の実装系は弾いています(最終成果物がコードではなくレポートや資料であるジョブのイメージ)。 取った資格一覧 統計検定1級 データベーススペシャリスト データサイエンスエキスパート 応用情報技術者 G検定 データサイエンティスト検定リテラシーレベル Python3エンジニア認定データ分析 データサイエンス数学ストラテジスト上級 取った資格一覧 参考にステータス表示を付けていますが、無職の適当な主観なのであまり鵜呑みにしない方がいいです。当然ながら、基的に難しい資格の方がパワーが高いし楽しい傾向があります。 ①パワー:こいつやるやんって思う度 ★★★:なかなかやるやん ★★☆:まあまあやるやん ★☆☆:やらなくはないやん ②難易度:ゼロから勉強する

    23/9/24 データサイエンス系資格だいたい全部取った - LWのサイゼリヤ
    misshiki
    misshiki 2023/09/25
    “統計検定1級 【パワー★★★】【難易度★★★★】【楽しさ★★★】”
  • [データ分析]グラフの種類と使い分け ~ データ可視化入門【特別予告編】

    データ分析の初歩から応用まで少しずつステップアップしながら学んでいく連載の特別予告編。次回から数回に分けてグラフを利用した可視化の方法を見ていきます。それに先だって、今回は可視化の目的と手法を概観します。「何を見たい」→「どのグラフを使うのか」→「何がうれしいのか」という流れをひととおり確認し、次回以降のお話にスムーズに入れるようにします。 連載目次 データ分析の初歩から応用まで少しずつステップアップしながら学んでいく連載の特別予告編です。第6回(前回)までは、平均値や標準偏差などの値を求めることによって、データを分析する方法を見てきました。特に、前回は、集団の中での位置を知るために、パーセント単位での順位や偏差値などを求めました。 次回からは「可視化による分析」をテーマとして、何回かに分けて幾つかの事例を見ていきます。話の内容や展開がこれまでと少し変わるので、今回は特別予告編として、可視

    [データ分析]グラフの種類と使い分け ~ データ可視化入門【特別予告編】
    misshiki
    misshiki 2023/08/17
    “何を見たい→どのグラフを使うのか→何がうれしいのか、という流れを確認” 「棒グラフ」「折れ線グラフ」「円グラフ/パレート図」「ヒストグラム」「ヒートマップ」「散布図」のおおよその使い所が分かる。
  • [データ分析]順位と偏差値 ~ 私の成績順位はどのあたり?

    データ分析の初歩から応用まで少しずつステップアップしながら学んでいく連載の第6回。集団の中での位置をパーセント単位で求めたり、偏差値を求めたりする方法と、その考え方を説明します。偏差値は大学や高校のランク付けによく使われていますが、序列を付けるためのものではなく、異なる分布の集団の間でも位置が比較できるとても便利な値です。 連載目次 データ分析の初歩から応用まで少しずつステップアップしながら学んでいく連載の第6回です。これまでは、集団のばらつきの度合いを表す散布度について見てきました。具体的には、前々回は間隔尺度や比率尺度で使われる分散/標準偏差を、前回は、順序尺度で使われる四分位範囲/四分位偏差と、名義尺度で使われる平均情報量/相対情報量を紹介しました。今回は、集団そのものの特徴から少し視点を変えて、集団の中にある個々の値に注目していきます。個々の値が集団の中でどの位置にあるのかをパーセ

    [データ分析]順位と偏差値 ~ 私の成績順位はどのあたり?
    misshiki
    misshiki 2023/07/20
    単純に順位を求める方法、ある点数が全体の何パーセントに位置するかを求める方法、パーセント位置から必要な点数を求める方法、偏差値などについての考え方を説明している。
  • Text2Landscape: Visualize a Text in Multiple Spaces with R — Force-directed networks, Biofabric, Word Embeddings, Principal Component Analysis and Self-Organizing Maps

    First Visualizations: Frequencies Let us first visualize word frequencies. We can get these frequencies with the quanteda package, which implies transforming the column of lemmas (text.lemmas$lemma) into a quanteda tokens object, then to a document-feature matrix. Doing so, we only retain significant parts of phrases (nous, proper nouns, verbs and adjectives). This only partially spares us the tas

    Text2Landscape: Visualize a Text in Multiple Spaces with R — Force-directed networks, Biofabric, Word Embeddings, Principal Component Analysis and Self-Organizing Maps
    misshiki
    misshiki 2023/07/03
    “Text2Landscape: R を使用して複数の空間内のテキストを視覚化する — 力指向ネットワーク、バイオファブリック、単語埋め込み、主成分分析、自己組織化マップ” いろいろできるしグラフが美しい。
  • 「京都大学データサイエンス講座」の受講生募集について

    京都大学は、2022年(令和4年)に文部科学省から「数理・データサイエンスに・AI教育の全国展開の推進」拠点大学の一つに選定され、データ科学の教育とそれに必要な調査研究等を行ってきました。 学では、その知見を活かしたデータサイエンス関連の公開講座を全5講座実施しています。各講座とも、オンラインビデオ講義(+ライブ配信)となっており、時間を気にせず学ぶことが可能です。 ビデオ講義では、1回15分程度の動画に分けて概念と問題の注意点等を交えながら丁寧に説明しています。データ科学の最先端で研究をしている講師から直接統計学を学べるまたとない機会ですのでふるってご参加ください。 実施、配信期間および受講料は講座ごとに異なりますので、詳細は各講座のページをご確認ください。 各講座概要 データ分析に役立つ統計基礎講座 ~統計ソフトウェアR活用を目指して~ 実務に必要な統計学の基礎事項について分かりやす

    「京都大学データサイエンス講座」の受講生募集について
    misshiki
    misshiki 2023/07/03
    1回15分程度の動画。良さそうと思ったけど有料なのか。数万円程度と高くはないけど。
  • [データ分析]分散/標準偏差 ~ 給与の格差ってどれぐらい?

    データ分析の初歩から応用まで少しずつステップアップしながら学んでいく連載の第4回。分布のばらつきの度合いを表す値として散布度を取り上げ、尺度や分布によって適切な散布度を利用する必要があることを説明します。今回は間隔尺度・比率尺度の散布度として使われる分散/標準偏差のお話です。 連載目次 データ分析の初歩から応用まで少しずつステップアップしながら学んでいく連載の第4回です。前回は集団の中心的な位置を表す代表値について、尺度や分布によって平均値、中央値、最頻値を使い分けることについて説明しました。今回は、集団の性質を表す値として、分布のばらつきの度合いを表す散布度を取り上げます。 やはり、尺度や分布により、分散/標準偏差、四分位範囲/四分位偏差、平均情報量/相対情報量を使い分ける必要があります。ただし、内容が少し多くなるので、今回は分散/標準偏差についてのみ見ていきます。四分位範囲や平均情報量

    [データ分析]分散/標準偏差 ~ 給与の格差ってどれぐらい?
    misshiki
    misshiki 2023/06/15
    分布のばらつきの度合いを表す値として散布度を取り上げ、そのうちの分散/標準偏差が手を動かしながら学べる。標本分散/標本標準偏差と不偏分散/不偏標準偏差の違いや、歪度と尖度についても触れている。
  • マーケティングデータ分析で成果を挙げるには「統計分析(MMMなど)+A/Bテスト」のコンビネーションが有用 - 渋谷駅前で働くデータサイエンティストのブログ

    既に記事タイトルが雄弁に物語っていますが、「マーケティング分野におけるデータ分析でいかにして成果を挙げるか」というのはある意味永遠の課題であると言えると思います。誇張でも何でもなく、この地球上の全てのマーケティングに関わるデータ分析組織ではこの課題について毎日議論を戦わせていると言っても過言ではないでしょう。 より具体的に言えば、「マーケティング戦略立案のためにデータ分析を実施しても改善提案がなかなか事業側から採用してもらえない」「マーケティングデータ分析の結果を事業側としてはどこまで信頼して良いのか分からない」という悩みは、それこそ僕がデータサイエンス業界にやってきた10年以上前からそこかしこで聞かれ続けてきたものです。しかし、個人的にはここ5年くらいである程度そこを突破するためのスキームが整備されてきたという感想を持っています。 特に現在僕が働いているチームでは、ここ4年ほどに渡って「

    マーケティングデータ分析で成果を挙げるには「統計分析(MMMなど)+A/Bテスト」のコンビネーションが有用 - 渋谷駅前で働くデータサイエンティストのブログ
    misshiki
    misshiki 2023/04/27
    “「統計分析+A/Bテスト」のコンビネーションが、いかに現代のマーケティングにおいても有用なアプローチであるかについてちょっとまとめ”
  • 状態空間モデルを用いた因果効果の推定: CausalImpact - Qiita

    東京大学・株式会社Nospareの菅澤です. 今回は状態空間モデルによる時系列予測手法を用いた因果効果の推定手法であるCausalImpactについて紹介します. CausalImpactとは CausalImpactはGoogleによって開発された因果効果推定の方法です.手法の詳細はBrodersen et al. (2015, AoAS)に記載されており,手法を実装したRパッケージも公開されています. CausalImpactは,ある介入が時間変化するアウトカムにどのような影響を与えるかを推定(推測)するための手法です.時間変化するアウトカム(時系列データ)に対して因果効果を推定する有名な方法としてDifference-in-Difference (DID)がありますが,DIDよりも緩い仮定のもとで時間変化する因果効果を推定できる方法として知られています. CausalImpactのコ

    状態空間モデルを用いた因果効果の推定: CausalImpact - Qiita
    misshiki
    misshiki 2023/02/20
    “状態空間モデルによる時系列予測手法を用いた因果効果の推定手法であるCausalImpactについて紹”
  • プロでもよくある線形回帰モデルの間違い - Qiita

    最近、データサイエンスが流行っていることもあり、線形回帰モデルについても解説記事を見かけることが多くなりました。情報にアクセスしやすくなったのはいいことだと思うんですが、ずっと以前から間違いや解説の不足が多い理論なので、私なりに解説を試みたいと思います。全体的にあまり厳密ではありませんが、線形回帰モデルを学びたての方には有益な記事になるかなと思います。 あと、私も勉強中の身なので、間違いがあったらご指摘いただけたら嬉しいです。 題 さて、よくある間違いとは以下のような解説です。 線形性の仮定が満たされていないので、線形回帰モデルを使ってはいけない 残差が正規分布&等分散ではないので、線形回帰モデルを使ってはいけない 回帰係数に対するt検定の結果をもとに、p値が大きい説明変数を除外する 多重共線性があるとよくないので、変数間で相関が強い、もしくはVIF値が大きい変数を除外する AICが小さ

    プロでもよくある線形回帰モデルの間違い - Qiita
    misshiki
    misshiki 2023/01/06
    “ずっと以前から間違いや解説の不足が多い理論なので、私なりに解説を試み”よくある間違い集。ブコメを読むと内容については気を付けた方がよさそう。
  • 機械学習/統計学/データサイエンスの無償gacco動画、全まとめ【2021年秋版】:AI・機械学習の独学リソース(1/3 ページ) - @IT

    機械学習/統計学/データサイエンスの無償gacco動画、全まとめ【2022年秋版】:AI機械学習の独学リソース(1/3 ページ) 2022年3月末の最新状況に合わせて改訂。はじめてのAIから、機械学習、深層学習、自然言語処理、統計学、社会人のためのデータサイエンス(実用知識)、大学生のためのデータサイエンス(理論知識)まで、全28個の講義内容を紹介。稿独自に考察した、学習者対象やお勧めの学習方法についても示す。

    機械学習/統計学/データサイエンスの無償gacco動画、全まとめ【2021年秋版】:AI・機械学習の独学リソース(1/3 ページ) - @IT
    misshiki
    misshiki 2022/10/13
    2022年10月改訂“はじめてのAIから、機械学習、深層学習、自然言語処理、統計学、社会人のためのデータサイエンス(実用知識)、大学生のためのデータサイエンス(理論知識)まで、全28個の講義内容を紹介。”