タグ

統計に関するsmallmanのブックマーク (2)

  • 1100万行・32GB超の巨大CSVファイルの基本統計量を4GBメモリマシンで算出する - Qiita

    はじめに この記事は,Kaggle Advent Calendar 2022第6日目の記事になります。 記事では、 32GB超のCSVデータの基統計量を、小規模マシンでも省メモリかつ高速に計算するテクニック について解説します。 Kaggleコンペに限らず、 マシンスペックが低いため、大きなデータセットを満足に処理できず困っている 毎回行うファイル読み込みが遅いので、もっと高速化したい ⚡ といった悩みや課題を抱えている方の参考になれば幸いです。 モチベーション データ分析業務やKaggle等のコンペティションで初めてのデータセットを扱う場合、いきなり機械学習アルゴリズムを行うことはまず無く、最初にデータ観察を行うのが一般的です。 テーブルデータであれば、各カラムの基統計量(最小値、最大値、平均、分散、四分位数)などを計算・可視化し、データクレンジングの要否や特徴量設計の方針などを検

    1100万行・32GB超の巨大CSVファイルの基本統計量を4GBメモリマシンで算出する - Qiita
  • 統計学の講義資料(2022年度) | Logics of Blue

    帝京大学経済学部で用いた講義資料です。 2022年度の統計学I及び統計学IIの講義スライドを編集したうえでUPしています。 目次 資料について 統計学の講義資料 1.資料について 帝京大学経済学部で用いた講義資料です。 2022年度の統計学I及び統計学IIの講義スライドを編集したうえでUPしています。 もとの講義資料とは異なる点もあるのでご注意ください。 万が一何か問題があれば、当ブログにコメントをいただけますと幸いです。 スライドにも記載の通り、以下の利用を想定しています。 想定①:講義の受講者が復習に利用する 想定②:未受講者が統計学入門資料として利用する 基的には想定①ですが、文系の学生をメインターゲットとした統計学の格的入門資料は少ない印象です。 未受講者の方にも役に立つかもしれないと思いWeb上で公開することにしました。 資料は1年間にわたる講義資料となっています。数回

  • 1