タグ

pandasに関するhiroomiのブックマーク (6)

  • まだExcelで消耗してるの?Pythonによる自動集計ガイド 基礎編 - Qiita

    ちょっとしたデータの加工や集計に、ExcelGoogle Spreadsheetは便利ですが、それが日常的な作業になってしまったら自動化したいですよね? そこでお勧めなのがpandasです。 Pandasは Python 用のデータ処理パッケージであり、ExcelファイルやCSVなどの表形式データを読みこみ、加工や集計した上で、出力するといったことがプログラムで記述できます。また開発環境を用意しなくとも、Googleが提供する無料の開発環境であるColaboratory上で、すぐに試すことができます。 そしてPythonは、Office 98以降20年以降更新されていないVBAに代わる新たなスクリプト言語として、Microsoftが採用を検討しているという話もあります。 ExcelPython搭載、マイクロソフトが検討。アンケートを実施中 まずPandasの全体像を掴んでみる Pand

    まだExcelで消耗してるの?Pythonによる自動集計ガイド 基礎編 - Qiita
    hiroomi
    hiroomi 2019/03/17
    本のタイトルにしてもよさそ“まずPandasの全体像を掴んでみる Pandasでは、1次元データのことをSeries、2次元をDataFrame、3次元をPanelと呼びます。”
  • pandasのピボットテーブルでカテゴリ毎の統計量などを算出 | note.nkmk.me

    pandas.pivot_table()関数を使うと、Excelなどの表計算ソフトのピボットテーブル機能と同様の処理が実現できる。 カテゴリデータ(カテゴリカルデータ、質的データ)のカテゴリごとにグルーピング(グループ分け)して量的データの統計量(平均、合計、最大、最小、標準偏差など)を確認・分析できる。便利。 pandas.pivot_table — pandas 0.22.0 documentation カテゴリごとの出現回数・頻度を集計する場合はpandas.crosstab()という関数が別途用意されている(pivot_table()でも可能)。 関連記事: pandasのcrosstabでクロス集計(カテゴリ毎の出現回数・頻度を算出) ここでは、 pandas.pivot_table()関数の基的な使い方 カテゴリごとの小計・総計を算出: 引数margins 結果の値の算出方法

    pandasのピボットテーブルでカテゴリ毎の統計量などを算出 | note.nkmk.me
  • Pythonでクロス集計を実行 | DATUM STUDIO株式会社

    クロス集計実行手順まずは、クロス集計作成に必要なライブラリとデータ(log2017.csv)の読み込みます。 import pandas as pd df = pd.read_csv("log2017.csv")ここからクロス集計表の作成部分です。 作成するには pd.pivot_table( [データフレーム名], values="①_集計したい項目", index="②_行に設定したい集計キー", columns="③_列に設定したい集計キー", aggfunc="④_集計方法" )とコードを書きましょう。 コード内の①~④については下図Excelのピボットテーブルのフィールド機能の各設定項目箇所を示しております。 例えば、クロス集計表の「行」部分に「購入月」を設定したい場合は values=”購入月” と引数を設定する必要がある、ということです。 それでは、各クロス集計表の作成を進め

    Pythonでクロス集計を実行 | DATUM STUDIO株式会社
  • pandasのcrosstabでクロス集計(カテゴリ毎の出現回数・頻度を算出) | note.nkmk.me

    pandas.crosstab()関数を使うとクロス集計分析ができる。 カテゴリデータ(カテゴリカルデータ、質的データ)のカテゴリごとのサンプル数(出現回数・頻度)の算出などが可能。 pandas.crosstab — pandas 0.22.0 documentation 出現回数ではなく、カテゴリごとの平均値などを算出したい場合はピボットテーブルpandas.pivot_table()を使う。以下の記事を参照。 関連記事: pandasのピボットテーブルでカテゴリ毎の統計量などを算出 ここでは、 pandas.crosstab()関数の基的な使い方 カテゴリごとの小計・総計を算出: 引数margins 全体・行ごと・列ごとに規格化(正規化): 引数normalize について説明する。 例としてタイタニックの生存情報のデータを使用する。Kaggleの問題からダウンロードできる。 im

    pandasのcrosstabでクロス集計(カテゴリ毎の出現回数・頻度を算出) | note.nkmk.me
  • mathgram.xyz - mathgram リソースおよび情報

  • Python Pandasでのデータ操作の初歩まとめ − 後半:データ集計編 - Qiita

    はじめに Pythonデータ分析を扱う上で必須となる、Pandasでのデータ操作方法の 初歩についてまとめました。 ついつい忘れてしまう重要文法から、ちょっとしたTipsなどを盛り込んでいます。 こんな人にオススメ → Pandasを初めて触ってみたい! → Rが使えることをPythonでもやってみてーなー → Pandasの文法覚えきれねー どっかに一覧があれば便利なのに... → そもそもPythonでデータハンドリングってどれくらいできるものなのさ データの操作についても知りたい方は前半からどうぞ ◆ Python Pandasでのデータ操作の初歩まとめ − 前半:データ作成&操作編 http://qiita.com/hik0107/items/d991cc44c2d1778bb82e 計算をしてみよう ◆統計量演算 #列方向の合計 df_sample["score1"].sum(

    Python Pandasでのデータ操作の初歩まとめ − 後半:データ集計編 - Qiita
  • 1