タグ

datascienceとpandasに関するcu39のブックマーク (4)

  • numpy/scipy/pandas/matplotlibメモ | mwSoft

    pandasでいろいろplot 概要 pandasとmatplotlibの機能演習のログ。 可視化にはあまり凝りたくはないから、pandasの機能お任せでさらっとできると楽で良いよね。人に説明する為にラベルとか色とか見やすく出す作業とか面倒。 @CretedDate 2014/09/25 @Versions python 2.7.6, pandas0.14, matplotlib1.4.2 DataFrameをplot DataFrameに対してplot()と書くだけで概ね描画できる。 とりあえずimport。 %pylab import pandas as pd import numpy as np from matplotlib import pylab as plt 3つのカラムを持つDataFrameをplotしてみる。 df = pd.DataFrame( [ [0, 1, 2]

    numpy/scipy/pandas/matplotlibメモ | mwSoft
  • Python pandas プロット機能を使いこなす - StatsFragments

    pandas は可視化のための API を提供しており、折れ線グラフ、棒グラフといった基的なプロットを簡易な API で利用することができる。一般的な使い方は公式ドキュメントに記載がある。 Visualization — pandas 0.17.1 documentation これらの機能は matplotlib に対する 薄い wrapper によって提供されている。ここでは pandas 側で一処理を加えることによって、ドキュメントに記載されているプロットより少し凝った出力を得る方法を書きたい。 補足 サンプルデータに対する見せ方として不適切なものがあるが、プロットの例ということでご容赦ください。 パッケージのインポート import matplotlib.pyplot as plt plt.style.use('ggplot') import matplotlib as mpl m

    Python pandas プロット機能を使いこなす - StatsFragments
  • pandas によるデータセットの加工 (2) - Qiita

    昨日は pandas でのデータセット加工について説明しましたがその続きです。 データを正規化する 実は今までの記事でもさり気なく正規化は登場してきたのですがきちんと説明していなかったと思います。 統計における 正規化 (normalize) とは、異なる基準のデータを一定の基準にしたがって変形し利用しやすくすることです。 たとえば国語が 90 点、数学が 70 点だったとしましょう。単純に数値だけを比較すると国語のほうが成績が良いことになってしまいますが、もし国語の平均点が 85 点、数学の平均点が 55 点だったら果たしてどうでしょうか?このように基準が異なるデータを比較できるようになるといったことが正規化のメリットです。 一般的には平均 0 、分散 (及び標準偏差) が 1 になるように値を変換することを指します。 これは以下の数式で算出できます。

    pandas によるデータセットの加工 (2) - Qiita
  • pandas によるデータセットの加工 (1) - Qiita

    サンプルデータの抽出 統計解析においてはデータの前処理が欠かせません。まず計算機で扱えるようデータを読み込むわけですが、大きめのデータを扱う計算処理においてはそのターンアラウンドがしばしば問題になります。このようなときに採るべき策はいくつかあります。 データのサイズを減らす ボトルネックを特定し計算量の削減をする 計算機の性能を上げる ビッグデータなどと言われて久しいですが実際には標のサイズを大きく取る必要はありません。標抽出法によって有意なサンプルを抜きだしましょう。 多くのデータ集中処理では I/O がボトルネックになります。このとき必要なデータだけを読み込むようにする、もとのデータを適切に分割して入力サイズそのものを減らす、といったことを検討するのが良いでしょう。 サンプルデータのスライスと集計 スライシング pandas でデータを扱う場合、スライシングは簡単におこなえます。

    pandas によるデータセットの加工 (1) - Qiita
  • 1