yubessyのブックマーク - はてなブックマーク

Python Jupyter + pandas で DataFrame 表示をカスタマイズする - StatsFragments

先日 pandas v0.17.1 がリリースされた。v0.17.0 に対するバグフィックスがメインだが、以下の追加機能もあるためその内容をまとめたい。 HTML 表示のカスタマイズ Jupyer 上では pandasの DataFrame は自動的に HTML として描画される。この HTML に対して、さまざまな CSS を柔軟に設定できるようになった。このエントリでは、添付した公式ドキュメントとは少し違う例を記載する。 Style -- pandas documentation @TomAugspurger (コミッタの一人) 作成の Jupyter Notebook 重要公式ドキュメントにも記載がされているが v0.17.1 時点で開発中 / Experimental な追加のため、今後破壊的な変更が発生する可能性がある。ご要望やお気づきの点があれば GitHub issu

yubessy 2016/02/10

リンク

Python pandas プロット機能を使いこなす - StatsFragments

pandas は可視化のための API を提供しており、折れ線グラフ、棒グラフといった基本的なプロットを簡易な API で利用することができる。一般的な使い方は公式ドキュメントに記載がある。 Visualization — pandas 0.17.1 documentation これらの機能は matplotlib に対する薄い wrapper によって提供されている。ここでは pandas 側で一処理を加えることによって、ドキュメントに記載されているプロットより少し凝った出力を得る方法を書きたい。補足サンプルデータに対する見せ方として不適切なものがあるが、プロットの例ということでご容赦ください。パッケージのインポート import matplotlib.pyplot as plt plt.style.use('ggplot') import matplotlib as mpl m

yubessy 2015/11/16

リンク

pandas 0.17.0 の主要な変更点 - StatsFragments

先日 10/9 に pandas 0.17.0 がリリースされた。直近のバージョンアップの中ではかなり機能追加が多いリリースとなった。重要な変更はリリースノートにハイライトとして列挙しているのだが、これらはある程度 pandas を使いこなしている方向けの記載となっている。そのため、ここではよりライトなユーザ向けに重要と思われる変更を書く。特に、ユーザ側のプログラムに影響がある以下の3点について記載する。ソート API の統合 ( sort_values / sort_index ) 重複削除 API の改善 ( drop_duplicates / duplicated ) .plot アクセサの追加準備 import numpy as np import pandas as pd np.__version__ # '1.10.1' pd.__version__ # u'0

yubessy 2015/10/18

リンク

Python 次世代の多次元配列パッケージ群 - StatsFragments

このところ、たびたび NumPy 後継が...とか並列処理が...という話を聞くので、この秋注目の多次元配列パッケージをまとめたい。バックエンド系 NumPy のように数値計算処理を自前で実装しているパッケージ。 DyND Blaze プロジェクトのひとつ。C++ 実装 + Python バインディング。GitHub にいくつか Example があがっているが、複合型やカテゴリカル型、GroupBy 操作がサポートされていて熱い。ラベルデータも NumPy より簡単に実装できそうだ。 speakerdeck.com 並列分散系自身では直接数値計算処理を行わず、バックエンド ( 主に NumPy )を利用して並列/分散処理を行うパッケージ。1 物理PC/複数コアでの並列計算を主用途とし、NumPy, pandas では少し苦しいが PySpark などを使うほどじゃない...とい

yubessy 2015/09/23

リンク

Python XGBoost の変数重要度プロット / 可視化の実装 - StatsFragments

Gradient Boosting Decision Tree の C++ 実装 & 各言語のバインディングである XGBoost、かなり強いらしいという話は伺っていたのだが自分で使ったことはなかった。こちらの記事で Python 版の使い方が記載されていたので試してみた。 puyokw.hatena blog.com その際、Python でのプロット / 可視化の実装がなかったためプルリクを出した。無事マージ & リリースされたのでその使い方を書きたい。まずはデータを準備し学習を行う。 import numpy as np import xgboost as xgb from sklearn import datasets import matplotlib.pyplot as plt plt.style.use('ggplot') xgb.__version__ # '0.4' ir

yubessy 2015/08/27

リンク

Python pandas パフォーマンス維持のための 3 つの TIPS - StatsFragments

pandas でそこそこ大きいデータを扱う場合、その処理速度が気になってくる。公式ドキュメントではパフォーマンス向上のために Cython や Numba を使う方法を記載している。 Enhancing Performance — pandas 0.16.2 documentation が、軽く試したいだけなのにわざわざ Cythonや Numba を使うのは手間だし、かといってあまりに遅いのも嫌だ。そんなとき、pandas 本来のパフォーマンスをできるだけ維持するためのポイントを整理したい。 pandas に限らず、パフォーマンス改善の際にはボトルネックの箇所によってとるべき対策は異なる。pandas では速度向上/エッジケース処理のためにデータの型や条件によって内部で処理を細かく分けており、常にこうすれば速くなる！という方法を出すのは難しい。以下はこの前提のうえで、内部実装からみ

yubessy 2015/07/12

Python pandas パフォーマンス維持のための 3 つの TIPS

リンク

Python spyre によるデータ分析結果のWebアプリ化 - StatsFragments

R を使っている方はご存知だと思うが、R には {Shiny} というパッケージがあり、データ分析の結果をインタラクティブな Web アプリとして共有することができる。{Shiny} って何？という方にはこちらの説明がわかりやすい。 qiita.com Python でも {Shiny} のようなお手軽可視化フレームワークがあるといいよね、とたびたび言われていたのだが、spyre というなんかそれっぽいパッケージがあったので触ってみたい。 github.com インストール pip で。 pip install dataspyre 使い方現時点でドキュメンテーションはないので、README と examples ディレクトリを見る。サンプルとして株価を取得してプロットするWebアプリを作ってみたい。spyre で Webアプリを作る手順は以下の3つ。 spyre.server.

yubessy 2015/06/13

リンク

Python pandas 関連エントリの目次 - StatsFragments

このブログ中の pandas 関連のエントリをまとめた目次です。最近 pandas 開発チームと PyData グループの末席に加えていただき、パッケージ自体の改善にもより力を入れたいと思います。使い方についてご質問などありましたら Twitter で @ ください。目次につけた絵文字は以下のような意味です。 🔰: 最初に知っておけば一通りの操作ができそうな感じのもの。 🚧: v0.16.0 時点で少し情報が古く、機能の改善を反映する必要があるもの。 🚫: 当該の機能が deprecate 扱いとなり、将来的に代替の方法が必要になるもの。基本簡単なデータ操作を Python pandas で行う 🔰 Python pandas でのグルーピング/集約/変換処理まとめ 🔰 また、上記に対応した比較エントリ: R {dplyr}, {tidyr} Rの data.tab

yubessy 2015/04/29

リンク

はてなブックマーク

タグ

ブックマーク / sinhrks.hatenablog.com (8)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第4週）

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス