タグ

blogとpandasに関するsuzukiMYのブックマーク (4)

  • (翻訳)2017年の展望: pandas, Arrow, Feather, Parquet, Spark, Ibis - Qiita

    始めに:pandasの作者であるWes McKinneyさんがPythonのデータツール関連でとても興味深いblogを書かれているので、翻訳して日のPyDataコミュニティに公開してもいいでしょうか、とお聞きしたところ、快諾をいただきましたので少しずつ訳して公開していこうと思っています。 (原文:http://wesmckinney.com/blog/outlook-for-2017/ ) 2016/12/27 Python dataの開発に関して、2017はエキサイティングな年になりそうです。このポストでは、私から提供できそうなものについて書いていきます。それぞれのピースを全体としてどうまとめていくつもりなのか、詳しくは今後のポストで書いていきます。2016年は開発とPython for Data Analysisの第2版の作業で完全に手一杯でblogはあまり書けませんでした。2017

    (翻訳)2017年の展望: pandas, Arrow, Feather, Parquet, Spark, Ibis - Qiita
  • Python xray で 多次元データを pandas ライクに扱う - StatsFragments

    はじめに pandas では 2 次元、表形式のデータ ( DataFrame ) を主な対象としているが、ときには 3 次元以上のデータを扱いたい場合がある。そういった場合 以下のような方法がある。 MultiIndex を使い、2 次元のデータにマッピングする。 3 次元データ構造である Panel、4 次元の Panel4D、もしくは任意の次元のデータ構造 ( PanelND ) をファクトリ関数 で定義して使う。 numpy.ndarray のまま扱う。 自分は MultiIndex を使うことが多いが、データを 2 次元にマップしなければならないため 種類によっては直感的に扱いにくい。Panel や PanelND は DataFrame と比べると開発が活発でなく、特に Panel4D、PanelND は 現時点で Experimental 扱いである。また、今後の扱いをどうす

    Python xray で 多次元データを pandas ライクに扱う - StatsFragments
  • Python pandas パフォーマンス維持のための 3 つの TIPS - StatsFragments

    pandas でそこそこ大きいデータを扱う場合、その処理速度が気になってくる。公式ドキュメントではパフォーマンス向上のために Cython や Numba を使う方法を記載している。 Enhancing Performance — pandas 0.16.2 documentation が、軽く試したいだけなのに わざわざ Cythonや Numba を使うのは手間だし、かといってあまりに遅いのも嫌だ。そんなとき、pandas 来のパフォーマンスをできるだけ維持するためのポイントを整理したい。 pandas に限らず、パフォーマンス改善の際にはボトルネックの箇所によってとるべき対策は異なる。pandas では速度向上/エッジケース処理のために データの型や条件によって内部で処理を細かく分けており、常にこうすれば速くなる! という方法を出すのは難しい。以下はこの前提のうえで、内部実装からみ

    Python pandas パフォーマンス維持のための 3 つの TIPS - StatsFragments
  • Python pandas + folium + Jupyter でリーフレット / コロプレス図を描きたい - StatsFragments

    引き続き、 R の可視化を Python に持ってくるシリーズ。R には以下のようなパッケージがあり、地図上へのリーフレット配置やコロプレス図の描画がカンタンにできる。それぞれの概要はリンク先を。 {leaflet}: リーフレット配置 Leaflet for R - Introduction (英語) {choroplethr}: コロプレス図の描画 choroplethrで大阪市のコロプレス図を描く - Technically, technophobic. これを Python でやりたい。調べてみると folium というパッケージが上記 両方をサポートしているようなので使ってみる。 github.com インストール pip で。 pip install folium 準備 以降の操作は Jupyter Notebook から行う。まずはパッケージをロードする。 import nu

    Python pandas + folium + Jupyter でリーフレット / コロプレス図を描きたい - StatsFragments
  • 1