[B! pandas] kastro-iyanのブックマーク

kastro-iyan id:kastro-iyan

pandasに関するkastro-iyanのブックマーク (3)

PythonでDataFrameを省メモリに縦横変換する - MicroAd Developers Blog
マイクロアドの京都研究所で機械学習エンジニアをしている田中です。機械学習を利用したユーザーの行動予測の研究開発などを担当しています。今回は、データの前処理に関するお話をしたいと思います。データの縦横変換縦横変換するためのpandasの関数省メモリに縦横変換するサンプルデータの準備 pandas.Categoricalの活用 scipy.sparseの疎行列クラスの活用さいごに参考データの縦横変換機械学習や統計解析をする際に頻出するデータの前処理の1つに、データの縦横変換があります。縦横変換とは、縦持ち（またはlong型）のデータと、横持ち（またはwide型）のデータを互いに変換することを指します。縦持ちのデータの例横持ちのデータの例例示したこの２つのテーブルは、表現形式こそ異なりますが、表しているデータ自体はどちらも同じものになります。ユーザーの行動予測をする
kastro-iyan 2021/07/03
pandas

python
リンク
たった数行でpandasを高速化する2つのライブラリ(pandarallel/swifter) - フリーランチ食べたい
pandas はデータ解析やデータ加工に非常に便利なPythonライブラリですが、並列化されている処理とされていない処理があり、注意が必要です。例えば pd.Sereis.__add__ のようなAPI(つまり df['a'] + df['b'] のような処理です)は処理が numpy に移譲されているためPythonのGILの影響を受けずに並列化されますが、 padas.DataFrame.apply などのメソッドはPythonのみで実装されているので並列化されません。処理によってはそこがボトルネックになるケースもあります。今回は「ほぼimportするだけ」で pandas の並列化されていない処理を並列化し高速化できる2つのライブラリを紹介します。同時に2つのライブラリのベンチマークをしてみて性能を確かめました。 pandarallel pandaralell はPythonの m
kastro-iyan 2021/07/01
pandas

python
リンク
pandas でメモリに乗らない大容量ファイルを上手に扱う - StatsFragments
概要分析のためにデータ集めしていると、たまにマジか！? と思うサイズの CSV に出くわすことがある。なぜこんなに育つまで放っておいたのか、、、？このエントリでは普通には開けないサイズの CSV を pandas を使ってうまいこと処理する方法をまとめたい。サンプルデータたまには実データ使おう、ということで WorldBankから GDPデータを落とす。以下のページ右上の "DOWNLOAD DATA" ボタンで CSV を選択し、ローカルに zip を保存する。解凍した "ny.gdp.mktp.cd_Indicator_en_csv_v2.csv" ファイルをサンプルとして使う。 http://data.worldbank.org/indicator/NY.GDP.MKTP.CD?page=1 補足 pandas の Remote Data Access で WorldBan
kastro-iyan 2021/07/01
python

pandas
リンク
1