タグ

Pandasに関するhigedのブックマーク (5)

  • pandasで1000万件のデータの前処理を高速にするTips集 - Qiita

    はじめに 当社にアルバイトに来ていた人(来春に新卒入社の予定)に「pandasを高速化するための情報は無いですか?」と尋ねられました。 このパッケージの使い方は多数の書籍やWebで体系立った記事で書かれています。 しかし、高速化に関しては体系的な情報源が思いつかなかったので、「実際に書いてみて、1つ1つチューニングするしかないです」としか答えられませんでした。 そこで、この方を始め、来春(2019年4月)にデータアナリストまたはデータサイエンティストになる新卒へ向けて、pandasの高速化に関する私の経験をTips集にしてお伝えしたいと思います。 この記事は今後も内容を充実させるために、Tipsを追加していきます。 この記事を読んだ後にできるようになること pandasでレコード数1000万件のデータでも1分以内で完了する前処理が書けるようになります。 その結果、1日中実行し続けなければな

    pandasで1000万件のデータの前処理を高速にするTips集 - Qiita
  • A Beginner’s Guide to Optimizing Pandas Code for Speed | by Sofia Heisler | Upside Engineering Blog

    If you’ve done any data analysis in Python, you’ve probably run across Pandas, a fantastic analytics library written by Wes McKinney. By conferring dataframe analysis functionality to Python, Pandas has effectively put Python on the same footing as some of the more established analysis tools, such as R or SAS. Unfortunately, early on, Pandas had gotten a nasty reputation for being “slow”. It’s tru

    A Beginner’s Guide to Optimizing Pandas Code for Speed | by Sofia Heisler | Upside Engineering Blog
  • ゆるふわPandasチートシート - Qiita

    import pandas as pd import numpy as np import matplotlib.pyplot as plt %matplotlib inline

    ゆるふわPandasチートシート - Qiita
  • Pandasを使ったデータ操作の基本 - ぴよぴよ.py

    データ分析の会社に転職してから3ヶ月。 最初の1ヶ月はPandasの扱いに当に困ったので、 昔メモしてたことを簡単にブログに記録しておく(o ・ω・)ノ 【追記】2017/07/31 0:36 データが一部間違ってたので修正しました Pandasとは pandasでよく使う型 テストデータについて 余談 Pandasでのデータ操作入門 pandasのload データ(csv)のロード データのサイズ データのカラム 行列から必要な列(カラム)を取り出す 条件にマッチするデータを取り出す 1. DataFrame.queryで取り出す True/FalseのSeries型を指定し、Trueの行だけを取り出す 追記(2017/12/14) 行列から必要な行番号を指定してを取り出す グループ分けと集計 新たな列を追加する 固有値を追加する 他の列を加工して新たな列を作る 他の複数列を加工して新

    Pandasを使ったデータ操作の基本 - ぴよぴよ.py
  • 超簡易的な住所文字列の処理系を作った - QuzeeBlog@Hatena

    住所文字列の表記揺れを目視で確認する作業が発生して、衝動に任せて作った代物です。コードを読んでいただけばわかりますけど抜けだらけです(ジオコーダ作るときの指標ぐらいにはなるかも)。 このコードは住所文字列のCSVを読み込んで、都道府県/市区町村/大字/町丁目/それ以外 の列として切り出します。必要なものは市区町村、大字、町丁目の辞書データです(これは./address_base/以下に格納)。また、表記揺れを解消するための辞書を読み込む機能を作っています。これは作業フォルダ以下(./WordDictionary/WordDictionary.csv)においてあり、修正前文字列/修正後文字列をCSVの形で持っています(「粕屋郡,糟屋郡」みたいなCSVです)。 出力はExcel形式で、これはPandas使って吐きだししています。最近Pandasはフォーマット変換のために多用しているなあ。 im

    超簡易的な住所文字列の処理系を作った - QuzeeBlog@Hatena
  • 1