[B! Pandas] higedのブックマーク

pandasで1000万件のデータの前処理を高速にするTips集 - Qiita

はじめに当社にアルバイトに来ていた人（来春に新卒入社の予定）に「pandasを高速化するための情報は無いですか？」と尋ねられました。このパッケージの使い方は多数の書籍やWebで体系立った記事で書かれています。しかし、高速化に関しては体系的な情報源が思いつかなかったので、「実際に書いてみて、1つ1つチューニングするしかないです」としか答えられませんでした。そこで、この方を始め、来春（2019年4月）にデータアナリストまたはデータサイエンティストになる新卒へ向けて、pandasの高速化に関する私の経験をTips集にしてお伝えしたいと思います。この記事は今後も内容を充実させるために、Tipsを追加していきます。この記事を読んだ後にできるようになること pandasでレコード数1000万件のデータでも1分以内で完了する前処理が書けるようになります。その結果、1日中実行し続けなければな

higed 2018/12/22

リンク

A Beginner’s Guide to Optimizing Pandas Code for Speed | by Sofia Heisler | Upside Engineering Blog

If you’ve done any data analysis in Python, you’ve probably run across Pandas, a fantastic analytics library written by Wes McKinney. By conferring dataframe analysis functionality to Python, Pandas has effectively put Python on the same footing as some of the more established analysis tools, such as R or SAS. Unfortunately, early on, Pandas had gotten a nasty reputation for being “slow”. It’s tru

higed 2017/11/23

Pandas
code

リンク

ゆるふわPandasチートシート - Qiita

import pandas as pd import numpy as np import matplotlib.pyplot as plt %matplotlib inline

higed 2017/08/01

リンク

Pandasを使ったデータ操作の基本 - ぴよぴよ.py

データ分析の会社に転職してから3ヶ月。最初の1ヶ月はPandasの扱いに本当に困ったので、昔メモしてたことを簡単にブログに記録しておく(o ･ω･)ﾉ【追記】2017/07/31 0:36 データが一部間違ってたので修正しました Pandasとは pandasでよく使う型テストデータについて余談 Pandasでのデータ操作入門 pandasのload データ(csv)のロードデータのサイズデータのカラム行列から必要な列(カラム)を取り出す条件にマッチするデータを取り出す 1. DataFrame.queryで取り出す True/FalseのSeries型を指定し、Trueの行だけを取り出す追記(2017/12/14) 行列から必要な行番号を指定してを取り出すグループ分けと集計新たな列を追加する固有値を追加する他の列を加工して新たな列を作る他の複数列を加工して新

higed 2017/07/31

リンク

超簡易的な住所文字列の処理系を作った - QuzeeBlog@Hatena

住所文字列の表記揺れを目視で確認する作業が発生して、衝動に任せて作った代物です。コードを読んでいただけばわかりますけど抜けだらけです（ジオコーダ作るときの指標ぐらいにはなるかも）。このコードは住所文字列のCSVを読み込んで、都道府県/市区町村/大字/町丁目/それ以外の列として切り出します。必要なものは市区町村、大字、町丁目の辞書データです（これは./address_base/以下に格納）。また、表記揺れを解消するための辞書を読み込む機能を作っています。これは作業フォルダ以下（./WordDictionary/WordDictionary.csv）においてあり、修正前文字列/修正後文字列をCSVの形で持っています（「粕屋郡,糟屋郡」みたいなCSVです）。出力はExcel形式で、これはPandas使って吐きだししています。最近Pandasはフォーマット変換のために多用しているなあ。 im

higed 2017/07/17

リンク

はてなブックマーク

タグ

関連タグで絞り込む (5)

Pandasに関するhigedのブックマーク (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス