pandasの最新人気記事 208件 - はてなブックマーク

1 - 40 件 / 208件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

pandasの検索結果1 - 40 件 / 208件

PythonだけでWebアプリが作れるライブラリが増えている（2024.05） - Qiita
- 688 users
- qiita.com/SFITB
- テクノロジー
- 2024/05/05
※本記事で言及しているReflexのdiscord内に日本語チャンネルをつくってもらいました。もし、興味をもった人がいたら参加してみてください。１．PythonだけでWebアプリをつくるライブラリが増えている最近（2024.05）、Python界隈ではPythonだけでWebアプリが作れるライブラリが増えています。詳しくは他の記事を参照してもらえればと思います。以下の記事がとても参考になりました。ありがとうございます。２．ライブラリの分類こうしたライブラリも大きくわけて２つの種類があるように思います。 ①データ解析の結果を表示するダッシュボードライブラリ ②汎用的なWebアプリをつくるローコードライブラリ ①ダッシュボード系ライブラリたとえば、上記の記事にも出てきますし、ネットでもかなり情報の多い、StreamlitやDashは項番1のダッシュボードライブラリに該当すると思いま
PandasからPolarsへ移行した方がいいのか - Qiita
- 172 users
- qiita.com/inoshun
- テクノロジー
- 2024/04/18
なぜこの記事を書くのか皆さん、データ解析を行う際にどのようなライブラリを用いているでしょうか。おそらく大半の人はpandasを使っているのではないでしょうか。私もpandas使ってます。簡単だよね(´・ω・｀) しかし、業務でバカクソでけえデータを読み込もうとしたときに、読み込み時間がとんでもなくかかったり、メモリ不足でそもそも読み込めもしないことが起きていました。読み込みにメモリ食われすぎて他の作業ができずに待機した挙句、燃え尽きたかのようにノーパソのファンが止まると同時にメモリ不足のエラーが出たときには切れ散らかします。（画像元：葬送のフリーレン公式Xアカウントのポストより）そんなこともあり、AWSなどのクラウドサービスでメモリに余裕を持たせるためにめちゃくちゃ良いインスタンスを使用していましたが、コストの問題で断念しました。しかし、どうしても読み込みたいということもあり
pandas高速化の新星、FireDucksに迫る｜FireDucks
- 18 users
- note.com/fireducks
- テクノロジー
- 2024/04/08
本記事はFireDucksユーザー記事シリーズの第1弾です．本記事はBell様に執筆して頂きました．データ処理と分析をする際に、多くの方がPythonを使ていると思います。中でも、PandasライブラリはPythonを用いたデータ処理においてなくてはならないものになっています。Pandasには便利な関数が多数あり、複雑なデータセットを効率的に処理・分析することができます。しかし、Pandasの使用にあたっては、大規模なデータセットを扱う際にパフォーマンスが課題になることがあります。特に、データの読み込みや変換、集約などの処理を行う際、処理時間が問題となることが少なくありません。このような背景から、色々な手段を用いてより高速に処理を行う方法が試みられてきました。 NECが開発した「FireDucks」は、データ処理の世界に新たな風を吹き込んでいます。FireDucksは、PandasのA
[python / pandas] DataFrame を扱う人が覚えておきたい、ちょっとレアな便利技16選 - Qiita
- 39 users
- qiita.com/siruku6
- テクノロジー
- 2024/03/22
[python / pandas] DataFrame を扱う人が覚えておきたい、ちょっとレアな便利技16選PythonpandasDataFrame 概要そこまでメジャーではない（？）けど、覚えておくと実装時間やコードの行数を大幅削減できる！という便利な技をご紹介します！「そういえばpandasってあんなこともできたような気がするな。」「自力で実装する前に調べてみようかな？」と気付けると、時短 & コード量削減できる可能性が生まれます。ではでは、お楽しみください！！ Environment 以下の環境で動作確認を行いました。項目 version など
- pandas
- python
- あとで読む
- qiita
Kaggle learnで学ぶ機械学習の基礎（初級編） - Qiita
- 3 users
- qiita.com/k-ysd
- テクノロジー
- 2024/01/10
Kaggleで始める機械学習入門でKaggleのアカウントを作成して、一通りの操作ができました。次はKaggle learnの以下の初級講座を使って機械学習の基礎を学習します。この初級講座は７回のレッスンで構成されており、各回は解説パート(tutorial)と実践パート(exercise)に分かれています。実践パートでは、コンペと同様のNotebookでコードを動かす形になります。実際にやってみた感想です。＜良かった点＞・１回１時間程度でサクッとできる・１回あたりの内容は比較的かんたんで理解しやすい・解説パートで学んだコードを実践パートで入力し、答え合わせできるので達成感がある＜悪かった点＞・すべて英語… 英語なのは仕方ないですね。DeepLに頼りながら読み進めました。内容としては、まず決定木を使ってシンプルなモデルを構築します。次にその結果を評価する方法を学び、良いモデ
- study
- data
- python
Pythonで特定口座にあるオルカンを新NISAに買い換えるタイミングを分析してみる - Qiita
- 4 users
- qiita.com/ohtsuka
- テクノロジー
- 2024/01/08
目的現在特定口座で積み立てているオールカントリー投資信託を新NISA口座に移し替えたい。実際移し替えることはできないので、投資信託を売って、買うことになる。積み立て枠は毎月10万売って10万買えば良い。では成長枠の240万はいつ売って、いつ買えば良いのか？「セルインメイ（5月に売ってどこかに行け、セント・レジャー・デーまで戻ってくるな）」の格言通り5月に売れば良い？ MSCIオールカントリーワールドインデックスの一年の値動きを分析してみる MSCIオールカントリーワールドインデックス（MSCI ACWI）の一年の値動きをYahoo Financeから取得したデータを元に分析してみることにする。 2008年からのデータになっているのはYahoo Financeに2008年より前のデータがないからだ。ちなみに2008年というとリーマンショックの年で、ここから各国中央銀行はじゃぶじゃぶ金融緩
- Qiita
- 投資
- tech
- Python
新しいデータ処理ライブラリの学習はもう不要！ Python 初学者のための Ibis 100 本ノック - Qiita
- 249 users
- qiita.com/kunishou
- テクノロジー
- 2024/01/08
新しいデータ処理ライブラリの学習はもう不要！ Python 初学者のための Ibis 100 本ノックPython機械学習pandasデータ分析ibis-framework Information 2024/1/14： Kaggle notebook for Ibis Kaggle で Ibis を使用するための Sample Notebook を用意しました。Kaggle でもぜひ Ibis をご活用下さい。 🦩 [Ibis] Kaggle-Titanic-Tutorial Ibis 100 本ノック補足記事 Ibis 100 本ノックについて、よりスマートな書き方等について @hkzm さんが補足記事を書いてくれました（この記事を参考にコンテンツのほうもブラッシュアップしたいと思います）。 Ibis 100 本ノックの記事を受けてはじめにどうもこんにちは、kunishou です。
- python
- あとで読む
- ライブラリ
- Ibis
- データ分析
- データ処理
- qiita
- 学習
- pandas
AWS CloudWatchのログをpandasで解析し、エラーの状況を可視化する | gihyo.jp
- 27 users
- gihyo.jp
- テクノロジー
- 2023/12/27
IAMのポリシー設定画面 IAMユーザの作成方法の詳細は、IAM公式ドキュメント、または他の参考資料をご確認ください。 IAMユーザを作成する時に、「⁠アクセスキー」と「シークレットアクセスキー」が作成時のみ画面に表示されます。これらのキーは後ほどログを取得する際に利用しますので、大切に保管してください。 AWSプロファイルを手元のPCに設定する方法もありますが、今回はプロファイルを生成せずに環境変数でコードに渡す方法で説明します。AWSプロファイルの設定を行いたい場合は、AWS公式ドキュメント（Configure the AWS CLI）を確認してください。環境変数への登録と確認「アクセスキー」と「シークレットアクセスキー」を環境変数に設定します。 $ export AWS_ACCESS_KEY=****************JUMP # 作成したアクセスキー $ export
- pandas
- あとで読む
- aws
- ログ
- python
知っていますか？Pandasをノーコーディングで高速化（CPU環境でも）できるらしい… FireDucks🔥🐦 - Qiita
- 113 users
- qiita.com/DeepTama
- テクノロジー
- 2023/12/20
知っていますか？Pandasをノーコーディングで高速化（CPU環境でも）できるらしい… FireDucks🔥🐦Pythonpandasデータサイエンス統計検定はじめに Pandasで大量データを扱って処理時間にイライラしたことはないでしょうか？なんと、Pandasを従来のコードを変えずに高速化するライブラリィが出たみたいです。 NEC研究所が出したFireDucks 🔥🐦 というライブラリィで、ベータ版が無償公開されています。しかも CPU環境でも高速化されるみたいです。詳細は下記のサイトを参照してください。ベーター版ですが無償とは素晴らしいですね！早速検証してみましょう。環境 FireDucksの利用方法には、「インポートフック」、「明示的なインポート」の２種類があります。「インポートフック」の場合は、pythonの起動時にオプションを指定することでコードの書き換え
本当に最低限だけ覚えて一瞬で使い始めるPolars入門 - Qiita
- 8 users
- qiita.com/yknoguchi
- テクノロジー
- 2023/12/12
はじめに株式会社LITALICOでエンジニアをしています@yknoguchiです。この記事は『LITALICO Advent Calendar 2023』10日目の記事です。ちなみに今日は僕の誕生日でもあります。めでたい！来年もきっと誕生日駆動アドベントカレンダーをやると思います。この記事の特徴この記事の目標は、以下のとおりです。「これを読むことで最低限のPolarsの使い方を覚え、とりあえずすぐにPolarsを触れる」 QiitaにはPolarsの解説記事が上がっていますので、詳しい使い方はそちらをご確認ください。この記事ではあくまでPolarsを始める最初の一歩を想定しています。そのため、必要最低限の機能しか紹介していません。 Polarsとは Polarsとは、Pythonで大量のデータフレームを集計するときに使用するライブラリです。その用途のスタンダートのライブラリ
- Python
- data
import polars as pd でどこまでいけるか！ - Qiita
- 21 users
- qiita.com/yururoi
- テクノロジー
- 2023/12/01
この記事は Polars Advent Calendar 2023 1日目の記事です。はじめにこんにちは。この記事ではタイタニックのデータセットを使って、Polars で予測モデルを作ろうと思います。ただ、普通に作るのではなく「import polars as pd 」とインポートし、どこまで pandas のように Polarsが書けるか試していきます！！！！ Polarsって何？ Polars は Python で使える高速なデータフレームライブラリです。pandas に似ていますが、特に大量のデータを扱う際の処理速度が pandas と比べて高速なのが特徴です。 import polars as pd それではさっそくコードを書いていきたいと思います！なお、この記事では Polars のバージョン 0.19.15 を使用します。 import まずはimportです。 Po
- pandas
- qiita
- Python
- データ
- あとで読む
Pandasを150倍速く動かす1行コード%load_ext cudf.pandas
- 6 users
- www.salesanalytics.co.jp
- テクノロジー
- 2023/11/17
Pandasは、データ分析にPythonを使うデータサイエンティストにとって、最もよく使われているツールの1つです。 GPU データフレームのライブラリーの1つに、pandasライクなRAPIDS cuDF（cuda based Dataframes）というものがあります。 v23.10から、cuDFはpandasアクセラレータモードを提供するようになりました。このことによって、%load_ext cudf.pandasをjupyterノートブックに追加するだけで、Pandasを150倍速く動かすことができます。 GPUが利用可能な場合、データ操作を高速化します。GPUが利用できない場合、CPUにフォールバックし高速化の程度が弱くなります。 RAPIDSのインストール以下から、インストールするためのコードを取得できます。今現在（2023年11月16日現在）、pipでインストールすると
NEC、Pythonを用いたデータ分析を高速化するソフトウェア「FireDucks」の無償提供を開始
- 30 users
- jpn.nec.com
- テクノロジー
- 2023/10/20
NEC は、プログラミング言語「Python」を用いたデータ分析において標準的に使用されているテーブルデータ分析用ライブラリ「pandas」を高速化するソフトウェア「FireDucks」を開発しました(注1)。データ分析に必要なデータの前処理を最大16倍(注2)高速化し、データ分析にかかる時間の大幅な削減とコンピューティングコストの低減に貢献します。また本日よりFireDucksのβ版をオンライン(https://fireducks-dev.github.io/)で公開します。どなたでも無償でご使用いただくことが可能です。近年POSやEコマース等の売り上げデータや金融取引のトランザクションデータなど、大量のデータが容易に取得できるようになりましたが、それらデータから価値ある分析結果を導き出すためには、人工知能(以下、AI)や機械学習(machine learning：以下、ML)を使
NEC、Pythonを用いたデータ分析を高速化するソフト「FireDucks」の無償提供を開始
- 14 users
- cloud.watch.impress.co.jp
- テクノロジー
- 2023/10/19
- Python
- techfeed
データ分析の基礎 - Qiita
- 239 users
- qiita.com/wooooo
- テクノロジー
- 2023/09/25
1. データ分析の概要と目的データ分析とは、大量のデータから有用な情報や知識を抽出するプロセスです。このプロセスには、データの収集、前処理、探索、モデリング、評価、そして最終的な知識の抽出が含まれます。データ分析の主な目的は以下の通りですビジネスの意思決定をサポートする新しい市場の機会を発見する顧客の行動や傾向を理解する製品やサービスの改善予測や予測モデリングを行う 2. Pythonにおけるデータ分析のライブラリの紹介 Pythonはデータ分析のための多くのライブラリを持っています。以下はその中でも特に人気のあるライブラリです Pandas: データの前処理や探索的データ分析に使用されるライブラリ NumPy: 数値計算を効率的に行うためのライブラリ Matplotlib & Seaborn: データの可視化に使用されるライブラリ Scikit-learn: 機械学習の
BigQuery DataFramesを使ってみる | DevelopersIO
- 8 users
- dev.classmethod.jp
- テクノロジー
- 2023/09/19
このデータをBigQuery DataFramesで扱います。内容としては{project_id}.data_set_test.jp_weatherのデータを使ってPandasで行う一般的な分析操作を行います。コードは以下になります。 import os import bigframes.pandas as bpd bpd.options.bigquery.project = os.environ.get("GOOGLE_PROJECT_ID") bpd.options.bigquery.location = "asia-northeast1" df1 = bpd.read_gbq("{project_id}.data_set_test.jp_weather") # df1 = bpd.read_gbq("SELECT * FROM {project_id}.data_set_test.j
- pandas
- bigquery
- python
Open Interpreter - Qiita
- 129 users
- qiita.com/fuyu_quant
- テクノロジー
- 2023/09/13
text = """ SeabornのTitanicデータセットを使いLightGBM，XGBoost，CatBoostおよび3つのモデルのアンサンブルした場合でどれが最も精度が良いか検証してください．検証する際は4foldのクロスバリデーションの結果の平均値としてください．全て日本語で対応してください． """ # return_massagesは出力結果のデータを変数として保持するため引数 # 出力結果はmassagesにも保存される messages = interpreter.chat(text, return_messages=True) 了解しました。以下の手順で進めていきます。 1 必要なライブラリをインストールします。これには、seaborn（データセットの取得）、pandas（データの操作）、numpy cikit-learn（クロスバリデーションと精度評価）、lig
Azure OpenAI + Jupyter Notebookで自家製Code Interpreterを実現する - Qiita
- 5 users
- qiita.com/shyamagu
- テクノロジー
- 2023/07/20
はじめに ChatGPT Code Interpreter いいですよね。でもAzure OpenAIではまだまだ使えなさそう(そもそも使えるようになるのか？)なので、Jupyter Notebookと組み合わせて同じようなことを実現してみました。 Function Callingが使えるようになれば、ちょっと実装を変えたほうがよいところもありますが、とりあえず生ChatGPTで進めます。gpt-35-turbo(0613)です。お安くできますね。環境準備 Jupyter Notebookを使える環境はお好みの方法でご用意ください。あと、openai、matplotlib, pandas, numpyとか必要なものもお好きな環境にどうぞ。なお、日本語でグラフを作成したいので、japanize-matplotlibはいれておいてください。 Code Interpreterを実現する関数
- openai
- Azure
Pythonでボリンジャーバンド、売買シグナル、バックテスト - Qiita
- 48 users
- qiita.com/Mituru-Kogomon
- テクノロジー
- 2023/06/07
株価は95.4%の確立でボリンジャーバンド±2σの範囲内に収まるエンジニア未経験、Qiita覚えたので初投稿仮説 4.6%でしか負けないならボリンジャーバンドで売買すれば絶対に勝てる条件初期資本100万円、1ポジション100株、手数料0、副ポジション無し、25日移動平均線を基準使用ライブラリ yfinance 株価取得 Pandas データフレーム matplotlib.pyplot グラフ tqdm プログレスバー datetime Timestampオブジェクト os csv保存処理順序株価取得移動平均線、標準偏差、ボリンジャーバンド、乖離率の算出売買ルール制定、バックテストリターンの算出グラフ化必要なライブラリのインストール
LLMに表データの解析を手伝ってもらえるLangChainのPandas Dataframe Agentの中身がどうなっているのか調べた - まったり勉強ノート
- 28 users
- www.mattari-benkyo-note.com
- テクノロジー
- 2023/04/27
最近、LLMを使ったOSSの中身を調べてLLMとどう連携して目的を達成しているのかをいろいろ調べています。今回はLangChainのPandas Dataframe Agentの中身がどうなっているのか気になったので調べたまとめになります。今回のコードは以下のところにあるので、全体としてどうなっているのか見たい方はこちらをご覧ください。 https://github.com/shu65/langchain_examples/blob/main/LangChain_Pandas_Dataframe_Agent.ipynb LangChainのPandas Dataframe Agentとは LLMを使いやすくwrapしてくれるLangChainにはいくつかAgentというLLMとToolと呼ばれるものを組み合わせて実行する仕組みが用意されています。この中でもPandas Dataframe
- Python
- LLM
- 自然言語処理
- AI
- 人工知能
- 機械学習
【2023年版】機械学習の日本語無料学習教材まとめ - Qiita
- 295 users
- qiita.com/shuto_ishii
- テクノロジー
- 2023/02/27
言語&開発基礎編 PythonやSQLなどの言語と開発環境に関連することをまとめました。機械学習に関する教材はこの次のセクションにまとめてあります。学習環境インストール及び使い方チュートリアルのサイトと、ある程度使い慣れた後に役立つtips集を各エディタでまとめました。 Google Colaboratory Python初学者にとって最もわかりやすいPython実行環境です。プログラミングは初めて！という方はまずこのGoogle Colaboratory(通称: Colab)から始めてみて、使い方がある程度わかったら、そのまま次のセクションのPython編に移りましょう。 Pythonプログラミング入門難易度: ★☆☆ 東京大学の公開しているPython講座ですが、冒頭でColabの使い方を解説しています。使ったことのない方はこちらから！ Google Colabの知っておくべき
Python: Polars で各種エンコーダを実装したライブラリ「Shirokumas」を作った - CUBE SUGAR CONTAINER
- 5 users
- blog.amedama.jp
- テクノロジー
- 2023/02/26
最近は Polars が気に入っていて、主にプライベートで使っている。ただ、エコシステムという観点では Pandas に比べて発展途上の段階にあると思う。そこで、今回は発展の一助として「Shirokumas」というライブラリを作ってみた。 github.com どんなライブラリかというと、現時点の機能では Pandas の category_encoders 1 のサブセットに相当する。より具体的には、scikit-learn のスタイルで書かれた特徴量抽出をするための基本的なエンコーダを実装してある。特徴としては、同じ処理を完了するまでにかかる時間が短いこと。 Pandas のエコシステムで使われるフレームワークとパフォーマンスを比較したグラフを以下に示す。グラフから、比較対象の概ね 1/10 以下の時間で処理を完了できることが分かる。詳細については、このエントリの後半に記述
- Python
GitHub - Kanaries/pygwalker: PyGWalker: Turn your pandas dataframe into an interactive UI for visual analysis
- 29 users
- github.com/Kanaries
- テクノロジー
- 2023/02/21
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
データ分析に必要な内容を凝縮、『最短コースでわかるPythonプログラミングとデータ分析』
- 38 users
- xtech.nikkei.com
- テクノロジー
- 2023/02/15
●価格：3190円（税込）●ISBN：9784296201129●発行日：2022年12月19日●著者名：赤石雅典著●発行元：日経BP●ページ数：408ページ●判型：A5変身近なデータをPythonで分析できるようになるための知識を、最短コースで身に付けられる本です。Pythonのホントの基本から、データ分析に必要なPythonライブラリの使い方、データ分析の実践例までを一気に学べます。プログラミングの経験がない方もこの1冊を読めば、実際のデータ分析を始められます。ベストセラーの『最短コースでわかるディープラーニングの数学』『Pythonで儲かるAIをつくる』などを執筆した著者が送るデータ分析＆AI書籍の第4弾。いつもの平易な解説で、初学者も安心して学べます。本書は次のような方に最適です。（1）プログラミング言語自体を知らないが、データ分析のためにこれから勉強したいという方（
全世界の建物地図情報の入手方法 - Qiita
- 4 users
- qiita.com/nigo1973
- テクノロジー
- 2023/02/13
概要マイクロソフトが提供する衛星画像より推定した建物地図の入手方法について紹介します。 Building Footprints by Microsoft 建物地図の提供状況((C)Microsoft) 建物地図データは、こちらより確認できますのでご参考ください。また、Google Colaboratoryのサンプルコードをこちらにアップしましたので、あわせてご参考ください。最後に、衛星画像に重畳した建物地図の例を紹介しています。 1.建物地図情報の入手今回は、pythonでよく用いる行例モジュールであるpandasと同じ形式の位置情報データを扱うgeopandasを使います。geopandasを含めた位置データの使い方については、以下のサイトが網羅的にまとめれていますので、是非こちらをご参考ください。【PythonでGIS】GeoPandasまとめ PythonでのShapefil
- python
- qiita
- map
Python初学者のためのPolars100本ノック - Qiita
- 336 users
- qiita.com/kunishou
- テクノロジー
- 2023/02/12
Information 2024/1/8： pandas , Polars など18を超えるライブラリを統一記法で扱える統合データ処理ライブラリ Ibis の100 本ノックを作成しました。長期目線でとてもメリットのあるライブラリです。こちらも興味があればご覧下さい。 Ibis 100 本ノック https://qiita.com/kunishou/items/e0244aa2194af8a1fee9 はじめにどうもこんにちは、kunishouです。この度、PythonライブラリであるPolarsを効率的に学ぶためのコンテンツとして「Python初学者のためのPolars100本ノック」を作成したので公開します。こちらは2020年9月に公開した「Python初学者のためのpandas100本ノック」の問題内容をPolarsのメソッドに合わせて修正、再編したものになります。本コンテン
Rust製高速データフレームライブラリ、Polarsを試す | gihyo.jp
- 127 users
- gihyo.jp
- テクノロジー
- 2023/02/07
門脇@satoru_kadowakiです。今月のPython Monthly Topicsでは、Rust製の高速データフレームライブラリ Polars について紹介します。 Polarsとは Pythonでデータ分析に使用される主なライブラリに pandas があります。Polarsはpandasと同様にデータフレームというデータ構造オブジェクトを提供するサードパーティライブラリです。特にpandasを意識して作られており、メインページに「Lightning-fast DataFrame library for Rust and Python」とあるように、Rustによる高速処理を謳っています。 Polarsのリポジトリや関連ドキュメントは以下を参照してください。 Github: https://github.com/pola-rs/polars ユーザーガイド: https://pola
超高速DataFrameライブラリー「Polars」について
- 8 users
- zenn.dev/hiro_torii
- テクノロジー
- 2022/12/21
はじめにここ最近、Polarsについて調べる中で色々と面白そうだと思い現在勉強中です。今回の記事では勉強内容の整理も兼ねて、Polarsの特色を紹介できればと思っています。 Polarsとは RustとPythonで使える[1]超高速("Blazingly fast")DataFrameライブラリー、つまりデータ解析に使えるライブラリーとなります。pandasに対するPolars(しろくま)であり洒落ているなと思います。 Core部分はRustで実装されており、インターフェースとしてPythonからも呼び出せるようになっています。RustからPythonパッケージへのビルドはmaturin(PyO3)を使っています。環境記事作成時のOSや言語、ライブラリーのバージョンは以下になります。関連が強そうなもののみ抜粋しています。 Ubntu 22.04 Python 3.10.6 (mai
- python
- あとで読む
Pandasのメモリ削減方法を整理した - Taste of Tech Topics
- 144 users
- acro-engineer.hatenablog.com
- テクノロジー
- 2022/12/12
皆さんこんにちは機械学習チーム YAMALEXチームの@tereka114です。最近、寒いので、鍋を中心に食べて生きています。検証段階でも、規模の大きなデータを扱う機会が増えてきて、Pandasのメモリ消費量が厳しいと感じてきたので、その削減や効率化のテクニックまとめたいと思いました。有名なものからマイナーなものまで、思いつく限り書いてみます。そもそもなぜ、Pandasのメモリ削減技術が必要なのか準備 Pandasのメモリ削減 1. 型修正 2. 逐次読み込み 3. 読み込み時の型指定 4. 逐次読み込み＆集約 5. 不要なものを読み込まない 6. 不要なカラム／DataFrameを消す番外編：そもそもPandasを利用しない最後にそもそもなぜ、Pandasのメモリ削減技術が必要なのか Pandasで扱うデータの多くのファイルはCSV,Parquet, JSON（JSONL
お前らのpandasの使い方は間違っている - Qiita
- 300 users
- qiita.com/141sksk
- テクノロジー
- 2022/12/09
この記事は株式会社Nuco Advent Calendar 2022の9日目の記事です。はじめにいきなりお馴染みの「キャッチーでウィットでセンセーショナルな」タイトルで失礼します。私自身、業務の中でpandasに大変お世話になっており、自戒も込めてpandasの「アンチパターン」をまとめてみました。この記事を読んで、より快適なpandasライフを送っていただけると嬉しいです。対象読者 Pythonを使ったデータ分析や機械学習に携わる方この記事はpandasの基本的な使い方を解説するものではないので注意してください。表形式ファイルを加工する必要がある方 pandasの強みはリレーショナルなデータ全般です。必ずしもデータ分析や機械学習だけが守備範囲ではありません。 pandasとは pandasの公式ドキュメントの概要には、以下のように記載してあります。 pandas is a
- pandas
- python
- あとで読む
- 分析
- qiita
- データ
- ML
- プログラミング
- 機械学習
- 勉強
超高速…だけじゃない！Pandasに代えてPolarsを使いたい理由 - Qiita
- 94 users
- qiita.com/_jinta
- テクノロジー
- 2022/12/05
PolarsというPandasを100倍くらい高性能にしたライブラリがとても良いので布教します1。PolarsはRustベースのDataFrameライブラリですが、本記事ではPythonでのそれについて語ります。ちなみにpolarsは白熊の意です。そりゃあまあ、白熊と大熊猫比べたら白熊のほうが速いし強いよねってことです2。何がいいの？推しポイントは３つあります高速！お手軽！書きやすい！ 1. 高速画像はTPCHのBenchmark（紫がPolars）3。日本語でも色々記事があるので割愛しますが、RustやApach Arrowなどにお世話になっており、非常に速いです。MemoryErrorに悩まされる問題も解決されます。開発者のRitchieがしゃれおつなツイートをしてるので、そちらも参考にどうぞ ↓ 4。抄訳：（ひとつ目）Pandasは黄色くした部分でDataFram
時系列データから大量の特徴量を生成するパッケージ「tsfresh」の使い方｜CO-WRITE
- 40 users
- gri.jp
- テクノロジー
- 2022/12/03
こんにちは！突然ですが、皆さんは下のような二種類の時系列データを判別できるような特徴量を抜き出したいときに何を考えますか？そしてどうやって特徴量を抽出しますか？私はパッと見て次の手法を使えば特性が取り出せると思いました。ピークの数 → k近傍法ノイズの大きさ → 分散統計量時系列方向で周期成分の大きさ → Wavelet変換しかし、当然これだけでは十分な数の特性を網羅できていないでしょうし、適切な特性を抜き出すためにパラメータチューニングを行う必要があります（例えば、Wavelet変換であれば適切な基底関数を選ぶ必要があります）。このように時系列データの特徴量エンジニアリングは調べることが無限にあり、どの特徴量を算出するかを考えているだけで日が暮れてしまいます。また、抜き出す特徴量が決まったとしてもモノによっては計算が複雑で実装に時間がかかってしまう場合もあります。そんなとき
japanmapライブラリで都道府県データを可視化してみる | DevelopersIO
- 3 users
- dev.classmethod.jp
- テクノロジー
- 2022/11/08
はじめにデータアナリティクス事業本部のkobayashiです。以前Google Colaboratory(以下Colab)でBigQueryのデータを扱うエントリを書きましたが、その中でデータをColabで可視化する際に都道府県別のデータを日本地図で表現するライブラリを使いました。そのライブラリの使い勝手が良かったので深堀りをしてみます。 japanmap · PyPI GitHub - SaitoTsutomu/japanmap japanmapとはできるとこはとてもシンプルで都道府県別に日本地図を塗り分けるライブラリです。使い方は「辞書型で色情報を渡す」のか「PandasのSeriesで色情報を渡す」の2パターンがあります。辞書型で色情報を渡す都道府県名:色情報で辞書を作成してjapanmapのライブラリに指定すれば良いだけです。色情報は以下の型式で指定します。カラー名
- データ
- 統計
pandasから移行する人向け polars使用ガイド - Qiita
- 16 users
- qiita.com/nkay
- テクノロジー
- 2022/10/21
pandasから移行する人向け polars使用ガイド polarsは、Pythonの表計算ライブラリです。Pythonではpandasがこの分野ですでに支配的となっていますが、polarsはパフォーマンス上pandasより優れているとされます。本記事はpandasからpolarsに移行する人にとりあえず知っておくべきいくつかの知識とユースケースを提供します。 polarsは更新が活発で、頻繁に新しい関数の実装やたまに仕様変更が行われています。都度、公式の最新のドキュメントを確認することをおすすめします。 Github 公式APIリファレンス公式ガイド本記事の内容はバージョン0.20.1 (2023/12/19)で確認しています。基礎 polarsのデータ構造はpandasと同様です。一つの一次元配列をシリーズ（pl.Series）と呼びます。また、一つ以上のシリーズが集まってできた
- Python
- data
- Polars
J-PlatPat特許検索データの分析 - Qiita
- 3 users
- qiita.com/tyamaguchi636
- テクノロジー
- 2022/10/06
科学技術と関連するWebでの情報調査と分析を行っています。特許データはJ-PlatPatで収集できます。J-PlatPatは独立行政法人工業所有権情報・研修館が提供する特許検索情報サイトです。特許庁のHPからもアクセスすることができます。 J-PlatPatでは、検索結果をcsvファイルにダウンロードできます。また、検索結果の分類コード（FI）ランキングを画面上で確認でき、コピペでスプレッドシートに保存できます。さらに、検索された各特許は、全文をPDFファイルとしてダウンロードしたり、請求項と詳細な説明は画面上開いてコピペすることができます。この記事では、J-PlatPatでの検索結果情報から、公知年別件数推移出願人別件数ランキング FI分類コード別件数ランキングをPythonで可視化しました。ダウンロードするcsvには要約を含めることもできますので、自然言語処理を用いた分析
- Python
時系列データを前処理する際のPython逆引きメモ - EurekaMoments
- 71 users
- www.eureka-moments-blog.com
- テクノロジー
- 2022/09/20
機械学習のための「前処理」入門作者:足立悠リックテレコムAmazon 目的データ分析の仕事をする中で最も扱う機会が多いのが時系列データだと思います。その中で欠損値を扱ったり、統計を取ったり、特徴量を作り出したりするのですが、毎回やり方を忘れてググっているので、上記の書籍を読んでこういった前処理の方法をいつでも確認できるようにメモしておこうと思います。目次目的目次日時のデータをdatetime型に変換する最初の日時からの経過時間を計算する各データの統計量を計算する欠損値の確認と補完経過時間の単位を変換するデータフレーム結合する基準日時からの経過時間を計算する重複した行を削除する特定のデータ列をインデックスにする部分的時系列を抽出して統計量を計算するデータフレームの各列をリストにして結合する不均衡データから教師データを作成するデータの読み込みと可視
組み込みシステム向けDBであるSQLite入門 - MyEnigma
- 140 users
- myenigma.hatenablog.com
- テクノロジー
- 2022/08/11
Using SQLite: Small. Fast. Reliable. Choose Any Three. (English Edition) 目次目次はじめに SQLiteの歴史特徴トランザクションがある設定がない様々なSQL機能が利用可能クロスプラットの単一ファイルで管理高速にデータにアクセスできる大規模なデータを管理できるソフトウェアが小さいソフトウェアやファイルフォーマットが安定しているソースコードがPublic domainで公開されている。ソフトウェアとしての品質が高い使い方公式のCLIツールを使う Pythonの公式モジュールsqlite3を使う PandasのDataFrameとSQLiteをやり取りする参考資料 MyEnigma Supporters はじめに世界で最も使われているOSSってなんだろうと考えた時に、真っ先に思いつくのが
- db
- sqlite
- あとで読む
- SQL
- Python
- 組み込み
- 管理
- システム
- ソフトウェア
hypothesis+panderaで始める、データフレームに対するProperty Based Testing - Sansan Tech Blog
- 23 users
- buildersbox.corp-sansan.com
- テクノロジー
- 2022/08/10
技術本部 R&D研究員の前嶋です。梅雨の季節ですが、少しでも快適に過ごせるようにOnのCloud 5 wpを購入しました。水に強くて軽快な履き心地で最高ですね。(追記：この記事の公開作業をしている間に梅雨が終わってしまいました) 今回は、データフレームのテストについての記事です。データフレームのテストをどう書くかデータが中心となるサービスのネックになるのがテストをどう書くかです。というのも、データフレームは行×列の構造になっているため、入力あるいは出力値がデータフレームになるような関数が多いプログラムでは、テストケースを書くのが非常に面倒です。仕様の変更があった場合、それぞれのテスト用の疑似データに修正を加えることを考えると、より簡潔にデータフレームのバリデーションをする方法が欲しいところです。実は、データフレームのテストはProperty Based Testingという考え方と
- python
- tdd
- testing
- データ
- 統計
- テスト
4 Pandas Anti-Patterns to Avoid and How to Fix Them
- 26 users
- www.aidancooper.co.uk
- テクノロジー
- 2022/07/13
pandas is a powerful data analysis library with a rich API that offers multiple ways to perform any given data manipulation task. Some of these approaches are better than others, and pandas users often learn suboptimal coding practices that become their default workflows. This post highlights four common pandas anti-patterns and outlines a complementary set of techniques that you should use instea
Python for Data Analysis, 3E
- 32 users
- wesmckinney.com
- テクノロジー
- 2022/07/03
About the Open Edition The 3rd edition of Python for Data Analysis is now available as an “Open Access” HTML version on this site https://wesmckinney.com/book in addition to the usual print and e-book formats. This edition was initially published in August 2022 and will have errata fixed periodically over the coming months and years. If you encounter any errata, please report them here. In general
- python
- book
- 本
- 機械学習
- あとで読む
- study