並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 208件

新着順 人気順

pandasの検索結果1 - 40 件 / 208件

  • PythonだけでWebアプリが作れるライブラリが増えている(2024.05) - Qiita

    ※本記事で言及しているReflexのdiscord内に日本語チャンネルをつくってもらいました。もし、興味をもった人がいたら参加してみてください。 1.PythonだけでWebアプリをつくるライブラリが増えている 最近(2024.05)、Python界隈ではPythonだけでWebアプリが作れるライブラリが増えています。詳しくは他の記事を参照してもらえればと思います。 以下の記事がとても参考になりました。ありがとうございます。 2.ライブラリの分類 こうしたライブラリも大きくわけて2つの種類があるように思います。 ①データ解析の結果を表示するダッシュボードライブラリ ②汎用的なWebアプリをつくるローコードライブラリ ①ダッシュボード系ライブラリ たとえば、上記の記事にも出てきますし、ネットでもかなり情報の多い、StreamlitやDashは項番1のダッシュボードライブラリに該当すると思いま

      PythonだけでWebアプリが作れるライブラリが増えている(2024.05) - Qiita
    • PandasからPolarsへ移行した方がいいのか - Qiita

      なぜこの記事を書くのか 皆さん、データ解析を行う際にどのようなライブラリを用いているでしょうか。 おそらく大半の人はpandasを使っているのではないでしょうか。 私もpandas使ってます。簡単だよね(´・ω・`) しかし、業務でバカクソでけえデータを読み込もうとしたときに、読み込み時間がとんでもなくかかったり、メモリ不足でそもそも読み込めもしないことが起きていました。 読み込みにメモリ食われすぎて他の作業ができずに待機した挙句、燃え尽きたかのようにノーパソのファンが止まると同時にメモリ不足のエラーが出たときには切れ散らかします。 (画像元:葬送のフリーレン公式Xアカウントのポストより) そんなこともあり、AWSなどのクラウドサービスでメモリに余裕を持たせるためにめちゃくちゃ良いインスタンスを使用していましたが、コストの問題で断念しました。 しかし、どうしても読み込みたいということもあり

        PandasからPolarsへ移行した方がいいのか - Qiita
      • pandas高速化の新星、FireDucksに迫る|FireDucks

        本記事はFireDucksユーザー記事シリーズの第1弾です.本記事はBell様に執筆して頂きました. データ処理と分析をする際に、多くの方がPythonを使ていると思います。中でも、PandasライブラリはPythonを用いたデータ処理においてなくてはならないものになっています。Pandasには便利な関数が多数あり、複雑なデータセットを効率的に処理・分析することができます。 しかし、Pandasの使用にあたっては、大規模なデータセットを扱う際にパフォーマンスが課題になることがあります。特に、データの読み込みや変換、集約などの処理を行う際、処理時間が問題となることが少なくありません。このような背景から、色々な手段を用いてより高速に処理を行う方法が試みられてきました。 NECが開発した「FireDucks」は、データ処理の世界に新たな風を吹き込んでいます。FireDucksは、PandasのA

          pandas高速化の新星、FireDucksに迫る|FireDucks
        • [python / pandas] DataFrame を扱う人が覚えておきたい、ちょっとレアな便利技16選 - Qiita

          [python / pandas] DataFrame を扱う人が覚えておきたい、ちょっとレアな便利技16選PythonpandasDataFrame 概要 そこまでメジャーではない(?) けど、覚えておくと実装時間やコードの行数を大幅削減できる! という便利な技をご紹介します! 「そういえばpandasってあんなこともできたような気がするな。」 「自力で実装する前に調べてみようかな?」 と気付けると、時短 & コード量削減できる可能性が生まれます。 ではでは、お楽しみください!! Environment 以下の環境で動作確認を行いました。 項目 version など

            [python / pandas] DataFrame を扱う人が覚えておきたい、ちょっとレアな便利技16選 - Qiita
          • Kaggle learnで学ぶ機械学習の基礎(初級編) - Qiita

            Kaggleで始める機械学習入門でKaggleのアカウントを作成して、一通りの操作ができました。次はKaggle learnの以下の初級講座を使って機械学習の基礎を学習します。 この初級講座は7回のレッスンで構成されており、各回は解説パート(tutorial)と実践パート(exercise)に分かれています。実践パートでは、コンペと同様のNotebookでコードを動かす形になります。 実際にやってみた感想です。 <良かった点> ・1回1時間程度でサクッとできる ・1回あたりの内容は比較的かんたんで理解しやすい ・解説パートで学んだコードを実践パートで入力し、答え合わせできるので達成感がある <悪かった点> ・すべて英語… 英語なのは仕方ないですね。DeepLに頼りながら読み進めました。 内容としては、まず決定木を使ってシンプルなモデルを構築します。次にその結果を評価する方法を学び、良いモデ

              Kaggle learnで学ぶ機械学習の基礎(初級編) - Qiita
            • Pythonで特定口座にあるオルカンを新NISAに買い換えるタイミングを分析してみる - Qiita

              目的 現在特定口座で積み立てているオールカントリー投資信託を新NISA口座に移し替えたい。実際移し替えることはできないので、投資信託を売って、買うことになる。積み立て枠は毎月10万売って10万買えば良い。では成長枠の240万はいつ売って、いつ買えば良いのか? 「セルインメイ(5月に売ってどこかに行け、セント・レジャー・デーまで戻ってくるな)」の格言通り5月に売れば良い? MSCIオールカントリーワールドインデックスの一年の値動きを分析してみる MSCIオールカントリーワールドインデックス(MSCI ACWI)の一年の値動きをYahoo Financeから取得したデータを元に分析してみることにする。 2008年からのデータになっているのはYahoo Financeに2008年より前のデータがないからだ。ちなみに2008年というとリーマンショックの年で、ここから各国中央銀行はじゃぶじゃぶ金融緩

                Pythonで特定口座にあるオルカンを新NISAに買い換えるタイミングを分析してみる - Qiita
              • 新しいデータ処理ライブラリの学習はもう不要! Python 初学者のための Ibis 100 本ノック - Qiita

                新しいデータ処理ライブラリの学習はもう不要! Python 初学者のための Ibis 100 本ノックPython機械学習pandasデータ分析ibis-framework Information 2024/1/14: Kaggle notebook for Ibis Kaggle で Ibis を使用するための Sample Notebook を用意しました。Kaggle でもぜひ Ibis をご活用下さい。 🦩 [Ibis] Kaggle-Titanic-Tutorial Ibis 100 本ノック補足記事 Ibis 100 本ノックについて、よりスマートな書き方等について @hkzm さんが補足記事を書いてくれました(この記事を参考にコンテンツのほうもブラッシュアップしたいと思います)。 Ibis 100 本ノックの記事を受けて はじめに どうもこんにちは、kunishou です。

                  新しいデータ処理ライブラリの学習はもう不要! Python 初学者のための Ibis 100 本ノック - Qiita
                • AWS CloudWatchのログをpandasで解析し、エラーの状況を可視化する | gihyo.jp

                  IAMのポリシー設定画面 IAMユーザの作成方法の詳細は、IAM公式ドキュメント、または他の参考資料をご確認ください。 IAMユーザを作成する時に、「⁠アクセスキー」と「シークレットアクセスキー」が作成時のみ画面に表示されます。これらのキーは後ほどログを取得する際に利用しますので、大切に保管してください。 AWSプロファイルを手元のPCに設定する方法もありますが、今回はプロファイルを生成せずに環境変数でコードに渡す方法で説明します。AWSプロファイルの設定を行いたい場合は、AWS公式ドキュメント(Configure the AWS CLI) を確認してください。 環境変数への登録と確認 「アクセスキー」と「シークレットアクセスキー」を環境変数に設定します。 $ export AWS_ACCESS_KEY=****************JUMP # 作成したアクセスキー $ export

                    AWS CloudWatchのログをpandasで解析し、エラーの状況を可視化する | gihyo.jp
                  • 知っていますか?Pandasをノーコーディングで高速化(CPU環境でも)できるらしい… FireDucks🔥🐦 - Qiita

                    知っていますか?Pandasをノーコーディングで高速化(CPU環境でも)できるらしい… FireDucks🔥🐦Pythonpandasデータサイエンス統計検定 はじめに Pandasで大量データを扱って処理時間にイライラしたことはないでしょうか? なんと、Pandasを従来のコードを変えずに高速化するライブラリィが出たみたいです。 NEC研究所が出したFireDucks 🔥🐦 というライブラリィで、ベータ版が無償公開されています。 しかも CPU環境でも高速化されるみたいです。詳細は下記のサイトを参照してください。 ベーター版ですが無償とは素晴らしいですね! 早速検証してみましょう。 環境 FireDucksの利用方法には、「インポートフック」、「明示的なインポート」の2種類があります。 「インポートフック」の場合は、pythonの起動時にオプションを指定することでコードの書き換え

                      知っていますか?Pandasをノーコーディングで高速化(CPU環境でも)できるらしい… FireDucks🔥🐦 - Qiita
                    • 本当に最低限だけ覚えて一瞬で使い始めるPolars入門 - Qiita

                      はじめに 株式会社LITALICOでエンジニアをしています@yknoguchiです。 この記事は『LITALICO Advent Calendar 2023』10日目の記事です。 ちなみに今日は僕の誕生日でもあります。めでたい! 来年もきっと誕生日駆動アドベントカレンダーをやると思います。 この記事の特徴 この記事の目標は、以下のとおりです。 「これを読むことで最低限のPolarsの使い方を覚え、とりあえずすぐにPolarsを触れる」 QiitaにはPolarsの解説記事が上がっていますので、詳しい使い方はそちらをご確認ください。この記事ではあくまでPolarsを始める最初の一歩を想定しています。そのため、必要最低限の機能しか紹介していません。 Polarsとは Polarsとは、Pythonで大量のデータフレームを集計するときに使用するライブラリです。 その用途のスタンダートのライブラリ

                        本当に最低限だけ覚えて一瞬で使い始めるPolars入門 - Qiita
                      • import polars as pd でどこまでいけるか! - Qiita

                        この記事は Polars Advent Calendar 2023 1日目の記事です。 はじめに こんにちは。 この記事ではタイタニックのデータセットを使って、Polars で予測モデルを作ろうと思います。 ただ、普通に作るのではなく「import polars as pd 」とインポートし、どこまで pandas のように Polarsが書けるか試していきます!!!! Polarsって何? Polars は Python で使える高速なデータフレームライブラリです。pandas に似ていますが、特に大量のデータを扱う際の処理速度が pandas と比べて高速なのが特徴です。 import polars as pd それではさっそくコードを書いていきたいと思います! なお、この記事では Polars のバージョン 0.19.15 を使用します。 import まずはimportです。 Po

                          import polars as pd でどこまでいけるか! - Qiita
                        • Pandasを150倍速く動かす1行コード%load_ext cudf.pandas

                          Pandasは、データ分析にPythonを使うデータサイエンティストにとって、最もよく使われているツールの1つです。 GPU データフレームのライブラリーの1つに、pandasライクなRAPIDS cuDF(cuda based Dataframes)というものがあります。 v23.10から、cuDFはpandasアクセラレータモードを提供するようになりました。 このことによって、%load_ext cudf.pandasをjupyterノートブックに追加するだけで、Pandasを150倍速く動かすことができます。 GPUが利用可能な場合、データ操作を高速化します。GPUが利用できない場合、CPUにフォールバックし高速化の程度が弱くなります。 RAPIDSのインストール 以下から、インストールするためのコードを取得できます。 今現在(2023年11月16日現在)、pipでインストールすると

                            Pandasを150倍速く動かす1行コード%load_ext cudf.pandas
                          • NEC、Pythonを用いたデータ分析を高速化するソフトウェア「FireDucks」の無償提供を開始

                            NEC は、プログラミング言語「Python」を用いたデータ分析において標準的に使用されているテーブルデータ分析用ライブラリ「pandas」を高速化するソフトウェア「FireDucks」を開発しました(注1)。データ分析に必要なデータの前処理を最大16倍(注2)高速化し、データ分析にかかる時間の大幅な削減とコンピューティングコストの低減に貢献します。 また本日よりFireDucksのβ版をオンライン(https://fireducks-dev.github.io/)で公開します。どなたでも無償でご使用いただくことが可能です。 近年POSやEコマース等の売り上げデータや金融取引のトランザクションデータなど、大量のデータが容易に取得できるようになりましたが、それらデータから価値ある分析結果を導き出すためには、人工知能(以下、AI)や機械学習(machine learning: 以下、ML)を使

                              NEC、Pythonを用いたデータ分析を高速化するソフトウェア「FireDucks」の無償提供を開始
                            • NEC、Pythonを用いたデータ分析を高速化するソフト「FireDucks」の無償提供を開始

                                NEC、Pythonを用いたデータ分析を高速化するソフト「FireDucks」の無償提供を開始
                              • データ分析の基礎 - Qiita

                                1. データ分析の概要と目的 データ分析とは、大量のデータから有用な情報や知識を抽出するプロセスです。 このプロセスには、データの収集、前処理、探索、モデリング、評価、そして最終的な知識の抽出が含まれます。 データ分析の主な目的は以下の通りです ビジネスの意思決定をサポートする 新しい市場の機会を発見する 顧客の行動や傾向を理解する 製品やサービスの改善 予測や予測モデリングを行う 2. Pythonにおけるデータ分析のライブラリの紹介 Pythonはデータ分析のための多くのライブラリを持っています。 以下はその中でも特に人気のあるライブラリです Pandas: データの前処理や探索的データ分析に使用されるライブラリ NumPy: 数値計算を効率的に行うためのライブラリ Matplotlib & Seaborn: データの可視化に使用されるライブラリ Scikit-learn: 機械学習の

                                  データ分析の基礎 - Qiita
                                • BigQuery DataFramesを使ってみる | DevelopersIO

                                  このデータをBigQuery DataFramesで扱います。内容としては{project_id}.data_set_test.jp_weatherのデータを使ってPandasで行う一般的な分析操作を行います。コードは以下になります。 import os import bigframes.pandas as bpd bpd.options.bigquery.project = os.environ.get("GOOGLE_PROJECT_ID") bpd.options.bigquery.location = "asia-northeast1" df1 = bpd.read_gbq("{project_id}.data_set_test.jp_weather") # df1 = bpd.read_gbq("SELECT * FROM {project_id}.data_set_test.j

                                    BigQuery DataFramesを使ってみる | DevelopersIO
                                  • Open Interpreter - Qiita

                                    text = """ SeabornのTitanicデータセットを使いLightGBM,XGBoost,CatBoostおよび3つのモデルのアンサンブルした場合で どれが最も精度が良いか検証してください.検証する際は4foldのクロスバリデーションの結果の平均値としてください. 全て日本語で対応してください. """ # return_massagesは出力結果のデータを変数として保持するため引数 # 出力結果はmassagesにも保存される messages = interpreter.chat(text, return_messages=True) 了解しました。以下の手順で進めていきます。 1 必要なライブラリをインストールします。これには、seaborn(データセットの取得)、pandas(データの操作)、numpy cikit-learn(クロスバリデーションと精度評価)、lig

                                      Open Interpreter - Qiita
                                    • Azure OpenAI + Jupyter Notebookで自家製Code Interpreterを実現する - Qiita

                                      はじめに ChatGPT Code Interpreter いいですよね。でもAzure OpenAIではまだまだ使えなさそう(そもそも使えるようになるのか?)なので、Jupyter Notebookと組み合わせて同じようなことを実現してみました。 Function Callingが使えるようになれば、ちょっと実装を変えたほうがよいところもありますが、とりあえず生ChatGPTで進めます。gpt-35-turbo(0613)です。お安くできますね。 環境準備 Jupyter Notebookを使える環境はお好みの方法でご用意ください。 あと、openai、matplotlib, pandas, numpyとか必要なものもお好きな環境にどうぞ。なお、日本語でグラフを作成したいので、japanize-matplotlibはいれておいてください。 Code Interpreterを実現する関数

                                        Azure OpenAI + Jupyter Notebookで自家製Code Interpreterを実現する - Qiita
                                      • Pythonでボリンジャーバンド、売買シグナル、バックテスト - Qiita

                                        株価は95.4%の確立でボリンジャーバンド±2σの範囲内に収まる エンジニア未経験、Qiita覚えたので初投稿 仮説 4.6%でしか負けないならボリンジャーバンドで売買すれば絶対に勝てる 条件 初期資本100万円、1ポジション100株、手数料0、副ポジション無し、25日移動平均線を基準 使用ライブラリ yfinance 株価取得 Pandas データフレーム matplotlib.pyplot グラフ tqdm プログレスバー datetime Timestampオブジェクト os csv保存 処理順序 株価取得 移動平均線、 標準偏差、ボリンジャーバンド、乖離率の算出 売買ルール制定、バックテスト リターンの算出 グラフ化 必要なライブラリのインストール

                                          Pythonでボリンジャーバンド、売買シグナル、バックテスト - Qiita
                                        • LLMに表データの解析を手伝ってもらえるLangChainのPandas Dataframe Agentの中身がどうなっているのか調べた - まったり勉強ノート

                                          最近、LLMを使ったOSSの中身を調べてLLMとどう連携して目的を達成しているのかをいろいろ調べています。今回はLangChainのPandas Dataframe Agentの中身がどうなっているのか気になったので調べたまとめになります。 今回のコードは以下のところにあるので、全体としてどうなっているのか見たい方はこちらをご覧ください。 https://github.com/shu65/langchain_examples/blob/main/LangChain_Pandas_Dataframe_Agent.ipynb LangChainのPandas Dataframe Agentとは LLMを使いやすくwrapしてくれるLangChainにはいくつかAgentというLLMとToolと呼ばれるものを組み合わせて実行する仕組みが用意されています。この中でもPandas Dataframe

                                            LLMに表データの解析を手伝ってもらえるLangChainのPandas Dataframe Agentの中身がどうなっているのか調べた - まったり勉強ノート
                                          • 【2023年版】機械学習の日本語無料学習教材まとめ - Qiita

                                            言語&開発基礎編 PythonやSQLなどの言語と開発環境に関連することをまとめました。 機械学習に関する教材はこの次のセクションにまとめてあります。 学習環境 インストール及び使い方チュートリアルのサイトと、ある程度使い慣れた後に役立つtips集を各エディタでまとめました。 Google Colaboratory Python初学者にとって最もわかりやすいPython実行環境です。プログラミングは初めて!という方はまずこのGoogle Colaboratory(通称: Colab)から始めてみて、使い方がある程度わかったら、そのまま次のセクションのPython編に移りましょう。 Pythonプログラミング入門 難易度: ★☆☆ 東京大学の公開しているPython講座ですが、冒頭でColabの使い方を解説しています。使ったことのない方はこちらから! Google Colabの知っておくべき

                                              【2023年版】機械学習の日本語無料学習教材まとめ - Qiita
                                            • Python: Polars で各種エンコーダを実装したライブラリ「Shirokumas」を作った - CUBE SUGAR CONTAINER

                                              最近は Polars が気に入っていて、主にプライベートで使っている。 ただ、エコシステムという観点では Pandas に比べて発展途上の段階にあると思う。 そこで、今回は発展の一助として「Shirokumas」というライブラリを作ってみた。 github.com どんなライブラリかというと、現時点の機能では Pandas の category_encoders 1 のサブセットに相当する。 より具体的には、scikit-learn のスタイルで書かれた特徴量抽出をするための基本的なエンコーダを実装してある。 特徴としては、同じ処理を完了するまでにかかる時間が短いこと。 Pandas のエコシステムで使われるフレームワークとパフォーマンスを比較したグラフを以下に示す。 グラフから、比較対象の概ね 1/10 以下の時間で処理を完了できることが分かる。 詳細については、このエントリの後半に記述

                                                Python: Polars で各種エンコーダを実装したライブラリ「Shirokumas」を作った - CUBE SUGAR CONTAINER
                                              • GitHub - Kanaries/pygwalker: PyGWalker: Turn your pandas dataframe into an interactive UI for visual analysis

                                                You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                  GitHub - Kanaries/pygwalker: PyGWalker: Turn your pandas dataframe into an interactive UI for visual analysis
                                                • データ分析に必要な内容を凝縮、『最短コースでわかるPythonプログラミングとデータ分析』

                                                  ●価格:3190円(税込)●ISBN:9784296201129●発行日:2022年12月19日●著者名:赤石雅典 著●発行元:日経BP●ページ数:408ページ●判型:A5変 身近なデータをPythonで分析できるようになるための知識を、最短コースで身に付けられる本です。Pythonのホントの基本から、データ分析に必要なPythonライブラリの使い方、データ分析の実践例までを一気に学べます。プログラミングの経験がない方もこの1冊を読めば、実際のデータ分析を始められます。 ベストセラーの『最短コースでわかる ディープラーニングの数学』『Pythonで儲かるAIをつくる』などを執筆した著者が送るデータ分析&AI書籍の第4弾。いつもの平易な解説で、初学者も安心して学べます。 本書は次のような方に最適です。 (1)プログラミング言語自体を知らないが、データ分析のためにこれから勉強したいという方 (

                                                    データ分析に必要な内容を凝縮、『最短コースでわかるPythonプログラミングとデータ分析』
                                                  • 全世界の建物地図情報の入手方法 - Qiita

                                                    概要 マイクロソフトが提供する衛星画像より推定した建物地図の入手方法について紹介します。 Building Footprints by Microsoft 建物地図の提供状況((C)Microsoft) 建物地図データは、こちらより確認できますのでご参考ください。 また、Google Colaboratoryのサンプルコードをこちらにアップしましたので、あわせてご参考ください。最後に、衛星画像に重畳した建物地図の例を紹介しています。 1.建物地図情報の入手 今回は、pythonでよく用いる行例モジュールであるpandasと同じ形式の位置情報データを扱うgeopandasを使います。geopandasを含めた位置データの使い方については、以下のサイトが網羅的にまとめれていますので、是非こちらをご参考ください。 【PythonでGIS】GeoPandasまとめ PythonでのShapefil

                                                      全世界の建物地図情報の入手方法 - Qiita
                                                    • Python初学者のためのPolars100本ノック - Qiita

                                                      Information 2024/1/8: pandas , Polars など18を超えるライブラリを統一記法で扱える統合データ処理ライブラリ Ibis の100 本ノックを作成しました。長期目線でとてもメリットのあるライブラリです。こちらも興味があればご覧下さい。 Ibis 100 本ノック https://qiita.com/kunishou/items/e0244aa2194af8a1fee9 はじめに どうもこんにちは、kunishouです。 この度、PythonライブラリであるPolarsを効率的に学ぶためのコンテンツとして 「Python初学者のためのPolars100本ノック」 を作成したので公開します。こちらは2020年9月に公開した「Python初学者のためのpandas100本ノック」の問題内容をPolarsのメソッドに合わせて修正、再編したものになります。本コンテン

                                                        Python初学者のためのPolars100本ノック - Qiita
                                                      • Rust製高速データフレームライブラリ、Polarsを試す | gihyo.jp

                                                        門脇@satoru_kadowakiです。今月のPython Monthly Topicsでは、Rust製の高速データフレームライブラリ Polars について紹介します。 Polarsとは Pythonでデータ分析に使用される主なライブラリに pandas があります。Polarsはpandasと同様にデータフレームというデータ構造オブジェクトを提供するサードパーティライブラリです。特にpandasを意識して作られており、メインページに「Lightning-fast DataFrame library for Rust and Python」とあるように、Rustによる高速処理を謳っています。 Polarsのリポジトリや関連ドキュメントは以下を参照してください。 Github: https://github.com/pola-rs/polars ユーザーガイド: https://pola

                                                          Rust製高速データフレームライブラリ、Polarsを試す | gihyo.jp
                                                        • 超高速DataFrameライブラリー「Polars」について

                                                          はじめに ここ最近、Polarsについて調べる中で色々と面白そうだと思い現在勉強中です。今回の記事では勉強内容の整理も兼ねて、Polarsの特色を紹介できればと思っています。 Polarsとは RustとPythonで使える[1]超高速("Blazingly fast")DataFrameライブラリー、つまりデータ解析に使えるライブラリーとなります。pandasに対するPolars(しろくま)であり洒落ているなと思います。 Core部分はRustで実装されており、インターフェースとしてPythonからも呼び出せるようになっています。RustからPythonパッケージへのビルドはmaturin(PyO3)を使っています。 環境 記事作成時のOSや言語、ライブラリーのバージョンは以下になります。関連が強そうなもののみ抜粋しています。 Ubntu 22.04 Python 3.10.6 (mai

                                                            超高速DataFrameライブラリー「Polars」について
                                                          • Pandasのメモリ削減方法を整理した - Taste of Tech Topics

                                                            皆さんこんにちは 機械学習チーム YAMALEXチームの@tereka114です。最近、寒いので、鍋を中心に食べて生きています。 検証段階でも、規模の大きなデータを扱う機会が増えてきて、Pandasのメモリ消費量が厳しいと感じてきたので、その削減や効率化のテクニックまとめたいと思いました。 有名なものからマイナーなものまで、思いつく限り書いてみます。 そもそもなぜ、Pandasのメモリ削減技術が必要なのか 準備 Pandasのメモリ削減 1. 型修正 2. 逐次読み込み 3. 読み込み時の型指定 4. 逐次読み込み&集約 5. 不要なものを読み込まない 6. 不要なカラム/DataFrameを消す 番外編:そもそもPandasを利用しない 最後に そもそもなぜ、Pandasのメモリ削減技術が必要なのか Pandasで扱うデータの多くのファイルはCSV,Parquet, JSON(JSONL

                                                              Pandasのメモリ削減方法を整理した - Taste of Tech Topics
                                                            • お前らのpandasの使い方は間違っている - Qiita

                                                              この記事は株式会社Nuco Advent Calendar 2022の9日目の記事です。 はじめに いきなりお馴染みの「キャッチーでウィットでセンセーショナルな」タイトルで失礼します。 私自身、業務の中でpandasに大変お世話になっており、自戒も込めてpandasの「アンチパターン」をまとめてみました。 この記事を読んで、より快適なpandasライフを送っていただけると嬉しいです。 対象読者 Pythonを使ったデータ分析や機械学習に携わる方 この記事はpandasの基本的な使い方を解説するものではないので注意してください。 表形式ファイルを加工する必要がある方 pandasの強みはリレーショナルなデータ全般です。必ずしもデータ分析や機械学習だけが守備範囲ではありません。 pandasとは pandasの公式ドキュメントの概要には、以下のように記載してあります。 pandas is a

                                                                お前らのpandasの使い方は間違っている - Qiita
                                                              • 超高速…だけじゃない!Pandasに代えてPolarsを使いたい理由 - Qiita

                                                                PolarsというPandasを100倍くらい高性能にしたライブラリがとても良いので布教します1。PolarsはRustベースのDataFrameライブラリですが、本記事ではPythonでのそれについて語ります。 ちなみにpolarsは白熊の意です。そりゃあまあ、白熊と大熊猫比べたら白熊のほうが速いし強いよねってことです2。 何がいいの? 推しポイントは3つあります 高速! お手軽! 書きやすい! 1. 高速 画像はTPCHのBenchmark(紫がPolars)3。 日本語でも色々記事があるので割愛しますが、RustやApach Arrowなどにお世話になっており、非常に速いです。MemoryErrorに悩まされる問題も解決されます。開発者のRitchieがしゃれおつなツイートをしてるので、そちらも参考にどうぞ ↓ 4。 抄訳: (ひとつ目)Pandasは黄色くした部分でDataFram

                                                                  超高速…だけじゃない!Pandasに代えてPolarsを使いたい理由 - Qiita
                                                                • 時系列データから大量の特徴量を生成するパッケージ「tsfresh」の使い方|CO-WRITE

                                                                  こんにちは!突然ですが、皆さんは下のような二種類の時系列データを判別できるような特徴量を抜き出したいときに何を考えますか?そしてどうやって特徴量を抽出しますか? 私はパッと見て次の手法を使えば特性が取り出せると思いました。 ピークの数 → k近傍法 ノイズの大きさ → 分散統計量 時系列方向で周期成分の大きさ → Wavelet変換 しかし、当然これだけでは十分な数の特性を網羅できていないでしょうし、適切な特性を抜き出すためにパラメータチューニングを行う必要があります(例えば、Wavelet変換であれば適切な基底関数を選ぶ必要があります)。 このように時系列データの特徴量エンジニアリングは調べることが無限にあり、どの特徴量を算出するかを考えているだけで日が暮れてしまいます。また、抜き出す特徴量が決まったとしてもモノによっては計算が複雑で実装に時間がかかってしまう場合もあります。 そんなとき

                                                                    時系列データから大量の特徴量を生成するパッケージ「tsfresh」の使い方|CO-WRITE
                                                                  • japanmapライブラリで都道府県データを可視化してみる | DevelopersIO

                                                                    はじめに データアナリティクス事業本部のkobayashiです。 以前Google Colaboratory(以下Colab)でBigQueryのデータを扱うエントリを書きましたが、その中でデータをColabで可視化する際に都道府県別のデータを日本地図で表現するライブラリを使いました。そのライブラリの使い勝手が良かったので深堀りをしてみます。 japanmap · PyPI GitHub - SaitoTsutomu/japanmap japanmapとは できるとこはとてもシンプルで都道府県別に日本地図を塗り分けるライブラリです。 使い方は「辞書型で色情報を渡す」のか「PandasのSeriesで色情報を渡す」の2パターンがあります。 辞書型で色情報を渡す 都道府県名:色情報で辞書を作成してjapanmapのライブラリに指定すれば良いだけです。 色情報は以下の型式で指定します。 カラー名

                                                                      japanmapライブラリで都道府県データを可視化してみる | DevelopersIO
                                                                    • pandasから移行する人向け polars使用ガイド - Qiita

                                                                      pandasから移行する人向け polars使用ガイド polarsは、Pythonの表計算ライブラリです。Pythonではpandasがこの分野ですでに支配的となっていますが、polarsはパフォーマンス上pandasより優れているとされます。本記事はpandasからpolarsに移行する人にとりあえず知っておくべきいくつかの知識とユースケースを提供します。 polarsは更新が活発で、頻繁に新しい関数の実装やたまに仕様変更が行われています。都度、公式の最新のドキュメントを確認することをおすすめします。 Github 公式APIリファレンス 公式ガイド 本記事の内容はバージョン0.20.1 (2023/12/19)で確認しています。 基礎 polarsのデータ構造はpandasと同様です。一つの一次元配列をシリーズ(pl.Series)と呼びます。また、一つ以上のシリーズが集まってできた

                                                                        pandasから移行する人向け polars使用ガイド - Qiita
                                                                      • J-PlatPat特許検索データの分析 - Qiita

                                                                        科学技術と関連するWebでの情報調査と分析を行っています。 特許データはJ-PlatPatで収集できます。J-PlatPatは独立行政法人工業所有権情報・研修館が提供する特許検索情報サイトです。特許庁のHPからもアクセスすることができます。 J-PlatPatでは、検索結果をcsvファイルにダウンロードできます。また、検索結果の分類コード(FI)ランキングを画面上で確認でき、コピペでスプレッドシートに保存できます。 さらに、検索された各特許は、全文をPDFファイルとしてダウンロードしたり、請求項と詳細な説明は画面上開いてコピペすることができます。 この記事では、J-PlatPatでの検索結果情報から、 公知年別件数推移 出願人別件数ランキング FI分類コード別件数ランキング をPythonで可視化しました。 ダウンロードするcsvには要約を含めることもできますので、自然言語処理を用いた分析

                                                                          J-PlatPat特許検索データの分析 - Qiita
                                                                        • 時系列データを前処理する際のPython逆引きメモ - EurekaMoments

                                                                          機械学習のための「前処理」入門 作者:足立悠リックテレコムAmazon 目的 データ分析の仕事をする中で最も扱う機会が多いのが 時系列データだと思います。その中で欠損値を扱ったり、 統計を取ったり、特徴量を作り出したりするのですが、 毎回やり方を忘れてググっているので、上記の書籍を読んで こういった前処理の方法をいつでも確認できるように メモしておこうと思います。 目次 目的 目次 日時のデータをdatetime型に変換する 最初の日時からの経過時間を計算する 各データの統計量を計算する 欠損値の確認と補完 経過時間の単位を変換する データフレーム結合する 基準日時からの経過時間を計算する 重複した行を削除する 特定のデータ列をインデックスにする 部分的時系列を抽出して統計量を計算する データフレームの各列をリストにして結合する 不均衡データから教師データを作成する データの読み込みと可視

                                                                            時系列データを前処理する際のPython逆引きメモ - EurekaMoments
                                                                          • 組み込みシステム向けDBであるSQLite入門 - MyEnigma

                                                                            Using SQLite: Small. Fast. Reliable. Choose Any Three. (English Edition) 目次 目次 はじめに SQLiteの歴史 特徴 トランザクションがある 設定がない 様々なSQL機能が利用可能 クロスプラットの単一ファイルで管理 高速にデータにアクセスできる 大規模なデータを管理できる ソフトウェアが小さい ソフトウェアやファイルフォーマットが安定している ソースコードがPublic domainで公開されている。 ソフトウェアとしての品質が高い 使い方 公式のCLIツールを使う Pythonの公式モジュールsqlite3を使う PandasのDataFrameとSQLiteをやり取りする 参考資料 MyEnigma Supporters はじめに 世界で最も使われているOSSってなんだろうと考えた時に、 真っ先に思いつくのが

                                                                              組み込みシステム向けDBであるSQLite入門 - MyEnigma
                                                                            • hypothesis+panderaで始める、データフレームに対するProperty Based Testing - Sansan Tech Blog

                                                                              技術本部 R&D研究員の前嶋です。梅雨の季節ですが、少しでも快適に過ごせるようにOnのCloud 5 wpを購入しました。水に強くて軽快な履き心地で最高ですね。(追記:この記事の公開作業をしている間に梅雨が終わってしまいました) 今回は、データフレームのテストについての記事です。 データフレームのテストをどう書くか データが中心となるサービスのネックになるのが テストをどう書くか です。というのも、データフレームは行×列の構造になっているため、入力あるいは出力値がデータフレームになるような関数が多いプログラムでは、テストケースを書くのが非常に面倒です。仕様の変更があった場合、それぞれのテスト用の疑似データに修正を加えることを考えると、より簡潔にデータフレームのバリデーションをする方法が欲しいところです。実は、データフレームのテストはProperty Based Testingという考え方と

                                                                                hypothesis+panderaで始める、データフレームに対するProperty Based Testing - Sansan Tech Blog
                                                                              • 4 Pandas Anti-Patterns to Avoid and How to Fix Them

                                                                                pandas is a powerful data analysis library with a rich API that offers multiple ways to perform any given data manipulation task. Some of these approaches are better than others, and pandas users often learn suboptimal coding practices that become their default workflows. This post highlights four common pandas anti-patterns and outlines a complementary set of techniques that you should use instea

                                                                                  4 Pandas Anti-Patterns to Avoid and How to Fix Them
                                                                                • Python for Data Analysis, 3E

                                                                                  About the Open Edition The 3rd edition of Python for Data Analysis is now available as an “Open Access” HTML version on this site https://wesmckinney.com/book in addition to the usual print and e-book formats. This edition was initially published in August 2022 and will have errata fixed periodically over the coming months and years. If you encounter any errata, please report them here. In general