並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 248件

新着順 人気順

pandasの検索結果1 - 40 件 / 248件

  • 東京大学、Pythonプログラミング無料入門 pandasやJupyterなど幅広い | Ledge.ai

    サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

      東京大学、Pythonプログラミング無料入門 pandasやJupyterなど幅広い | Ledge.ai
    • Python初学者のためのPandas100本ノック - Qiita

      Information 2024/1/8: pandas , Polars など18を超えるライブラリを統一記法で扱える統合データ処理ライブラリ Ibis の100 本ノックを作成しました。長期目線でとてもメリットのあるライブラリです。こちらも興味があればご覧下さい。 Ibis 100 本ノック https://qiita.com/kunishou/items/e0244aa2194af8a1fee9 2023/2/12: 大規模データを高速に処理可能なデータ処理ライブラリ Polars の 100 本ノックを作成しました。こちらも興味があればご覧下さい。 Polars 100 本ノック https://qiita.com/kunishou/items/1386d14a136f585e504e はじめに この度、PythonライブラリであるPandasを効率的に学ぶためのコンテンツとして

        Python初学者のためのPandas100本ノック - Qiita
      • だから僕はpandasを辞めた【データサイエンス100本ノック(構造化データ加工編)篇 #1】 - Qiita

        データサイエンス100本ノック(構造化データ加工編)のPythonの問題を解いていきます。この問題群は、模範解答ではpandasを使ってデータ加工を行っていますが、私達は勉強がてらにNumPyの構造化配列を用いて処理していきます。 次回記事(#2) はじめに Pythonでデータサイエンス的なことをする人の多くはpandas大好き人間かもしれませんが、実はpandasを使わなくても、NumPyで同じことができます。そしてNumPyの方がたいてい高速です。 pandas大好き人間だった僕もNumPyの操作には依然として慣れていないので、今回この『データサイエンス100本ノック』をNumPyで操作することでpandasからの卒業を試みて行きたいと思います。 今回は8問目までをやっていきます。 今回使うのはreceipt.csvだけみたいです。初期データは以下のようにして読み込みました(データ型

          だから僕はpandasを辞めた【データサイエンス100本ノック(構造化データ加工編)篇 #1】 - Qiita
        • お前らのpandasの使い方は間違っている - Qiita

          この記事は株式会社Nuco Advent Calendar 2022の9日目の記事です。 はじめに いきなりお馴染みの「キャッチーでウィットでセンセーショナルな」タイトルで失礼します。 私自身、業務の中でpandasに大変お世話になっており、自戒も込めてpandasの「アンチパターン」をまとめてみました。 この記事を読んで、より快適なpandasライフを送っていただけると嬉しいです。 対象読者 Pythonを使ったデータ分析や機械学習に携わる方 この記事はpandasの基本的な使い方を解説するものではないので注意してください。 表形式ファイルを加工する必要がある方 pandasの強みはリレーショナルなデータ全般です。必ずしもデータ分析や機械学習だけが守備範囲ではありません。 pandasとは pandasの公式ドキュメントの概要には、以下のように記載してあります。 pandas is a

            お前らのpandasの使い方は間違っている - Qiita
          • Kaggleで戦いたい人のためのpandas実戦入門 - ML_BearのKaggleな日常

            はじめに 自分は元々pandasが苦手でKaggleコンペ参加時は基本的にBigQuery上のSQLで特徴量を作り、最低限のpandas操作でデータ処理をしていました。 しかし、あるコードコンペティションに参加することになり、pythonで軽快にデータ処理をこなす必要が出てきたので勉強しました。 そこで、当時の勉強メモをもとに「これだけ知っていればKaggleでそこそこ戦えるかな」と思っているpandasの主要機能をまとめました。 注記 実戦入門 のつもりが ほぼ辞書 になってしまいました orz pandasとはなんぞや的な内容は書いていません (import pandasやDataFrameとは何かなど) pandas1.0系でも動くように書いたつもりですが間違ってたらすみません 目次 はじめに 注記 目次 Options DaraFrame 読み書き CSVファイル 読み込み 書き出

              Kaggleで戦いたい人のためのpandas実戦入門 - ML_BearのKaggleな日常
            • PandasからPolarsへ移行した方がいいのか - Qiita

              なぜこの記事を書くのか 皆さん、データ解析を行う際にどのようなライブラリを用いているでしょうか。 おそらく大半の人はpandasを使っているのではないでしょうか。 私もpandas使ってます。簡単だよね(´・ω・`) しかし、業務でバカクソでけえデータを読み込もうとしたときに、読み込み時間がとんでもなくかかったり、メモリ不足でそもそも読み込めもしないことが起きていました。 読み込みにメモリ食われすぎて他の作業ができずに待機した挙句、燃え尽きたかのようにノーパソのファンが止まると同時にメモリ不足のエラーが出たときには切れ散らかします。 (画像元:葬送のフリーレン公式Xアカウントのポストより) そんなこともあり、AWSなどのクラウドサービスでメモリに余裕を持たせるためにめちゃくちゃ良いインスタンスを使用していましたが、コストの問題で断念しました。 しかし、どうしても読み込みたいということもあり

                PandasからPolarsへ移行した方がいいのか - Qiita
              • (修正版) NumPy/pandas使いのためのテスト自動化入門 / PyConJP2020

                PyCon JP 2020での発表スライドです。 --------------------------- (2020/08/30) 誤字を修正しました。 場所: p15 誤: assert_array_close() 正: assert_allclose() --------------------------- (2020/08/31) 誤字を修正しました。pandas.util.testingは動作しますが、pandas1.0以降ではdeprecatedになっており代替としてpandas.testingを使うことが推奨されています。 場所: p17 誤: pandas.util.testing 正: pandas.testing なお、p18のサンプルコードは元々pandas.testingで説明していたため変更はありません。 --------------------------- ト

                  (修正版) NumPy/pandas使いのためのテスト自動化入門 / PyConJP2020
                • Pandasのメモリ削減方法を整理した - Taste of Tech Topics

                  皆さんこんにちは 機械学習チーム YAMALEXチームの@tereka114です。最近、寒いので、鍋を中心に食べて生きています。 検証段階でも、規模の大きなデータを扱う機会が増えてきて、Pandasのメモリ消費量が厳しいと感じてきたので、その削減や効率化のテクニックまとめたいと思いました。 有名なものからマイナーなものまで、思いつく限り書いてみます。 そもそもなぜ、Pandasのメモリ削減技術が必要なのか 準備 Pandasのメモリ削減 1. 型修正 2. 逐次読み込み 3. 読み込み時の型指定 4. 逐次読み込み&集約 5. 不要なものを読み込まない 6. 不要なカラム/DataFrameを消す 番外編:そもそもPandasを利用しない 最後に そもそもなぜ、Pandasのメモリ削減技術が必要なのか Pandasで扱うデータの多くのファイルはCSV,Parquet, JSON(JSONL

                    Pandasのメモリ削減方法を整理した - Taste of Tech Topics
                  • たった一文でPandasのapplyメソッドを高速化する方法(検証計算あり) - Qiita

                    以下では、DaskやPandasなどと比較して、swifterがどの程度高速なのかを検証したいと思います。 swifterはベクトル化可能な場合とそうでない場合で挙動が異なるので、各々の場合を検証します。 使用したPCのスペックはIntel Core i5-8350U @1.70GHz、メモリが16GBです。 ベクトル化可能な場合 swifterはベクトル化可能なときはベクトル化するので、swifterの計算時間は単純にベクトル化した場合と ほぼ等しくなるはずです。これを確認してみましょう。 import pandas as pd import numpy as np import dask.dataframe as dd import swifter import multiprocessing import gc pandas_time_list = [] dask_time_list

                      たった一文でPandasのapplyメソッドを高速化する方法(検証計算あり) - Qiita
                    • 知っていますか?Pandasをノーコーディングで高速化(CPU環境でも)できるらしい… FireDucks🔥🐦 - Qiita

                      知っていますか?Pandasをノーコーディングで高速化(CPU環境でも)できるらしい… FireDucks🔥🐦Pythonpandasデータサイエンス統計検定 はじめに Pandasで大量データを扱って処理時間にイライラしたことはないでしょうか? なんと、Pandasを従来のコードを変えずに高速化するライブラリィが出たみたいです。 NEC研究所が出したFireDucks 🔥🐦 というライブラリィで、ベータ版が無償公開されています。 しかも CPU環境でも高速化されるみたいです。詳細は下記のサイトを参照してください。 ベーター版ですが無償とは素晴らしいですね! 早速検証してみましょう。 環境 FireDucksの利用方法には、「インポートフック」、「明示的なインポート」の2種類があります。 「インポートフック」の場合は、pythonの起動時にオプションを指定することでコードの書き換え

                        知っていますか?Pandasをノーコーディングで高速化(CPU環境でも)できるらしい… FireDucks🔥🐦 - Qiita
                      • 遅くないpandasの書き方 - ML_BearのKaggleな日常

                        これは何? この記事は Kaggle Advent Calendar 2021 の7日目の記事です。 pandasはデータ分析ライブラリとして非常に便利ですが、書き方を間違えると簡単に処理が遅くなってしまうという欠点があります。そこで、この記事では遅くならない書き方をするために気をつけたいポイントをいくつかご紹介したいと思います。 この Colab Notebookの実行結果をエクスポートした上で、不要な部分を一部削って記事にしています。colab notebook をコピーして実行してもらえれば再現することが可能なはずです。(colabにコメント等をいただいても返すことはできないと思います、すみません。) 前提条件 この記事ではあくまで「遅くない(なりづらい)書き方を紹介する」ことに努めます。よって、以下のような改善点はあるが一旦考慮の外におくものとして話を進めます。 並列化ライブラリ

                          遅くないpandasの書き方 - ML_BearのKaggleな日常
                        • 超高速…だけじゃない!Pandasに代えてPolarsを使いたい理由 - Qiita

                          PolarsというPandasを100倍くらい高性能にしたライブラリがとても良いので布教します1。PolarsはRustベースのDataFrameライブラリですが、本記事ではPythonでのそれについて語ります。 ちなみにpolarsは白熊の意です。そりゃあまあ、白熊と大熊猫比べたら白熊のほうが速いし強いよねってことです2。 何がいいの? 推しポイントは3つあります 高速! お手軽! 書きやすい! 1. 高速 画像はTPCHのBenchmark(紫がPolars)3。 日本語でも色々記事があるので割愛しますが、RustやApach Arrowなどにお世話になっており、非常に速いです。MemoryErrorに悩まされる問題も解決されます。開発者のRitchieがしゃれおつなツイートをしてるので、そちらも参考にどうぞ ↓ 4。 抄訳: (ひとつ目)Pandasは黄色くした部分でDataFram

                            超高速…だけじゃない!Pandasに代えてPolarsを使いたい理由 - Qiita
                          • たった数行でpandasを高速化する2つのライブラリ(pandarallel/swifter) - フリーランチ食べたい

                            pandas はデータ解析やデータ加工に非常に便利なPythonライブラリですが、並列化されている処理とされていない処理があり、注意が必要です。例えば pd.Sereis.__add__ のようなAPI(つまり df['a'] + df['b'] のような処理です)は処理が numpy に移譲されているためPythonのGILの影響を受けずに並列化されますが、 padas.DataFrame.apply などのメソッドはPythonのみで実装されているので並列化されません。 処理によってはそこがボトルネックになるケースもあります。今回は「ほぼimportするだけ」で pandas の並列化されていない処理を並列化し高速化できる2つのライブラリを紹介します。同時に2つのライブラリのベンチマークをしてみて性能を確かめました。 pandarallel pandaralell はPythonの m

                              たった数行でpandasを高速化する2つのライブラリ(pandarallel/swifter) - フリーランチ食べたい
                            • pandasのappendが1.4でDeprecatedされた件 - techtekt

                              データエンジニアの @kazasiki です。 今回はデータ分析やAIなどをやってる人はお世話になってるだろうpandasについての細かい話をします。 pandasは2022/01/04にバージョンが1.4.0になりました。それに伴って色々変わったんですが、この間pandas使って実装してたら以下のwarningが出てきました。 FutureWarning: The frame.append method is deprecated and will be removed from pandas in a future version. Use pandas.concat instead. リリースノート的には以下の部分ですね。 pandas.pydata.org メッセージやドキュメントだけ見れば、appendをconcatに置き換えればいい、という話になりますが、ちょっと違和感を感じて

                                pandasのappendが1.4でDeprecatedされた件 - techtekt
                              • プログラミング言語「Python」と「Pandas」を教えるコースの広告をFacebookで出したら「動物の違法取引」と誤判定されたのか永久BANを食らう事態が発生

                                人気のプログラミング言語「Python」と、そのデータ分析用ライブラリである「Pandas」の利用法の指導などを行っているルーベン・M・ラーナー氏が、Metaの広告プラットフォームから永久BANされた状態であることを明かしました。Metaは永久BANの理由について具体的には説明せず「広告ポリシー違反」と述べていますが、ラーナー氏は友人らと相談した結果、「Python」と「Pandas」についての広告をMetaが「禁止されている動物取引を行おうとしている」と誤認識した可能性を指摘しています。 I'm banned for life from advertising on Meta. Because I teach Python. — Reuven Lerner https://lerner.co.il/2023/10/19/im-banned-for-life-from-advertisin

                                  プログラミング言語「Python」と「Pandas」を教えるコースの広告をFacebookで出したら「動物の違法取引」と誤判定されたのか永久BANを食らう事態が発生
                                • Pandas で時系列データをグループ化して集計できる「Grouper」 - kakakakakku blog

                                  Pandas で groupby() 関数を使うと,データセットをグループ化して集計できる.さらに Grouper オブジェクトと組み合わせると,より高機能なグループ化を実現できる.今回は groupby() 関数と Grouper オブジェクトを組み合わせて「時系列データの集計」を試す.最後に関連する resample() 関数も試す. pandas.DataFrame.groupby — pandas 1.2.4 documentation pandas.Grouper — pandas 1.2.4 documentation データセット 🪢 今回使うサンプルデータセットを準備する.まず,Pandas の date_range() 関数を使って 2020/1/1 ~ 2020/12/31 の範囲で1年間の DatetimeIndex を作る.そして DatetimeIndex をイ

                                    Pandas で時系列データをグループ化して集計できる「Grouper」 - kakakakakku blog
                                  • 仕事する前に知っておくと幸せかもしれないpandasのきほん - read関数にはとりあえずURL渡しておけ - Lean Baseball

                                    お仕事や, (個人的には)趣味のデータ分析・開発などでpandasをよく使う人です. pandasはPythonでデータサイエンスやデータ分析(解析)をやってると必ずと言っていいほどよく使うライブラリだと思います. お仕事で同僚やインターンが書いたnotebookをよく読む(レビューする)のですが, 煩雑なことやってるけどこれ一行で書けるやで 最初からデータを整理するとそんな面倒くさいことしなくても大丈夫やで ...といったコメントを返す機会が増えてきました. これらは当人たちにフィードバックしているのですが, このフィードバックの内容が案外重要な気がしてきたのでブログに書いてみることにしました. 読んだ方の理解・生産性の向上および, 「つまらない仕事が334倍楽になる」ような感じにつながると嬉しいです🙏 TL;DR pandasのread関数にはとりあえずURLを渡しておけ &使うカラ

                                      仕事する前に知っておくと幸せかもしれないpandasのきほん - read関数にはとりあえずURL渡しておけ - Lean Baseball
                                    • pandas/doc/cheatsheet at main · pandas-dev/pandas

                                      You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                        pandas/doc/cheatsheet at main · pandas-dev/pandas
                                      • 【python】csvファイルの読み込みを使いこなす。pandas.read_csvの主要オプション一覧。 - Qiita

                                        Help us understand the problem. What are the problem?

                                          【python】csvファイルの読み込みを使いこなす。pandas.read_csvの主要オプション一覧。 - Qiita
                                        • データ分析の前処理を行えるPythonライブラリ「pandas」、最も基本的なデータ構造「シリーズ」を解説

                                          機械学習やデータ分析には、収集したデータを使いやすい形に整える前処理が不可欠です。その際によく利用されるのがPythonのライブラリ「pandas」。今回は『現場で使える!pandasデータ前処理入門』(翔泳社)より、pandasの最も基本的なデータ構造であるシリーズの概要と操作方法について抜粋して紹介します。 本記事は『現場で使える!pandasデータ前処理入門 機械学習・データサイエンスで役立つ前処理手法』の「CHAPTER 2 pandasのデータ構造」より「2.1 シリーズ」を抜粋したものです。掲載にあたり一部を編集しています。 2.1.1 シリーズの概要 シリーズはインデックス付けされた複数のデータ型(int、str、float等)を持つことが可能な1次元配列のオブジェクトです。 インデックスとはデータに対して付与されるラベルです。データの参照や様々な処理で使われます。インデック

                                            データ分析の前処理を行えるPythonライブラリ「pandas」、最も基本的なデータ構造「シリーズ」を解説
                                          • [python / pandas] DataFrame を扱う人が覚えておきたい、ちょっとレアな便利技16選 - Qiita

                                            [python / pandas] DataFrame を扱う人が覚えておきたい、ちょっとレアな便利技16選PythonpandasDataFrame 概要 そこまでメジャーではない(?) けど、覚えておくと実装時間やコードの行数を大幅削減できる! という便利な技をご紹介します! 「そういえばpandasってあんなこともできたような気がするな。」 「自力で実装する前に調べてみようかな?」 と気付けると、時短 & コード量削減できる可能性が生まれます。 ではでは、お楽しみください!! Environment 以下の環境で動作確認を行いました。 項目 version など

                                              [python / pandas] DataFrame を扱う人が覚えておきたい、ちょっとレアな便利技16選 - Qiita
                                            • QDくん⚡️Python x 機械学習 x 金融工学 on Twitter: "鉄板のPython教材といえば東大が無料公開している「Pythonプログラミング入門」 ・Google Colabなので環境構築でハマる心配がない ・基本文法, Numpy, pandas, scikit-learnまで平易に学… https://t.co/bGyo4HKFZF"

                                              鉄板のPython教材といえば東大が無料公開している「Pythonプログラミング入門」 ・Google Colabなので環境構築でハマる心配がない ・基本文法, Numpy, pandas, scikit-learnまで平易に学… https://t.co/bGyo4HKFZF

                                                QDくん⚡️Python x 機械学習 x 金融工学 on Twitter: "鉄板のPython教材といえば東大が無料公開している「Pythonプログラミング入門」 ・Google Colabなので環境構築でハマる心配がない ・基本文法, Numpy, pandas, scikit-learnまで平易に学… https://t.co/bGyo4HKFZF"
                                              • [pandas超入門]Pythonでデータ分析を始めよう! データの読み書き方法

                                                連載目次 本シリーズと本連載について 本シリーズ「Pythonデータ処理入門」は、Pythonの基礎をマスターした人を対象に以下のような、Pythonを使ってデータを処理しようというときに便利に使えるツールやライブラリ、フレームワークの使い方の基礎を説明するものです。 Pythonだけを覚えれば何でもできるわけではない、というのはハードルが高く感じられるかもしれません。それでもプログラミング言語に関する基礎が身に付いたら、後は各種のツールを使いながら、言語とツールに対する理解を少しずつ、しっかりと深めていくことで自分がやれることも増えていきます。そのお手伝いをできたらいいな、というのが本シリーズの目的とするところです。 なお、本連載では以下のバージョンを使用しています。 Python 3.12 pandas 2.2.1 pandasとは pandasはデータ分析やデータ操作を高速かつ柔軟に

                                                  [pandas超入門]Pythonでデータ分析を始めよう! データの読み書き方法
                                                • pandasのStyling機能で強化するJupyter実験レポート / PyConJP 2019

                                                  PyConJP 2019: https://pycon.jp/2019/ Speaker: [Twitter] @komo_fr (https://twitter.com/komo_fr) [GitHub] @komo-fr (https://github.com/komo-fr) Video: https://www.youtube.com/watch?v=T8lL9Nb3hMM GitHub: https://github.com/komo-fr/PyConJP2019_pandas_styling nbviewer: https://nbviewer.jupyter.org/github/komo-fr/PyConJP2019_pandas_styling/blob/master/notebooks/styling.ipynb Togetter: https://togetter.c

                                                    pandasのStyling機能で強化するJupyter実験レポート / PyConJP 2019
                                                  • Python未導入環境においてPandasGUIとpandas-profilingを使用可能なEDAツール『Pandas Anywhere』を作ってみた - Qiita

                                                    Python未導入環境においてPandasGUIとpandas-profilingを使用可能なEDAツール『Pandas Anywhere』を作ってみたPythonpandasデータ分析TkinterPyInstaller はじめに この度、PythonライブラリであるPandasGUIとpandas-profilingを、Pythonをインストールしていない環境においても使用できるEDAツール**『Pandas Anywhere』**を作成したので公開します。本ツールを使用することで、誰でもどこでも簡易にビッグデータ※の分析が可能となります。 ※本記事でいうビッグデータとはMicrosoft ExcelやAccessで扱うのが困難な大容量データを指します。 作成の動機 前回書いた記事「Python初学者のためのPandas100本ノック」では、知り合いにPython・機械学習を始める人が

                                                      Python未導入環境においてPandasGUIとpandas-profilingを使用可能なEDAツール『Pandas Anywhere』を作ってみた - Qiita
                                                    • GitHub - Kanaries/pygwalker: PyGWalker: Turn your pandas dataframe into an interactive UI for visual analysis

                                                      You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                        GitHub - Kanaries/pygwalker: PyGWalker: Turn your pandas dataframe into an interactive UI for visual analysis
                                                      • LLMに表データの解析を手伝ってもらえるLangChainのPandas Dataframe Agentの中身がどうなっているのか調べた - まったり勉強ノート

                                                        最近、LLMを使ったOSSの中身を調べてLLMとどう連携して目的を達成しているのかをいろいろ調べています。今回はLangChainのPandas Dataframe Agentの中身がどうなっているのか気になったので調べたまとめになります。 今回のコードは以下のところにあるので、全体としてどうなっているのか見たい方はこちらをご覧ください。 https://github.com/shu65/langchain_examples/blob/main/LangChain_Pandas_Dataframe_Agent.ipynb LangChainのPandas Dataframe Agentとは LLMを使いやすくwrapしてくれるLangChainにはいくつかAgentというLLMとToolと呼ばれるものを組み合わせて実行する仕組みが用意されています。この中でもPandas Dataframe

                                                          LLMに表データの解析を手伝ってもらえるLangChainのPandas Dataframe Agentの中身がどうなっているのか調べた - まったり勉強ノート
                                                        • AWS CloudWatchのログをpandasで解析し、エラーの状況を可視化する | gihyo.jp

                                                          IAMのポリシー設定画面 IAMユーザの作成方法の詳細は、IAM公式ドキュメント、または他の参考資料をご確認ください。 IAMユーザを作成する時に、「⁠アクセスキー」と「シークレットアクセスキー」が作成時のみ画面に表示されます。これらのキーは後ほどログを取得する際に利用しますので、大切に保管してください。 AWSプロファイルを手元のPCに設定する方法もありますが、今回はプロファイルを生成せずに環境変数でコードに渡す方法で説明します。AWSプロファイルの設定を行いたい場合は、AWS公式ドキュメント(Configure the AWS CLI) を確認してください。 環境変数への登録と確認 「アクセスキー」と「シークレットアクセスキー」を環境変数に設定します。 $ export AWS_ACCESS_KEY=****************JUMP # 作成したアクセスキー $ export

                                                            AWS CloudWatchのログをpandasで解析し、エラーの状況を可視化する | gihyo.jp
                                                          • 4 Pandas Anti-Patterns to Avoid and How to Fix Them

                                                            pandas is a powerful data analysis library with a rich API that offers multiple ways to perform any given data manipulation task. Some of these approaches are better than others, and pandas users often learn suboptimal coding practices that become their default workflows. This post highlights four common pandas anti-patterns and outlines a complementary set of techniques that you should use instea

                                                              4 Pandas Anti-Patterns to Avoid and How to Fix Them
                                                            • 超爆速なcuDFとPandasを比較した - Taste of Tech Topics

                                                              皆さんこんにちは。 @tereka114です。 今年末はKaggleで開催される面白いコンペも多くて日々、エンジョイしています。 最近は巨大なデータを扱うことが増えており、Pandasだと時間がかかりすぎて効率が悪いと感じています。 そのため、データを高速に処理できるcuDFを利用することも多くなってきました。 この記事ではcuDFの魅力と扱う際の注意点を説明していきます。 ※この記事は「Pythonその2 アドベントカレンダー」10日目の記事です。 qiita.com cuDFとは cuDFはNVIDIAさんが開発している、Pandasの代わりに利用することができるGPUのライブラリです。 最も大きな特徴はGPUで計算するため、高速であることです。 主に、カテゴリ変数ごとの平均計算や、テーブル同士の結合といった、時間のかかるテーブル処理で、効果を発揮します。 github.com cuD

                                                                超爆速なcuDFとPandasを比較した - Taste of Tech Topics
                                                              • 機械学習に必須の「きれいなデータ」を用意するために 『現場で使える!pandasデータ前処理入門』発売

                                                                CodeZineを運営する翔泳社では、4月20日(月)に『現場で使える!pandasデータ前処理入門』を発売しました。本書では機械学習やデータサイエンスにおいて欠かせない「データ前処理」をPythonのライブラリ「pandas」で行う手法について解説。作業に必要な「きれいなデータ」をできるだけ効率よく用意してしまいましょう。 『現場で使える!pandasデータ前処理入門 機械学習・データサイエンスで役立つ前処理手法 』は、機械学習やデータサイエンスに欠かせない「きれいなデータ」を作る手法を解説した入門書です。 本書では機械学習で人気のPythonを用い、データ前処理においてもはや必須と言われるライブラリ「pandas」の使い方を説明します。データを活用するにしても、収集された生のデータは欠損値や外れ値などが混ざっておりそのままでは利用できません。このデータを前処理していかに利用しやすい形に

                                                                  機械学習に必須の「きれいなデータ」を用意するために 『現場で使える!pandasデータ前処理入門』発売
                                                                • 【Python】pandasでExcelのデータを読む方法 - ITips

                                                                  pandasでExcelのデータを読む方法は read_excel メソッドを使う。 ではどのように read_excel を使うか、使い方を紹介する。 まずExcelの前にcsvファイル読み込み方からおさらいする。 csvを読み込む場合は read_csv を使う。 hoge.csv import pandas as pd print("Read csv.") df = pd.read_csv("hoge.csv") print(df) # column1 column2 column3 # 0 1 2 3 # 1 2 3 4 # 2 3 4 5 Excelのデータを読む場合も同じで、 read_csv の代わりに read_excel を使う。 するとcsvファイルを読み込んだ時と同じように、Excelファイルの内容をpandasのデータフレームに読み込むことができる。 hoge.xl

                                                                    【Python】pandasでExcelのデータを読む方法 - ITips
                                                                  • 【Python】pandas DataFrameの値を更新 - ITips

                                                                    pandasのDataFrameの値を更新する方法がいくつかあるので、後で見返す為にも更新方法をまとめておく。 以下のlocやwhereの他に一括更新の方法がある。 DataFrameの値を更新する方法 pandasのDataFrameの値を更新する方法がいくつかあるが、大きく以下の3つの方法に分けられる。 値を一括代入 条件に合致するカラムを更新 別のDataFrameで上書き 各方法についてDataFrameを用いながら説明する。 import pandas as pd data_list1 = [ [1,2,3], [2,3,4], [3,4,5] ] col_list1 = ["c1","c2","c3"] df1 = pd.DataFrame(data=data_list1, columns=col_list1) print(df1) # c1 c2 c3 # 0 1 2 3 #

                                                                      【Python】pandas DataFrameの値を更新 - ITips
                                                                    • Step FunctionsとPandasを使ってサーバーレスETL入門 | DevelopersIO

                                                                      こんにちは、クラスメソッドの岡です。 今回Step Functionsを使って簡単なETL処理を試す機会があったので実際に作ったものを公開します。 サーバーレスでETL処理、といえばAWS Glueが浮かぶかと思いますが、今回はGlueは使わず、LambdaのPythonランタイムでPandasを使ってS3のデータとDynamoDBのデータを結合するような処理を行ってみたいと思います。 ちなみに私はデータ分析に関する知識はほぼ皆無ですが、PythonライブラリPandasを使う事で簡単にデータ処理を行えました。 シナリオ 今回はIoTデバイスから送られてくる時系列データがS3に出力されている前提として、そのファイルとDynamoDBにあるデバイスのマスタデータと結合して分析データとして別のS3バケットに出力する、といったシナリオを想定しています。 構成 サンプルコード 今回はServerl

                                                                        Step FunctionsとPandasを使ってサーバーレスETL入門 | DevelopersIO
                                                                      • Introducing Danfo.js, a Pandas-like Library in JavaScript

                                                                        A guest post by Rising Odegua, Independent Researcher; Stephen Oni, Data Science Nigeria Danfo.js is an open-source JavaScript library that provides high-performance, intuitive, and easy-to-use data structures for manipulating and processing structured data. Danfo.js is heavily inspired by the Python Pandas library and provides a similar interface/API. This means that users familiar with the Panda

                                                                          Introducing Danfo.js, a Pandas-like Library in JavaScript
                                                                        • pandasのDataFrameでカラム末尾に"_x"や"_y"が付いてしまう - ITips

                                                                          pandasのDataFrameでカラム末尾に"_x"や"_y"が付いてしまう。 カラム名が変わってしまうと要素にアクセスする際に困るので、"_x"や"_y"を付けたくない。 今回はカラム末尾に"_x"や"_y"が付いてしまう原因と対策を紹介する。 カラム末尾に"_x"や"_y"が付いてしまう原因 pandasのDataFrameでカラム末尾に"_x"や"_y"が付いてしまう原因は、マージ時にカラム重複が発生したから。 以降、カラム重複の発生について説明していく。 まず2つのデータフレームを用意し、結合するために同じ値を持ったカラムを双方に持たせる。 今回は結合用のキーカラムを c3 とする。 import pandas as pd data_list1 = [ [1,2,3], [2,3,4], [3,4,5] ] col_list1 = ["c1","c2","c3"] df1 = p

                                                                            pandasのDataFrameでカラム末尾に"_x"や"_y"が付いてしまう - ITips
                                                                          • pandas高速化の新星、FireDucksに迫る|FireDucks

                                                                            本記事はFireDucksユーザー記事シリーズの第1弾です.本記事はBell様に執筆して頂きました. データ処理と分析をする際に、多くの方がPythonを使ていると思います。中でも、PandasライブラリはPythonを用いたデータ処理においてなくてはならないものになっています。Pandasには便利な関数が多数あり、複雑なデータセットを効率的に処理・分析することができます。 しかし、Pandasの使用にあたっては、大規模なデータセットを扱う際にパフォーマンスが課題になることがあります。特に、データの読み込みや変換、集約などの処理を行う際、処理時間が問題となることが少なくありません。このような背景から、色々な手段を用いてより高速に処理を行う方法が試みられてきました。 NECが開発した「FireDucks」は、データ処理の世界に新たな風を吹き込んでいます。FireDucksは、PandasのA

                                                                              pandas高速化の新星、FireDucksに迫る|FireDucks
                                                                            • 【Python】pandasでDataFrameの値渡しをする方法 - ITips

                                                                              Pythonのデータ処理によく使われるDataFrame。 表形式のCSVやExcelのデータを読むことができ、集計や加工にとても重宝する。 しかし気をつけて使わないと自分の意図しないタイミングでデータが書き換わってしまうことがあるかもしれない。 今回はpandasでDataFrameの中身が変わってしまう原因と、「pandasでDataFrameの値渡しをする方法」について解説する。

                                                                                【Python】pandasでDataFrameの値渡しをする方法 - ITips
                                                                              • pandasから移行する人向け polars使用ガイド - Qiita

                                                                                pandasから移行する人向け polars使用ガイド polarsは、Pythonの表計算ライブラリです。Pythonではpandasがこの分野ですでに支配的となっていますが、polarsはパフォーマンス上pandasより優れているとされます。本記事はpandasからpolarsに移行する人にとりあえず知っておくべきいくつかの知識とユースケースを提供します。 polarsは更新が活発で、頻繁に新しい関数の実装やたまに仕様変更が行われています。都度、公式の最新のドキュメントを確認することをおすすめします。 Github 公式APIリファレンス 公式ガイド 本記事の内容はバージョン0.20.1 (2023/12/19)で確認しています。 基礎 polarsのデータ構造はpandasと同様です。一つの一次元配列をシリーズ(pl.Series)と呼びます。また、一つ以上のシリーズが集まってできた

                                                                                  pandasから移行する人向け polars使用ガイド - Qiita
                                                                                • LambdaのLayer機能活用してpandas,pyarrow,s3fs使ってParquet変換する簡易ETL処理を実装する - YOMON8.NET

                                                                                  小さなファイルのETLにGlueを使うのがもったいなかったので、Pandasやpyarrowで実装しました。 Lambda Layerにpandasとpyarrowを追加 Layerに登録するパッケージを作成 パッケージをアップロード Lambdaのコード エラー対応 参考 Lambda Layerにpandasとpyarrowを追加 Layerに登録するパッケージを作成 今回利用するのはpandasとpyarrow、s3fsなのですが少し工夫が必要でした。 3つを全てを一つのZIPに纏めるとLambda Layerの50MBの制限にかかってしまいます。 3つにZIPを分割するとLambdaにレイヤー追加する時の制限にかかってしまいます。 Layers consume more than the available size of 262144000 bytes 大きなnumpyなどを共有

                                                                                    LambdaのLayer機能活用してpandas,pyarrow,s3fs使ってParquet変換する簡易ETL処理を実装する - YOMON8.NET