タグ

pandasに関するRion778のブックマーク (8)

  • 【Python】pandasの指数平滑移動平均の値が違った理由 - turtlechanのブログ

    先日 pandas の ewm() を使って指数平滑移動平均(EMA)を計算したが、なんか値ちがくね?となったので調べてみた。 ※python2で書いています。 そもそも計算式が違う とりあえず指数平滑移動平均(EMA)の式の確認をしておきます。 指数平滑移動平均(EMA)の式 EMA(一日目): 単純移動平均(SMA)と同じ EMA(二日目以降): 前日EMA + α(直近の価格 - 前日EMA) α: 2.0 / (N日間 + 1.0) 次に pandas の ewm(span=span) の場合。 α: 2.0 / (span + 1.0) wi = (1 - α)i つまり となっていた。 これは ewm() の adjust 引数の初期値が True になっているからのようです。なので、adjust=False を指定することで指数平滑移動平均(EMA)の式に近づきます。 ewm

    【Python】pandasの指数平滑移動平均の値が違った理由 - turtlechanのブログ
  • pandasのSettingWithCopyWarningの対処法 | note.nkmk.me

    pandasで頻出の警告にSettingWithCopyWarningがある。エラーではなく警告なので処理が止まることはないが、放置しておくと気づかないうちに予期せぬ結果になってしまう場合がある。 Indexing and selecting data - Returning a view versus a copy — pandas 1.5.3 documentation ここでは以下の内容について説明する。 chained indexing / assignment(連鎖インデクシング・代入) 問題の内容 対処法: 連鎖させない 変数を介したchained indexing / assignment 問題の内容 対処法: copy()でコピーを生成 loc[]やiloc[]、コピーやビューなどについての詳細は以下の記事を参照。 関連記事: pandasで任意の位置の値を取得・変更するa

    pandasのSettingWithCopyWarningの対処法 | note.nkmk.me
  • dplyr使いのためのpandas dfplyすごい編 - Qiita

    以前からR, とりわけdplyrユーザーのpandas操作のために記事をまとめてきましたが、dplyr同様の操作は実現できていませんでした。が、ついにdfplyという素晴らしいライブラリを見つけましたので記事にまとめます。 関連シリーズ dplyr使いのためのpandas dfply データ加工編(tidyr) dplyr使いのためのpandas dfplyでもJOIN編 dplyr使いのためのpandas dfply window関数編 以前の記事はコチラ dplyr使いのためのpandas 基礎編 dplyr使いのためのpandas スライスsliceとインデックスindex編 dplyr使いのためのpandas マルチカラム操作編 dplyr? ってかたはコチラ(敬愛するmatsuou1氏の記事) dplyrを使いこなす!基礎編 dfplyのなにがすごい? dplyrの機能がほぼその

    dplyr使いのためのpandas dfplyすごい編 - Qiita
  • ENH: Mosaic plot and DataArray · Issue #779 · pydata/xarray

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    ENH: Mosaic plot and DataArray · Issue #779 · pydata/xarray
  • PythonでCSVを高速&省メモリに読みたい - tkm2261's blog

    今日はPython (Pandas)で高速にCSVを読むことに挑戦したいと思います。 Kaggleに参加するたびに、イライラしていたので各実装の白黒はっきりさせようと思います。 R使いが羨ましいなぁと思う第一位がCSV読込が簡単に並列出来て速いことなので、 なんとかGILのあるPythonでも高速に読み込みたいと思います。 ただ、この検証ではコーディング量が多いものは検証しません。 CSV読込は頻出するので、フットワークの軽さが重要です。(オレオレライブラリ嫌い) Pickleは早いけど。。。 結論はDask使おう! 検証環境 データ 速度検証 pandas.read_csv() pandas.read_csv() (dtype指定) pandas.read_csv() (gzip圧縮) numpy.genfromtxt() pandas.read_csv() (chunksize指定 +

    PythonでCSVを高速&省メモリに読みたい - tkm2261's blog
  • pandas で年齢階級をつくる - Qiita

    1歳ごとに集計された値を10歳ごとにまとめます。 pandas の cut で階級を設定し、groupby で集計します。 pandas.cut — pandas 0.15.1 documentation pandas.DataFrame.groupby — pandas 0.15.1 documentation Group By: split-apply-combine — pandas 0.15.1 documentation データは総務省統計局が公開している「年齢別人口」のエクセルをCSV形式にしたものを使います。 統計局ホームページ/第六十四回日統計年鑑 平成27年-第2章 人口・世帯 → 2 - 7 年齢別人口(エクセル:42KB) 扱いを簡単にするために、データ上部の説明行と、下部の注意書きおよび「100歳以上」と「不詳」の行を削除しておきます。調整したファイルは popu

    pandas で年齢階級をつくる - Qiita
  • 10 Minutes to Pandas — pandas 0.19.2 documentation

  • Pandasを使ったデータ操作の基本 - ぴよぴよ.py

    データ分析の会社に転職してから3ヶ月。 最初の1ヶ月はPandasの扱いに当に困ったので、 昔メモしてたことを簡単にブログに記録しておく(o ・ω・)ノ 【追記】2017/07/31 0:36 データが一部間違ってたので修正しました Pandasとは pandasでよく使う型 テストデータについて 余談 Pandasでのデータ操作入門 pandasのload データ(csv)のロード データのサイズ データのカラム 行列から必要な列(カラム)を取り出す 条件にマッチするデータを取り出す 1. DataFrame.queryで取り出す True/FalseのSeries型を指定し、Trueの行だけを取り出す 追記(2017/12/14) 行列から必要な行番号を指定してを取り出す グループ分けと集計 新たな列を追加する 固有値を追加する 他の列を加工して新たな列を作る 他の複数列を加工して新

    Pandasを使ったデータ操作の基本 - ぴよぴよ.py
  • 1