並び順

ブックマーク数

期間指定

  • から
  • まで

161 - 200 件 / 480件

新着順 人気順

pandasの検索結果161 - 200 件 / 480件

  • pandasで=でコピーした場合とcopy()を使った場合の挙動の違い - Qiita

    pythonのpandasにおいては、dataframeのコピーを=で行うと、データのコピーではなく、いわゆる参照渡しになる。 そうすると、下記のように、コピー先の変数に対して操作を行った結果が、コピー元の変数に対して反映される。 import pandas as pd import numpy as np ## それぞれのやり方でコピーした場合のID df = pd.DataFrame({ 'A' : 'FOO', 'B' : 'foo', 'C' : 'ふー'}, index=[1,2,3]) # 確認(Before) display(df) # コピー(参照渡し) df_copy = df # コピーに対して、1を代入したD列を追加する df_copy['D'] = 1 # 確認(After) display(df)

      pandasで=でコピーした場合とcopy()を使った場合の挙動の違い - Qiita
    • Practical SQL for Data Analysis

      Pandas is a very popular tool for data analysis. It comes built-in with many useful features, it's battle tested and widely accepted. However, pandas is not always the best tool for the job. SQL databases have been around since the 1970s. Some of the smartest people in the world worked on making it easy to slice, dice, fetch and manipulate data quickly and efficiently. SQL databases have come such

        Practical SQL for Data Analysis
      • Pythonで特定口座にあるオルカンを新NISAに買い換えるタイミングを分析してみる - Qiita

        目的 現在特定口座で積み立てているオールカントリー投資信託を新NISA口座に移し替えたい。実際移し替えることはできないので、投資信託を売って、買うことになる。積み立て枠は毎月10万売って10万買えば良い。では成長枠の240万はいつ売って、いつ買えば良いのか? 「セルインメイ(5月に売ってどこかに行け、セント・レジャー・デーまで戻ってくるな)」の格言通り5月に売れば良い? MSCIオールカントリーワールドインデックスの一年の値動きを分析してみる MSCIオールカントリーワールドインデックス(MSCI ACWI)の一年の値動きをYahoo Financeから取得したデータを元に分析してみることにする。 2008年からのデータになっているのはYahoo Financeに2008年より前のデータがないからだ。ちなみに2008年というとリーマンショックの年で、ここから各国中央銀行はじゃぶじゃぶ金融緩

          Pythonで特定口座にあるオルカンを新NISAに買い換えるタイミングを分析してみる - Qiita
        • データ分析に役立つメモリ管理・削減方法 - のんびりしているエンジニアの日記

          皆さんこんにちは お元気ですか。最近自炊が少しずつ捗ってきました。 本日はデータ分析でよく起こる「Memory Error」の対策を書いていこうと思います。 今回のはGPUではなく、CPUです。 そもそもなぜ「Memory Error」と遭遇するのか 大量のデータを解析する、もしくは、大量の特徴量を扱うからです。 または、途中の巨大途中処理が原因で載らなくなったとかですね。 その結果、マシンが落ちることもデータ分析している人が陥るよくあることです。 その場合の処方箋を書いていこうと思います。 メモリ対策 不要な変数のメモリを開放する。 一番シンプルで、もういらないから消してしまえという方式です。 方法は単純です。変数をdelして、ガーベジコレクション(不要なメモリを回収し、空ける方式)を実行することです。 例えば、次の通りです。 import gc import numpy as np m

            データ分析に役立つメモリ管理・削減方法 - のんびりしているエンジニアの日記
          • Indexing and selecting data — pandas 2.2.2 documentation

            Indexing and selecting data# The axis labeling information in pandas objects serves many purposes: Identifies data (i.e. provides metadata) using known indicators, important for analysis, visualization, and interactive console display. Enables automatic and explicit data alignment. Allows intuitive getting and setting of subsets of the data set. In this section, we will focus on the final point: n

            • 【Pandas】SecurityGroups の情報を Markdownに表示する Pythonスクリプトを書いてみた | DevelopersIO

              Pandas の 1.0.0から DataFrameを Markdown形式に出力 することができます。 データ処理ライブリのpandas 1.0.0がリリースされました! pandas.DataFrame.to_markdown 今回はこの Markdown出力機能を利用して AWSの SecurityGroup情報を Markdownテーブルに表示するスクリプトを書いてみました。 なお、 SecurityGroup情報の Markdown出力 自体は他のSDKで実装・ブログ化がされているので N番煎じです。 AWS SDKを使ってSecurity GroupをMarkdownのテーブルで出力するスクリプトを書いてみた 目次 環境 書いてみた スクリプト おわりに 参考 環境 Python: 3.7.3 Jupyter Notebook: 6.0.3 Boto3: 1.11.9 Pand

                【Pandas】SecurityGroups の情報を Markdownに表示する Pythonスクリプトを書いてみた | DevelopersIO
              • GitHub - vizzuhq/ipyvizzu: Build animated charts in Jupyter Notebook and similar environments with a simple Python syntax.

                ipyvizzu is an animated charting tool for Jupyter, Google Colab, Databricks, Kaggle and Deepnote notebooks among other platforms. ipyvizzu enables data scientists and analysts to utilize animation for storytelling with data using Python. It's built on the open-source JavaScript/C++ charting library Vizzu. There is a new extension of ipyvizzu, ipyvizzu-story with which the animated charts can be pr

                  GitHub - vizzuhq/ipyvizzu: Build animated charts in Jupyter Notebook and similar environments with a simple Python syntax.
                • 【PythonでGIS】GeoPandasまとめ - Qiita

                  使用するデータ こちらの記事と同じデータを使用して、実装を進めます 必要ライブラリのインストール トラブルシューティング含め、こちらの記事を参照ください 具体的な実装例 Shapefileの読込、処理、保存、表示に分けて、 各ユースケースの実装法を解説します 読込1:Shapefileの読込 Shapefileの読込には、read_fileメソッドを使用します。 # 必要ライブラリの読込(読込以外で使用するライブラリも含みます) import geopandas as gpd from shapely.geometry import Point import pyproj import pandas as pd import numpy as np import re # 入力ファイルのパス DAM_PATH = './W01-14_GML/W01-14-g_Dam.shp' # 国交省ダ

                    【PythonでGIS】GeoPandasまとめ - Qiita
                  • pandas 1.0とdaskのちょっと細かい調査 - Qiita

                    背景 2020/01/29にpandas 1.0.0がリリースされました!パチパチ 2020/02/14現在は、1.0.1です。 個人的には、下記の変更点が重要ポイントかなと思ってます。 - pandas独自のNA - String型の対応強化(Experimental) んで。 僕は分析時には、下記のライブラリとpandasを一緒に使うことが多いです。 dask intake 特にdaskのpandas1.0対応状況や、その他の細かな振る舞いについて整理しようかなと思っています。 daskのバージョンは2020/02/14現在2.10.1です。 intakeに関しては、daskが対応してくれれば問題ないっしょ、って思っています。 (daskの処理待ち時間が暇というのもある。) 気になっていること daskはpandas.NAをちゃんと使えんの?(ver 1.0関連) daskはdtype

                      pandas 1.0とdaskのちょっと細かい調査 - Qiita
                    • R ユーザーのための Pandas 実践ガイド II: siuba と datar - ill-identified diary

                      概要 以前にも書いたように Python の pandas は参照透過性に欠けるため, 何度も書き換えて使用するような使い方に向いていない. これは pandas の用途と合わない. pandas をもっと快適にデータハンドリングする方法がないか探したところ, siuba, datar というパッケージを見つけたので紹介する. これらのパッケージの特徴を挙げ, 実験によるパフォーマンス比較してみた. 個人的には siuba のほうが信頼できると思うが, 現時点ではどちらも発展途上のパッケージである. 以前の続きということでタイトルを踏襲したが, 実は私がこれらのパッケージを知ったのは昨日なので「実践」的かどうかは少し疑わしい タイトルの通り R を知っている pandas ユーザーを想定読者としているが, R ユーザでなくても再利用のしやすい書き方は知っていて損はないと思う. その場合は実

                        R ユーザーのための Pandas 実践ガイド II: siuba と datar - ill-identified diary
                      • Pandas DataFrameを徹底解説!(作成、行・列の追加と削除、indexなど) - ビジPy

                        Pandas(パンダス)とは、データを効率的に扱うために開発されたPythonのライブラリの1つで、データの取り込みや加工・集計、分析処理に利用します。 Pandasには2つの主要なデータ構造があり、Series(シリーズ)が1次元のデータ、DataFrame(データフレーム)が2次元のデータに対応します。 実務で利用するデータは2つの軸で表される2次元のデータが多いので、DataFrameを利用する機会は非常に多く、DataFrameを理解することは、データを効率的に扱う上でとても重要になります。 この記事では、まずはDataFrameの基本的な使い方を確認した上で、最後にDataFrameを用いたデータ分析の事例を確認していきましょう。 DataFrame(データフレーム)とはDataFrameは2次元のデータに対応するデータ構造で、次のように行と列で表現され、複数の行と列が存在します

                          Pandas DataFrameを徹底解説!(作成、行・列の追加と削除、indexなど) - ビジPy
                        • pandasの時系列データにおける頻度(引数freq)の指定方法 | note.nkmk.me

                          pandasの時系列データに対するメソッドの引数で頻度(freq)を指定することが度々ある。頻度を表す文字列(頻度コード)と数値で任意の頻度や期間を指定できる。 例えば元データをリサンプリングするresample()やasfreq()メソッドなどで使う。 関連記事: pandasで時系列データをリサンプリングするresample, asfreq ここでは例としてpd.date_range()を使って、頻度(freq)の指定方法について説明する。 pandas.date_range — pandas 0.23.3 documentation 以下の内容について説明する。 頻度コード一覧 日付関連 時刻関連 数値で間隔を指定 複数の頻度コードの組み合わせ pandas.DataFrameやpandas.Seriesのインデックスをdatetime64型のDatetimeIndexとして設定し時

                            pandasの時系列データにおける頻度(引数freq)の指定方法 | note.nkmk.me
                          • Pandas: JSONはPandasで直接読み込める(知らなかった…)

                            Image by ArtTower JSON ファイルのデータを料理したい🍕 JSON ファイルに入っているデータを料理したい。そこで、Pandas へ JSON を読み込んで片付けよう!。 さて。 今までは、JSON の中身を覗いたり、ちょっとデータを追加したりする程度だったので Vlad Badea さんの超有能アプリケーション、JSON Editor で良かったのですが、今回は少々手の込んだことをする必要があるのでどうしようかなと。 Why Japanese people? たしか、組み込み python module [1] にまさにそのものズバリ、json [2]というのがあったはず。json って基本的に dictionary なんだから、薄切りだろうと厚切りだろうと、Pandas へ JSON を読み込み どうとでも料理できる! というわけで、さっそく、 Script 1

                              Pandas: JSONはPandasで直接読み込める(知らなかった…)
                            • PandasのSql Upsertを試してみた - Qiita

                              はじめに 多様なリソースからデータベースを構築するために,データ成形にはpandasを用いることが多いです.そのため pandasで作ったデータ -> DataBase というフローをスムーズに行うことが肝になります. いままではreplaceとappendしかなかったため,pandas側で頑張って成形してから更新するしかありませんでした.(これがすごくめんどくさい) そんな中,先日pandasに待望のSql Upsert機能追加のプルリクがあったので,動かしてみました.これによって作業効率を爆上がりさせてくれるはずです・・!! そもそもUpsertとは InsertとUpdateをやるという意味です. SqlにおけるUpsertの機能は大きく2つあります. Primary Keyベースで,存在するものはなにもせず,存在しないものはInsert(upsert_keep) Primary K

                                PandasのSql Upsertを試してみた - Qiita
                              • J-PlatPat特許検索データの分析 - Qiita

                                科学技術と関連するWebでの情報調査と分析を行っています。 特許データはJ-PlatPatで収集できます。J-PlatPatは独立行政法人工業所有権情報・研修館が提供する特許検索情報サイトです。特許庁のHPからもアクセスすることができます。 J-PlatPatでは、検索結果をcsvファイルにダウンロードできます。また、検索結果の分類コード(FI)ランキングを画面上で確認でき、コピペでスプレッドシートに保存できます。 さらに、検索された各特許は、全文をPDFファイルとしてダウンロードしたり、請求項と詳細な説明は画面上開いてコピペすることができます。 この記事では、J-PlatPatでの検索結果情報から、 公知年別件数推移 出願人別件数ランキング FI分類コード別件数ランキング をPythonで可視化しました。 ダウンロードするcsvには要約を含めることもできますので、自然言語処理を用いた分析

                                  J-PlatPat特許検索データの分析 - Qiita
                                • Pandasでcsvファイルの差分比較

                                  こんにちは。ヤギユキ(@yagiyuki06)です。 今回は、pandasを使った2つのcsvファイルの比較方法をまとめました。 pandasを使ったファイル比較は、pythonの標準関数を使うよりかなりコードを省略できます。 ぜひ、参考にしてみてください。 基本 おおまかな比較の流れは以下のとおりです。 比較する2つのcsvをDataFrameへロード 2つのDataFrameを比較 key,valをヘッダーに持つ、以下2つのcsvを例にして比較してみます。 cat <<EOF > test1.csv key,val string1,1 string2,2 string3,3 string4,4 string5,5 EOF

                                    Pandasでcsvファイルの差分比較
                                  • Python matplotlib 時系列グラフ(時間軸の設定) - Qiita

                                    はじめに 年末よりずっと忙しかったのですが、久しぶりに余裕ができて記事を書いています。 何年か前にやった仕事のフォローのため二週間の出張でマレーシアに来ています。お客さんに提出する報告書で久しぶりに時系列グラフを作成する必要があったので、その時調べたものをアップしたいと思います。(実はお客さん提出用グラフの時間軸はデフォルトで出してしまったのですが、提出後今後のために調べたものをアップしているのが本当のところです) 当方の環境は以下の通り。 MacBook Pro (Retina, 13-inch, Mid 2014) macOS MOjave Python 3.7.2 時間軸設定には以下のサイトを参考にしました。 https://stackoverflow.com/questions/17452179/not-write-out-all-dates-on-an-axis-matplotl

                                      Python matplotlib 時系列グラフ(時間軸の設定) - Qiita
                                    • 図解!Pandas DataFrameのmergeによる結合(JOIN) - ビジPy

                                      データを分析する上では、通常は1つのDataFrameだけではなく、複数のDataFrameを組み合わせて、データを確認・分析していく必要があります。その際に必要となるのが、結合の処理です。 DataFrameの結合方法を、データベースにおけるSQLでのテーブルの結合方法に例えると、結合には行単位の連結であるUNION(ユニオン)と、列単位の連結であるJOIN(ジョイン)の2種類があり、それぞれ次のようなものになります。 行単位の連結(UNION):同じ列をもつDataFrameを縦(行を増やす)方向に連結する。列単位の連結(JOIN):結合するキーとなる列を元に、DataFrameを横(列を増やす)方向に連結する。 この記事では、DataFrameの結合方法の1つである列単位の結合(JOIN)について学んでいきましょう。Pandasではmerge()を利用して、DataFrameに対して

                                        図解!Pandas DataFrameのmergeによる結合(JOIN) - ビジPy
                                      • Analyse 100 GB of data with the Vaex dataframe library in Python

                                        Analyse 100 GB of data with the Vaex dataframe library in Python Learn how to explore, visualise and analyse 100s of Gigabytes of tabular data with the Vaex open-source dataframe library in Python. Many organizations are trying to gather and utilise as much data as possible to improve on how they run their business, increase revenue, or how they impact the world around them. Therefore it is becomi

                                          Analyse 100 GB of data with the Vaex dataframe library in Python
                                        • Announcing google-cloud-bigquery Version 1.17.0: Query Results to DataFrame 31x Faster with Apache Arrow

                                          Announcing google-cloud-bigquery Version 1.17.0: Query Results to DataFrame 31x Faster with Apache Arrow Tim Swast on July 29, 2019; updated September 25, 2019 Upgrade to the latest google-cloud-bigquery and google-cloud-bigquery-storage packages to download query results to a DataFrame 4.5 times faster compared to the same method with version 1.16.0. If you aren't using the BigQuery Storage API y

                                          • Scaling Pandas: Dask vs Ray vs Modin vs Vaex vs RAPIDS

                                            Scaling Pandas: Comparing Dask, Ray, Modin, Vaex, and RAPIDSHow can you process more data quicker? Python and its most popular data wrangling library, Pandas, are soaring in popularity. Compared to competitors like Java, Python and Pandas make data exploration and transformation simple. But both Python and Pandas are known to have issues around scalability and efficiency. Python loses some efficie

                                              Scaling Pandas: Dask vs Ray vs Modin vs Vaex vs RAPIDS
                                            • pandas.DataFrame.dropna — pandas 2.2.2 documentation

                                              pandas.DataFrame.dropna# DataFrame.dropna(*, axis=0, how=_NoDefault.no_default, thresh=_NoDefault.no_default, subset=None, inplace=False, ignore_index=False)[source]# Remove missing values. See the User Guide for more on which values are considered missing, and how to work with missing data. Parameters: axis{0 or ‘index’, 1 or ‘columns’}, default 0Determine if rows or columns which contain missing

                                              • Community tutorials — pandas 1.5.1 documentation

                                                Community tutorials# This is a guide to many pandas tutorials by the community, geared mainly for new users. pandas cookbook by Julia Evans# The goal of this 2015 cookbook (by Julia Evans) is to give you some concrete examples for getting started with pandas. These are examples with real-world data, and all the bugs and weirdness that entails. For the table of contents, see the pandas-cookbook Git

                                                • GitHub - microsoft/coding-pack-for-python: Documentation and issues for the VS Code Python installer.

                                                  You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                    GitHub - microsoft/coding-pack-for-python: Documentation and issues for the VS Code Python installer.
                                                  • Pandas DataFrame Visualization Tools - Practical Business Python

                                                    Introduction I have talked quite a bit about how pandas is a great alternative to Excel for many tasks. One of Excel’s benefits is that it offers an intuitive and powerful graphical interface for viewing your data. In contrast, pandas + a Jupyter notebook offers a lot of programmatic power but limited abilities to graphically display and manipulate a DataFrame view. There are several tools in the

                                                      Pandas DataFrame Visualization Tools - Practical Business Python
                                                    • MultiIndex / advanced indexing — pandas 2.2.2 documentation

                                                      MultiIndex / advanced indexing# This section covers indexing with a MultiIndex and other advanced indexing features. See the Indexing and Selecting Data for general indexing documentation. Warning Whether a copy or a reference is returned for a setting operation may depend on the context. This is sometimes called chained assignment and should be avoided. See Returning a View versus Copy. See the c

                                                      • pandas の DataFrame と SQL の記述方法の比較 - Qiita

                                                        動機 仕事で AI や機械学習、データ分析といった技術を身に付ける必要性ができ、 まずは Python を使ったデータ分析を修得するために pandas を 利用したデータ分析にチャレンジしています。 自分にはシステム開発経験があり SQL には使い慣れているのですが、 pandas のデータ分析の記述方法があまり理解できない状況でした。 巷では「pandas は SQL と似ている」といった表現をよく聞くので、 それならば SQL での書き方を pandas の書き方と比較したら 理解が深まるのではないかと思い、今回まとめてみました。 なお本記事は、ある程度のターミナル操作や MySQL、Python、pandas についての知識がある方を対象としています。 なお、ここからの説明は長いためコードの比較結果のみを見たい場合は、 比較結果まとめを参照ください。 環境 項目 内容

                                                          pandas の DataFrame と SQL の記述方法の比較 - Qiita
                                                        • YutaKaのPython教室

                                                          2023-09-17 【スクショで解説】PyCharmのインストール・日本語化方法 PyCharm Anaconda Python 今回はPyCharmのインストール方法と日本語化方法について紹介します。PyCharmはPythonの強力な統合開発環境(IDE)の一つです。Pythonで快適な開発ライフを楽しむためのおススメツールの一つですね。 2023-06-27 Python テキストファイルの任意の行を読み込む方法 Python Pythonを使えば、テキストファイルの読み込みが簡単に行えます。しかし、次のように条件を指定してテキストを読み込む際には、処理方法がわからなくなってしまうことも①特定の行を読み込むにはどうすればいいの?②条件を満たす行を抽出する方法は?③読み込み… 2023-06-25 matplotlib 画像の保存方法|savefigの使い方 Matplotlib P

                                                            YutaKaのPython教室
                                                          • GitHub - nalepae/pandarallel: A simple and efficient tool to parallelize Pandas operations on all available CPUs

                                                            You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                              GitHub - nalepae/pandarallel: A simple and efficient tool to parallelize Pandas operations on all available CPUs
                                                            • Jupyter Notebook で画像をダウンロードすることなく、URLから参照してPandas DataFrame内部に表示させる

                                                              Jupyter Notebook で画像をダウンロードすることなく、URLから参照してPandas DataFrame内部に表示させる 2021-12-28 データ分析などをしていると、画像はダウンロードせずに特定の CDN (GCP なら GCS, AWS なら S3 など)で提供されている画像を参照して、 Jupyter Notebook 上で良い感じに表示させたいときがありませんか? 例えば、画像と説明文がペアになっているデータを画像自体はダウンロードせずに Jupyter 上で画像と説明文を DataFrame として表示させたいときが多々ある。 元の画像自体は CDN に格納されていて、画像をダウンロードする必要はなく参照するだけのときにはすごく便利。 毎度画像を CDN からダウンロードするのも無駄なので、画像を加工せずに Jupyter 上で表示するだけなら、この方法がベスト

                                                                Jupyter Notebook で画像をダウンロードすることなく、URLから参照してPandas DataFrame内部に表示させる
                                                              • pandasのapplyの進捗をtqdmで表示 - iMind Developers Blog

                                                                概要 pandasで大きめのDataFrameに対してapplyすると、いつまで待てば結果が返るのか不安になることがあるのでtqdmで進捗を表示したい。 バージョン情報 Python 3.6.8 tqdm==4.31.1 pandas==0.23.4 サンプルデータ ランダムな数値で1万行のDataFrameを作成しておく。 import numpy as np import pandas as pd # 適当なDataFrameを生成する df = pd.DataFrame(np.random.random([10000, 2]), columns=['a', 'b']) df.head() 実行結果 a b 0 0.748046 0.457551 1 0.657718 0.628164 2 0.395166 0.623360 3 0.610704 0.236926 4 0.576350

                                                                • What’s new in 1.0.0 (January 29, 2020) — pandas 1.0.0 documentation

                                                                  What’s new in 1.0.0 (January 29, 2020)¶ These are the changes in pandas 1.0.0. See Release Notes for a full changelog including other versions of pandas. Note The pandas 1.0 release removed a lot of functionality that was deprecated in previous releases (see below for an overview). It is recommended to first upgrade to pandas 0.25 and to ensure your code is working without warnings, before upgradi

                                                                  • pandas.Series — pandas 2.2.2 documentation

                                                                    pandas.Series# class pandas.Series(data=None, index=None, dtype=None, name=None, copy=None, fastpath=_NoDefault.no_default)[source]# One-dimensional ndarray with axis labels (including time series). Labels need not be unique but must be a hashable type. The object supports both integer- and label-based indexing and provides a host of methods for performing operations involving the index. Statistic

                                                                    • pandasでUnicodeDecodeError が出たときにやることまとめ - 私の備忘録がないわね...私の...

                                                                      pandasでCSVファイルを読み込むときにUnicodeDecodeErrorが出た、そんなときは以下のどれかを試しておけばまぁ上手くいくはず......みたいな備忘録 import pandas as pd 普通 選択肢1 選択肢2 選択肢3 選択肢4 参考文献 普通 df = pd.read_csv(path, encoding="utf-8") pd.read_csvはデフォルトでencoding=Noneですが、中身の処理的にはencoding="utf-8"と同じです。 選択肢1 df = pd.read_csv(path, encoding="utf-8-sig") Excelで編集されたCSVファイルとかはよくこれを使うことになります。 選択肢2 df = pd.read_csv(path, encoding="shift-jis") 日本語のCSVファイルだとたまに使いま

                                                                        pandasでUnicodeDecodeError が出たときにやることまとめ - 私の備忘録がないわね...私の...
                                                                      • pandera documentation

                                                                        • 5 lesser-known pandas tricks

                                                                          Pandas provides high-performance, easy-to-use data structures and data analysis tools for the Pythonpandas needs no introduction as it became the de facto tool for data analysis in Python. As a Data Scientist, I use pandas daily and I am always amazed by how many functionalities it has. In this post, I am going to show you 5 pandas tricks that I learned recently and using them helps me to be more

                                                                            5 lesser-known pandas tricks
                                                                          • Pandasでforループを回して処理する方法と注意点

                                                                            DataFrameのイテレーション 行ごとのforループ 列ごとの値にアクセス 値の更新 一部の列のみを取り出して処理 Seriesのイテレーション アイテムごとに処理するforループ インデックスラベルごとに処理するforループ 値の更新 forループを使わない方法 まとめ 参考 PandasのDataFrame内の値を使ってforループを回したい時、通常行ごとの処理ならiterrows関数を、列ごとの処理ならiteritems関数をジェネレーターとして使うことが多いです。 本記事では、 DataFrameで行ごとに処理する方法 DataFrameで列ごとに処理する方法 Seriesで値ごとに処理する方法 について解説します。 DataFrameのイテレーション 行ごとのforループ 行ごとにDataFrameを処理したい場合はiterrows関数を使います。 In [1]: impor

                                                                              Pandasでforループを回して処理する方法と注意点
                                                                            • Kaggle learnで学ぶ機械学習の基礎(初級編) - Qiita

                                                                              Kaggleで始める機械学習入門でKaggleのアカウントを作成して、一通りの操作ができました。次はKaggle learnの以下の初級講座を使って機械学習の基礎を学習します。 この初級講座は7回のレッスンで構成されており、各回は解説パート(tutorial)と実践パート(exercise)に分かれています。実践パートでは、コンペと同様のNotebookでコードを動かす形になります。 実際にやってみた感想です。 <良かった点> ・1回1時間程度でサクッとできる ・1回あたりの内容は比較的かんたんで理解しやすい ・解説パートで学んだコードを実践パートで入力し、答え合わせできるので達成感がある <悪かった点> ・すべて英語… 英語なのは仕方ないですね。DeepLに頼りながら読み進めました。 内容としては、まず決定木を使ってシンプルなモデルを構築します。次にその結果を評価する方法を学び、良いモデ

                                                                                Kaggle learnで学ぶ機械学習の基礎(初級編) - Qiita
                                                                              • japanmapライブラリで都道府県データを可視化してみる | DevelopersIO

                                                                                はじめに データアナリティクス事業本部のkobayashiです。 以前Google Colaboratory(以下Colab)でBigQueryのデータを扱うエントリを書きましたが、その中でデータをColabで可視化する際に都道府県別のデータを日本地図で表現するライブラリを使いました。そのライブラリの使い勝手が良かったので深堀りをしてみます。 japanmap · PyPI GitHub - SaitoTsutomu/japanmap japanmapとは できるとこはとてもシンプルで都道府県別に日本地図を塗り分けるライブラリです。 使い方は「辞書型で色情報を渡す」のか「PandasのSeriesで色情報を渡す」の2パターンがあります。 辞書型で色情報を渡す 都道府県名:色情報で辞書を作成してjapanmapのライブラリに指定すれば良いだけです。 色情報は以下の型式で指定します。 カラー名

                                                                                  japanmapライブラリで都道府県データを可視化してみる | DevelopersIO
                                                                                • R ユーザーへの pandas 実践ガイド - Qiita

                                                                                  概要 R で tidyverse (dplyr+tidyr) に使い慣れているが, Python に乗り換えると pandas がどうも使いにくい, と感じている人の視点で, Rの dplyr などとの比較を通して, pandas の効率的な使い方について書いています. そのため, 「R ユーザーへの」と書きましたが, R経験のない pandas ユーザーであってもなんらかの役に立つと思います. また, 自社インターン学生に対する教材も兼ねています. どちらかというと, 初歩を覚えたての初心者向けの記事となっています. データ分析は一発で終わることはまずなく, 集計・前処理を探索的に行う必要があります. よって, プログラムを頻繁に書き直す必要があり, 普段以上に保守性のある書き方, 例えば参照透過性を考慮した書き方をしたほうが便利です. R の tidyverse の強みとして, 再帰代

                                                                                    R ユーザーへの pandas 実践ガイド - Qiita