タグ

pythonとpandasに関するchess-newsのブックマーク (15)

  • pandasでExcelファイル(xlsx, xls)の読み込み(read_excel) | note.nkmk.me

    pandasでExcelファイル(拡張子:.xlsx, .xls)をpandas.DataFrameとして読み込むには、pandas.read_excel()関数を使う。 pandas.read_excel — pandas 1.2.2 documentation ここでは以下の内容について説明する。 openpyxl, xlrdのインストール pandas.read_excel()の基的な使い方 読み込むシートを番号・シート名で指定: 引数sheet_name 一つのシートを読み込み 複数のシートを読み込み すべてのシートを読み込み ヘッダー、インデックスを指定: 引数header, index_col 読み込む列、読み込まない行を指定: 引数usecols, skiprows, skipfooter 以下のxlsxファイルを例とする。 sample.xlsx sheet1とsheet

    pandasでExcelファイル(xlsx, xls)の読み込み(read_excel) | note.nkmk.me
  • ポケモンデータ解析.py - Qiita

    # https://www.kaggle.com/abcsds/pokemon から取得した Pokemon.csv を読み込む。 df = pd.read_csv("Pokemon.csv") # df とは、 pandas の DataFrame 形式のデータを入れる変数として命名 https://www.kaggle.com/abcsds/pokemon によると、各カラム(列)は次のような意味らしいです。 #: PokeDex index number Name: Name of the Pokemon Type 1: Type of pokemon Type 2: Other Type of Pokemon Total: Sum of Attack, Sp. Atk, Defense, Sp. Def, Speed and HP HP: Hit Points Attack: At

    ポケモンデータ解析.py - Qiita
  • Pandasで行うデータ処理を100倍高速にするOut-of-CoreフレームワークVaex - フリーランチ食べたい

    TL;DR アウトオブコア、かつマルチコアでデータ処理を行えるVaexの紹介です。 string関係のメソッドで平均して100倍以上の高速化が確認できました。(作者のベンチマークだと最大1000倍) 文字列処理以外でも数倍~数十倍の高速化が行えそうです。 この記事では性能の比較のみ行い、解説記事は別で書こうと思います。 pandasより1000倍早いフレームワーク? 今週、興味深い記事を読みました。重要な部分だけ抜き出すと次のような内容です。 Vaexの最近のアップデートでの文字列処理が超早くなった 32コアだとpandasと比べて1000倍早い towardsdatascience.com 1000倍って当なの?って感じですよね。そもそも自分はVaex自体を知らなかったので調べてみました。 ちなみに調べていて気づいたのですが、この記事の著者はVaexの作者なんですよね。 疑っているわけ

    Pandasで行うデータ処理を100倍高速にするOut-of-CoreフレームワークVaex - フリーランチ食べたい
  • まだExcelで消耗してるの?Pythonによる自動集計ガイド 基礎編 - Qiita

    ちょっとしたデータの加工や集計に、ExcelGoogle Spreadsheetは便利ですが、それが日常的な作業になってしまったら自動化したいですよね? そこでお勧めなのがpandasです。 Pandasは Python 用のデータ処理パッケージであり、ExcelファイルやCSVなどの表形式データを読みこみ、加工や集計した上で、出力するといったことがプログラムで記述できます。また開発環境を用意しなくとも、Googleが提供する無料の開発環境であるColaboratory上で、すぐに試すことができます。 そしてPythonは、Office 98以降20年以降更新されていないVBAに代わる新たなスクリプト言語として、Microsoftが採用を検討しているという話もあります。 ExcelPython搭載、マイクロソフトが検討。アンケートを実施中 まずPandasの全体像を掴んでみる Pand

    まだExcelで消耗してるの?Pythonによる自動集計ガイド 基礎編 - Qiita
  • Excel ファイルをPythonで読み込んで整理されたデータフレームにする

    はじめに 公的機関が出しているパブリックデータは、Excelファイル(xls, xlsx)が含まれていることが多く、このようなデータを使って分析をする機会もあることと思います。 この記事では、そのようなExcelブック形式でまとめられているデータをPythonで読み込み、余計な行や列を取り除いたり成形して、pandasのデータフレームとして扱いやすくする方法についてまとめたいと思います。 以下のpandasのドキュメントを参考にしています。 pandas.ExcelFile.parse https://pandas.pydata.org/docs/reference/api/pandas.ExcelFile.parse.html pandasを使ったExcel ファイルの参照方法 今回は、Excel形式のファイル(xls, xlsx)をPythonで読み込むやり方として、ライブラリとしてp

    Excel ファイルをPythonで読み込んで整理されたデータフレームにする
  • ダルビッシュ有さんが2017年に投げた投球データをPythonとBigQueryで軽く調べてみた - Lean Baseball

    今日で週休七日生活が終わる野球エンジニアこと@shinyorkeです. 昨年末に,BigQueryに突っ込んだ野球データでダルビッシュ有さん(@faridyu)の投球データについてかる~く調べてみました. 「今年こそPythonデータ分析するぞ!」 「BigQueryをPythonから使いたいぞ!」 っていう野球好きの方の参考になれば幸いです. なお今回はホントにデータを覗き見した程度の軽いネタです. TL;DR 投球コースを散布図で可視化するといい感じになる 球種と結果をSankey Diagramにするのも面白い BigQueryとJupyter,pandasの組み合わせすっごい楽 次回はPySparkあたりで学習とかさせたい 多分おそらく@faridyuさんはここに書いた分析と傾向の斜め上をいくと思ういや行って欲しい(ファンとして) Starting Member TL;DR St

    ダルビッシュ有さんが2017年に投げた投球データをPythonとBigQueryで軽く調べてみた - Lean Baseball
  • Pandasを使ったデータ操作の基本 - ぴよぴよ.py

    データ分析の会社に転職してから3ヶ月。 最初の1ヶ月はPandasの扱いに当に困ったので、 昔メモしてたことを簡単にブログに記録しておく(o ・ω・)ノ 【追記】2017/07/31 0:36 データが一部間違ってたので修正しました Pandasとは pandasでよく使う型 テストデータについて 余談 Pandasでのデータ操作入門 pandasのload データ(csv)のロード データのサイズ データのカラム 行列から必要な列(カラム)を取り出す 条件にマッチするデータを取り出す 1. DataFrame.queryで取り出す True/FalseのSeries型を指定し、Trueの行だけを取り出す 追記(2017/12/14) 行列から必要な行番号を指定してを取り出す グループ分けと集計 新たな列を追加する 固有値を追加する 他の列を加工して新たな列を作る 他の複数列を加工して新

    Pandasを使ったデータ操作の基本 - ぴよぴよ.py
  • 標準python、numpy、pandasを行ったり来たりするために① - Qiita

    scikitlearnはnumpyしか受け付けないので、pandasでデータ加工した後numpy配列に変換する必要があるし、標準python、numpy、pandasは機能が重複していて混乱するので、まずは基礎の基礎をまとめる。 #!/usr/bin/env python # -*- coding: utf-8 -*- # インポート import numpy as np import scipy as py import pandas as pd import itertools as it ''' 作成 ''' # リスト作成 list_value = [10,11,12] list_value Out[374]: [10, 11, 12] # タプル作成 tuple_value = (10,11,12) tuple_value Out[375]: (10, 11, 12) # ディク

    標準python、numpy、pandasを行ったり来たりするために① - Qiita
  • pandasでよく使う文法まとめ - Qiita

    Pythonデータ分析用ライブラリ「pandas」でよく使う文法をまとめました. Change log 2019-02-18 表示拡大の方法を更新 2018-05-06 コメント反映(pd.set_option('display.width', 100)) 2018-02-14 リンクの修正 2017-11-01 df.fillna(method='ffill')の説明を修正 2017-06-09 リンク切れ等の修正 2016-10-10 例の編集 2016-06-21 df.rolling, pd.date_range, pd.datetime, df.pivotの追加,その他の例の追加

    pandasでよく使う文法まとめ - Qiita
    chess-news
    chess-news 2017/02/24
     データ操作
  • PythonでPandasのPlot機能を使えばデータ加工からグラフ作成までマジでシームレス - Qiita

    Pandasのグラフ描画機能 この記事ではPandasのPlot機能について扱います。 Pandasはデータの加工・集計のためのツールとしてその有用性が広く知られていますが、同時に優れた可視化機能を備えているということは、意外にあまり知られていません。 この機能は Pandas.DataFrame.plot() もしくは Pandas Plot と呼ばれるものです。 Pandas Plotを使いこなすことが出来るようになれば、 データの読み込み、保持 データの加工 データの集計 データの可視化 というデータ分析の一連のプロセスを全てPandasで完結させることが出来る、つまり分析の「揺りかごから墓場まで」を実現することが出来ます。 Pandasのプロット以外の機能について この記事ではPandasのデータハンドリングなどに関わる機能は説明しません。 そちらにも興味がある方は下記の記事などを

    PythonでPandasのPlot機能を使えばデータ加工からグラフ作成までマジでシームレス - Qiita
  • Python pandas でのグルーピング/集約/変換処理まとめ - StatsFragments

    これの pandas 版。 準備 サンプルデータは iris で。 補足 (11/26追記) rpy2 を設定している方は rpy2から、そうでない方は こちら から .csv でダウンロードして読み込み (もしくは read_csv のファイルパスとして直接 URL 指定しても読める)。 import pandas as pd import numpy as np # 表示する行数を設定 pd.options.display.max_rows=5 # iris の読み込みはどちらかで # rpy2 経由で R から iris をロード # import pandas.rpy.common as com # iris = com.load_data('iris') # csv から読み込み # http://aima.cs.berkeley.edu/data/iris.csv names

    Python pandas でのグルーピング/集約/変換処理まとめ - StatsFragments
  • 「Rプログラミング入門」をPythonで書き直す - めもめも

    何の話かというと RStudioではじめるRプログラミング入門 作者: Garrett Grolemund,大橋真也,長尾高弘出版社/メーカー: オライリージャパン発売日: 2015/03/25メディア: 大型この商品を含むブログを見る 某編集長から上記の書籍が送られてきて、「これは、次はRのを書けという指示か????」と勘ぐってみたものの、筆者はPython派なので、「これと同じことは全部Pythonでもできるんだよー」と言いたくなって、このエントリーを書き始めた次第です。ちなみに、この、Rの入門書としてはよくできているので、これのPython版ができたら、それはそれで役に立つ気もします。 なお、このエントリーでは、あくまでコードの部分だけを書き直して、RとPythonの差異についての説明だけを行ないます。コードそのものの説明については、上記の書籍をご購入ください。 環境準備 IP

    「Rプログラミング入門」をPythonで書き直す - めもめも
  • 統計の問題を Python で実際に計算してみる - Qiita

    プレジデントオンラインに統計の記事が掲載されていました。 朝や出社時間と、営業成績に「相関関係」はあるか? http://president.jp/articles/-/12416 上記の記事では確かに数式は出てこないのでとっつきやすく解説は詳しいので統計の入門にはピッタリです。しかしながらエクセルで手計算することが前提になっておりこれは若干億劫です。 そこで今まで利用してきた Python でこれらの問題を計算してみたいと思います。 問題とその解法 問題の内容としては各社員の、朝べてきた確率 (= 朝率) 、出社時間、それに対して営業成績を 3 つの変数として相関関係があるか調べるというものです。このように変数の間の相関関係を調べるというのはさまざまな統計の基とも言えるでしょう。 計算機で扱えるように、それぞれの変数を X Y Z としましょう。まずはこれをCSV ファイルの

    統計の問題を Python で実際に計算してみる - Qiita
  • ローソク足チャートと移動平均線のプロット - Qiita

    おはようございます。ようやく春らしい季節になってきましたね。今日は前回に引き続いてもう少し株価の話をします。前回の話ではどうやって分析するかという話で、理想株価の算出式と移動平均線について触れました。忘れてしまった方はもう一度前回の記事の後半を読んでください。 まず余談 さて話はそれていきなり余談ですが、先週は有名ソーシャルゲーム「パズドラ」をめぐる炎上騒ぎが大変なことになりましたね。 パズドラといえば 3,000 万ダウンロードを越える人気ゲームであり、あのコンプガチャ騒動の後にあらわれて、無料でも楽しめる仕様として課金額を低額に抑え人気を博しガンホーバブルが発生、まさに新しいソーシャルゲーム時代の代表格みたいなものですから四方や知らない方はいないかとは思います。 もっともその後バブルがはじけ最近ではパズドラ一ではだいぶ苦戦しているようですが、先週はそのパズドラにおいてスクエニとのコラ

    ローソク足チャートと移動平均線のプロット - Qiita
    chess-news
    chess-news 2015/03/02
     理論株価じゃなくて、普通に現在株価がでるだけなきがする。未来予想収益からdcfならともかく。 ネットの情報で四季報cdいらずになったらよいなあ
  • 1