並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 1030件

新着順 人気順

pandasの検索結果1 - 40 件 / 1030件

  • 東京大学、Pythonプログラミング無料入門 pandasやJupyterなど幅広い | Ledge.ai

    サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

      東京大学、Pythonプログラミング無料入門 pandasやJupyterなど幅広い | Ledge.ai
    • pythonでのデータ分析時、死ぬほど調べるTipsをまとめておく。 - プロクラシスト

      こんにちは、ほけきよです。 pythonでデータを取り扱っているとき「あれ、これどうやるんだっけ??」 ってなること、ありませんか?僕は10分に1回程度なります。 いや、覚えろと自分でも思うんですが、覚えられないんですよね。100回くらい同じコマンドを調べてたりする。 物覚えが良くないので、ココを見れば絶対大丈夫なようにしておこうと思い、まとめてみました。 jupyterで最初に開くときに読み込むモジュールたち datetime 日付⇔文字列の変換 datetimeの足し算引き算 json dict型⇔json jsonファイルの入出力 datetimeをjsonにする時、エラーが出る pandas ~以外を表すやつ andとor inf弾く リストをdfにサクッと変換 datetimeとして読み込み 読み込み時にcodecのエラーが出る DataFrameのfor文 numpy lins

        pythonでのデータ分析時、死ぬほど調べるTipsをまとめておく。 - プロクラシスト
      • 機械学習入門 - 基本のPythonライブラリ、9つを触って学ぶ - エンジニアHub|若手Webエンジニアのキャリアを考える!

        機械学習入門 - 基本のPythonライブラリ、9つを触って学ぶ 機械学習を学ぶために、まず知っておきたいPythonライブラリを、機械学習エンジニアの「ばんくし」こと河合俊典さんに厳選し、そのエッセンスをつづってもらいました。機械学習入門に向けたスタートアップガイドです! こんにちは。機械学習エンジニアの「ばんくし」こと河合俊典(かわい・しゅんすけ/ @vaaaaanquish )です。 近年の機械学習関連の開発では、多くの場合Pythonが用いられます。 本記事は、「機械学習をこれから初めてみたいけど何から始めればいいか分からない」「基本のキから学びたい」という方に向けて執筆しました。プログラミング言語「Python」の中でも、特に機械学習における使用頻度の高いライブラリを厳選し、その解説を目的としています。 「この記事の内容に沿ってPythonを学習すれば、機械学習エンジニアとして入

          機械学習入門 - 基本のPythonライブラリ、9つを触って学ぶ - エンジニアHub|若手Webエンジニアのキャリアを考える!
        • まだExcelで消耗してるの?Pythonによる自動集計ガイド 基礎編 - Qiita

          ちょっとしたデータの加工や集計に、ExcelやGoogle Spreadsheetは便利ですが、それが日常的な作業になってしまったら自動化したいですよね? そこでお勧めなのがpandasです。 Pandasは Python 用のデータ処理パッケージであり、ExcelファイルやCSVなどの表形式データを読みこみ、加工や集計した上で、出力するといったことがプログラムで記述できます。また開発環境を用意しなくとも、Googleが提供する無料の開発環境であるColaboratory上で、すぐに試すことができます。 そしてPythonは、Office 98以降20年以降更新されていないVBAに代わる新たなスクリプト言語として、Microsoftが採用を検討しているという話もあります。 ExcelにPython搭載、マイクロソフトが検討。アンケートを実施中 まずPandasの全体像を掴んでみる Pand

            まだExcelで消耗してるの?Pythonによる自動集計ガイド 基礎編 - Qiita
          • データの集計は、ExcelよりPython使ったほうが100倍早い(pandas-profiling, pixiedust) - Qiita

            データの集計は、ExcelよりPython使ったほうが100倍早い(pandas-profiling, pixiedust)Pythonpandasデータ分析データ可視化pandas-profiling Pythonのpandas-profilingと、pixiedustの2つのライブラリを使うと、データの集計・グラフの作成が、感動的なほど早く終わることを実感したので共有します。 Excelでデータ集計・グラフ作成した場合と比較すると、体感で100倍くらい早く終わります(誇張ではなく) Pythonで爆速でデータ集計する方法(体感所要時間:5分) 前提: 以下の環境が整備されていることは、前提とします。 Pythonのインストール(約30分) データ分析に必要な各種ライブラリのインストール(約30分) →numpy, matplotlib, pandas, jupyter など →Anac

              データの集計は、ExcelよりPython使ったほうが100倍早い(pandas-profiling, pixiedust) - Qiita
            • 私たちはいかにして環状線で”悪さをする列車”を捕まえたか | プログラミング | POSTD

              文:Daniel Sim 分析:Lee Shangqian、Daniel Sim、Clarence Ng ここ数ヶ月、シンガポールのMRT環状線では列車が何度も止まるものの、その原因が分からないため、通勤客の大きな混乱や心配の種となっていました。 私も多くの同僚と同じように環状線を使ってワンノースのオフィスに通っています。そのため、11月5日に列車が止まる原因を調査する依頼がチームに来た時は、ためらうことなく業務に携わることを志願しました。 鉄道運営会社SMRTと陸上交通庁(LTA)による事前調査から、いくつかの電車の信号を消失させる信号の干渉があり、それがインシデントを引き起こすことが既に分かっていました。信号が消失すると列車の安全機能である緊急ブレーキが作動するため、不規則に電車が止まる原因となります。 しかし8月に初めて発生した今回のインシデントは、不規則に起こっているように見えるた

                私たちはいかにして環状線で”悪さをする列車”を捕まえたか | プログラミング | POSTD
              • Python初学者のためのPandas100本ノック - Qiita

                Information 2024/1/8: pandas , Polars など18を超えるライブラリを統一記法で扱える統合データ処理ライブラリ Ibis の100 本ノックを作成しました。長期目線でとてもメリットのあるライブラリです。こちらも興味があればご覧下さい。 Ibis 100 本ノック https://qiita.com/kunishou/items/e0244aa2194af8a1fee9 2023/2/12: 大規模データを高速に処理可能なデータ処理ライブラリ Polars の 100 本ノックを作成しました。こちらも興味があればご覧下さい。 Polars 100 本ノック https://qiita.com/kunishou/items/1386d14a136f585e504e はじめに この度、PythonライブラリであるPandasを効率的に学ぶためのコンテンツとして

                  Python初学者のためのPandas100本ノック - Qiita
                • 【Python】スクレイピング→データ収集→整形→分析までの流れを初心者向けにまとめておく ~Pythonに関するはてな記事を10年分スクレイピングし、Pythonトレンド分析を実際にやってみた~ - Qiita

                  【Python】スクレイピング→データ収集→整形→分析までの流れを初心者向けにまとめておく ~Pythonに関するはてな記事を10年分スクレイピングし、Pythonトレンド分析を実際にやってみた~Pythonスクレイピングpandasデータ分析 やりたいこと はてなブックマークで、Python記事を検索しトレンドを分析 はてなブックマークにSeleniumでログイン ブックマーク数をスクレイピング 時系列比較を行う バズるタイトルを分析 実装方法 詳しくは下記記事を参考にしてください。Pandasを利用したデータ分析まで載せています。 【Python】スクレイピング→データ収集→整形→分析までの流れを初心者向けにまとめておく ~Pythonに関するはてな記事を10年分スクレイピングし、Pythonトレンド分析を実際にやってみた~ 実装 from selenium import webdri

                    【Python】スクレイピング→データ収集→整形→分析までの流れを初心者向けにまとめておく ~Pythonに関するはてな記事を10年分スクレイピングし、Pythonトレンド分析を実際にやってみた~ - Qiita
                  • 【Day-14】株価や仮想通貨で使える、5つのテクニカル分析を解説&Pythonで実装してみた - プロクラシスト

                    データ分析ガチ勉強アドベントカレンダー 14日目。 時系列データでまず思いつくのは、株価のチャートですよね。 また、最近はやっている仮想通貨。私も最近coincheckに入金しました。 ビットコイン取引所 "coincheck" やっぱ、実際にお金が絡むとちゃんと勉強しようって言う気になる!笑 せっかくチャートを見るわけだし、その見方について勉強しておこうと思いました。 そしてせっかくなので、自分で実装してどういう仕組みなのかまで知っておこうと思いました。 理系だからね、分からないものを使うのは嫌だからね。 というわけで、Python(主にPandasとMatplotlibを用いながら)でテクニカル指標についてやっていきます。扱うデータは三年分の日経平均株価。 指標について知りたい人も、自分で実装してみたいという人もどうぞ。 テクニカル分析とファンダメンタル分析 実装において ローソク足

                      【Day-14】株価や仮想通貨で使える、5つのテクニカル分析を解説&Pythonで実装してみた - プロクラシスト
                    • PythonだけでWebアプリが作れるライブラリが増えている(2024.05) - Qiita

                      ※本記事で言及しているReflexのdiscord内に日本語チャンネルをつくってもらいました。もし、興味をもった人がいたら参加してみてください。 1.PythonだけでWebアプリをつくるライブラリが増えている 最近(2024.05)、Python界隈ではPythonだけでWebアプリが作れるライブラリが増えています。詳しくは他の記事を参照してもらえればと思います。 以下の記事がとても参考になりました。ありがとうございます。 2.ライブラリの分類 こうしたライブラリも大きくわけて2つの種類があるように思います。 ①データ解析の結果を表示するダッシュボードライブラリ ②汎用的なWebアプリをつくるローコードライブラリ ①ダッシュボード系ライブラリ たとえば、上記の記事にも出てきますし、ネットでもかなり情報の多い、StreamlitやDashは項番1のダッシュボードライブラリに該当すると思いま

                        PythonだけでWebアプリが作れるライブラリが増えている(2024.05) - Qiita
                      • 非プログラマーがPythonを学ぶために読んだ本 - 最終防衛ライン3

                        関連:Pythonでスペクトルのフィッティング - 最終防衛ライン3 プログラミングの経験はほとんどないのですが、最近Pythonの勉強を始めました。自分のやりたいことがそれなりにできるようになりつつあります。いろいろな本を購入したり、図書館で借りたりして勉強したので、折角なのでそれらをまとめておきます。 プログラミング未経験者ではないものの、興味のある人がぴったりのまとめだと思います。 私の目標は、業務で扱う大量のデータ処理の自動化が主で、機械学習にもつなげられたらと考えています。特に科学技術計算を自動化したい。たとえば、大量のデータを同一フォーマットのグラフとして出力するなどですが、この目標は既に達成できました。 1. 私のプログラム歴 2. 一ヶ月勉強して、できるようになったこと 3. 非プログラマー向けの入門書 Pythonスタートブック 実践力を身につける Pythonの教科書

                          非プログラマーがPythonを学ぶために読んだ本 - 最終防衛ライン3
                        • 実践データサイエンス─サンプルコードと図表で学ぶ、前処理・モデル評価・パラメータチューニング - エンジニアHub|Webエンジニアのキャリアを考える!

                          実践データサイエンス─サンプルコードと図表で学ぶ、前処理・モデル評価・パラメータチューニング 実践とともに、データサイエンスに入門しよう!敷居が高いと思われがちなデータサイエンスですが、データの前処理からの手順は意外とシンプルです。本記事では、データの前処理や特徴量の作成、モデルの評価・訓練、ハイパーパラメータの調整など、基本的な知識をサンプルコードと図表を見ながら学びます。 データサイエンティストとしてのスキルを向上させるには、データの前処理や特徴量の作成、モデルの評価・訓練、ハイパーパラメータの調整など、広域にわたる知識を身に付ける必要があります。 この記事は、そうした知識を「サンプルコードと図表を見ながら、分かりやすく学習できること」を目指して作成されました。記事内では、新米データサイエンティストのOさんが登場して、ある案件のデータ分析を担当します。読者のみなさんも、ぜひOさんと一緒

                            実践データサイエンス─サンプルコードと図表で学ぶ、前処理・モデル評価・パラメータチューニング - エンジニアHub|Webエンジニアのキャリアを考える!
                          • 2018年版もっとも参考になった機械学習系記事ベスト10 - Qiita

                            こんにちは NewsPicks Advent Calendar 2018の 5日目を担当させていただきます、NewsPicks の戸辺と申します。 2年ほど前に「機械学習をゼロから1ヵ月間勉強し続けた結果」という記事を書き、多くの方に読んでいただきました。そこから引き続き機械学習に携わっており、今年も多くの機械学習系の記事を拝読させていただきました。それら中から「実戦でためになった」「機械学習の勉強に役に立った」という観点から、僕なりのベスト10をあげてみました。 長い冬休み(余談ですが、社会人で一番長く休めるときですよね!?)は知識のアップデートをするのにいい機会だと思いますので、まとめ読みしてみてはいかがでしょうか。 では、スタート! まずは 2018年にみんなが使った Colaboratory 関連から 1位: 【スマホOK/実行しながら学ぶ】東大松尾研のデータサイエンティスト育成/

                              2018年版もっとも参考になった機械学習系記事ベスト10 - Qiita
                            • [TensorFlowで株価予想] 0 - Google のサンプルコードを動かしてみる - Qiita

                              TensorFlowで株価予想シリーズ 0 - Google のサンプルコードを動かしてみる 1 - 終値が始値よりも高くなるかで判定してみる 2 - 日経平均225銘柄の株価予想正解率ランキング〜 3 - 日本3506銘柄の株価予想ランキング 4 - 実際に売買したら儲かるのかシミュレーションしてみる 5 - 大きく上がると予想されたときだけ買ってみるシミュレーション 6 - 学習データの項目を増やす!隠れ層のサイズも増やす! 7 - 株価が何%上昇すると予測したら買えばいいのか? 8 - どの銘柄を買うか 9 - 年利6.79% 前置き 猫も杓子もディープラーニングディープラーニング。なにそれ美味いの? って感じだけど、 2015年末に Google が書いた 「Machine Learning with Financial Time Series Data on Google Clo

                                [TensorFlowで株価予想] 0 - Google のサンプルコードを動かしてみる - Qiita
                              • Pythonや機械学習、そして言語の競争について – 極めて主観的な見地から | POSTD

                                (訳注:2016/1/5、いただいた翻訳フィードバックを元に記事を修正いたしました。) よくある主観的で痛烈な意見を題名に付けたクリックベイト(クリック誘導)記事だろうと思われた方、そのとおりです。以前指導してくれた教授から教わったある洞察/処世術は、些細でありながら私の人生を変えるマントラとなったのですが、私がこの記事を書いたのはそれによるものです。「同じタスクを3回以上繰り返す必要があるなら、スクリプトを書いて自動化せよ」 そろそろ、このブログはなんだろうと思い始めているのではないでしょうか。半年振りに記事を書いたのですから。ツイッターで書いた Musings on social network platforms(ソーシャル・ネットワークプラットフォームについてじっくり考える) はさておき、この半年の間書き物をしていないというのはうそです。正確には、400ページの 本 を書きました。

                                  Pythonや機械学習、そして言語の競争について – 極めて主観的な見地から | POSTD
                                • データ分析で頻出のPandas基本操作 - Qiita

                                  はじめに 機械学習や深層学習が人気の昨今ですが、それらのモデルの精度に最もクリティカルに影響するのはインプットするデータの質です。データの質は、データを適切に把握し、不要なデータを取り除いたり、必要なデータを精査する前処理を行うことで高めることができます。 本頁では、データ処理の基本ツールとしてPandasの使い方を紹介します。Pandasには便利な機能がたくさんありますが、特に分析業務で頻出のPandas関数・メソッドを重点的に取り上げました。 Pandasに便利なメソッドがたくさんあることは知っている、でもワイが知りたいのは分析に最低限必要なやつだけなんや…!、という人のためのPandasマニュアルです。 また、単に機能を説明するだけでは実際の処理動作がわかりにくいため、ここではSIGNATE(旧DeepAnalytics)のお弁当の需要予想を行うコンペのデータを拝借し、このデータに対

                                    データ分析で頻出のPandas基本操作 - Qiita
                                  • 改訂版: プログラマーが効果的な可視化を作成する (前編) - Qiita

                                    改訂版について (5/7/2019公開) この記事は、私がこちらに公開したもの中では最も読まれているようです。そこで、執筆後に気づいたこと、古くなった情報、新しい技術動向などを考慮に入れて改訂をしました。主な変更点は以下の通りです: 新しいセクションの追加 最近の本の紹介 細かな表現の修正 この記事は複数のセクションに分かれていますので、前編から始め、順番にアップデートして行きたいと思います。何かお気付きの点などありましたら、コメント欄、もしくはkonoアットマークucsd.eduにお願いいたします。 はじめに この記事は、可視化の専門家ではない人がコンピュータを使ってデータ可視化を実際に行う場合に必要な、一般的なノウハウをお伝えするシリーズの第一回です。 前編: 効果的なデータ可視化とはどのようなものか? (本稿) 中編: 分かりにくい可視化を避けるための手法の選択 後編: Part 1

                                      改訂版: プログラマーが効果的な可視化を作成する (前編) - Qiita
                                    • 【自動化】PDF内の表をPythonで抜き出す - Qiita

                                      PDFは扱いにくい PDFファイルをPythonで扱うのは大変です。 表がPDFの中に埋め込まれているケースも割とあります。 例えば 平成30年 全衛連ストレスチェックサービス実施結果報告書の中にはたくさんの表データが埋め込まれています。 例えばファイルの40ページの【表14 業種別高ストレス者の割合】を抜き出したいと思ったとします。 この表を選択して、Excelにコピペしてみましょう。 コピーして、Excelに貼り付けます。 おや?うまくいかないですね。 1つのセルの中に、全部のデータが羅列されてしまっています。 実はPythonを使ってこのPDF中の表を比較的簡単にcsvやExcelに変換することができます。 PythonでPDFの表をcsvに PythonでPDF内の表(テーブル)をcsvやexcelに変換する手順は2ステップです。 ステップ1. PDFから表をpandasのData

                                        【自動化】PDF内の表をPythonで抜き出す - Qiita
                                      • 金融データのPythonでの扱い方 - 今日も窓辺でプログラム

                                        はじめに Udacityというネット上のビデオを視聴する形で受講できる講義を提供しているサイトがあります。 Learn the Latest Tech Skills; Advance Your Career | Udacity サイトや講義は英語なのですが、その中で Machine Learning for Tradingという講義を見つけました。 この講義は主に3つのパートに分かれています 金融データをPythonで操作する コンピュータを使った投資 取引に使う機械学習アルゴリズム 1つ目のパートを視聴したので、Pythonの基本的な知識の部分で知らなかった点を、実際のデータを操作する中で紹介しようと思います。 2つ目と3つ目はまた後日にでも。。 目次 はじめに 目次 今回使用するデータとJupyter Notebook データの読み込み 移動平均の計算 pandasのrollingを使

                                          金融データのPythonでの扱い方 - 今日も窓辺でプログラム
                                        • R vs Python:データ解析を比較 | POSTD

                                          主観的な観点からPythonとRの比較した記事は山ほどあります。それらに私たちの意見を追加する形でこの記事を書きますが、今回はこの2つの言語をより客観的な目線で見ていきたいと思います。PythonとRを比較をしていき、同じ結果を引き出すためにはそれぞれどんなコードが必要なのかを提示していきます。こうすることで、推測ではなく、それぞれの言語の強みと弱みの両者をしっかりと理解できます。 Dataquest では、PythonとRの両方の言語のレッスンを行っていますが、データサイエンスのツールキットの中では両者ともそれぞれに適所があります。 この記事では、NBA選手の2013/2014年シーズンの活躍を分析したデータセットを解析していきます。ファイルは ここ からダウンロードしてください。解析はまずPythonとRのコードを示してから、その後に2つの異なるアプローチを解説し議論していきます。つま

                                            R vs Python:データ解析を比較 | POSTD
                                          • Speaker Deck | Easily Share Your Presentations Online

                                            Speaker Deck is the best way to share presentations online. Simply upload your slides as a PDF, and we’ll turn them into a beautiful online experience. View them on SpeakerDeck.com, or share them on any website with an embed code.

                                              Speaker Deck | Easily Share Your Presentations Online
                                            • ちょっとしたツールを作るのに便利なPythonライブラリ - Qiita

                                              この記事は、LIFULL Advent Calendar 2017の2日目の記事です。 おはようございます。新UX開発部の二宮( @ninomiyt )です。 LIFULLではデータ解析や最適化の用途、もしくはAWS Lambda上の簡易ツール実装用途などでPythonがそれなりに普及してきました。数値計算寄りの(いわゆるデータサイエンティスト的な)メンバーも今はPythonを使うことが多く、コード量としては小規模なプロジェクトが多く、簡単なAPIやバッチ処理の実装までやってもらうこともあります。 そのレビューをやっていく中で、「これ使うともっと簡単に実装できるよね」っていうライブラリがいくつかまとまってきたので紹介します。 click コマンドラインパーサー用のライブラリで、デコレータを使って関数を簡単にCLI化できます。 標準ライブラリのargparseがありますが、clickではバリ

                                                ちょっとしたツールを作るのに便利なPythonライブラリ - Qiita
                                              • データサイエンティストとして読んで役立った本たち@2020-07|だみ〜

                                                2016年10月に未経験・新人データサイエンティストで雇ってもらいました。当時はまだ業界が牧歌的だったのと、比較的書類上のスペックが高い若者だったのもあり、運良く拾ってもらえたのでした。今だと100%受かってないです。 そんな私が今までで読んだ本の中で、役に立った本をつらつら書いていきます。 現代の若者がどんどん優秀になっているので、これくらいでいまんとこいっぱしのデータサイエンティスト(@ビジネスサイド)になれるんだなあという基準を述べようかと思いました。何年か後に振り返りたいですね。 もちろん、これが誰かの学習の役に立てばと思っています。 ちなみに、アフィリエイト入れてないので気にせず買っていってください。 数学無難に解析学と線形代数学を勉強しておくといいと思っています。

                                                  データサイエンティストとして読んで役立った本たち@2020-07|だみ〜
                                                • PythonでCSVを高速&省メモリに読みたい - tkm2261's blog

                                                  今日はPython (Pandas)で高速にCSVを読むことに挑戦したいと思います。 Kaggleに参加するたびに、イライラしていたので各実装の白黒はっきりさせようと思います。 R使いが羨ましいなぁと思う第一位がCSV読込が簡単に並列出来て速いことなので、 なんとかGILのあるPythonでも高速に読み込みたいと思います。 ただ、この検証ではコーディング量が多いものは検証しません。 CSV読込は頻出するので、フットワークの軽さが重要です。(オレオレライブラリ嫌い) Pickleは早いけど。。。 結論はDask使おう! 検証環境 データ 速度検証 pandas.read_csv() pandas.read_csv() (dtype指定) pandas.read_csv() (gzip圧縮) numpy.genfromtxt() pandas.read_csv() (chunksize指定 +

                                                    PythonでCSVを高速&省メモリに読みたい - tkm2261's blog
                                                  • 開発者がビッグデータ分析にPythonを使う時によくやる間違い | POSTD

                                                    システムの構築、新しい技術の習得、PythonやDevOpsなどに情熱を注ぐソフトウェア開発者です。現在はチューリッヒを拠点とするビッグデータのスタートアップで働いており、データ分析およびデータ管理ソリューションのためのPythonの技術を磨いています。 1 はじめに Python は開発時間を短縮できるという点で一般的に評価の高い言語です。しかし、Pythonを使って効率よくデータ分析をするには、思わぬ落とし穴があります。動的かつオープンソースのシステムであるという特徴は、初めは開発を容易にしてくれますが、大規模システムの破綻の原因になり得ます。ライブラリが複雑で実行時間が遅く、データの完全性を考慮した設計になっていないので、開発時間の短縮どころか、すぐに時間を使い果たしてしまう可能性があるのです。 この記事ではPythonやビッグデータで作業をする時に、最も時間を無駄にしがちな事柄につ

                                                      開発者がビッグデータ分析にPythonを使う時によくやる間違い | POSTD
                                                    • 非公開サイト

                                                      サイトの構築。作品の販売。ブログの投稿。この他にもさまざまな機能があります。 ログイン サイトをはじめよう 非公開サイト このサイトは現在プライベート設定になっています。

                                                        非公開サイト
                                                      • 「Python」と「Google Colaboratory」で株価データ分析に挑戦

                                                        「Python」と「Google Colaboratory」で株価データ分析に挑戦:「Python」×「株価データ」で学ぶデータ分析のいろは(1) 日々変動する株価データを題材にPythonにおけるデータ分析のいろはを学んでいく本連載。第1回はPythonを実行する環境とデータの前準備について。 はじめに 連載第1回は「Google Colaboratory」でサンプルプログラムを実行するための環境を用意する方法や利用するPythonのライブラリを説明します。「Google Chrome」と「Googleアカウント」を用意して読み進めてください。 なお、連載の趣旨がデータ分析であるため、Pythonの言語仕様や文法の詳細を割愛する場合があることをご了承ください。 Google Colaboratoryの準備 Google Colaboratoryとは、Googleが提供するブラウザ上でPy

                                                          「Python」と「Google Colaboratory」で株価データ分析に挑戦
                                                        • データサイエンスや機械学習のチートシートを最も効率的に収集する方法 - Qiita

                                                          機械学習・データサイエンスのチートシート集、便利なものがたくさん出回っていますが、ちまちまブラウザからダウンロードしていたりしませんか?そんな貴方にお勧めなのがこちらのレポジトリ。 FavioVazquez/ds-cheatsheets https://github.com/FavioVazquez/ds-cheatsheets はい、クリックあるいはコマンド一つで100を超えるチートシートが一括でダウンロードできちゃいますね。以上、釣りタイトル失礼しました。 と、これだけではなんなので、個人的に有用性が高いと感じたものを、大きなサムネイル付きでまとめてみました。ソースとして、DataCamp及びRStudio公式ページの情報量は圧倒的なので、一読をお勧めします。 科学計算・データ操作・可視化 Python (NumPy/SciPy/Pandas/matplotlib/bokeh) Pyt

                                                            データサイエンスや機械学習のチートシートを最も効率的に収集する方法 - Qiita
                                                          • pandasで1000万件のデータの前処理を高速にするTips集 - Qiita

                                                            はじめに 当社にアルバイトに来ていた人(来春に新卒入社の予定)に「pandasを高速化するための情報は無いですか?」と尋ねられました。 このパッケージの使い方は多数の書籍やWebで体系立った記事で書かれています。 しかし、高速化に関しては体系的な情報源が思いつかなかったので、「実際に書いてみて、1つ1つチューニングするしかないです」としか答えられませんでした。 そこで、この方を始め、来春(2019年4月)にデータアナリストまたはデータサイエンティストになる新卒へ向けて、pandasの高速化に関する私の経験をTips集にしてお伝えしたいと思います。 この記事は今後も内容を充実させるために、Tipsを追加していきます。 この記事を読んだ後にできるようになること pandasでレコード数1000万件のデータでも1分以内で完了する前処理が書けるようになります。 その結果、1日中実行し続けなければな

                                                              pandasで1000万件のデータの前処理を高速にするTips集 - Qiita
                                                            • Pandasを使ったデータ操作の基本 - ぴよぴよ.py

                                                              データ分析の会社に転職してから3ヶ月。 最初の1ヶ月はPandasの扱いに本当に困ったので、 昔メモしてたことを簡単にブログに記録しておく(o ・ω・)ノ 【追記】2017/07/31 0:36 データが一部間違ってたので修正しました Pandasとは pandasでよく使う型 テストデータについて 余談 Pandasでのデータ操作入門 pandasのload データ(csv)のロード データのサイズ データのカラム 行列から必要な列(カラム)を取り出す 条件にマッチするデータを取り出す 1. DataFrame.queryで取り出す True/FalseのSeries型を指定し、Trueの行だけを取り出す 追記(2017/12/14) 行列から必要な行番号を指定してを取り出す グループ分けと集計 新たな列を追加する 固有値を追加する 他の列を加工して新たな列を作る 他の複数列を加工して新

                                                                Pandasを使ったデータ操作の基本 - ぴよぴよ.py
                                                              • Python 機械学習プログラミング データ分析ライブラリー解説編

                                                                「ITエンジニアのための機械学習理論入門」で提供しているサンプルコードに含まれるデータ分析ライブラリ(NumPy/pandasなど)を解説した資料です。 下記の書籍のサンプルコードが理解できるようになることが目標です。 - ITエンジニアのための機械学習理論入門(技術評論社) - http://www.amazon.co.jp/dp/4774176982/ 2015/10/25 ver1.0 公開 2015/10/26 ver1.1 微修正 2016/05/25 ver1.4 subplotの順番を修正 2016/11/15 ver2.0 改訂版公開 2016/11/16 ver2.1 改行幅修正 2017/01/10 ver2.2 微修正 2017/01/12 ver2.3 微修正

                                                                  Python 機械学習プログラミング データ分析ライブラリー解説編
                                                                • Pythonで大量データ処理!�PySparkを用いたデータ処理と分析のきほん

                                                                  PyConJP2017の資料 Python Spark PySpark PyConJP 2017 Apache Spark

                                                                    Pythonで大量データ処理!�PySparkを用いたデータ処理と分析のきほん
                                                                  • Python初学者のためのPolars100本ノック - Qiita

                                                                    Information 2024/1/8: pandas , Polars など18を超えるライブラリを統一記法で扱える統合データ処理ライブラリ Ibis の100 本ノックを作成しました。長期目線でとてもメリットのあるライブラリです。こちらも興味があればご覧下さい。 Ibis 100 本ノック https://qiita.com/kunishou/items/e0244aa2194af8a1fee9 はじめに どうもこんにちは、kunishouです。 この度、PythonライブラリであるPolarsを効率的に学ぶためのコンテンツとして 「Python初学者のためのPolars100本ノック」 を作成したので公開します。こちらは2020年9月に公開した「Python初学者のためのpandas100本ノック」の問題内容をPolarsのメソッドに合わせて修正、再編したものになります。本コンテン

                                                                      Python初学者のためのPolars100本ノック - Qiita
                                                                    • だから僕はpandasを辞めた【データサイエンス100本ノック(構造化データ加工編)篇 #1】 - Qiita

                                                                      データサイエンス100本ノック(構造化データ加工編)のPythonの問題を解いていきます。この問題群は、模範解答ではpandasを使ってデータ加工を行っていますが、私達は勉強がてらにNumPyの構造化配列を用いて処理していきます。 次回記事(#2) はじめに Pythonでデータサイエンス的なことをする人の多くはpandas大好き人間かもしれませんが、実はpandasを使わなくても、NumPyで同じことができます。そしてNumPyの方がたいてい高速です。 pandas大好き人間だった僕もNumPyの操作には依然として慣れていないので、今回この『データサイエンス100本ノック』をNumPyで操作することでpandasからの卒業を試みて行きたいと思います。 今回は8問目までをやっていきます。 今回使うのはreceipt.csvだけみたいです。初期データは以下のようにして読み込みました(データ型

                                                                        だから僕はpandasを辞めた【データサイエンス100本ノック(構造化データ加工編)篇 #1】 - Qiita
                                                                      • 早く知っておきたかったmatplotlibの基礎知識、あるいは見た目の調整が捗るArtistの話 - Qiita

                                                                        English version available on dev.to はじめに matplotlibで作ったグラフの細かい調整は大変です。何をどういじったらいいのかを調べるのにアホみたいに時間がかかることがあります1。「何を」の部分の名前さえわからないこともあります。解決の糸口を掴んだ後も希望通りの見た目を実現するまでの最後のアレンジに苦労することが多いです2。これらの問題はmatplotlibのグラフがどういう要素で構成されていて、それらに対してどういうことができるかを知ることでいくらか改善されます。私はひたすらStack Overflowの回答を読むことでいろんなつまづきを時間をかけて乗り越えてきましたが、最近になってようやく公式チュートリアルにこの苦労を回避できたはずのヒントが書いてあることに気づきました。初期にざっと目を通したのですが「なるほど、よくわからん」と判断して読み込まな

                                                                          早く知っておきたかったmatplotlibの基礎知識、あるいは見た目の調整が捗るArtistの話 - Qiita
                                                                        • pandas でメモリに乗らない 大容量ファイルを上手に扱う - StatsFragments

                                                                          概要 分析のためにデータ集めしていると、たまに マジか!? と思うサイズの CSV に出くわすことがある。なぜこんなに育つまで放っておいたのか、、、? このエントリでは普通には開けないサイズの CSV を pandas を使ってうまいこと処理する方法をまとめたい。 サンプルデータ たまには実データ使おう、ということで WorldBankから GDPデータを落とす。以下のページ右上の "DOWNLOAD DATA" ボタンで CSV を選択し、ローカルに zip を保存する。解凍した "ny.gdp.mktp.cd_Indicator_en_csv_v2.csv" ファイルをサンプルとして使う。 http://data.worldbank.org/indicator/NY.GDP.MKTP.CD?page=1 補足 pandas の Remote Data Access で WorldBan

                                                                            pandas でメモリに乗らない 大容量ファイルを上手に扱う - StatsFragments
                                                                          • Python“らしさ”を支える技術。pandasコアコミッターが大事にするマージの方針 - エンジニアHub|Webエンジニアのキャリアを考える!

                                                                            Python“らしさ”を支える技術。pandasコアコミッターが大事にするマージの方針 数多いPythonライブラリの中でも、データ解析の用途で大きな存在感を示すのが「pandas」です。そしてこのpandasのコミッターを務めるのが、sinhrksこと堀越真映さん。コミッターが感じるOSSのありよう、そしてPythonらしさを教えてもらいました。 データサイエンスや機械学習の流行に伴い、業務でPythonが使用されるケースが増えてきました。Pythonが選ばれる理由はさまざまですが、「データサイエンスや機械学習に適したライブラリが数多くある」という特性は、この言語が重宝される理由のひとつでしょう。 たとえば、データ分析のための高速で使いやすいデータ構造を提供するpandas。NumPyやpandasのAPIを利用して並列計算・分散処理を行えるDask。こうした海外で開発が主導されたライブ

                                                                              Python“らしさ”を支える技術。pandasコアコミッターが大事にするマージの方針 - エンジニアHub|Webエンジニアのキャリアを考える!
                                                                            • お前らのpandasの使い方は間違っている - Qiita

                                                                              この記事は株式会社Nuco Advent Calendar 2022の9日目の記事です。 はじめに いきなりお馴染みの「キャッチーでウィットでセンセーショナルな」タイトルで失礼します。 私自身、業務の中でpandasに大変お世話になっており、自戒も込めてpandasの「アンチパターン」をまとめてみました。 この記事を読んで、より快適なpandasライフを送っていただけると嬉しいです。 対象読者 Pythonを使ったデータ分析や機械学習に携わる方 この記事はpandasの基本的な使い方を解説するものではないので注意してください。 表形式ファイルを加工する必要がある方 pandasの強みはリレーショナルなデータ全般です。必ずしもデータ分析や機械学習だけが守備範囲ではありません。 pandasとは pandasの公式ドキュメントの概要には、以下のように記載してあります。 pandas is a

                                                                                お前らのpandasの使い方は間違っている - Qiita
                                                                              • 【2023年版】機械学習の日本語無料学習教材まとめ - Qiita

                                                                                言語&開発基礎編 PythonやSQLなどの言語と開発環境に関連することをまとめました。 機械学習に関する教材はこの次のセクションにまとめてあります。 学習環境 インストール及び使い方チュートリアルのサイトと、ある程度使い慣れた後に役立つtips集を各エディタでまとめました。 Google Colaboratory Python初学者にとって最もわかりやすいPython実行環境です。プログラミングは初めて!という方はまずこのGoogle Colaboratory(通称: Colab)から始めてみて、使い方がある程度わかったら、そのまま次のセクションのPython編に移りましょう。 Pythonプログラミング入門 難易度: ★☆☆ 東京大学の公開しているPython講座ですが、冒頭でColabの使い方を解説しています。使ったことのない方はこちらから! Google Colabの知っておくべき

                                                                                  【2023年版】機械学習の日本語無料学習教材まとめ - Qiita
                                                                                • Pythonによる財務分析① バフェットコードをつかって完全レクチャー! (全8回) | DeFi Labo

                                                                                  Python初心者企業の財務分析をしたいけど、なにをしたらいいのかわからないよ。。。 この記事は10分程で読むことができます! この記事では、Python初心者でもできるように、財務諸表分析をレクチャーしていきます! 本記事は、全8回に渡って掲載される「pythonによる財務分析‐バフェットコードを用いて完全レクチャー!」シリーズの第1回になります! このシリーズを読むとわかることPython初心者でも、数百数千の企業の財務データを分析出来るようになる! 最終的に重回帰分析といった機械学習的手法もマスターできる! 重回帰分析をマスターすれば、株式投資のリターン予測を行う事が出来るようになり、プログラミングだけでなく投資のスキルも磨けます! また、ファイナンス系以外の幅広い分野の研究機関でも、この分析手法を利用した論文も多々ある為、教養としても覚えて損はないです! 是非、全8回を読みPyth

                                                                                    Pythonによる財務分析① バフェットコードをつかって完全レクチャー! (全8回) | DeFi Labo