並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 253件

新着順 人気順

seabornの検索結果1 - 40 件 / 253件

  • Python言語による実務で使える100+の最適化問題 | opt100

    指針 厳密解法に対しては、解ける問題例の規模の指針を与える。数理最適化ソルバーを使う場合には、Gurobi かmypulpを用い、それぞれの限界を調べる。動的最適化の場合には、メモリの限界について調べる。 近似解法に対しては、近似誤差の指針を与える。 複数の定式化を示し、どの定式化が実務的に良いかの指針を示す。 出来るだけベンチマーク問題例を用いる。OR-Libraryなどから問題例をダウンロードし、ディレクトリごとに保管しておく。 解説ビデオもYoutubeで公開する. 主要な問題に対してはアプリを作ってデモをする. 以下,デモビデオ: 注意 基本的には,コードも公開するが, github自体はプライベート そのうち本にするかもしれない(予約はしているが, 保証はない). プロジェクトに参加したい人は,以下の技量が必要(github, nbdev, poetry, gurobi); ペー

    • 食べログ3.8問題に終止符を打つ

      import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import json import glob import math from pathlib import Path from collections import Counter from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score from sklearn.metrics import confusion_matrix from sklearn.metrics import roc_auc_score from sklearn.model_selection imp

      • Python言語による実務で使える100+の最適化問題 | opt100

        はじめに 本書は,筆者が長年書き溜めた様々な実務的な最適化問題についてまとめたものである. 本書は,Jupyter Laboで記述されたものを自動的に変換したものであり,以下のサポートページで公開している. コードも一部公開しているが,ソースコードを保管した Github 自体はプライベートである. 本を購入した人は,サポートページで公開していないプログラムを 圧縮ファイル でダウンロードすることができる. ダウンロードしたファイルの解凍パスワードは<本に記述>である. 作者のページ My HP 本書のサポートページ Support Page 出版社のページ Pythonによる実務で役立つ最適化問題100+ (1) ―グラフ理論と組合せ最適化への招待― Pythonによる実務で役立つ最適化問題100+ (2) ―割当・施設配置・在庫最適化・巡回セールスマン― Pythonによる実務で役立つ

        • ゼロから始める、データ分析と可視化 - Kyash Product Blog

          はじめまして。Kyashでデータエンジニアリングを担当しているKyashデータマンです。この記事では、Kyash社内のデータ分析の基礎に関するドキュメントを紹介します。 Kyashでは、データエンジニアリング・ガバナンス・セキュリティなど様々な角度から、公正なデータの取扱いと活用を推進しています。従来は、一部の訓練された技術者がデータ分析を一手に担っていましたが、社内でもデータ活用のニーズも多く、その担当者に分析や集計の業務が集中するという課題がありました。 この課題に対して、データへの適切なアクセス管理を行い、そして適切なBIツールを導入することで、データを取り扱う人が自分でデータ分析・そして活用できるようになることを目指しています。アクセス管理には、個人情報やそれに準ずる機密データに対して、ポリシータグによるアクセス権のコントロール、そしてアクセス権のリネージなどのソリューションの導入

            ゼロから始める、データ分析と可視化 - Kyash Product Blog
          • ITスキルロードマップ roadmap.sh がすごい。AI and Data Scientist について対応する本をまとめた - Qiita

            ITスキルロードマップ roadmap.sh がすごい。AI and Data Scientist について対応する本をまとめた機械学習データ分析キャリアデータサイエンスデータサイエンティスト Developer Roadmapsというサイトがすごいです。ITエンジニアの分野別にスキルアップのロードマップが示されています。 言語、基盤、アプリ、かなり網羅されています。 その中のAI and Data Scientist Roadmapについての推薦図書まとめです。 雑感 これだけ学んでいれば「こいつ知ってるな」感がありますね。ただ気になる点としては ビジネス、ドメイン知識や分析目的定義などのスキルについて言及がないのは残念。 いきなり数学から入るコースになってますが、一旦は飛ばしてコード写経してから戻ってきても良いと思います。ここで挫折すると勿体無いので。 計量経済学重視の観点はいいですね

              ITスキルロードマップ roadmap.sh がすごい。AI and Data Scientist について対応する本をまとめた - Qiita
            • Kaggle Expertになるまで勉強したことを全て書く - Qiita

              はじめに こんにちは。Yuki | Kagglerです! 先日、Shopeeコンペの順位が確定して銀メダルをいただき、晴れてCompetition Expertになることができました。区切りがいいのでここまで取り組んできたことをまとめてみました。 ※ 6/28追記:Amazonのリンクが切れていたので貼り直しました! プログラミング&機械学習を始めて一年、ようやく Kaggle Expertになることができました!! 行列も正規分布も知らず、ターミナルなんて触ったこともない状態からのスタートでしたが、ようやくここまで来ました。 ここまで来れたのは偏にこれまで関わってきた皆様のお陰です。これからも頑張ります!! pic.twitter.com/kMkaFhqhU9 — ユウキ | Kaggler (@Yuki_Kaggler) May 12, 2021 この記事の対象者 Kaggleをやって

                Kaggle Expertになるまで勉強したことを全て書く - Qiita
              • Facebookが開発した圧縮アルゴリズムZstandardについて調べた(非常に高速)(今日から使えます) - Lambdaカクテル

                Common Lispの処理系であるSBCLをインストールしようとしたら、追加でlibzstd-develというのを新たに要求されるようになっていた。見るからに圧縮系のライブラリだけれど聞き慣れないのでちょっと調べてみた。 ちょろっと調べたところ、以下のことが分かった: Zstandard(ゼットスタンダード?)というのが正式な名前。 Facebookが開発した。 Deflateよりも速いことを主眼においている。 BSDライセンス。 Linuxカーネルまわりで使えるようになっているほか、一部のディストロではパッケージの圧縮フォーマットとして使われているようだ。 Webというよりはどちらかといえばバックエンド的な箇所で使われている印象がある。 facebook.github.io zstd コマンド使ってみた 他の名だたる圧縮アルゴリズム同様、Linuxで直接ファイルに対してこれを実行して圧

                  Facebookが開発した圧縮アルゴリズムZstandardについて調べた(非常に高速)(今日から使えます) - Lambdaカクテル
                • 世界一わかりやすい機械学習プログラミングチュートリアル - Qiita

                  はじめに この記事はNuco Advent Calendar 2022の5日目の記事です 対象読者 Pythonが注目されている理由のひとつは機械学習プロジェクトの主要な開発言語であるからといってもよいでしょう。多くの企業の業務システムのAIの開発言語はPythonです。そんなPythonの学習を始めてある程度文法の理解が進んできて、機械学習に触れてみたい方を対象にしています。 Pythonの基本文法を理解している 機械学習を始めてみたい チュートリアル概要 Pythonは長年機械学習で使用されているので、ライブラリも豊富にあります。本記事では機械学習用ライブラリのscikit-learn(サイキット・ラーン)を使用して教師あり学習を行い住宅価格を予測してみます。 何ができるようになるか 機械学習で使われる基本的な用語を理解し、学習の全体像をつかめるようになります。 機械学習の目的 機械学

                    世界一わかりやすい機械学習プログラミングチュートリアル - Qiita
                  • Python ユーザでも『データ可視化入門』で練習できるようにパッケージを作った + Plotnine との互換性ガイド - ill-identified diary

                    概要 pysocviz が提供する機能 ggplot2 と同じようにできないところとその対策 aes() にクオートされてない変数を指定できない R のように改行できない ggplot2 で使えた色名が使えない ggplot2 で使えた linetype が使えない 文字化けの回避 ggrepel パッケージの利用 scales::percent などの単位・スケール指定 テーマや色パレットのプリセットを変更したい場合 subtitle/caption が表示されない 複数のグラフを連結できない hjust/vjust が使えない グラフ内の図形やテキストの大きさのバランスがおかしい geom_smooth/stat_smooth で一般化加法モデル (GAM) による平滑化ができない geom_quantile の method 指定ができない geom_smooth/stat_smoo

                      Python ユーザでも『データ可視化入門』で練習できるようにパッケージを作った + Plotnine との互換性ガイド - ill-identified diary
                    • データ分析の基礎 - Qiita

                      1. データ分析の概要と目的 データ分析とは、大量のデータから有用な情報や知識を抽出するプロセスです。 このプロセスには、データの収集、前処理、探索、モデリング、評価、そして最終的な知識の抽出が含まれます。 データ分析の主な目的は以下の通りです ビジネスの意思決定をサポートする 新しい市場の機会を発見する 顧客の行動や傾向を理解する 製品やサービスの改善 予測や予測モデリングを行う 2. Pythonにおけるデータ分析のライブラリの紹介 Pythonはデータ分析のための多くのライブラリを持っています。 以下はその中でも特に人気のあるライブラリです Pandas: データの前処理や探索的データ分析に使用されるライブラリ NumPy: 数値計算を効率的に行うためのライブラリ Matplotlib & Seaborn: データの可視化に使用されるライブラリ Scikit-learn: 機械学習の

                        データ分析の基礎 - Qiita
                      • Web系企業での一人目の機械学習エンジニア・データサイエンティストに必要なスキルと経験して思ったこと - Qiita

                        0、はじめに マッチングアプリで機械学習エンジニアをやっているはやとと言います。今回は「Web系企業での一人目の機械学習エンジニア・データサイエンティストに必要なもの、やって感じたこと」について書いていこうと思います。 「Web系企業で機械学習エンジニアやってみたい!」「組織としてデータ分析や機械学習をやり始めたいけど何からやったらいいかわからない!」という方も多くいるでしょう。 Web系企業での機械学習エンジニア・データサイエンティストの動きはメルカリのブログとか本でよく見ます。しかし、まだ規模があまり大きくない会社における機械学習エンジニア・データサイエンティストの記事や本は一切見当たらず、また、立ち上げ(そんな大げさな言葉を使っていいのか分かりませんがw)の話が書いてあるものは見たことがないです。そのため、もしかしたら日本で初めての記事になるのではないかなと考えてワクワクしながら書い

                          Web系企業での一人目の機械学習エンジニア・データサイエンティストに必要なスキルと経験して思ったこと - Qiita
                        • 小説家になろうを機械学習でデータ分析してブックマーク10以上を獲得しやすい条件を探す - Qiita

                          はじめに これを書いてる人の機械学習・データ分析のスキルはpythonの拡張子が.pyであることを知ってから10日目ぐらい、「決定木」「最小二乗法」「特徴量」「RMSE」といった単語を初めて見てから7日目ぐらいといったレベルです。なのでより良い方法がある場合や、分析の途中間違っている箇所などがあればコメント欄等でどんどん指摘してくださると有り難いです。(コードが汚い、変数の命名がおかしい等はご容赦ください) 本記事について 小説家になろうの作品でブックマーク10以上を獲得するために、有利なジャンルはあるのか、作品のタイトルとあらすじの文字数は重要か、本文の文字数は重要か、ジャンルが重要ならどのジャンルが良いのか、文字数が重要ならどのぐらいの文字数が良いのか、といったことを調べていきます。 先に分析の結果を書くと 大ジャンル ジャンル 15禁止作品かどうか、タイトルの文字数、あらすじの文字数

                            小説家になろうを機械学習でデータ分析してブックマーク10以上を獲得しやすい条件を探す - Qiita
                          • 【図解】Pythonのライブラリ 24選+α - Qiita

                            Pythonにはライブラリが沢山あります。ライブラリとは便利な機能を持ったプログラムを集めたものを言い、このライブラリを上手く使うことで色々なことを実現できます。 今回はこのライブラリを用途別で図解にまとめました。 Pythonでプログラムを組む際の参考になりましたら幸いです。 ※簡単にまとめているだけなので、詳しい中身は公式ドキュメント等をご確認ください。 追記(2023/12/25) 当記事がありがたいことに好評いただけたので、Pythonの基礎も図解化しました。あわせてご活用いただけますと幸いです。 機械学習 機械学習 ⊃ 深層学習という包含関係です。 ざっくり言うと、特定のタスク(分析の方向性が明確)に対して予測できるのが機械学習で、より複雑なデータも処理できるのが深層学習です。 ただし深層学習はその分、学習に要する時間やデータは多くなります。 【機械学習入門】scikit-lea

                              【図解】Pythonのライブラリ 24選+α - Qiita
                            • 大阪都構想の投票結果を区ごとに分析してみた - Qiita

                              はじめに 私は現在大阪市に住んでおり、一昨日の都構想投票はテレビにかじりつきながら見ていました。 経過を見ていて思ったのが、区ごとの結果の差が顕著に出ており、分析対象として適したデータが得られそうだと感じたため、詳しく分析してみました。 ※下図はおおさか維新の会HP掲載の、都構想における新旧区分け GitHubに、使用したスクリプトやクレンジング後のデータをアップロードしています Qiitaのガイドラインにあるように、あくまで技術記事としての領分を超えないよう、政治的な深い考察は避け、得られた事実のみを列挙していこうと思います。 また、私は因果推論のような高度な分析のスキルは持ち合わせていないので、「さらに深い知見を得るためにはこうしたらいい」 というような手法に関するアドバイスがございましたら、コメント頂けると大変ありがたいです! 結論 結論に至るまでの手順は次章以降で述べますが、以下の

                                大阪都構想の投票結果を区ごとに分析してみた - Qiita
                              • [確率思考の戦略論] 1.確率理論の導入とプレファレンスの数学的説明

                                import numpy as np import scipy from scipy.stats import binom %matplotlib inline %config InlineBackend.figure_format = 'svg' import matplotlib import matplotlib.pyplot as plt import seaborn as sns print("numpy version :", np.__version__) print("matplotlib version :", matplotlib.__version__) print("sns version :",sns.__version__) numpy version : 1.18.1 matplotlib version : 2.2.2 sns version : 0.8.1

                                  [確率思考の戦略論] 1.確率理論の導入とプレファレンスの数学的説明
                                • WebブラウザでPythonが動作する!PyScriptの詳解 | gihyo.jp

                                  鈴木たかのり(@takanory)です。今月の「Python Monthly Topics」では、Webブラウザ上でPythonが動作するPyScriptについて、内部構造なども含めて詳しく解説したいと思います。 PyScript公式サイト(https://pyscript.net/) Warning:PyScriptは現在非常に活発に開発が進んでいるプロダクトのため、将来的にこの記事のサンプルコードが動かなくなる可能性があります。記事執筆時点では最新バージョンであるPyScript 2023.03.1で動作確認しています。うまく動かない場合はPyScriptの公式ドキュメントなどを参照してみてください。 PyScript - PyScript documentation PyScriptとは? PyScriptは公式サイトに「Run Python in Your HTML」と書いてあると

                                    WebブラウザでPythonが動作する!PyScriptの詳解 | gihyo.jp
                                  • 「Excel」にPythonを統合、データ分析と可視化のスムーズなワークフローを実現

                                    「Python」は現在、最も人気のあるプログラミング言語の1つである。Webアプリの開発から、近年需要が伸びているデータ分析や機械学習、深層学習といった幅広い分野で利用されている。コードが分かりやすく、読みやすいため、プログラミング知識が少ない人でも扱いやすい。そのため、企業や学生の間でも利用が増えている。そのPythonを、データの整理、操作、分析の定番ツールであるMicrosoftの「Excel」で簡単に扱えるようになる。 米Microsoftは8月22日(現地時間)、開発プレビュープログラム「Microsoft 365 Insiders」のベータ・チャネルで「Python in Excel」のプレビューテストを開始した。まずはWindows用Excel(build 16818)からロールアウトし、他のプラットフォームにも拡大する予定。 セットアップや追加のインストールは不要。Pyth

                                      「Excel」にPythonを統合、データ分析と可視化のスムーズなワークフローを実現
                                    • ChatGPT「Code Interpreter」とは?何ができる?データ分析能力が飛躍的向上のワケ

                                      Code Interpreterとは? 何ができる? 年平均35%以上で成長し、2030年には1,093億ドルに達すると予想される生成AI市場。ChatGPTを展開するOpenAIが主導権を握っていると思われるが、Bardを擁するグーグルのほか、AlphaGoの技術を活用したチャットボットGeminiを開発するディープマインド、ChatGPTよりも強い記憶力を売りとするClaude2をリリースしたAnthropicなど、競合がひしめきあい、競争が激しい市場となっている。 生成AIトレンドの火付け役となったOpenAIは優位性を維持するために、ChatGPTのプラグインを拡充するなどさまざまな施策を展開中だ。ChatGPTにおける直近のアップデートで特に注目されているのが「Code Interpreter」のリリースだろう。 Code Interpreterの存在が明らかにされたのは3月23

                                        ChatGPT「Code Interpreter」とは?何ができる?データ分析能力が飛躍的向上のワケ
                                      • Announcing Python in Excel: Combining the power of Python and the flexibility of Excel.

                                        September Update Python in Excel is now available to all Enterprise, Business, Education, and Family and Personal users running Beta Channel on Windows. This feature will roll out to Excel for Windows first, starting with build 16.0.16818.20000, and then to the other platforms at a later date. Since its inception, Microsoft Excel has changed how people organize, analyze, and visualize their data,

                                          Announcing Python in Excel: Combining the power of Python and the flexibility of Excel.
                                        • Open Interpreter - Qiita

                                          text = """ SeabornのTitanicデータセットを使いLightGBM,XGBoost,CatBoostおよび3つのモデルのアンサンブルした場合で どれが最も精度が良いか検証してください.検証する際は4foldのクロスバリデーションの結果の平均値としてください. 全て日本語で対応してください. """ # return_massagesは出力結果のデータを変数として保持するため引数 # 出力結果はmassagesにも保存される messages = interpreter.chat(text, return_messages=True) 了解しました。以下の手順で進めていきます。 1 必要なライブラリをインストールします。これには、seaborn(データセットの取得)、pandas(データの操作)、numpy cikit-learn(クロスバリデーションと精度評価)、lig

                                            Open Interpreter - Qiita
                                          • 機械学習のための環境構築とその管理 - nykergoto’s blog

                                            機械学習プロジェクトでは python を始めとした言語 + それに付随したライブラリを使います。 僕も python 触りたての頃はローカルマシン上にひとつ python 環境を作り、必要なライブラリをインストールして使っていました。環境の分離ということはあまり意識しておらず、やったとしてもプロジェクトごとに anaconda や pyenv, venv などで個別環境を作って切り分けるレベルでした。 しかし上記の方法だと困ったことが起ることがあります。例えば… global な環境が壊れてしまってすべて壊れる。 これは各環境が global な環境に依存しているために起こります。 python 以外の変更で環境は突如として壊れます。例えば brew install hoge したら Mecab が使えなくなっちゃったとかはあるあるだと思います >_< linux / Mac / Win

                                              機械学習のための環境構築とその管理 - nykergoto’s blog
                                            • 機械学習をゼロから学ぶための勉強法 - Qiita

                                              はじめに データサイエンスや機械学習っておもしろそう!と思いつつも、どうやって勉強をしたら良いかわからない......と感じた経験はありませんか? ちなみに自分もその一人です。 この記事では、機械学習ってそもそも何? AIという言葉は知ってるけど詳しいことはわからないというような初学者でも、知識・経験を積んで機械学習に取り組めるようにするために必要な基礎の基礎から学ぶための勉強法を自分の経験をもとに紹介します!(ここで紹介するものは機械学習の中級者以上の方でも基礎知識の復習として活用できるものかなとも思っています) この記事の続編(データサイエンスはじめて1か月以内で参加したコンペで銀メダル(上位3%)とるまで!)はこちら 概要 (基本的にはこの3stepです) 基礎知識をつける(単語・用語の理解) ライブラリの使い方を理解 実際にコンペに挑戦(Kaggle) 1.機械学習&ディープラーニ

                                                機械学習をゼロから学ぶための勉強法 - Qiita
                                              • 文系大学生が無料のPython入門講座を受けてみた 必要な数学知識も簡単に学べる | Ledge.ai

                                                2021年上半期にAI(人工知能)関連メディアであるLedge.aiで公開した記事のうち、反響の大きかったもの再掲します(※初公開日:2021年4月24日)。 今回は株式会社キカガクが提供する「Python & 機械学習入門」を受けてみました。約9時間の講義がすべて無料で受けられます。 本講座は、機械学習に必要な数学の基礎、Google Colaboratoryを用いた実装を学べる講座です。必要なところだけを絞って説明されるのでわかりやすく、基礎を習得できます。カリキュラムは以下のとおりです。 導入微分線形代数単回帰分析重回帰分析1Python速習単回帰分析の実装重回帰分析の実装演習問題統計重回帰分析2「導入」では、主に機械学習についての説明があります。AI・ディープラーニングとの関係性や、機械学習ではどの数学知識が必要なのか言及しています。初めての人は「微分」と「線形代数」を学びましょう

                                                  文系大学生が無料のPython入門講座を受けてみた 必要な数学知識も簡単に学べる | Ledge.ai
                                                • Rustで扱える機械学習関連のクレート2021 - Stimulator

                                                  - はじめに - 本記事では、Rustで扱える機械学習関連クレートをまとめる。 普段Pythonで機械学習プロジェクトを遂行する人がRustに移行する事を想定して書くメモ書きになるが、もしかすると長らくRustでMLをやっていた人と視点の違いがあるかもしれない。 追記:2021/02/24 repositoryにしました。こちらを随時更新します github.com 追記;2021/07/26 GitHub Pagesでウェブサイトにしました vaaaaanquish.github.io - はじめに - - 全体感 - - 機械学習足回り関連のクレート - Jupyter Notebook Numpy/Scipy Pandas 画像処理 形態素解析/tokenize - scikit-learn的なやつ - 各ライブラリと特徴比較 - Gradient Boosting - XGBoos

                                                    Rustで扱える機械学習関連のクレート2021 - Stimulator
                                                  • 令和時代のPython作図ライブラリのデファクトスタンダードPlotlyExpressの基本的な描き方まとめ - Qiita

                                                    初めに javascriptベースで手軽に対話的な操作が可能な作図が出来るPlotly Express(公式サイト)というライブラリが少し前に公開されたのを見つけました。 今までの静的な作図とは明らかに異なる次元のポテンシャルを感じたので、備忘録を兼ねて基本的な可視化手法の描き方をまとめました。 参考までに、matplotlib+seabornで同様の図を書いたパターンと比較しています。 「基本的な可視化手法」は、以前書いた「探索的データ解析における正しい可視化手法の選び方と描き方」に準拠しています。 Plotly Expressとは Plotly Expressは2019年の3月に公開されたplotlyの高レベルAPI群です。 インタラクティブで複雑な描画を簡単に書けるのが特徴です。 公式サイト: https://plot.ly/python/plotly-express/ API re

                                                      令和時代のPython作図ライブラリのデファクトスタンダードPlotlyExpressの基本的な描き方まとめ - Qiita
                                                    • 【Python】東京23区の中古マンション販売価格予測をやってみた - Qiita

                                                      参考文献 今回、以下サイトを参考にさせていただき、また大変勉強させていただきました。感謝申し上げます。 SUUMO の中古物件情報を Tableau で分析してみる ~データ収集編~ SUUMO の中古物件情報を Tableau で分析してみる ~データ予測編~ 機械学習を使って東京23区のお買い得賃貸物件を探してみた 〜スクレイピング編〜 オープンポータル (オープンデータ活用サイト、競売、人口、駅) 1.準備:パッケージインポートなど 1.1 Google Driveへのマウント、パッケージのインポート ここでは、Google CplaboratoryからGoogle Driveへファイル書き出し、読み込みをするための準備や、今回使うパッケージのインポートを行いました。また、後ほどデータ加工用の関数群も予め定義しておきます。 #ドライブ設定 PATH_GMOUNT='/content/

                                                        【Python】東京23区の中古マンション販売価格予測をやってみた - Qiita
                                                      • データマネジメント・データ分析に役立つ情報をまとめる - Qiita

                                                        これは何 データマネジメント・データ分析に関する書籍・記事・ツールをまとめます。 特に価値が高いと思う書籍・記事を上に並べています。 どのような分野が存在するのか概観します。 全て読むのは大変なので、興味があったり業務に関連のある分野から目を通しましょう。 対象読者 データ分析をやってみたいが何から手をつければいいのかわからない人 書籍 webに転がっている記事は断片的です。 まずは書籍を読んで体系だった知識を仕入れて、その後にwebの記事で肉付けするのをおすすめします。 データ分析全般 データ解析の実務プロセス入門 https://www.amazon.co.jp/dp/4627817711/ データマネジメント データマネジメントが30分でわかる本 https://www.amazon.co.jp/dp/B085W4YSZJ 実践的データ基盤への処方箋 https://www.amaz

                                                          データマネジメント・データ分析に役立つ情報をまとめる - Qiita
                                                        • ヤバいデータ分析(書籍・記事であまり扱われてないが重要なこと) - Qiita

                                                          まえがき データ分析はなんて広いんだろう。影響力の強まりに応じ、自然・社会・人間ほぼすべてが対象となりどんどん拡大していく。対象に応じ手法も広がり複雑化し、学ぶべきことが多すぎる。データサイエンティスト協会のスキルチェックリストVer.3.001(ごめんもう4.00が出てるね)も500超の項目があります。読むべき図書も良書と思われるものだけでも増え続けており、もう手に負えない状況です。 ただ、これはやってはだめだ、ここを知らないと道に迷う、という絶対に知っておくべき点は学べる範囲だと思います。本書では、データ分析において間違えやすい、誤解しやすい点を共有し、データ分析全体をよくする目的で、かつ データ分析の入門書・専門書に分野ごとには書かれてはいますが1つにまとまっておらず目に触れにくいもの データ分析の入門書・専門書でもスルーされていたり場合によっては誤っていると思われるもの で自分なり

                                                            ヤバいデータ分析(書籍・記事であまり扱われてないが重要なこと) - Qiita
                                                          • Pythonでデータの挙動を見やすくする可視化ツールを作成してみた - Qiita

                                                            ※アンダースコアのpip install seaborn_analyzerでもインストール可能です。 インポート時はアンダースコアのimport seaborn_analyzerやfrom seaborn_analyzer となるのでご注意ください コード モジュールcustom_pair_plot.py内のクラスCustomPairPlotに、必要な処理をまとめました。 GitHubにもアップロードしています モジュール本体 import seaborn as sns import numpy as np import pandas as pd import matplotlib.pyplot as plt from scipy import stats class CustomPairPlot(): #初期化 def __init__(self): self.df = None sel

                                                              Pythonでデータの挙動を見やすくする可視化ツールを作成してみた - Qiita
                                                            • [VS Code Python拡張] データサイエンスチュートリアルをやりながらVS CodeでのJupyter Notebookの使い方をマスターする | DevelopersIO

                                                              こんにちは、Mr.Moです。 下記の記事を見てVS CodeのPython拡張でJupyter Notebookが使えることを知り便利そうだなーとしばらく直感的に使っていましたが、そろそろちゃんと使いこなしたいので用意されているデータサイエンスチュートリアルを参考にしならが使い方をマスターしていきたいと思います! Visual Studio CodeでJupyter Notebookを動かしてみた データサイエンスチュートリアルとは VS Codeの公式ページあるチュートリアルです。March 2020 (version 1.44)のアップデートで公開されたようですね。 https://code.visualstudio.com/docs/python/data-science-tutorial チュートリアルを参考にしながら使い方を確認していく さっそくチュートリアルを進めていきます。あ

                                                                [VS Code Python拡張] データサイエンスチュートリアルをやりながらVS CodeでのJupyter Notebookの使い方をマスターする | DevelopersIO
                                                              • データサイエンティストの終わりなき戦い - Qiita

                                                                はじめに 筆者はかつてデータサイエンティストだった者です。 統計や機械学習をバリバリ使いこなしてデータを分析し、将来の売り上げ予測や要因分析、施策の効果検証などをすることに憧れてこの世界に入りましたが、そうした時間は全体の1割ほどに過ぎず、残り9割の時間の戦いに疲れて戦場を後にしました。 なぜデータサイエンティストは戦わなければならないのだろう。 おそらく一因としてあるのが、データサイエンティストという言葉がバズワード化しすぎてしまったせいで、その定義の輪郭が失われてしまったことだと思います。 整理された定義は、言わずと知れた尾崎隆さんのデータサイエンティスト・機械学習エンジニア・データアーキテクトの定義とスキル要件(2021年版)に記載されています。 しかし、専門家でも意見が別れる定義を素人がはっきりと分かるはずもなく、過度な期待が寄せられることで討死してしまうデータサイエンティストが少

                                                                  データサイエンティストの終わりなき戦い - Qiita
                                                                • Prophetを使って、30分でコウメ太夫の努力の結果をビジュアライズする。 - Qiita

                                                                  私はコウメ太夫が比較的好きだ。 彼に遭った最初で最後の機会は、まだ私が小学生の頃。 ショッピングモールで"徒然なるままに書き散らしたコウメ日記"に興じる彼に出会った。 その時のネタは今でも覚えている。 「(チャンチャヵ チャン×2 チャチャンヵ チャン×2)×2 最近目が悪いので。 コンタクトにしてみたら。 自分の頭が禿げてる事を知りました。 チクショウ。」 子供ながらに思った。 「消え去る日は近い」と。 私の直感的予測は当たり、2年もしないまま彼は芸能界の表舞台から姿を消した。 そこから時は流れること十数年、Twitterで不死鳥の如く復活を遂げる彼を目撃した。 彼は2016年3月、何を思ったかチクショーネタを毎日つぶやく、 "#まいにちチクショー"キャンペーンを始動させた。 最初のtweetのいいね数はわずか160台と、始まりは静かだったが、 時間が経つに連れて下記のようなフォロワーが

                                                                    Prophetを使って、30分でコウメ太夫の努力の結果をビジュアライズする。 - Qiita
                                                                  • 「PythonユーザーのためのJupyter実践入門」はPythonとデータサイエンスをする人の入り口だ - Lean Baseball

                                                                    待望のJupyter本, 改訂版来ました! Pythonでデータサイエンスとエンジニアリングするマンとしてかなり待望していた「PythonユーザのためのJupyter[実践]入門 改訂版」がついに来ました.*1 改訂版 Pythonユーザのための Jupyter[実践]入門 作者:池内 孝啓,片柳 薫子,@driller発売日: 2020/08/24メディア: 単行本(ソフトカバー) ひと足先に読ませていただいたので, 「PythonユーザのためのJupyter[実践]入門 改訂版」はPythonでデータサイエンスする人にとっての入り口でおすすめの本である Pythonでデータサイエンスをやるなら, 「Pythonと慣れ親しむ」「機械学習に慣れる」「実践する」の目的に合わせて学習・実践したり本を読んだほうがいいよ という話をこのエントリーではまとめていこうと思います. なおこのエントリーは

                                                                      「PythonユーザーのためのJupyter実践入門」はPythonとデータサイエンスをする人の入り口だ - Lean Baseball
                                                                    • 傾向スコアを用いた因果推論入門~実装編~ - 下町データサイエンティストの日常

                                                                      0. はじめに 1. 対象データ 2. 先に各手法の結果を確認 3.準備 4. 基礎集計~CMを見た人と見ていない人での目的変数の差~ 5. 因果推論の流れのおさらい 6. 傾向スコアモデリング 6.1 モデリング 6.2 テスト / コントロールの傾向スコアの可視化 6.3Rでの傾向スコアモデリングの実装 7. 傾向スコアマッチング 7.1 結構面倒なpython 7.2 R (Matchingライブラリ) 7.3マッチングの評価 8.IPW 9. ダブルロバスト 9.1 回帰モデル 9.2ダブルロバスト 10.Proximityマッチング 11.改めて、各種手法による推定因果効果のまとめ 12.まとめ 0. はじめに 理論編に引き続き、実装を行なっていきます。 pira-nino.hatenablog.com 実装はpythonとRの両方で行いました。 作業用のコードは以下のgithu

                                                                        傾向スコアを用いた因果推論入門~実装編~ - 下町データサイエンティストの日常
                                                                      • Python

                                                                        Python(パイソン)はプログラミング言語の一種です。最近は機械学習でよく用いられます。ここではPython 3.xを使って統計・機械学習の計算・グラフ描画をします。Rを使った統計・データ解析の姉妹編を目指しています。 [2024-04-07] コード部分をクリックするとクリップボードにコピーされるようにしました。 お品書き はじめの前に / PEP 8 インストール 実行 / Google Colaboratory / EIN(アイン) / Docker / ipynbを公開する方法 Pythonの初歩 / Collatzの問題 / 配列 / 基数変換 / ゼロ除算 プロット / 図のラスタライズ / seabornによるプロット / Plotly / プロットをデータに 曲線を描く / 正規分布の密度関数を描く ヒストグラム / 都道府県人口のヒストグラム / ドットプロット / ヒ

                                                                        • redash + Google Colabによる分析環境 - KAYAC engineers' blog

                                                                          ゲームコミュニティ事業部のデータエンジニア(β版)の池田です。 この記事は、Tech KAYAC Advent Calendar 2019 の7日目です。 今回もredash周りの話で、Lobiでの分析事例の話をしていきたいと思います。 (本ブログではredashおじさん化していますね。 ) Lobiでの分析環境の概要 ゲームコミュニティ事業部では主要サービスとして Lobi を開発・運営しています。 現在のLobiにおける分析環境は、以下の図のようになっています。 分析環境の図 アプリケーションが行動ログやアクセスログを出力し、それをFluentdやKinesis Data Firehoseを使ってS3バケットへ転送しています。その後@fujiwaraさんのrinを使ってRedshiftにロードしています。この周辺に関しては、ソーシャルゲーム事業部での記事と同様ですので、詳しくはそちらを

                                                                            redash + Google Colabによる分析環境 - KAYAC engineers' blog
                                                                          • Python: 時系列データの交差検証と TimeSeriesSplit の改良について - CUBE SUGAR CONTAINER

                                                                            一般的に、時系列データを扱うタスクでは過去のデータを使って未来のデータを予測することになる。 そのため、交差検証するときも過去のデータを使ってモデルを学習させた上で未来のデータを使って検証しなければいけない。 もし、未来のデータがモデルの学習データに混入すると、本来は利用できないデータにもとづいた楽観的な予測が得られてしまう。 今回は、そんな時系列データの交差検証と scikit-learn の TimeSeriesSplit の改良について書いてみる。 使った環境は次のとおり。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.14.6 BuildVersion: 18G3020 $ python -V Python 3.8.1 下準備 あらかじめ、必要なパッケージをインストールしておく。 $ pip install scikit-le

                                                                              Python: 時系列データの交差検証と TimeSeriesSplit の改良について - CUBE SUGAR CONTAINER
                                                                            • プログラミングする時に知っておきたいPythonライブラリ13選

                                                                              Pythonライブラリとは Pythonのライブラリとは、複数のパッケージをまとめたものです。パッケージは複数のモジュールをまとめたもので、モジュールは複数の関数をまとめたものです。 つまり、 のような関係性があります。 ライブラリには、標準ライブラリと外部ライブラリがあります。標準ライブラリは、Pythonをインストールした際に標準でインストールされているライブラリです。そのため、自分でインストールをする必要はありません。 対して外部ライブラリは、標準ではインストールされておらず自分でインストールが必要なライブラリです。 ではここからは、各ライブラリの紹介しましょう。 まずはこれから!標準ライブラリ3選 標準ライブラリでおさえておきたいライブラリは3つです。 pip Pythonで書かれたライブラリをインストールや管理をするためのライブラリがpip。ライブラリをインストールする場合、pi

                                                                                プログラミングする時に知っておきたいPythonライブラリ13選
                                                                              • kaggleで強化学習をやってみた - 機械学習 Memo φ(・ω・ )

                                                                                概要 現在、kaggle に Connect X という強化学習の Getting Started コンペ があります。このコンペを通じて強化学習を少し勉強したので、その内容を記載したいと思います。 こちらの書籍をもとに強化学習について理解したことと、Connect Xコンペでの実装を解説した記事になります。間違いがあれば、コメントいただけたら嬉しいです。 bookclub.kodansha.co.jp 強化学習とは 強化学習とは、行動から報酬が得られる環境において、各状況で報酬に繋がるような行動を出力するように、モデルを作成すること。 教師あり学習との違いは連続した行動によって得られる報酬を最大化させるという点です。囲碁を考えた時、ある局面で悪手に見えた一手が、先々進めると実は良い手だった、といった場合のその一手を選択できるようにするのが強化学習になります。 Connect X と強化学

                                                                                  kaggleで強化学習をやってみた - 機械学習 Memo φ(・ω・ )
                                                                                • 数学に強いエンジニアむけの機械学習勉強法

                                                                                  今年の3月から機械学習の勉強を始めて9ヶ月たったのでその振り返りと今後機械学習に入門する人の参考になればという記事です。 巷の記事だと「数学何もわからない人向けの機械学習~」みたいなものが多いので「数学チョットワカル人向け」に勉強方法をまとめてみようと思いました。 前提として筆者は大学で数学を専攻しており、社会人になってからはプログラミングを生業としております。 # 前提知識のおさらいいきなり機械学習入門~のような書籍に入る前に、基礎知識としてこの辺を抑えておくと良いと思います。 ## 線形代数:大学1年レベル機械学習の説明はほとんど行列の計算として表現されますので大前提として。手を動かして計算問題を解くのもおすすめです。 プログラミングのための線形代数 https://www.amazon.co.jp/dp/4274065782 ## 基礎統計(頻度主義):大学1年レベル正規分布や指数分