この記事について Pythonでデータ分析を行う際に役立つセットアップを紹介します。 データ分析に興味がある方はこちらも合わせてどうぞ データサイエンティストに興味があるならまずこの辺りを見ておきな、って文献・動画のまとめ(随時追加) - Qiita 実行環境 Jupyter(旧iPython Notebook) http://jupyter.org/ インタラクティブ(対話的)なコード実行のための環境 データ分析に非常に適していて、慣れると他のIDEなどでは分析ができなくなる。 任意に分けたコードブロックごとに実行し、結果を都度表示出来るほか、 ・グラフのインライン表示 ・数式の記述(Latex) ・マークダウン方式の文章記載 などの機能を備えており、模索しながらの分析作業や、結果の共有・保管などに非常に適する。 iPythonで文章と図表を描くことで論文のような形式で書くことも出来るた
こんにちは、ほけきよです。 pythonでデータを取り扱っているとき「あれ、これどうやるんだっけ??」 ってなること、ありませんか?僕は10分に1回程度なります。 いや、覚えろと自分でも思うんですが、覚えられないんですよね。100回くらい同じコマンドを調べてたりする。 物覚えが良くないので、ココを見れば絶対大丈夫なようにしておこうと思い、まとめてみました。 jupyterで最初に開くときに読み込むモジュールたち datetime 日付⇔文字列の変換 datetimeの足し算引き算 json dict型⇔json jsonファイルの入出力 datetimeをjsonにする時、エラーが出る pandas ~以外を表すやつ andとor inf弾く リストをdfにサクッと変換 datetimeとして読み込み 読み込み時にcodecのエラーが出る DataFrameのfor文 numpy lins
今日で週休七日生活が終わる野球エンジニアこと@shinyorkeです. 昨年末に,BigQueryに突っ込んだ野球データでダルビッシュ有さん(@faridyu)の投球データについてかる~く調べてみました. 「今年こそPythonでデータ分析するぞ!」 「BigQueryをPythonから使いたいぞ!」 っていう野球好きの方の参考になれば幸いです. なお今回はホントにデータを覗き見した程度の軽いネタです. TL;DR 投球コースを散布図で可視化するといい感じになる 球種と結果をSankey Diagramにするのも面白い BigQueryとJupyter,pandasの組み合わせすっごい楽 次回はPySparkあたりで学習とかさせたい 多分おそらく@faridyuさんはここに書いた分析と傾向の斜め上をいくと思ういや行って欲しい(ファンとして) Starting Member TL;DR St
データ分析ガチ勉強アドベントカレンダー 24日目。 当サイトでも、Pythonを使ったデータ分析や機械学習について、勉強しながらそれをアウトプットとして出すと言うかたちで、何個も記事を書いてきました。 記事数で言えば50とかそのくらいあるような気がします。 カレンダーも完成しつつあるので、個々では当サイトの総まとめとして、機械学習やデータ分析に触れたいという人がゼロから始めて触れられるように、記事をまとめていきたいと思います。 何か面白いことを勉強したい学生、就職までの勉強に、急に機械学習を使わなければならない社会人方々は、読んで見てください。 0. 環境構築 0.1. Pythonの導入 (Anaconda) 0.2. エディタ (Pycharm/VSCode) 0.3. バージョン管理 (Git) 1. Pythonの使い方(基本ライブラリ) 1.1. 数値計算 : numpy 1.2
今までIPython Notebook上でRを動かそうとするとrpy2やらをごにょごにょやるとかいう方法がありましたが、いちいち%%を打ったりといろいろ不便でした。 が、先月末(2015/02/27)のIPython 3.0のリリースでIPython Notebookが大きく変わり、(まだ開発版ですが)Rとの連携もかなり楽になりました!というか今後はRだけでなく、Juliaや他の言語もカバーする方向に進むそうで、特定の言語に依存しない部分をJupyterという別プロジェクトでやっていくそうです。 代表的な言語のJupyterカーネルとしては以下のようなものが存在する模様。 Python (https://github.com/ipython/ipython) Julia (https://github.com/JuliaLang/IJulia.jl) R (https://github.c
研究をかれこれ2年半ぐらい続けてきたので、研究をする中で必要になった機械学習の手法について調べたりコードを書いたりしてきたのですが、まだまだ触ったことのない機械学習の手法も多く、研究で必要になる手法以外の知識も付けたくなってきたので、勉強し始めました。 Sphinxにまとめるか悩んだのですが、「ひとまず簡単にスライドにできること」・「手元でもすぐにコードを実行できる」という理由でJupyter Notebookを使用しています。 もし誤りやタイポ等があれば、IssueやPRお待ちしております。 github.com 今のところ↓の2つについてまとめました。 Jupyter Notebook / Numpy / Pandas / matplotlib入門 決定木(Decision Tree) ノートブックの内容一覧 内容については今後何度も変更をすると思いますが、とりあえず今の予定としては下
Pythonには「NumPy」や「Pandas」などデータ分析に役立つライブラリが充実しており、中にはPythonからRを呼び出すことができるライブラリもあります。 これからデータ分析を始めるエンジニアのために、Pythonでのデータ分析に関する入門スライドを13個まとめてご紹介いたします。 データ分析の初心者向けのスライドを中心にピックアップしていますので、これからデータ分析を学びたいというエンジニアの方はぜひご覧ください。 【ご自身のデータ分析スキルの価値を知りたい方はご相談ください】 ・市場価値を知りたい方の個別相談会 ・キャリアアップを目指す方の個別相談会 ・転職のタイミングや業界動向を知りたい方の相談会 10分でわかるPythonの開発環境 10分でわかるPythonの開発環境 from Hisao Soyama Pythonを書く前にやっておくべき開発環境の構築についてまとめた
R と Python の連携を考える 最近 R による基本的なデータプロッティングやファイル入出力の方法について説明しました。 データ分析の言語としては Python ですべてをやろうという傾向があるようですが、やはり過去の膨大な R による資産は魅力的でそう簡単に切り捨てられるものではありません。 よくあるケースとしては、部分的なデータ解析については R を流用したいが、全体的なプログラミングは Python で書きたいというシーンでしょう。また、プロッティングだけ R でおこないたいという場合もあるでしょう。こんなとき Python と R で連携できれば問題が一気に解決して便利です。 Python から R を利用するライブラリ PypeR かつては RPy2 というライブラリが使われていたようですが、最近使われており主流なのは PypeR です。 PypeR のインストール インス
機械学習の勉強や新しいアルゴリズムのテストをする場合、irisなどのシステム組み込みのサンプルデータを利用するか、UCIリポジトリなどのネット上の公開データから良さげなものを探すというのが一般的だと思います。 しかしながら、irisなどの組み込みデータは一般にデータ数が少なく、分類問題として物足りなかったり、ネット上の公開データを利用するにしても適当なデータ数や特徴量数、問題設定や難度のデータを探すのが難しいですし、前処理が必要なデータも多く手軽に使えるサンプルデータとなると中々見つけられないといったことがあるかと思います。 そういった場合、適当なデータ数や難しさのデータを自分で生成して利用すると、後の計算コスト評価や機械学習アルゴリズムの理解において色々と便利です。 サンプルデータの作り方としては、何らかの統計モデルに基づいて作る方法もありますが、データの質にこだわらないのであればsci
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く