タグ

datascienceに関するcu39のブックマーク (12)

  • (翻訳)2017年の展望: pandas, Arrow, Feather, Parquet, Spark, Ibis - Qiita

    始めに:pandasの作者であるWes McKinneyさんがPythonのデータツール関連でとても興味深いblogを書かれているので、翻訳して日のPyDataコミュニティに公開してもいいでしょうか、とお聞きしたところ、快諾をいただきましたので少しずつ訳して公開していこうと思っています。 (原文:http://wesmckinney.com/blog/outlook-for-2017/ ) 2016/12/27 Python dataの開発に関して、2017はエキサイティングな年になりそうです。このポストでは、私から提供できそうなものについて書いていきます。それぞれのピースを全体としてどうまとめていくつもりなのか、詳しくは今後のポストで書いていきます。2016年は開発とPython for Data Analysisの第2版の作業で完全に手一杯でblogはあまり書けませんでした。2017

    (翻訳)2017年の展望: pandas, Arrow, Feather, Parquet, Spark, Ibis - Qiita
  • numpy/scipy/pandas/matplotlibメモ | mwSoft

    pandasでいろいろplot 概要 pandasとmatplotlibの機能演習のログ。 可視化にはあまり凝りたくはないから、pandasの機能お任せでさらっとできると楽で良いよね。人に説明する為にラベルとか色とか見やすく出す作業とか面倒。 @CretedDate 2014/09/25 @Versions python 2.7.6, pandas0.14, matplotlib1.4.2 DataFrameをplot DataFrameに対してplot()と書くだけで概ね描画できる。 とりあえずimport。 %pylab import pandas as pd import numpy as np from matplotlib import pylab as plt 3つのカラムを持つDataFrameをplotしてみる。 df = pd.DataFrame( [ [0, 1, 2]

    numpy/scipy/pandas/matplotlibメモ | mwSoft
  • Python pandas プロット機能を使いこなす - StatsFragments

    pandas は可視化のための API を提供しており、折れ線グラフ、棒グラフといった基的なプロットを簡易な API で利用することができる。一般的な使い方は公式ドキュメントに記載がある。 Visualization — pandas 0.17.1 documentation これらの機能は matplotlib に対する 薄い wrapper によって提供されている。ここでは pandas 側で一処理を加えることによって、ドキュメントに記載されているプロットより少し凝った出力を得る方法を書きたい。 補足 サンプルデータに対する見せ方として不適切なものがあるが、プロットの例ということでご容赦ください。 パッケージのインポート import matplotlib.pyplot as plt plt.style.use('ggplot') import matplotlib as mpl m

    Python pandas プロット機能を使いこなす - StatsFragments
  • 【プログラミング不要】ディープラーニング(h2o.ai)で株価予測をやってみた - ニートの言葉

    2017/07/20 追記 記事の内容に関してTwitter・メールで問い合わせをいただきますが、全員に対して返信を差し上げることが出来ないため、VALU保有者優先で相談を受けます。 valu.is 対象読者 自前のデータでディープラーニングを体験したい人 tensorflowなどのチュートリアルまでやったが、その次の道が見えない人 株価の予測に興味がある人 はじめに こんにちは。あんどう(@t_andou)です。 最近、人工知能技術の一種「ディープラーニング」に注目しています。 ディープラーニングとは、簡単に言うと「これまでは人間が教えていた『特徴』を機械が勝手に見つけてくれる」ものらしいです。 最初は画像処理系のプログラムで遊んでみました。 ディープラーニングという言葉はよく耳にするようになってきましたが、何ができるかわからなかったので、まずは体験するためにまずはディープラーニング

    【プログラミング不要】ディープラーニング(h2o.ai)で株価予測をやってみた - ニートの言葉
  • Weka 3 - Data Mining with Open Source Machine Learning Software in Java

    Weka is a collection of machine learning algorithms for data mining tasks. It contains tools for data preparation, classification, regression, clustering, association rules mining, and visualization. Found only on the islands of New Zealand, the Weka is a flightless bird with an inquisitive nature. The name is pronounced like this, and the bird sounds like this. Weka is open source software issued

  • pandas によるデータセットの加工 (2) - Qiita

    昨日は pandas でのデータセット加工について説明しましたがその続きです。 データを正規化する 実は今までの記事でもさり気なく正規化は登場してきたのですがきちんと説明していなかったと思います。 統計における 正規化 (normalize) とは、異なる基準のデータを一定の基準にしたがって変形し利用しやすくすることです。 たとえば国語が 90 点、数学が 70 点だったとしましょう。単純に数値だけを比較すると国語のほうが成績が良いことになってしまいますが、もし国語の平均点が 85 点、数学の平均点が 55 点だったら果たしてどうでしょうか?このように基準が異なるデータを比較できるようになるといったことが正規化のメリットです。 一般的には平均 0 、分散 (及び標準偏差) が 1 になるように値を変換することを指します。 これは以下の数式で算出できます。

    pandas によるデータセットの加工 (2) - Qiita
  • pandas によるデータセットの加工 (1) - Qiita

    サンプルデータの抽出 統計解析においてはデータの前処理が欠かせません。まず計算機で扱えるようデータを読み込むわけですが、大きめのデータを扱う計算処理においてはそのターンアラウンドがしばしば問題になります。このようなときに採るべき策はいくつかあります。 データのサイズを減らす ボトルネックを特定し計算量の削減をする 計算機の性能を上げる ビッグデータなどと言われて久しいですが実際には標のサイズを大きく取る必要はありません。標抽出法によって有意なサンプルを抜きだしましょう。 多くのデータ集中処理では I/O がボトルネックになります。このとき必要なデータだけを読み込むようにする、もとのデータを適切に分割して入力サイズそのものを減らす、といったことを検討するのが良いでしょう。 サンプルデータのスライスと集計 スライシング pandas でデータを扱う場合、スライシングは簡単におこなえます。

    pandas によるデータセットの加工 (1) - Qiita
  • [TensorFlowで株価予想] 0 - Google のサンプルコードを動かしてみる - Qiita

    TensorFlowで株価予想シリーズ 0 - Google のサンプルコードを動かしてみる 1 - 終値が始値よりも高くなるかで判定してみる 2 - 日経平均225銘柄の株価予想正解率ランキング〜 3 - 日3506銘柄の株価予想ランキング 4 - 実際に売買したら儲かるのかシミュレーションしてみる 5 - 大きく上がると予想されたときだけ買ってみるシミュレーション 6 - 学習データの項目を増やす!隠れ層のサイズも増やす! 7 - 株価が何%上昇すると予測したら買えばいいのか? 8 - どの銘柄を買うか 9 - 年利6.79% 前置き も杓子もディープラーニングディープラーニング。なにそれ美味いの? って感じだけど、 2015年末に Google が書いた 「Machine Learning with Financial Time Series Data on Google Clo

    [TensorFlowで株価予想] 0 - Google のサンプルコードを動かしてみる - Qiita
  • Python でデータサイエンス

    このサイトについて このサイトでは、データ加工や集計、統計分析などインタラクティブに実行されるスクリプトやバッチプログラム、格的な Web アプリケーションの実装まで、多彩な機能を持ちながらも初心者にも扱いやすいプログラミング言語 Python (パイソン) を使ったデータの統計分析の手順や使い方について紹介します。 初めてプログラムに触れる人や、R や SAS, Ruby のような言語のプログラミング経験はあっても、Python をあまり扱った経験のない初心者向けに理解できるような内容としてまとめています。 また、格的な統計分析(基統計量や多変量解析、データマイニング、機械学習)を学んだことがない人でも理解できるよう、統計(アナリティクス)の解説も必要に応じて述べています。 このサイトで提供できる情報を通して、皆さんが Python を使ったビッグデータ解析を思いのままに使いこなせ

  • 「TensorFlow Tutorialの数学的背景」 クイックツアー(パート1)

    TensorFlow勉強会(3) で発表予定の資料です。 http://connpass.com/event/27081/ 公開履歴 2016/03/25 ver1.0 公開 2016/03/29 ver1.1 Jupyterの紹介を追加

    「TensorFlow Tutorialの数学的背景」 クイックツアー(パート1)
  • 【2023年5月改訂版】実践 Python データサイエンス

    このコースは、Pythonを使ってデータを解析し可視化するために必要なスキルを網羅しています。Pythonと科学計算のためのライブラリの使い方が完璧に理解できるようになっています。 このコースを習得すれば、次のような事ができるようになります。 - Pythonプログラミングへの知識が深まります。 - NumPyを使って、アレイを使った数値計算ができるようになります。 - pandasを使った効果的なデータ解析ができるようになります。 - Matplotlibとseabornを使って、出版にも使えるほど綺麗なデータの可視化が可能になります。 - Pythonを使って実際にデータを解析する方法論が身につきます。 - 機械学習への理解が相当高まります。 2023年5月にコースの大幅改訂を行いました。ほとんどすべての動画と資料が更新されています。 17時間以上、100を超えるビデオと、すぐに使え

    【2023年5月改訂版】実践 Python データサイエンス
  • ŷhat | Data Science in Python

    Last September we gave a tutorial on Data Science with Python at DataGotham right here in NYC. The conference was great and I highly suggest it! The "data prom" event the night before the main conference was particularly fun! We've published the entire tutorial as a collection of IPython Notebooks. You can find the entire presentation on github or checkout the links to nbviewer below. Table of Con

    ŷhat | Data Science in Python
  • 1