Pythonで米国株を分析したいという人や、 米国株を題材にPythonのプログラミングを始めてみたいという初心者の人に向けて、 今までに作成したPythonのツールを一覧にしてみました。 株価、金利、経済指標を「確認するツール」から、トレンド、アノマリー、相関関係を「分析するツール」まで、多岐に渡る30以上のツールを無料で公開しています。 よかったらブックマークして、「米国株を調べる時」、もしくは「興味のあるツールをキッカケにPythonを勉強する時」の索引として使ってみてください。
大きなデータを取り扱ってみたい! 株価を分析するのって面白そう! と思い立って調べてみると,海外の株式はPandasのDataReaderで案外簡単にデータとして手に入りますが, (例えばGoogle financeやFREDなど) 日本の株価は,案外データとして見つかりません. Yahoo!ファイナンスから引っ張ってくればいいじゃん!という記事は多いですが, Yahoo!ファイナンスはスクレイピングを禁止しているため,こちらから引っ張ってくるわけにもいきません. モジュールのjsmを使えば…という意見もあるかもしれませんが,こちらもスクレイピングを使用しています. 本記事は,スクレイピングなしでデータを取得し,ひとつのリストとすることを目的とします. せっかちな人のためのコード いいから結論だけ教えてくれ!って人のために(がんばってかいた)コードをおいておきます. 細かい点は各自修正をお
Pythonで作って学ぶ統計モデリング 近年、AIや機械学習、深層学習といった用語に代表されるように、多種多様のデータを高度なアルゴリズムと計算機の力で解析し、将来予測などの価値を生み出す技術に注目が集まっています。 これらの技術の土台となっているのが、本記事で解説する統計モデリング(statistical modeling) と呼ばれる考え方です。元々は手計算が可能なレベルの比較的シンプルな数学的仮定を置いてデータを解析する方法論として発展しましたが、近年の計算機の性能発達に伴い、従来では取り扱えなかったより複雑なモデルを利用した高度な解析を実施する事例が増えてきています。特に、現在実践で広く使われている機械学習のモデルや、複雑な非線形関数を組み合わせた深層学習モデルなども、その多くは突き詰めれば統計モデルの一種であることが言えます。したがって、統計モデリングはそれ自体がデータ解析に対し
概要 WEB系のサービスで色々な試作を実施した後に効果を検証するのは非常に重要だと思いますが、 そのやり方として基本的な統計学が十分に使えると思っています。 今回は基本的な統計学からビジネスで使える試作の効果検証、データ分析を目的にPython+JupyterLab(Docker)を使った統計的データ分析のやり方をまとめました。 また今回使ったnotebookは以下にもありますのでご参考ください。 https://github.com/hikarut/Data-Science/tree/master/notebooks/statisticsSample 環境 以下を参考にDockerでJupyterLabが使える状態を前提とします。 Dockerで起動したJupyterLabでvimキーバインドを使う
「Excelデータをプログラムで扱うのなら、VBA(Visual Basic for Applications)を使うべし」。多くの人はそう思っているでしょう。もちろんVBAはMicrosoft Officeのソフトを操るのにとても便利なプログラミング言語ですが、弱点もあります。 その1つが、Officeにしばられてしまうこと。業務に必要なデータ量がExcelや「Access」のカバーする範囲で収まらなくなったら、もう扱えません。 また互換性の問題から、Windows上で書かれたVBAのソースコードは基本的に、macOSやLinuxでは動かせません。VBAはプログラミング初心者にとって理解しやすい一方で、コードが冗長になりがちという側面もあります。 今からプログラミングを学んで業務を自動化したいなら、筆者はPythonをお薦めします。Pythonはシンプルで勉強しやすく、ライブラリーが豊富
株式会社nehanは、プログラミング不要の分析ツールnehan上にて、作成した分析プロセスをPythonコードとして出力できる機能の提供を開始いたしました。 分系ツールnehanは「"データ分析は前処理の時間が8割"の常識を覆す」をテーマに、プログラミング不要で様々な分析業務を可能にするサービスです。 2019年5月の提供開始以降、50社以上の企業様よりお問い合わせを頂戴し、また、導入企業様より業務効率化実感の声を多くいただいております。 Pythonコード出力機能は、プログラミング不要で作成した分析プロセスを、Pythonコードに変換し出力する機能です。これにより、プログラムを書くより早くプログラムを作成することが可能になり、業務効率化を実現できます。 この機能の最大の魅力は、データ活用における「分析ロジックやアルゴリズムのシステム組み込み」をプログラミング不要で実現できることです。 例
都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーター ほしいものリスト テキストデータの特徴量化について 仕事ではテキストデータを多用するので、機械学習などで扱うためにテキストデータを特徴量にするためのアプローチを色々と整理してソースコードを残しておきたいと思います。今回はあくまでも私の知っているものだけなので、網羅性はないかもしれませんが悪しからず。 (2019/08/18 追記)Stackingをカジュアルに行えるvecstackというモジュールを用いた予測も試してみました。下の方の追記をご覧ください。 アプローチ テキストデータを特
データの集計は、ExcelよりPython使ったほうが100倍早い(pandas-profiling, pixiedust)Pythonpandasデータ分析データ可視化pandas-profiling Pythonのpandas-profilingと、pixiedustの2つのライブラリを使うと、データの集計・グラフの作成が、感動的なほど早く終わることを実感したので共有します。 Excelでデータ集計・グラフ作成した場合と比較すると、体感で100倍くらい早く終わります(誇張ではなく) Pythonで爆速でデータ集計する方法(体感所要時間:5分) 前提: 以下の環境が整備されていることは、前提とします。 Pythonのインストール(約30分) データ分析に必要な各種ライブラリのインストール(約30分) →numpy, matplotlib, pandas, jupyter など →Anac
Pythonの可視化ライブラリ「Bokeh」ではじめるデータビジュアライゼーション Bokehではじめるデータビジュアライゼーション 2019年1月22日、freee株式会社にて、Data Driven Developer Meetupが主催するイベント「Data Driven Developer Meetup #4」が開催されました。サービスをより良いものにするために日々データと向き合っているデータサイエンティストやエンジニアなど、様々な職種で活躍する人々が集い、知見を共有する本イベント。今回は日本経済新聞社とエムスリー株式会社の2社がメインセッションに登壇し、自社の取り組みについて語りました。プレゼンテーション「Bokehではじめるデータビジュアライゼーション」に登場したのは、YukiyoshiSato氏。デモを交えながら、Pythonのインタラクティブビジュアライゼーションライブラリ
TellusでSARデータと光学データに馴染んでもらえるようなアプリを作ろう、ということで今回のアプリは誕生しました。 衛星データプラットフォームであるTellusは、今回の最新リリースで、Pythonを使ったデータ分析で便利なJupyter Notebookに対応しました。Tellusについて詳しくはこちらの記事をご覧ください。 Tellusに搭載されているAPIを引っ張ることができるようになったので、株式会社プラハさん協力のもとパズルアプリを作成しながらJupyter Notebookの機能をご紹介していきたいと思います! ※本記事の内容を実践するためにはTellusの利用登録が必要になります。利用登録はこちらから Tellusには、大きく2種類のアクセス方法があります。 1つはブラウザ上に表示した地図上に様々なデータを重ね、操作できるTellus OS、もう1つはプログラミングでデー
関連キーワード BI(ビジネスインテリジェンス) データと分析は、デジタルトランスフォーメーションやデジタルディスラプション(デジタル時代の創造的破壊)を引き起こすガソリンになる。そして、企業がこのガソリンをハイオクに変える方法は1つしかない。それは、統計学者、数学者、ビジネス分析専門家のチームに適切なデータサイエンスツールを提供し、増大し続ける企業データのプールから洞察を引き出すことだ。 純粋な統計分析、機械学習のモデリング、視覚化など、その用途が何であれ、データ駆動型のビジネス文化を発展させるには強力な一連のデータサイエンスツールが欠かせない。 さまざまな業界に身を置く多数の経験豊かなデータサイエンティストと情報交換を行い、各自が最も使用しているツールについてインタビューした。本稿では、その中で何度となく名前が挙がった上位5つの厳選されたツールを紹介する。 併せて読みたいお薦め記事 進
本日は PythonでGISデータを扱う際に便利なライブラリについてまとめてみようと思います。ほとんどが過去のエントリーで紹介しているものですが、これからGISデータを扱おうと思っている方やたくさんライブラリがある中でどういったものを選択していいのか迷っている方はぜひ参考にしてみてください。 メジャーなライブラリ まずはこれを使っておけば間違いないというライブラリを紹介します。 GDAL PythonのGIS系ライブラリと言えばまずGDALを思い浮かべるくらいメジャーなライブラリです。ベクターからラスター、また、データの読み込みから書き込みまで基本的なことは何でもできると考えて大丈夫です。過去のエントリーでもGDALに関していくつかの機能を紹介しています。 www.gis-py.com www.gis-py.com www.gis-py.com www.gis-py.com GeoPand
毎年恒例、Pythonの本と学び方のまとめ・2019年バージョンとなります. ※2021/1/11更新:2021年版あります ※2020/1/9更新:2020年版もあります, こちらもよろしくおねがいします! ※ちなみに昨年版はこちら 改めましてこんにちは、Pythonと野球を仕事にしています、@shinyorke(Python歴おおよそ8年)ともうします. なお、Python その2 Advent Calendar 2018 12/24記事でもあります. このエントリーはそこそこ長いので、「最初の方をサクッと読んで、残りはつまみ読み」してもらえると良いかもです!*1 ※もちろん全部読んでも構いません!(それはそれで嬉しい) サクッとまとめると 入り口としての「独学プログラマー」は万人が読んだほうが良い名著 データ分析・解析やりたい人も、Webからやっておくと良いかも(特に前処理) Web
機械学習における分類問題では、扱うデータセットに含まれるラベルに偏りのあるケースがある。 これは、例えば異常検知の分野では特に顕著で、異常なデータというのは正常なデータに比べると極端に数が少ない。 正常なデータが 99.99% なのに対し異常なデータは 0.01% なんてこともある。 このようなデータセットは不均衡データ (Imbalanced data) といって機械学習で扱う上で注意を要する。 今回は、不均衡データを扱う上での問題点と、その対処法について見てみる。 なお、登場する分類問題の評価指標については、以前このブログで扱ったことがあるのでそちらを参照のこと。 blog.amedama.jp 使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.14.2 BuildVersion: 18C54 $ python
先に結論から。Youtubeのチャンネル登録をして、この動画を見ればPythonで自動化できることが分かりやすく解説しているので、これを見れば一発です。 ※追記 2019年6月7日 これ以外にもプログラミングの解説動画があるので、ぜひ以下のリンクからチャンネル登録して、ほかの動画も見てみてください! Youtubeでチャンネル登録して動画を見てみる Pythonでは、Web APIを利用すると、データの自動収集ができるようになります。しかし、Web APIと言われてもよくわからないですよね。今回は、 PythonでAPIを利用する方法を知りたい。どうやったら呼び出すことができるの? Pythonで使えるAPIってどんなものがあるの? PythonのAPIを使えるようになるためには、どうすればよいの? という疑問に答えられるよう、PythonでWeb APIを利用する方法について詳しくまとめ
本連載では、プログラミングの基本は理解していて、より実践的なデータ解析に取り組みたい方を対象に、スクリプト言語によるデータ解析の実践を解説します。スクリプト言語のなかでも特にデータ解析に役立つライブラリや環境が整っているPythonを取り上げ、対話型解析ツールやライブラリについて導入から解析の実行・可視化までを解説します。第2回では、Pythonによる探索的データ解析を解説します。まず対話的環境による探索的データ解析について確認し、Jupyter Notebookを使ったデータ解析の実行・可視化までの手順を解説します。 対象読者 Pythonの基本的な文法を理解しておりデータ解析のスキルアップに取り組みたい サンプルの動作確認環境 MacOS 10.13 Anaconda 5.1 Python 3.6 Jupyter Notebook 5.4 探索的データ解析の流れを確認 まず対話型環境に
機械学習など主に予測を目的とした統計手法に強いイメージのPythonでしたが、統計的因果推論を行うためのライブラリ、“DoWhy”がついにリリースされました。 DoWhy | Making causal inference easy — DoWhy | Making Causal Inference Easy documentation これまで因果推論があまり浸透してこなかった*1データサイエンス界に新しい風が吹くのではと期待が高まります。 一方でこのパッケージが何を可能にし、逆に何ができないのかを理解しなければ、雑なデータ分析が増えて逆に有害なのではと思い、今回ブログを書くことにしました。 先に言っておくと、私自身はPythonをメインに使っているわけではありません(使ったことはあるので一応コードを読んで何が起こっているかくらいはわかります)。したがって本記事の目的は、DoWhyライブ
今回は、KaggleのWinner solutionにもなった「K近傍を用いた特徴量抽出」を紹介します。 Rでの実装は公開されていますが、Pythonでの実装は確認できなかったので、自前のPython実装も公開しています。 github.com アルゴリズムの概要 Pythonでの例 可視化のためのパッケージ読み込み サンプルデータの生成 可視化 K近傍を用いた特徴量抽出 可視化 iris での例 追記20180624 実装の修正 はてなホットエントリ入り アルゴリズムの概要 近傍数を、分類するクラス数をとした場合に、アルゴリズムは個の特徴量を生成します。生成される特徴量は下記のように、観測値と各クラス内の最近傍点との間の距離から計算されます。 とあるクラスに属する訓練データの中の第1近傍までの距離を1つ目の特徴量とする とあるクラスに属する訓練データの中の第2近傍までの距離の和を2つ目の
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く