stan推定後の可視化に便利なパッケージとその関数について紹介します。 ・stanfitオブジェクトについて ・rstanパッケージの関数 ・bayesplotパッケージの関数 ・tidyverseでstanfitを扱う
一般社団法人データサイエンティスト協会(所在地:東京都港区、代表理事:草野 隆史、以下データサイエンティスト協会)は、構造化データの加工について実践的に学ぶことができる無料の学習環境「データサイエンス100本ノック(構造化データ加工編)」をGitHubに公開しました。 「データサイエンス100本ノック(構造化データ加工編)」は、データサイエンス初学者を対象に、データの加工・集計、統計学や機械学習を駆使したモデリングの前処理等を学べるよう、データと実行環境構築スクリプト、演習問題をワンセットにしています。 近年、データ活用の重要性についての認知が広がる中で、書籍やWebサイトなど、データ分析のスキル向上に役立つ情報源も多く提供されています。一方で、実践するための「データ」や「プログラミング実行環境」を持ち合わせていないことも多く、「実践力」を身につける機会が限られていました。特に、「構造化デ
The default is sketch(im, style = 1, lineweight = 1, smooth = ceiling(lineweight), gain = .02, contrast = NULL, shadow = 0, max.size = 2048). - im: an image, obtained by using the im_load() function. - style: while style 1 focuses on edges, style 2 also retains shading. - lineweight: as the name suggests. set a numeric value equal to or larger than 0.3. - smooth: noise/blob smoother. set an intege
先日の西浦先生のニコ生の発表を聞いていない人はぜひ聞いてください。 モデルとデータを以下のリポジトリでオープンにしていただいたので、モデルについて僕が分かる範囲内で少し解説を加えたいと思います。 github.com 実効再生産数を推定するコードが2種類ありまして、最尤推定(Maximum Likelihood Estimation, MLE)を使ったMLE版(Sungmok Jungさん作成)と 、ベイズ推定版(Andrei Akhmetzhanovさん作成)があります。どちらもコンセプトはほぼ同じで、実装が若干異なります。この記事では、ベイズ推定版(以降、元コードと呼びます)の流れを簡単に説明し、その後でその拡張を試みます。 ベイズ推定版の流れ 大きく分けて「データの集計」「back projection」「実効再生産数の推定」の3つの部分からなります。 データの集計 まずは日付ごとの
効果検証入門〜正しい比較のための因果推論/計量経済学の基礎 作者:安井 翔太発売日: 2019/12/27メディア: Kindle版 ゴールデンウィークの握手会が延期になり気力が完全に尽きてしまい(そもそも2020年のほとんどのイベントが延期または中止になっているわけですが),同じく握手会が延期になった友人と「アイドルとシロクマのことを考えないでください状態になっていてつらい」「何か没頭できる事は無いの」という話になった結果,「効果検証入門」を読んだ. 「どうせ読むのならば短期集中で」ということで,一日目午後に1章と2章,二日目午前に3章,午後に4章,三日目午前に5章のペースで Zoom で交互に節単位を音読しながら進めた.2020年,30歳を過ぎて音読. 感想 数学力が低い自分でわかった気分になれる,非常に参考になった.明日からでも試したい.随所に「実際のビジネスの現場ではこんな滅茶苦茶
COVID-19が世界中に感染拡大し、日本含め多くの国で外出や集会の制限(自粛)措置が取られて久しい昨今ですが、これに伴って多くのところでCOVID-19に関連したオープンデータが公開されるようになっており、データ分析を生業とする人間が実データを扱う良い機会ともなっているように見受けられます。 ということで、今回の記事では東京都が公開している日次のCOVID-19感染者(PCR検査陽性者)報告数のデータを題材として、時系列モデリングのおさらいをしてみようと思います。なお、この記事における時系列モデリング結果は今後のCOVID-19の感染拡大状況について何かしらの解釈や予測をするためのものでは全くありません*1ので、悪しからずご了承ください。 また、この記事で公開しているコードは以前書いたクソコードをそのまま転用しているので、端的に言ってただのクソコードです。皆さん自身がお試しになる際は是非
時系列予測のベストプラクティスを共有するGitHubリポジトリを開設、Microsoft:PythonやR向け Microsoftは、時系列予測のベストプラクティスを共有するためのGitHubリポジトリを開設した。PythonやRを使っている開発者に向けたものだ。 Microsoftの「R」コミュニティー向けブログサイト「Revolutions」は、2020年4月14日(米国時間)、時系列予測のベストプラクティスを共有するためのGitHubリポジトリ「Time Series Forecasting Best Practices & Examples」を開設したと発表した。 Microsoftはこのリポジトリについて、README.mdで次のように説明している。 「時系列予測は、データサイエンスで最も重要なトピックの一つだ。的確な意思決定と効果的な資源配分を行うために、ほぼ全ての企業には未来
1 はじめに この記事は、R Advent Calendar 2015の12月22日担当分の記事です。 また、この内容は2015年12月5日に私がJapan.R 2015にて発表した内容をベースに、説明をくわえ再編集したものです。その時のスライドは以下に設置しています: http://rpubs.com/kazutan/leaflet_slide 1.1 leafletとは leafletとは、JavaScriptのオープンソースライブラリである“leaflet.js”をRでも利用できるようにしたパッケージです。これはhtmlwidgetsパッケージにより実現されています。JavaScriptを使わなくてもRだけで利用可能ということで、非常に注目を集めているパッケージです。 1.2 特徴 最大の特徴は、htmlで動的な地図が作れることです。主に以下のような特徴が挙げられます。 ぐりぐり動か
日本国内の潜在的な陽性者数を推定することは有益ですが、簡単ではありません。PCR検査がランダムになっていないことが推定を難しくしています。有症状者が検査されやすいというselection biasがあるからです。この記事ではいくつか仮定を置いて潜在的な陽性者数を推定したいと思います。 仮定 全国民のうち潜在的に陽性になっている割合 この割合は年代によらず一定と仮定します。ここでは と書きます(posはpositiveの略)。例えば0.0001なら日本人約1億2千万人中、おおよそ12000人が潜在的に陽性になっている計算です。 なお、国民の年代別人口の値はこのページの令和2年3月報 (令和元年10月確定値,令和2年3月概算値) (PDF:301KB) の「2019年10月1日現在(確定値)」の総人口 男女計の値を使用しました。 陽性者中の有症状者の割合 若年層で無症状が多いなど、年代で異なる
2020年1月25日に行われた第83回Tokyo.Rでの発表資料です https://tokyor.connpass.com/event/161709/ 資料で使われたコードは以下になります https://github.com/dropout009/tokyoR83
こんにちは。エンジニアリンググループ AI・機械学習チームの大垣です。 これは エムスリー Advent Calendar 2019 の10日目の記事です。 前日は id:sora_sakaki による、量子ゲームを開発した話でした。 さて、この記事ではデータエンジニアの皆さんが戦われているであろうログデータの活用の話をします。 もちろんエムスリーでもレコメンドやコンテンツの出し分けなどログデータを活用したシステムが開発されています。 ここでは、そのログに加えて、アンケートを用いることで、解釈しやすいユーザーの嗜好分類を行う話をします。 なおこの内容は本日の Machine Learning Night というイベントで簡単に紹介し、スライドも公開する予定です。ご興味のある方はそちらも是非ご覧ください。 webサービスでの行動ログとアンケートの結果を紐づけて予測モデルを作る。アンケート非回
この記事では、状態空間モデルをStanで推定するときの収束を良くするコツを説明します。 コードはGitHubから参照できます。 状態空間モデルは説明能力が高く、データに合わせて柔軟に構造を変えることができます。しかし、あまりに複雑な構造を指定すると、結果が収束しないこともしばしばあります。 収束が悪い時には、弱情報事前分布を指定したり、MCMC実行時の設定を変える(iterやwarmupを増やす等)で対応することが多いと思います。こちらの方法で多くの場合は解決しますが、複雑なモデルですと、そもそものStanコードの実装の方法から変えた方が良いかもしれません。 この記事では、状態空間モデルの収束を良くするために、Stanコードの書き方を工夫するやり方を紹介します。 良いやり方は無いかなと調べていたところ『Bayesian structural time series modeling』という
機械学習・データサイエンスのチートシート集、便利なものがたくさん出回っていますが、ちまちまブラウザからダウンロードしていたりしませんか?そんな貴方にお勧めなのがこちらのレポジトリ。 FavioVazquez/ds-cheatsheets https://github.com/FavioVazquez/ds-cheatsheets はい、クリックあるいはコマンド一つで100を超えるチートシートが一括でダウンロードできちゃいますね。以上、釣りタイトル失礼しました。 と、これだけではなんなので、個人的に有用性が高いと感じたものを、大きなサムネイル付きでまとめてみました。ソースとして、DataCamp及びRStudio公式ページの情報量は圧倒的なので、一読をお勧めします。 科学計算・データ操作・可視化 Python (NumPy/SciPy/Pandas/matplotlib/bokeh) Pyt
時系列データへのクロスバリデーション法を用いて、予測精度の評価を行う方法を説明します。 R言語のforecastパッケージのtsCV関数を用いると、効率的な短いコードで実装が可能です。 この記事では、時系列データの前処理~モデル化~予測~予測の評価、といった一連の流れをすべて通して解説します。 今回は標準的な時系列モデルであるSARIMAモデルを用いますが、このモデル以外でもおおよその手順は変わらないと思います。 予測の評価における基本的な事項は『予測の評価方法:誤差の指標とナイーブな予測』も合わせて参照してください。 コードはGitHubから参照することができます。 スポンサードリンク 目次 分析の準備と前処理 SARIMAモデルの構築 SARIMAによる予測 テストデータを使った予測の評価 クロスバリデーション法による予測の評価 スライド型のクロスバリデーション法の実行 後記 1.分析
All slide content and descriptions are owned by their creators.
Commandeur & Koopman「状態空間時系列分析入門」をRで再現する 仕事の都合で仕方なく状態空間モデルについて勉強していたのだけれど(なぜ私がこんな目に)、仕事で使うためには自分で計算できるようにならなければならない。 参考にしているCommandeur & Koopman 「状態空間時系列分析入門」(以下「CK本」)の著者らは、すべての事例についてデータとプログラムを公開している。ありがたいことであります。しかし、ssfpackという耳慣れないソフトを使わなければならない。わざわざ新しいソフトの使い方を覚えるのは大変に面倒だ。できれば普段使っているソフトで済ませたい。 というわけで、勉強かたがた、CK本に出てくる計算例を片っ端から R で再現してみた。汗と涙の甲斐あって、すべての章についていちおう再現できたので、ここに載せておくことにする。 もくじ: Rプログラム紹介 全体
この記事は、遥か昔のこちらの記事の続きのようなものです。また何度も何度も恐縮ですが、今回の記事内容も付け焼き刃で書いているので色々間違っている可能性があります。お気付きの方は是非ご指摘くださいm(_ _)m 各方面のエコノメトリシャンの方々と上記記事を書いた際に議論*1したことがあるのですが、その時は基本的に統計モデリングを行う際は以下のような判別表に従ってモデルを使い分けるべきだという話になったのでした。 確率分布 特徴 ポアソン分布 データが正の離散値、平均値30ぐらいまで、標本平均=標本分散 負の二項分布 データが正の離散値、平均値30ぐらいまで、標本平均<標本分散 二項分布 データが離散値、ゼロ以上でしかも有限 (0, 1, 2, ... N) 正規分布 データが連続値もしくは離散値でも平均値が十分大*2 (-∞~∞) 対数正規分布 同上、ただし正の値、範囲 (0~∞) ガンマ分布
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く