[B! *business][r] masadreamのブックマーク

masadream id:masadream

*businessとrに関するmasadreamのブックマーク (85)

stan推定後の可視化について Tokyo.R#94
stan推定後の可視化に便利なパッケージとその関数について紹介します。・stanfitオブジェクトについて・rstanパッケージの関数・bayesplotパッケージの関数・tidyverseでstanfitを扱う
masadream 2021/09/19
*ai_ml

*business

*tips

r
リンク
Microsoft、「Visual Studio Code」の新しい拡張機能「Jupyter」を発表／「Python」言語拡張と切り離して、それ以外のプログラミング言語でも利用可能に
masadream 2020/11/20
*business

*ai_ml

microsoft

python

r
リンク
データサイエンス初学者のための実践的な学習環境「データサイエンス100本ノック（構造化データ加工編）」をGitHubに無料公開 | 一般社団法人データサイエンティスト協会
一般社団法人データサイエンティスト協会（所在地：東京都港区、代表理事：草野隆史、以下データサイエンティスト協会）は、構造化データの加工について実践的に学ぶことができる無料の学習環境「データサイエンス100本ノック（構造化データ加工編）」をGitHubに公開しました。「データサイエンス100本ノック（構造化データ加工編）」は、データサイエンス初学者を対象に、データの加工・集計、統計学や機械学習を駆使したモデリングの前処理等を学べるよう、データと実行環境構築スクリプト、演習問題をワンセットにしています。近年、データ活用の重要性についての認知が広がる中で、書籍やWebサイトなど、データ分析のスキル向上に役立つ情報源も多く提供されています。一方で、実践するための「データ」や「プログラミング実行環境」を持ち合わせていないことも多く、「実践力」を身につける機会が限られていました。特に、「構造化デ
masadream 2020/06/21
*matome

*business

*ai_ml

python

r
リンク
sketcher
The default is sketch(im, style = 1, lineweight = 1, smooth = ceiling(lineweight), gain = .02, contrast = NULL, shadow = 0, max.size = 2048). - im: an image, obtained by using the im_load() function. - style: while style 1 focuses on edges, style 2 also retains shading. - lineweight: as the name suggests. set a numeric value equal to or larger than 0.3. - smooth: noise/blob smoother. set an intege
masadream 2020/06/07
画像を線画に変換できるRパッケージ。

*business

*ai_ml

r
リンク
西浦先生らによる実効再生産数の統計モデルを解説＆拡張する試み - StatModeling Memorandum
先日の西浦先生のニコ生の発表を聞いていない人はぜひ聞いてください。モデルとデータを以下のリポジトリでオープンにしていただいたので、モデルについて僕が分かる範囲内で少し解説を加えたいと思います。 github.com 実効再生産数を推定するコードが2種類ありまして、最尤推定（Maximum Likelihood Estimation, MLE）を使ったMLE版（Sungmok Jungさん作成）と、ベイズ推定版（Andrei Akhmetzhanovさん作成）があります。どちらもコンセプトはほぼ同じで、実装が若干異なります。この記事では、ベイズ推定版（以降、元コードと呼びます）の流れを簡単に説明し、その後でその拡張を試みます。ベイズ推定版の流れ大きく分けて「データの集計」「back projection」「実効再生産数の推定」の3つの部分からなります。データの集計まずは日付ごとの
masadream 2020/05/24
良記事。すごいよ…

*business

*ai_ml

r

*excellent
リンク
握手会が延期になったので「効果検証入門」を読んで Python で (ほぼ) 実装した - 糞糞糞ネット弁慶
効果検証入門〜正しい比較のための因果推論／計量経済学の基礎作者:安井翔太発売日: 2019/12/27メディア: Kindle版ゴールデンウィークの握手会が延期になり気力が完全に尽きてしまい(そもそも2020年のほとんどのイベントが延期または中止になっているわけですが)，同じく握手会が延期になった友人と「アイドルとシロクマのことを考えないでください状態になっていてつらい」「何か没頭できる事は無いの」という話になった結果，「効果検証入門」を読んだ．「どうせ読むのならば短期集中で」ということで，一日目午後に1章と2章，二日目午前に3章，午後に4章，三日目午前に5章のペースで Zoom で交互に節単位を音読しながら進めた．2020年，30歳を過ぎて音読．感想数学力が低い自分でわかった気分になれる，非常に参考になった．明日からでも試したい．随所に「実際のビジネスの現場ではこんな滅茶苦茶
masadream 2020/05/11
*business

*ai_ml

python

r
リンク
時系列モデリングのおさらい：季節調整とトレンド抽出 - 渋谷駅前で働くデータサイエンティストのブログ
COVID-19が世界中に感染拡大し、日本含め多くの国で外出や集会の制限（自粛）措置が取られて久しい昨今ですが、これに伴って多くのところでCOVID-19に関連したオープンデータが公開されるようになっており、データ分析を生業とする人間が実データを扱う良い機会ともなっているように見受けられます。ということで、今回の記事では東京都が公開している日次のCOVID-19感染者（PCR検査陽性者）報告数のデータを題材として、時系列モデリングのおさらいをしてみようと思います。なお、この記事における時系列モデリング結果は今後のCOVID-19の感染拡大状況について何かしらの解釈や予測をするためのものでは全くありません*1ので、悪しからずご了承ください。また、この記事で公開しているコードは以前書いたクソコードをそのまま転用しているので、端的に言ってただのクソコードです。皆さん自身がお試しになる際は是非
masadream 2020/05/03
*ai_ml

*business

r
リンク
GitHub - uribo/kuniezu: Assistance on the National Geography of Japan
masadream 2020/05/03
日本の国土地理に関する補助関数およびデータセットを提供するRパッケージ

*ai_ml

*business

r
リンク
時系列予測のベストプラクティスを共有するGitHubリポジトリを開設、Microsoft
時系列予測のベストプラクティスを共有するGitHubリポジトリを開設、Microsoft：PythonやR向け Microsoftは、時系列予測のベストプラクティスを共有するためのGitHubリポジトリを開設した。PythonやRを使っている開発者に向けたものだ。 Microsoftの「R」コミュニティー向けブログサイト「Revolutions」は、2020年4月14日（米国時間）、時系列予測のベストプラクティスを共有するためのGitHubリポジトリ「Time Series Forecasting Best Practices & Examples」を開設したと発表した。 Microsoftはこのリポジトリについて、README.mdで次のように説明している。「時系列予測は、データサイエンスで最も重要なトピックの一つだ。的確な意思決定と効果的な資源配分を行うために、ほぼ全ての企業には未来
masadream 2020/04/24
*business

*ai_ml

microsoft

python

r
リンク
leafletではじめるRによる地図プロット
1 はじめにこの記事は、R Advent Calendar 2015の12月22日担当分の記事です。また、この内容は2015年12月5日に私がJapan.R 2015にて発表した内容をベースに、説明をくわえ再編集したものです。その時のスライドは以下に設置しています: http://rpubs.com/kazutan/leaflet_slide 1.1 leafletとは leafletとは、JavaScriptのオープンソースライブラリである“leaflet.js”をRでも利用できるようにしたパッケージです。これはhtmlwidgetsパッケージにより実現されています。JavaScriptを使わなくてもRだけで利用可能ということで、非常に注目を集めているパッケージです。 1.2 特徴最大の特徴は、htmlで動的な地図が作れることです。主に以下のような特徴が挙げられます。ぐりぐり動か
masadream 2020/04/09
*ai_ml

*business

r
リンク
COVID-19 日本国内の潜在的な陽性者数を推定する試み - StatModeling Memorandum
日本国内の潜在的な陽性者数を推定することは有益ですが、簡単ではありません。PCR検査がランダムになっていないことが推定を難しくしています。有症状者が検査されやすいというselection biasがあるからです。この記事ではいくつか仮定を置いて潜在的な陽性者数を推定したいと思います。仮定全国民のうち潜在的に陽性になっている割合この割合は年代によらず一定と仮定します。ここではと書きます（posはpositiveの略）。例えば0.0001なら日本人約1億2千万人中、おおよそ12000人が潜在的に陽性になっている計算です。なお、国民の年代別人口の値はこのページの令和2年3月報（令和元年10月確定値，令和2年3月概算値）（PDF：301KB）の「2019年10月1日現在（確定値）」の総人口男女計の値を使用しました。陽性者中の有症状者の割合若年層で無症状が多いなど、年代で異なる
masadream 2020/04/05
*ai_ml

*society_culture

*business

r
リンク
tidymodels+DALEXによる解釈可能な機械学習 / Tokyo.R83
2020年1月25日に行われた第83回Tokyo.Rでの発表資料です https://tokyor.connpass.com/event/161709/ 資料で使われたコードは以下になります https://github.com/dropout009/tokyoR83
masadream 2020/02/02
*ai_ml

*matome

*business

r
リンク
行動ログデータからのユーザーアンケート予測モデルを作り、ユーザーの嗜好分類をする - エムスリーテックブログ
こんにちは。エンジニアリンググループ AI・機械学習チームの大垣です。これはエムスリー Advent Calendar 2019 の10日目の記事です。前日は id:sora_sakaki による、量子ゲームを開発した話でした。さて、この記事ではデータエンジニアの皆さんが戦われているであろうログデータの活用の話をします。もちろんエムスリーでもレコメンドやコンテンツの出し分けなどログデータを活用したシステムが開発されています。ここでは、そのログに加えて、アンケートを用いることで、解釈しやすいユーザーの嗜好分類を行う話をします。なおこの内容は本日の Machine Learning Night というイベントで簡単に紹介し、スライドも公開する予定です。ご興味のある方はそちらも是非ご覧ください。 webサービスでの行動ログとアンケートの結果を紐づけて予測モデルを作る。アンケート非回
masadream 2019/12/14
*business

*ai_ml

python

r
リンク
状態空間モデルをStanで推定するときの収束を良くするコツ | Logics of Blue
この記事では、状態空間モデルをStanで推定するときの収束を良くするコツを説明します。コードはGitHubから参照できます。状態空間モデルは説明能力が高く、データに合わせて柔軟に構造を変えることができます。しかし、あまりに複雑な構造を指定すると、結果が収束しないこともしばしばあります。収束が悪い時には、弱情報事前分布を指定したり、MCMC実行時の設定を変える(iterやwarmupを増やす等)で対応することが多いと思います。こちらの方法で多くの場合は解決しますが、複雑なモデルですと、そもそものStanコードの実装の方法から変えた方が良いかもしれません。この記事では、状態空間モデルの収束を良くするために、Stanコードの書き方を工夫するやり方を紹介します。良いやり方は無いかなと調べていたところ『Bayesian structural time series modeling』という
masadream 2019/12/14
*ai_ml

*business

*tips

*matome

python

r
リンク
データサイエンスや機械学習のチートシートを最も効率的に収集する方法 - Qiita
機械学習・データサイエンスのチートシート集、便利なものがたくさん出回っていますが、ちまちまブラウザからダウンロードしていたりしませんか？そんな貴方にお勧めなのがこちらのレポジトリ。 FavioVazquez/ds-cheatsheets https://github.com/FavioVazquez/ds-cheatsheets はい、クリックあるいはコマンド一つで100を超えるチートシートが一括でダウンロードできちゃいますね。以上、釣りタイトル失礼しました。と、これだけではなんなので、個人的に有用性が高いと感じたものを、大きなサムネイル付きでまとめてみました。ソースとして、DataCamp及びRStudio公式ページの情報量は圧倒的なので、一読をお勧めします。科学計算・データ操作・可視化 Python (NumPy/SciPy/Pandas/matplotlib/bokeh) Pyt
masadream 2019/03/09
*matome

*ai_ml

*business

python

r
リンク
R言語による時系列予測とクロスバリデーション法による評価 | Logics of Blue
時系列データへのクロスバリデーション法を用いて、予測精度の評価を行う方法を説明します。 R言語のforecastパッケージのtsCV関数を用いると、効率的な短いコードで実装が可能です。この記事では、時系列データの前処理～モデル化～予測～予測の評価、といった一連の流れをすべて通して解説します。今回は標準的な時系列モデルであるSARIMAモデルを用いますが、このモデル以外でもおおよその手順は変わらないと思います。予測の評価における基本的な事項は『予測の評価方法：誤差の指標とナイーブな予測』も合わせて参照してください。コードはGitHubから参照することができます。スポンサードリンク目次分析の準備と前処理 SARIMAモデルの構築 SARIMAによる予測テストデータを使った予測の評価クロスバリデーション法による予測の評価スライド型のクロスバリデーション法の実行後記 1．分析
masadream 2018/04/30
r

*ai_ml

*business
リンク
多次元時系列の異常検知手法 sGMRFmix について /sGMRFmix - Speaker Deck
All slide content and descriptions are owned by their creators.
masadream 2018/04/30
*ai_ml

*tech

*business

*marketing

r
リンク
Hadley Ecosystem 2016
Tokyo.R#53 での発表資料
masadream 2018/03/03
*matome

*ai_ml

*business

r
リンク
「状態空間時系列分析入門」をRで再現する
Commandeur & Koopman「状態空間時系列分析入門」をRで再現する仕事の都合で仕方なく状態空間モデルについて勉強していたのだけれど(なぜ私がこんな目に)、仕事で使うためには自分で計算できるようにならなければならない。参考にしているCommandeur & Koopman 「状態空間時系列分析入門」（以下「CK本」）の著者らは、すべての事例についてデータとプログラムを公開している。ありがたいことであります。しかし、ssfpackという耳慣れないソフトを使わなければならない。わざわざ新しいソフトの使い方を覚えるのは大変に面倒だ。できれば普段使っているソフトで済ませたい。というわけで、勉強かたがた、CK本に出てくる計算例を片っ端から R で再現してみた。汗と涙の甲斐あって、すべての章についていちおう再現できたので、ここに載せておくことにする。もくじ: Rプログラム紹介全体
masadream 2018/01/21
ありがたや。

*matome

*ai_ml

*business

python

r
リンク
（追記5件あり）統計モデリング基礎論再び：データの生成過程から見てGLMが最適な場合にあえて線形回帰を当てはめてみる - 渋谷駅前で働くデータサイエンティストのブログ
この記事は、遥か昔のこちらの記事の続きのようなものです。また何度も何度も恐縮ですが、今回の記事内容も付け焼き刃で書いているので色々間違っている可能性があります。お気付きの方は是非ご指摘くださいm(_ _)m 各方面のエコノメトリシャンの方々と上記記事を書いた際に議論*1したことがあるのですが、その時は基本的に統計モデリングを行う際は以下のような判別表に従ってモデルを使い分けるべきだという話になったのでした。確率分布特徴ポアソン分布データが正の離散値、平均値30ぐらいまで、標本平均＝標本分散負の二項分布データが正の離散値、平均値30ぐらいまで、標本平均＜標本分散二項分布データが離散値、ゼロ以上でしかも有限 (0, 1, 2, ... N) 正規分布データが連続値もしくは離散値でも平均値が十分大*2 (-∞～∞) 対数正規分布同上、ただし正の値、範囲 (0～∞) ガンマ分布
masadream 2017/12/20
*ai_ml

*business

*marketing

python

r
リンク
1 2 3 4 5 次のページ