並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 125件

新着順 人気順

ggplot2の検索結果1 - 40 件 / 125件

  • 会社員辞めて入学した大学院修士課程がそろそろ終わろうとしているのでまとめておく - seri::diary

    これは何か 筆者について なぜ大学院に入ったのか 日本の大学院という場所について 大学院での研究内容について 自分の発表実績 大学院生活について おわりに これは何か 2018年3月に仕事を辞めて,2018年4月に筑波大学大学院システム情報工学研究科コンピュータサイエンス専攻博士前期課程(修士課程)に入学した.それから早くも2年弱が経ち,もうすぐ修了なので大学院生活を忘れないうちにまとめておくだけのエントリである. 修了自体は2020年3月だが,あとは修論を仕上げて提出すれば終了なので研究自体はもう実質終わっている状態である*1. 筆者について 2009年3月に岩手大学農学部を卒業.新卒で上流系SIerに就職して2年半ぐらい勤務した後に,コード書きたくてwebアプリエンジニアに転向.その後,6年半ぐらいweb受託,webサービス運営企業などでソフトウェアエンジニアとして勤務.2018年3月

      会社員辞めて入学した大学院修士課程がそろそろ終わろうとしているのでまとめておく - seri::diary
    • Python ユーザでも『データ可視化入門』で練習できるようにパッケージを作った + Plotnine との互換性ガイド - ill-identified diary

      概要 pysocviz が提供する機能 ggplot2 と同じようにできないところとその対策 aes() にクオートされてない変数を指定できない R のように改行できない ggplot2 で使えた色名が使えない ggplot2 で使えた linetype が使えない 文字化けの回避 ggrepel パッケージの利用 scales::percent などの単位・スケール指定 テーマや色パレットのプリセットを変更したい場合 subtitle/caption が表示されない 複数のグラフを連結できない hjust/vjust が使えない グラフ内の図形やテキストの大きさのバランスがおかしい geom_smooth/stat_smooth で一般化加法モデル (GAM) による平滑化ができない geom_quantile の method 指定ができない geom_smooth/stat_smoo

        Python ユーザでも『データ可視化入門』で練習できるようにパッケージを作った + Plotnine との互換性ガイド - ill-identified diary
      • おまえはもうRのグラフの日本語表示に悩まない (各OS対応) - ill-identified diary

        2021/9/10 追記: 改めて更新された話を統合して整理して書き直しました. 以降はこちらを参考にしてください: ill-identified.hatenablog.com 2021/1/15 追記: RStudio 1.4 がリリースされたのでなるべくアップデートしましょう 2020/12/06 追記: Japan.R で今回の話の要約+新情報を『Mac でも Windows でも, PNG でも PDF でもRのグラフに好きなフォントで日本語を表示したい (2020年最終版)/Display-CJK-Font-in-Any-Gpraphic-Device-and-Platform-2020 - Speaker Deck』として発表した. ハイライトは「近々出るRStudio 1.4 があれば fontregisterer はほぼいらなくなる」 2020/10/31 追記: geom

          おまえはもうRのグラフの日本語表示に悩まない (各OS対応) - ill-identified diary
        • VSCode + Dockerでよりミニマルでポータブルな研究環境を

          はじめに もっとミニマルで簡単なポータブルな環境を! 自分自身の研究のための環境構築についてこれまで二本の記事を書いてきました. これらの記事から二年ほどたち, いくつかの点において不満点が出てきました. 特に, GCPや自宅のサーバー上でリモートで作業することが多くなってきたので, よりミニマルでポータブルな環境が必要になりました. 以下では, 現時点で最小限の努力で環境を再現ができることを目標にしたDockerベースのGitHubレポジトリのテンプレートとその使い方を紹介します. このテンプレートを用いて作られた環境は, 新たなコンピュータ上で最短4ステップで環境を再現できるようになります. git clone VSCodeの"Open in Remote Containers" renv::restore() dvc pull この環境とセットアップはこのレポジトリにテンプレートとし

            VSCode + Dockerでよりミニマルでポータブルな研究環境を
          • Practical Data Science with R and Python: 実践的データサイエンス

            実践的データサイエンス はじめに データ分析のためにコンピュータを利用する際、RおよびPython言語のいずれかを使うことが多いと思います(Julia言語は高レベル・高パフォーマンスな技術計算のための言語で今後期待が膨らみます)。これらの2つの言語では、データ操作や可視化、データ分析、モデリングに使われるライブラリが豊富にあり、 どれを使うのが良いのか迷うような状況が続いていました。しかしその状態は落ち着きを見せ、成熟期を迎えつつあります。 R言語ではパイプ演算子の登場によりデータフレームに対する操作に大きな変化が生じ、tidyverseによるデータ読み込みからデータ整形、可視化までが可能になりました。またtidyverseのような、機械や人間の双方が扱いやすいパッケージが増えてきました。特にR言語の強力な一面でもあったデータ分析の操作はtidymodelsに代表されるパッケージがユーザの

            • カルマンフィルターについて - Qiita

              はじめに 千葉大学/Nospareの米倉です.今回はカルマンフィルターについて解説していきたいと思います. カルマンフィルターで何が出来るの? フィルターとあるように,カルマンフィルターが出来る基本的なことは線形ガウス状態空間モデルのフィルタリング密度を逐次的に求めることです.ここで2つのキーワード,「線形ガウス状態空間モデル」と「フィルタリング密度」という単語が出てきましたので,まずはそれらについて解説します. 線形ガウス状態空間モデルとは 状態空間モデルとは2つの確率過程からなります.1つは潜在変数・状態変数・隠れ変数といわれるもので,これは直接観測できないがマルコフ連鎖に従う変数だとモデリングされます.例えば景気の良し・悪し等,概念として存在するけれど直接は観測できないものを想像してください.2つめは観測値で,これは直接観測できるもの,つまりデータです.ただし変数に依存して観測される

                カルマンフィルターについて - Qiita
              • 『RとStanではじめるベイズ統計モデリングによるデータ分析入門』は「みどりぼん」に取って替わる次世代の統計モデリング+ベイジアン入門書 - 渋谷駅前で働くデータサイエンティストのブログ

                ここ2ヶ月ぐらいに渡って多くの方々からご著書をご恵贈たまわっているのですが、そのうちの一冊がこちら。かつて計量時系列分析を学んでいた頃に僕も大変お世話になった、Logics of Blueブログの馬場さんの手による『RとStanではじめるベイズ統計モデリングによるデータ分析入門』です。 実践Data Scienceシリーズ RとStanではじめる ベイズ統計モデリングによるデータ分析入門 作者:馬場 真哉出版社/メーカー: 講談社発売日: 2019/07/10メディア: 単行本 以前はベイズ統計モデリングの入門書というと「みどりぼん」こと『データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)』一択でしたが、皆さんもご存知のように既にメンテされていないWinBUGSを使っているなどout-of-dateな要素が多く、近年はこれに替わる良書

                  『RとStanではじめるベイズ統計モデリングによるデータ分析入門』は「みどりぼん」に取って替わる次世代の統計モデリング+ベイジアン入門書 - 渋谷駅前で働くデータサイエンティストのブログ
                • Rを用いた データ解析の基礎と応用2022

                  Step 3:データを可視化しよう! データ可視化の重要性 ggplot2でデータを眺めよう geom_histogram ヒストグラム geom_density 密度分布 geom_point 散布図 aes(color) 色を表現する facet_wrap, facet_grid グラフを分ける geom_boxplot 箱ヒゲ theme_*** 全体の雰囲気を変える color(aesの外) 線を特定の色にする fill(aesの外) 特定の色で塗りつぶす color(aesの中) 線を値に応じた色にする coord_cartesian 軸の範囲を変える labs タイトルや軸ラベルを書く/書き換える theme 文字の大きさなどを細かく設定 ggsave() 図をファイルとして保存 その他のグラフの描き方を知りたい方は ggplot2公式サイト Jaehyun Songさんの解説

                  • 2023年度 早稲田大学「計量分析(政治)」補助教材

                    最終更新日 RStudio と R Markdown R Markdown の使い方と文法 Sep. 21, 2022 R の「あるある」エラー Sep. 13, 2022 Rを使ったデータ操作 1.   データ・ハンドリング(基礎) Sep. 13, 2022 2.   データ・ハンドリング(応用) Nov. 17, 2023 3.   データ・クリーニング Sep. 13, 2022 データの可視化 4.   ggplot2(基礎) Sep. 26, 2022 5.   ggplot2(棒グラフ) Oct. 20, 2022 ggplot2(ヒストグラム) Sep. 10, 2022 ggplot2(箱ひげ図) Oct. 20, 2022 ggplot2(散布図) Sep. 20, 2022 ggplot2(折れ線グラフ) Sep. 20, 2022 ggplot2(ロリポップ・チャー

                    • [書評]『データ分析のためのデータ可視化入門』と最近の R グラフィックスパッケージ事情 - ill-identified diary

                      概要Healy (2018) “Data Visualization: A Practical Introduction” の邦訳『データ分析のためのデータ可視化入門』をもらったので, この本のレビューと本書ではあまり取り上げられていない, R グラフィックスをさらに活用するためのヒントを提示する. 2021/9/24 追記: 『Python ユーザでも『データ可視化入門』で練習できるようにパッケージを作った + Plotnine との互換性ガイド - ill-identified diary』に書いたように, Python でも matplotlib のような煩雑な構文に惑わされずにこの本で紹介されているような方法を実現するためのパッケージ/用例を作ってみた. 概要 初めに 本書の特徴 どういう本なのか どういう人が読むとよいか 邦訳に対する細かいツッコミどころ 本書を読んだ人におすすめ

                        [書評]『データ分析のためのデータ可視化入門』と最近の R グラフィックスパッケージ事情 - ill-identified diary
                      • 『効果検証入門』のすごいところベスト5 - Qiita

                        安井翔太著『効果検証入門』を読了しました。 因果推論や統計の基礎を学ぶ上でとても良い本でしたが、同時に作者のRコードもかなり洗練されていてRの勉強にもなりました。そこで今回は書籍で紹介されているコードの中からとくにエレガントだと思った箇所を5か所ピックアップしました。 コード全文はここにあります 第5位:エラーバーのプロット ggplot2でエラーバーをプロットするのは地味に面倒だが、お手本のようなコードなので、このままコピペして使える using_voucher_results %>% ggplot(aes(y = estimate, x = model_index)) + geom_point() + geom_errorbar(aes(ymax = estimate + std.error*1.96, ymin = estimate - std.error*1.96, width =

                          『効果検証入門』のすごいところベスト5 - Qiita
                        • ロジスティック回帰の最尤推定量にはバイアスがある - ほくそ笑む

                          ロジスティック回帰について調べている。 ロジスティック回帰モデルのパラメータの最尤推定量は、不偏推定量ではなく、バイアスがある。 例として、サンプルサイズ 、入力変数の数 のときを考える。 パラメータ 300個の真の値を、最初の 100個は 、次の 100個は 、残りの 100個は に設定して推定してみよう。 n <- 1500 p <- 300 # データの生成 set.seed(314) x <- rnorm(n * p, mean = 0, sd = sqrt(1/n)) X <- matrix(x, nrow = n, ncol = p) beta <- matrix(c(rep(10, p/3), rep(-10, p/3), rep(0, p/3))) logistic <- function(t) 1 / (1 + exp(-t)) prob <- logistic(X %*

                            ロジスティック回帰の最尤推定量にはバイアスがある - ほくそ笑む
                          • サイバーエージェントのデータマイニング本がデータサイエンティスト必読書だった件 - LABOT 機械学習ブログ

                            堀田(@YoshiHotta)です。この記事はサイバーエージェントの秋葉原ラボの方が執筆された『データマイニングエンジニアの教科書』の書評です。 企業でデータマイニングをする人に必要な知識を俯瞰できる、しっかりしたデータマイニングの本だと思いました。データマイニングの初心者にも中級者にもぜひオススメしたい一冊だったので書評を書くことにしました。 また、データマイニングの独習に役に立つ書籍も多数紹介します。 データマイニングエンジニアの教科書 作者: 森下壮一郎,水上ひろき,高野雅典,數見拓朗,和田計也出版社/メーカー: シーアンドアール研究所発売日: 2019/06/27メディア: Kindle版この商品を含むブログを見る この本は(特に Web 系の) データ分析の実務者に必要な事柄が網羅的に取り上げられています。300ページという厚さからすると扱っているテーマはとても幅広いです。一つ一

                              サイバーエージェントのデータマイニング本がデータサイエンティスト必読書だった件 - LABOT 機械学習ブログ
                            • データ分割

                              class: center, middle, inverse, title-slide # データ分割 ## Part of 📖Data Preprocessing Cookbook 👨‍🍳 ### Uryu Shinya ### <span style="font-size: 70%;"><i class="fab fa-github "></i> uribo <i class="fab fa-twitter "></i> u_ribo</span> ### 2019-06-30 (updated: 2019-06-30) --- # 概要 - 予測モデルの性能を評価、過学習を防ぐためにデータ分割の処理が必要となる - データセットをモデル構築用と評価用のデータに分ける - データセットの大きさ、特性(クラスやグループが存在するか、時系列かどうか)に応じてリサンプリングの方法を変え

                              • データ解析に役立つおすすめR本とサイトをまとめました。 - Open Box with STAT

                                ぼくは医学統計学と疫学が専門です。これらのデータ解析には主にRを使います。 かれこれ15年ほどRを使ってきました。当時、Rに関するまとまった情報は『The R Tips』しかありませんでした。時は流れ、今はたくさんR本やサイトがあります。しかし、たくさんありすぎて何を見れば良いのか迷いますよね? そこで、ぼくの経験に基づき、おすすめする有益なR本・サイトをまとめてみました! RとRStudioの環境構築 矢内先生の「RとRStudioのインストール方法の解説」サイト 基礎(網羅的) Rではじめるデータサイエンス RユーザーのためのRStudio実践入門 The R Tips Rクックブック 宋先生の「Rプログラミング入門の入門」サイト データハンドリング特化 宋先生の「dplyr入門 (dplyr 1.0.0対応)」Webページ 宋先生の「tidyr入門」Webページ 可視化特化 Rグラフ

                                  データ解析に役立つおすすめR本とサイトをまとめました。 - Open Box with STAT
                                • Rで機械学習モデルの解釈手法たちを試してみる - 渋谷駅前で働くデータサイエンティストのブログ

                                  この記事の前段として、まず事前に昨年書いた機械学習モデルの解釈性についての記事をご覧ください。 僕が知る限り、機械学習実践のデファクトスタンダードたるPython側ではLIMEやSHAPといった解釈手法については既に良く知られたOSS実装が出回っており、相応に実際に使ってみたというレポートも見かける状況です。一方、R側ではそこまでメインに機械学習を回す人が多くないせいか、あまりこれまで実践例を見かけないなぁと思っていました。 そんなことを考えながら先日ふと思い立ってググってみたら、意外にも幾つかの解釈手法については既にOSS実装があり、中にはCRANに上がっているものもあるのだと今更ながら知ったのでした。 ということで、二番煎じなのか何番煎じなのか分かりませんが、これらのRによる機械学習モデルの解釈法実装を今更ながら僕も試してみることにします。検証に使うデータセットは統一してUCI ML

                                    Rで機械学習モデルの解釈手法たちを試してみる - 渋谷駅前で働くデータサイエンティストのブログ
                                  • 数式からいい感じに図表が生成できてしまう! Penroseを試す (SIGGRAPH 2020) - Qiita

                                    Penroseとはなにか Penroseは、数式に近い数学的表現から、細かなパラメータの指定なく、いい感じに図表を生成してくれる、カーネギーメロン大発、SIGGRAPH 2020に採択されたプロジェクトです。以下に、論文より、自動生成された図表を抜粋します。 数式にとどまらず、コンピュータグラフィックスのメッシュ図示など、幅広い表現に使えます。 Penroseは、数式に近い数学的表現から、細かなパラメータの指定なく、いい感じに図表を生成してくれる、カーネギーメロン大発、SIGGRAPH 2020に採択されたプロジェクトです。 数式にとどまらず、コンピュータグラフィックスのメッシュ図示などにも使えます。 まずは筆頭著者のKatherine Ye氏のTweetにつけられた動画をご覧ください。 今日現在(2020.6.7)、紹介動画のPenrose Web IDEは未公開 (今後公開予定とのこと

                                      数式からいい感じに図表が生成できてしまう! Penroseを試す (SIGGRAPH 2020) - Qiita
                                    • kuniezu: 日本の国土地理を扱いやすくするRパッケージをCRANに登録しました - cucumber flesh

                                      はじめに 使い方 parse_*_dohunbyo(): DMS表記を十進数表記に変換 日本測地系2011における平面直角座標系の特定 move_jpn_rs(): 南西諸島の一部・小笠原諸島を移動した日本地図の描画 地理院タイルをleafletで簡単に利用できるように 国土地理に関するデータセット はじめに kuniezuパッケージ (v0.1.0) をCRANにリリースしました。 github.com このパッケージは、私が業務や趣味で日本国内の地理空間データを扱う時に作っていた関数を一つのパッケージに整理したものです。 空間的に世界規模のデータを扱うのではなく、日本国内に限った話であれば、日本に即した仕様や座標参照系を利用した方が良いことがあります。 そうした日本の地理空間データを処理する際に利用することがある機能や、あると便利なデータセットを提供できるように努めています。 ゆるゆる

                                        kuniezu: 日本の国土地理を扱いやすくするRパッケージをCRANに登録しました - cucumber flesh
                                      • 「RとStanではじめる ベイズ統計モデリングによるデータ分析入門」書評 - nora_goes_far

                                        この記事について 著者の馬場真哉様より、2019年7月10日に講談社より発売の、「RとStanではじめる ベイズ統計モデリングによるデータ分析入門」をご恵投いただきました。ありがとうございます!! www.kspub.co.jp 事前に献本をいただけるということを伺っていたので、その時から「ご恵投いただきました!」とTwitterで報告するだけでなく、簡単にでも読んでみた感想を書こうと決めていました。 まだざっと読んだ段階で、コードを実際に走らせてもいないのですが(もちろん後でじっくり読みながら実行します)、感想や関連書籍との比較をしていきたいと思います。 本記事の方針 本書の「はじめに」の部分やサポートページには、以下のような方を対象読者としていると書かれています。本記事も、そのことを念頭に書いていこうと思います。 統計学の基礎やベイズの定理などの基本事項を学んでみたものの、その有効性が

                                          「RとStanではじめる ベイズ統計モデリングによるデータ分析入門」書評 - nora_goes_far
                                        • そろそろRユーザーもApache ArrowでParquetを使ってみませんか? - Technically, technophobic.

                                          先日、Apache Arrow東京ミートアップ2019で「RとApache Arrow」というタイトルで発表してきました。あと、Japan.RでもApache ArrowについてLTしました。 話したこととしては、 arrowパッケージを使うとParquetファイル(後述)の読み書きができる sparklyrパッケージが内部でApache Arrowを使うようになって、R↔Spark間のデータのやり取りが高速になった Arrow Flightがもっと一般的になれば、JDBCやODBCを使わなくてもデータベースからデータを取ってこれるようになる という感じで、個人的にいま強調したいのは1.です。とりあえずParquetファイルの読み書きというのがRユーザーにとって一番わかりやすいメリットなので、そこをきっかけにみんなApache Arrowにズブズブになって、もっと世の中のシステムがApac

                                            そろそろRユーザーもApache ArrowでParquetを使ってみませんか? - Technically, technophobic.
                                          • R初心者の館(RとRStudioのインストール、初期設定、基本的な記法など) - nora_goes_far

                                            本記事について R Advent Calendar 2019 2日目の記事です。 本記事執筆のモチベーション ゼミや講義でRを使いたいことがあります。しかし、インストールや初期設定、基本的な記法についての説明で時間を使ってしまうのはもったいないと思い、「これを事前に読んできて」と言えば済むような資料を用意したいと思いました(もちろんすでに、ネット上には有用な記事がたくさんあります)。もし同様の要望をお持ちの方がいらっしゃったら、本記事をご活用いただければ幸いです。 そういうわけで、本記事では、Rをまったく触ったことがない初心者を読者に想定しています。また、筆者の環境がWindowsであるため、同環境を事例として説明しています。 目次 RとRStudioのインストール RStudioの初期設定 RStudioの機能 Rの基本的な記法・使用方法 四則演算 代入演算子 その他の演算子 データの型

                                              R初心者の館(RとRStudioのインストール、初期設定、基本的な記法など) - nora_goes_far
                                            • Pythonでデータの挙動を見やすくする可視化ツールを作成してみた まとめ編 - Qiita

                                              コードはGitHubにもアップロードしております おすすめ機能 個人的に使用頻度の高い機能を紹介します おすすめ1:CustomPairPlot.pairanalyzer 相関係数と散布図行列を一括表示します。 分析の初期段階でデータを一括で可視化したいときにオススメです。 Rのggplot2ではほぼ同様の図が出力可能ですが、なぜかPythonには同様のツールがなかったので、作成しました。 散布図では表示が重なり見辛い離散変数は、自動で箱ひげ図とバブルチャートに変更する機能も追加しています。 from seaborn_analyzer import CustomPairPlot import seaborn as sns titanic = sns.load_dataset("titanic") cp = CustomPairPlot() cp.pairanalyzer(titanic,

                                                Pythonでデータの挙動を見やすくする可視化ツールを作成してみた まとめ編 - Qiita
                                              • 「昔はこんなに暑くなかった」をR言語で可視化する - bob3’s blog

                                                2023年の8月もそろそろ終わります。 しかし、まだまだ暑くて秋の気配はまだまだ来ないようです。 さてここ数年、7月に入ったころから「昔はこんなに暑くなかった」「いや、そんなことはない」といった話題がSNSをにぎわせています。 私も数年前にこんなグラフを作って、周りではそこそこ評判良かったです。 東京の8月の最低気温の分布の推移。いまさらだけど、ちゃんと書き直したのもあげておく。最低気温の上限が90年代以降上昇しているという結論は変わらないけど。boxplotもおまけで付けておいた。 pic.twitter.com/wfxgfr7I3O— ボブさん (@bob3bob3) 2018年7月18日 今年もいろんな人が気温の可視化をしていて、非常に興味深かったです。 いくつか挙げてみましょう。 1) 東京における夏(6月~9月)の気温、過去148年分のヒートマップ。 東京における夏の気温を過去1

                                                  「昔はこんなに暑くなかった」をR言語で可視化する - bob3’s blog
                                                • はじめに

                                                  このドキュメントは『指標・特徴量の設計から始めるデータ可視化学入門』で提供されているPythonによる可視化コードをR言語で書き直したものです。 ただし、Pythonのコードの直訳・逐語訳ではなくRらしい書き方・表現へ意訳しています。 以下が各章ごとのドキュメントです。 2023年2月時点で第8章まで完成。 第1章 データ可視化の本質 第2章 数量を把握するデータ可視化 第3章 メカニズムをとらえるデータ可視化 第4章 多変数をとらえるデータ可視化 第5章 データの分布をとらえる指標化 第6章 関係性をとらえる指標化 第7章 パターンをとらえる指標化 第8章 データ指標化・可視化のプロセス MATLAB版も公開されています。 以下の方針を取っています。 書籍とPythonのコードで微妙に異なる箇所は、極力書籍に合わせる。 配色の再現は目指さない。 jetカラーのグラデーションはviridi

                                                  • Google ColaboratoryでRを使う – marketechlabo

                                                    無料でPythonの実行環境を使わせてもらえるGoogle Colaboratory。しかもGPUと12GBのメモリ、350GBのディスクまで使える環境であり、手元のPCよりハイスペックな人も多いだろう。 RユーザにとってはPythonだけでなくRでも使えたらいいのにと思うところである。そこで、この記事ではこの環境でRを使う方法を解説する。 Rを使う4つの方法 実はGoogle ColaboratoryのインスタンスにはRの環境(RのバイナリとJupyter Kernel)がインストールされており、わずかな手順で使えるようになるのである。 参考までにインストールされているKernelの一覧はマジックコマンドから確認できる。 !jupyter kernelspec list Available kernels: ir /usr/local/share/jupyter/kernels/ir p

                                                      Google ColaboratoryでRを使う – marketechlabo
                                                    • ベイズ統計でKaggleを解いてみる - Qiita

                                                      はじめに 概要 ベイズ統計を用いてKaggleの1タイタニック問題を解いてみる. 分析は以下の手順で行う. データの可視化・理解 データの加工・前処理 ベイズ統計分析 モデルの記述 デザイン行列・データリストの作成 Stanファイルの記述 MCMC! 結果の評価 実行環境 Mac OS Sonoma 14.1 R version 4.3.1 RStudio version 2023.12.1+402 > R.versions version.string R version 4.3.1 (2023-06-16) > sessionInfo() other attached packages: [1] posterior_1.5.0 cmdstanr_0.6.1 lubridate_1.9.3 forcats_1.0.0 [5] stringr_1.5.0 dplyr_1.1.3 purrr

                                                        ベイズ統計でKaggleを解いてみる - Qiita
                                                      • おすすめのR packageをまとめました。 - Open Box with STAT

                                                        Rを使うときパッケージ(以下、package)を利用すると思います。 packageとは、Rの機能を拡張する関数、データ、資料の集まりです。 例えば、きれいな図を描きたいときは、ベースのR機能であるplotでは物足りないため、ggplot2 packageを使います。 一般化推定方程式を使いたいときは、ベースのR機能だけでは、数式を読み解き、関数を自作する必要がありますが、gee packageを使えば関数の自作は不要です。 このようにRを使う上でpackageは重要ですし、いろいろなpackageを知っていると楽ができます。ただし、packageの有無を自分の解析能力の限界にする必要はありません。自ら関数が組めると解析の幅が広がります。 packageは山ほどあります。しかし解析によく使うpackageはある程度限られます。この記事では、ぼくが使っている(使いたい)R packageを紹

                                                          おすすめのR packageをまとめました。 - Open Box with STAT
                                                        • condaの代わりに高速なmambaを使う - macでインフォマティクス

                                                          2021 2/11 誤りを修正 2021 4/26 Rについて追記 2021 4/30 tips追記 2022 2/7 再インストール追記 Githubより Mamba は C++ での conda パッケージマネージャの再実装です。マルチスレッドを使ったリポジトリデータとパッケージファイルの並列ダウンロード、依存関係の解決をより高速にするための libsolv、Red Hat、Fedora、OpenSUSE の RPM パッケージマネージャで使用されている最先端のライブラリです。 mambaのコア部分はC++で実装されており、最大限の効率化が図られています。 同時に、mamba は可能な限り互換性を保つために、codaと同じコマンドラインパーサ、パッケージのインストールとデインストー ル、トランザクション検証ルーチンを利用しています。 開発の動機のブログ記事。condaの問題点についても

                                                            condaの代わりに高速なmambaを使う - macでインフォマティクス
                                                          • The R Graph Gallery – Help and inspiration for R charts

                                                            Welcome the R graph gallery, a collection of charts made with the R programming language. Hundreds of charts are displayed in several sections, always with their reproducible code available. The gallery makes a focus on the tidyverse and ggplot2. Feel free to suggest a chart or report a bug; any feedback is highly welcome! Stay in touch with the gallery by following it on Twitter. Oh and if you wa

                                                              The R Graph Gallery – Help and inspiration for R charts
                                                            • 一般線形モデルから一般化線形混合モデルにたどり着くまで - と。

                                                              この記事こそが! R Advent Calendar 22日目の記事です! このノリがわからない人は前の記事を読んでください。 この前の記事が知る人ぞ知るRおじさんのAtsusyさんなのでこの記事では上がったハードルをくぐっていきます。 皆さん読んできました?省略できちゃうんですよ……これでRとPythonでのギャップが埋まり、世界はデータドリブンに動きますね…… しかも明日はSendaiRの運営をされてる茶畑さん、 あさってはがspoanaの運営をされてるtsuyuponさんの投稿です。 誰? みなさんご存知きぬいとさんです。 私は学生時代からRを使ってかれこれ8年になりますが、その人生の大半を線形回帰モデルに費やしてきました。 例えば学部時代にはDobsonの一般化線形モデル入門を読んだり、 ベイズモデリングに入門したり、 Stanの可能性に触れたりと、統計モデルの理論を学び、Rで実装

                                                                一般線形モデルから一般化線形混合モデルにたどり着くまで - と。
                                                              • All Chart | the R Graph Gallery

                                                                Most basic Most basic stacked area chart you can build with R and ggplot2, using the geom_area function. Small multiple Small multiple is probably the best alternative, making obvious the evolution of each gropup.

                                                                  All Chart | the R Graph Gallery
                                                                • Alluvial PlotをPythonで描く|nekoumei

                                                                  TL;DR・Alluvial Plotはいいぞ ・Pythonで良いかんじに描けるライブラリがなかったからつくった ・https://github.com/nekoumei/pyalluvial はじめに皆さんはデータを分析するときに、ある状態の数量などの遷移を可視化したい(たとえばWebページのPVやサービス利用ユーザのクラスタの時系列変化など)とき、どんな可視化を検討しますか。 いろいろあると思いますが、Sankey Diagramは代表的な手法のひとつだと思います。 こういうやつですね 引用: https://plotly.com/python/sankey-diagram/ 一方、知名度は低い(というより私が最近まで知らなかった)Alluvial Plotという可視化手法もあります。こんなかんじ。 引用: https://cran.r-project.org/web/package

                                                                    Alluvial PlotをPythonで描く|nekoumei
                                                                  • 無料で学ぶRと統計解析:おすすめのウェブサイト - Qiita

                                                                    Rに出会って、早5年(2023年現在)。これまでに出会った、無料で、RやRを使った統計解析を学ぶことができるウェブサイトのメモです。ブックマークしているもの、Xでツイート、リツイートしてきたものを公開します。 随時更新して追加していきます。他にもあればコメント欄にお願いします。 (英語の記事多い!) Rで統計解析 UCLA Statistical Methods and Data Analytics 【英語】コーディング方法など細かい事例が豊富です。 An Introduction to Bayesian Data Analysis for Cognitive Science 【英語】ベイズに特化しています。 New statistics for design researchers A Bayesian workflow in tidy R 【英語】ベイズに関する分析法がまとめてあります

                                                                      無料で学ぶRと統計解析:おすすめのウェブサイト - Qiita
                                                                    • DataExplorerパッケージで探索的データ解析を手助けする - Qiita

                                                                      概要 DataExplorerは探索的データ解析を手助けするR言語のパッケージ ggplot2パッケージをラップしており、関数ひとつでデータセットを可視化できる 可視化結果をまとめたHTML形式の定型レポート生成も手軽 前書き 探索的データ解析(EDA: Exploratory Data Analysis)とは? S-PLUS -トップ > 製品概要 > 探索的データ解析」より引用。 探索的データ解析は、1960年ごろより有名な統計学者J.W.Tukeyによって提唱されたもので、データの解釈にあたっては「まずモデルありき」ではなく、モデルを仮定する前に現実的な立場で、データの示唆する情報を多面的に捉えるという、解析初期のフェーズを重視したアプローチです。 それ以前は、あらかじめモデルを用意して、データをあてはめて確率計算を行っていました。しかし現実には、複雑な現実のデータ構造の中から、最適

                                                                        DataExplorerパッケージで探索的データ解析を手助けする - Qiita
                                                                      • 非劣性検定(等価検定)をRで試してみる - 渋谷駅前で働くデータサイエンティストのブログ

                                                                        この記事は、以前『統計学のセンス』を読んだ時から気になっていたことを思い出したので、単にRで試してみたという備忘録です。 非劣性検定(等価検定)の話題は、本書の最後にある8.3節「非劣性の検証とは?」であくまでも付録扱いとして登場します。ここでは、 統計学的検定は通常「有意差検定」といわれるが、 1) 標本数を大きくすることによって「医学的に有意でない差」を「統計学的に有意」とすることができる 2) 標本数を小さくすることによって「医学的に有意な差」を「統計学的に有意でない」とすることができる という欠点があることは意外と知られていない。(同書p.143) という有意差検定の問題点を指摘した上で、1980年代後半ごろから新薬審査に当たって「標準薬と同等程度の有効性」が検証できれば認可されるという流れが出てきたことで、積極的に同等性を検証するというニーズが出てきたという話題が紹介されています

                                                                          非劣性検定(等価検定)をRで試してみる - 渋谷駅前で働くデータサイエンティストのブログ
                                                                        • Forecasting: Principles and Practice (3rd ed)

                                                                          Forecasting: Principles and Practice (3rd ed) Rob J Hyndman and George Athanasopoulos Monash University, Australia Buy a print version Welcome to our online textbook on forecasting. This textbook is intended to provide a comprehensive introduction to forecasting methods and to present enough information about each method for readers to be able to use them sensibly. We don’t attempt to give a thoro

                                                                            Forecasting: Principles and Practice (3rd ed)
                                                                          • ggplot2による可視化入門

                                                                            ggplot2 パッケージ “Grammer of Graphics”のコンセプトを実装したパッケージ 現在Rにおけるグラフィックで非常に大きな支持を得ている グラフィックの構成要素を意識したレイヤー構造を持つ いわゆる「重ね書き」をイメージするとわかりやすい 拡張パッケージがたくさん (ちょっと勉強すれば)自分でいろいろ作れる tidyverseパッケージ群のひとつ tidyverseのグラフィック担当 インストール CRANからインストールする場合: install.packages("ggplot2") 開発版(github)からインストールする場合: devtools::install_github("tidyverse/ggplot2") tidyverseパッケージ群なので、これでもインストールされる(推奨) install.packages("tidyverse") 読み込み

                                                                            • ggplot2 v3.3.0を使ってみた - Technically, technophobic.

                                                                              ggplot2 v3.3.0のリリースが近々予定されています。新機能がいろいろあるのでかいつまんで紹介します。 詳しくはNEWS.mdをご参照ください。 after_stat(), after_scale(), stage() The evaluation time of aesthetics can now be controlled to a finer degree. after_stat() supersedes the use of stat() and ..var..-notation, ad is joined by after_scale() to allow for mapping to scaled aesthetic values. Remapping of the same aesthetic is now supported with stage(), so yo

                                                                                ggplot2 v3.3.0を使ってみた - Technically, technophobic.
                                                                              • How the BBC Visual and Data Journalism team works with graphics in R

                                                                                Over the past year, data journalists on the BBC Visual and Data Journalism team have fundamentally changed how they produce graphics for publication on the BBC News website. In this post, we explain how and why we have used R’s ggplot2 package to create production-ready charts, document our process and code and share what we learned along the way. Data journalists on the BBC News’ Visual and Data

                                                                                  How the BBC Visual and Data Journalism team works with graphics in R
                                                                                • 「大規模計算時代の統計推論」 を全部Rでやってみる ~第1章~ - kur0cky

                                                                                  かの有名な「カステラ本」の姉妹編?「大規模計算時代の統計推論―原理と発展―」の和訳が発売されました 大規模計算時代の統計推論: 原理と発展 作者:エフロン,ブラッドレイ,ヘイスティ,トレバー発売日: 2020/07/30メディア: 単行本 著者はブラッドリー・エフロン,トレヴァー・ヘイスティという超レジェンド研究者達ですが,訳者にもそうそうたる名前が並んでいます. せっかく新たなバイブルに出会えたので,この本で行われている解析を全てRでやってみる,ということをやっていきます. 解析には随時適当なライブラリを使用し,作図・作表には基本的にggplot2, gtパッケージを使います.tidyverseも可能な限り活用していきます. 今回の記事では第1章「アルゴリズムと推論」の再現をします. 準備 1.1 回帰の例 fig 1.1 fig 1.2 tab 1.1 fig 1.3 1.2 仮説検定

                                                                                    「大規模計算時代の統計推論」 を全部Rでやってみる ~第1章~ - kur0cky