タグ

rに関するNaruhodiusのブックマーク (98)

  • RStudioがすごそうなので使ってみた - As a Futurist...

    最近出たプロダクトで「RStudio」というのがあるんですが、試しに使ってみてあまりにも洗練されてて感動したのでエントリにしました。 RStudio って何? そもそもなにするものかというと、統計分析・グラフ作成プログラミング言語である R の IDE みたいなもので、PC 上でスタンドアローンで動かすこともできますし、サーバ上のリソースをブラウザ越しに扱うこともできます。スタンドアローンの方はすでに WindowsMac などひと通りバイナリありますし、サーバの方も Ubuntu/CentOS はバイナリあって楽々使えるようです。 ちなみに最初 Amazon Linux で動かしてみようと思ってたんですが、Amazon Linux は微妙にパッケージを新しくした CentOS みたいな感じなので各所でライブラリのバージョンがずれてて依存関係で破滅的になりました。だったら make

    RStudioがすごそうなので使ってみた - As a Futurist...
    Naruhodius
    Naruhodius 2016/03/23
  • CentOS 6.2 に R と RStudio Server をインストールする - hiratake55 の作業メモ

    RStudio Server は Linux サーバにインストールした R を Web ブラウザから Web アプリケーションとして操作でき、大変便利なのですが、インストール方法について触れたブログ記事がほとんどないので、インストールしたついでに書きました。 余談ですが、2010年5月に Tsukuba.R で RWebUI というソフトウェアを提案して開発しませんでしたが、コンセプト的には全く同じ物です。RStudio Server と同様なソフトウェアでは R-Node も有名です。 1. Yum のレポジトリに EPEL を追加する。 EPEL をインストール済みの場合は、省略可能です。以下、全て root でコマンドを実行します。 # rpm -ihv http://ftp.riken.jp/Linux/fedora/epel/6/x86_64/epel-release-6-7.n

    CentOS 6.2 に R と RStudio Server をインストールする - hiratake55 の作業メモ
  • R パッケージを CRAN で公開する - StatsFragments

    少し前に 自作パッケージを CRAN で公開したのだが ブログに書くのを忘れていた。CRAN 公開時の注意点に関して、日語の説明があまりない / 情報が古いので簡単にまとめたい。 パッケージの作成 この資料を読みましょう。 東京R非公式おじさんが教える当に気持ちいいパッケージ作成法 from tera monagi www.slideshare.net 継続的インテグレーション (CI) Travis CI は R をサポート (community supportだが) しているため、.travis.yml に2行記載するだけで利用できる。CI 上でパッケージのチェック (R CMD check) も走るので利用したほうが楽。 Building an R Project - Travis CI 複数の環境でテストを実行したい場合、Travis CI では Build Matrix とい

    R パッケージを CRAN で公開する - StatsFragments
    Naruhodius
    Naruhodius 2015/11/23
  • R で 状態空間モデル: {dlm} の最尤推定を可視化する - StatsFragments

    {dlm} において、状態空間モデルが最尤推定される過程がみたい。以下内容の補足的なエントリ。 sinhrks.hatenablog.com 「状態空間時系列分析入門」では 引き続き 第8章 に相当。 状態空間時系列分析入門 作者: J.J.F.コマンダー,S.J.クープマン,Jacques J.F. Commandeur,Sime Jan Koopman,和合肇出版社/メーカー: シーエーピー出版発売日: 2008/09メディア: 単行購入: 2人 クリック: 4回この商品を含むブログを見る データの準備 データは著者のサポートサイト、An Introduction to State Space Time Series Analysis から入手できる。 library(dlm) # install_github('sinhrks/ggfortify') library(ggforti

    R で 状態空間モデル: {dlm} の最尤推定を可視化する - StatsFragments
    Naruhodius
    Naruhodius 2015/08/10
  • Rメモ:read.csv/write.csvで読み込んだり書き出したりするときの注意点 - StatsBeginner: 初学者の統計学習ノート

    Rで、CSVのデータを読み込んだり書き出したりするときに、引数をちゃんと設定してなくてミスることがありますね。 いやべつに大したことではなくて、私のような初心者レベルですら「当たり前」なことではあるんですが、今日あるデータを分析してて一部ミスってたものがあったので改めて注意しなきゃなと思いました。 # データxをCSVでファイルを出力する write.csv(x, "x.csv", quote=FALSE, row.names=FALSE) quote=FALSEにすると、データに引用符の""がつかないCSVが出力されます。TRUEにすると、因子型とか文字列型のデータは1個1個の値が""で囲まれます。いずれにしてもちゃんと指定しておかないと、ミスるときありそうですね。デフォルトではTRUEになってるようです。 あと、row.names=FALSEってしておかないと、行列の行番号がそのままC

    Rメモ:read.csv/write.csvで読み込んだり書き出したりするときの注意点 - StatsBeginner: 初学者の統計学習ノート
    Naruhodius
    Naruhodius 2015/03/18
  • R: Load or Save or Display the Commands History

    Load or Save or Display the Commands History Description Load or save or display the commands history. Usage loadhistory(file = ".Rhistory") savehistory(file = ".Rhistory") history(max.show = 25, reverse = FALSE, pattern, ...) timestamp(stamp = date(), prefix = "##------ ", suffix = " ------##", quiet = FALSE) Arguments The name of the file in which to save the history, or from which to load it. T

    Naruhodius
    Naruhodius 2015/03/17
  • R {ggplot2} の散布図に凸包 / 確率楕円を描きたい - StatsFragments

    小ネタ。{ggplot2} でグループ別の散布図を描くときに、ちょっと飾り付けをしてグループをわかりやすくしたい。 凸包 (Convex) 最初にベースとなる散布図を描く。 library(dplyr) library(ggplot2) df <- iris p <- ggplot(df, aes(x = Petal.Width, y = Petal.Length)) + geom_point() p まずは 散布図全体について凸包をとる。ある点の集合の凸包は、 grDevices::chull で計算できる。chull は凸な点の index を返すので、この返り値に含まれるデータのみをフィルタして geom_polygon に渡せばよい。 chull(df[c('Petal.Width', 'Petal.Length')]) # [1] 44 17 23 14 33 25 135 12

    R {ggplot2} の散布図に凸包 / 確率楕円を描きたい - StatsFragments
  • R -- 主成分分析

    主成分分析     Last modified: Aug 02, 2009 目的 主成分分析を行う。 R には,princomp および prcomp という,二種類の関数が用意されている。 しかし,これらが返す「loadings」は固有ベクトルそのものであって,いわゆる負荷量ではない。 そこで,princomp2,prcomp2 という関数を書いたので,そちらも参照してみるとよい。 使用法 pca(dat) print.pca(obj, npca=NULL, digits=3) summary.pca(obj, digits=5) plot.pca(obj, which=c("loadings", "scores"), pc.no=c(1,2), ax=TRUE, label.cex=0.6, ...) 引数 dat データフレームまたはデータ行列(行がケース,列が変数) obj pca

    Naruhodius
    Naruhodius 2015/02/17
  • R -- 重回帰分析

    重回帰分析     Last modified: Sep 21, 2009 目的 重回帰分析を行う。 変数選択を行うには,「sreg 関数」を使用のこと。 (R では lm 関数を使うのがよい) 使用法 mreg(dat, func.name=c("solve", "ginv")) 引数 dat データ行列。従属変数は最終列におき,それ以外は独立変数と見なす。 func.name 逆行列を計算する関数名(solve か ginv)。 正規方程式が特異行列になる場合以外はどちらを使っても結果は同じ 省略時は solve ムーア・ペンローズ型一般化逆行列を使うときは ginv ソース インストールは,以下の 1 行をコピーし,R コンソールにペーストする source("http://aoki2.si.gunma-u.ac.jp/R/src/mreg.R", encoding="euc-jp"

    Naruhodius
    Naruhodius 2015/02/17
  • R言語scale()での正規化バリエーション - jnobuyukiのブログ

    以前、データの正規化にはいろいろな方法があることを述べました。 数量の正規化:方法の違いは何を意味するか? - jnobuyukiのブログ いろいろな正規化をやってくれるコマンドにR言語のscale()があります。 この関数は、何も考えずに使ってもそれなりに動きます。 しかし、引数として含まれるパラメータを利用すると、もっと便利です。 scale()の引数 scaleには3つの引数があります。 1. 行列(matrix)オブジェクト: ここに当てはめた変数を正規化します。 2.center: パラメータの値として3種類あります。 TRUE: デフォルトの値です。行の平均値を全てのケースから引きます。 FALSE: 引き算をしません。 数値ベクトル: 数値ベクトルの値をケースのそれぞれから引きます。 3. scale: centerと同様3種類の設定が可能です。 TRUE: デフォルトの値で

    R言語scale()での正規化バリエーション - jnobuyukiのブログ
  • Rで主成分分析 | Casley Deep Innovations株式会社 技術ブログ

    ※メジャーリーグの規定投球回数を満たした先発投手に限定しています。各項目の説明を簡単にしてみましょう。 防御率           ・・・   1ゲーム9イニングの中での平均失点(ただし、味方のエラー絡みによる失点は含まれない) 勝ち                ・・・   先発が5回以上を投げてチームがリードしたまま試合を終了した数 投球回数          ・・・   シーズン通しての投球回数の合計 被打率             ・・・   打者一人に対して安打を打たれる確率 被塁打         ・・・   シーズン通してホームランを打たれた数 四死球             ・・・   シーズン通してのデッドボール、フォアボールの合計 奪三振             ・・・   シーズン通してピッチャーが三振を取った数 ゴロ/フライ率  ・・・   ゴロアウト数÷フライア

    Rで主成分分析 | Casley Deep Innovations株式会社 技術ブログ
  • >data(airquality)

    まず、次のようにR上でデータセットを作成する。もちろん、単回帰で用いたデータセットに1列(ウエスト)を付け加える方法で作成することもできる。 >体重<-c(50,60,65,65,70,75,80,85,90,95) >身長<-c(165,170,172,175,170,172,183,187,180,185) >ウエスト<-c(65,68,70,65,80,85,78,79,95,97) > taikei2<-data.frame(体重,身長,ウエスト) > taikei2 体重 身長  ウエスト 1    50  165       65 2    60  170       68 <後略> まず、データの変数間の関係を考察するため、相関行列と対散布図を求める。相関は関数corを用いて求める。 > round(cor(taikei2),4) 体重   身長 ウエスト 体重     1.

    >data(airquality)
  • 統計学の代表的な手法を実践する (4) 〜 因子分析 - Qiita

    前回までロジスティック回帰の話でしたが今日は因子分析の話です。 最初に掲げた一般化線形モデルの表を参照してください。 因子分析とは、複数の変数があったとき、その背後にそれらに影響する構成概念があるものと仮定し、少数の潜在的変数で複数の変数間の関係を説明しようというものです。 このように少数の変数へと変換することを縮約、またこの構成概念を説明する潜在的変数を因子と言います。因子分析は背後に共通した因子が想定できる変数を縮約し、新しい量的な変数を作ります。 このような伝統的な統計手法はすでに解説しているサイトがたくさんあります。たとえば次のページなども参考にしてください。 株式会社NTTデータ数理システム S+rescue Chap6 因子分析 http://www.msi.co.jp/splus/learning/rescue/factor.html 因子分析をやってみる 昨今では Pyth

    統計学の代表的な手法を実践する (4) 〜 因子分析 - Qiita
  • An Example of Social Network Analysis with R using Package igraph

    Naruhodius
    Naruhodius 2015/02/09
  • 素性ベクトル+分類ラベルのテーブルを持ってくる⇒Rを使ってお手軽に機械学習で分類してみる - 渋谷駅前で働くデータサイエンティストのブログ

    Hiveで生テーブルを取ってくる→素性ベクトル+分類ラベルのテーブルに直す 前回の記事では、Hadoopクラスタ(というかHDFS)に収納されている、いかにもありがちなユーザー行動テーブルを、機械学習で扱いやすい素性ベクトル+分類ラベルのテーブルに直す、というお話をしました。 ここからがデータマイニングの番です。 ここではどの機械学習分類器を使うのか?といった細かい議論は後回しにして*1、とにかくRを使ってどのように上記のテーブルに対して機械学習を実行するのか?について書いてみます。 とにかくR formula: 'y~x+y+z'の形に持って行く 既に前回の記事でも触れた通りですが、Rの関数群は大抵の作業仮説となるモデルを"formula"として与えられるように設定されています。 その書式については、とある方のブログ記事が分かりやすいと思いますのでまずはそちらをご参照のこと。要は、回帰

    素性ベクトル+分類ラベルのテーブルを持ってくる⇒Rを使ってお手軽に機械学習で分類してみる - 渋谷駅前で働くデータサイエンティストのブログ
  • Google Sites: Sign-in

    Not your computer? Use a private browsing window to sign in. Learn more about using Guest mode

    Google Sites: Sign-in
  • 信頼区間の意味と、Rのpredict()関数の使い方の注意点 - StatsBeginner: 初学者の統計学習ノート

    信頼区間とはなんぞやというのをメモしておこうと思って、簡単なデータで回帰分析を行って図をつくろうかと思ったら、Rのpredict()関数の使い方に落とし穴があったので復習がてらメモ……。 とりあえず単回帰分析する Rの練習用データセット「cars」をつかいます。*1 車のスピードと制動距離(or 停止距離)ですかね。 > head(cars) # Rの練習用データセット「cars」の中身 speed dist 1 4 2 2 4 10 3 7 4 4 7 22 5 8 16 6 9 10 相関係数と散布図をみておきます。 > cor(cars$speed, cars$dist) [1] 0.8068949 > plot(cars) とりあえず回帰分析します。 # lm()で回帰分析 > cars.lm <- lm(dist ~ speed, data=cars) > summary(car

    信頼区間の意味と、Rのpredict()関数の使い方の注意点 - StatsBeginner: 初学者の統計学習ノート
    Naruhodius
    Naruhodius 2015/02/02
  • Twitterがリリースした時系列異常値検出のためのRパッケージ{AnomalyDetection}を試してみる - 渋谷駅前で働くデータサイエンティストのブログ

    もう松の内も明けてしまいましたが、遅ればせながら皆さん明けましておめでとうございます。今年もよろしくお願いいたします。 で、年明け早々にTwitterエンジニアブログに面白いネタが上がっていたのでした。 その名も{AnomalyDetection}というRパッケージ。バルス砲に備えてTwitterが鉄壁の防御を敷いていることは多くの人がご存知だと思いますが(笑)、そういうバルス砲のような異常なアクセスの跳ね上がりだったり、逆にサーバダウンなどでアクセスの異常な落ち込みが出た時にいち早く検出するというのが目的の分析フレームワークのようです。 ということで、話題が新鮮なうちにちょっと試してみようと思います。 どういう仕組みで動いているのか 理論的背景としては、そもそもgeneralized ESD (extremely Studentized deviate) testという外れ値検出の手法が

    Twitterがリリースした時系列異常値検出のためのRパッケージ{AnomalyDetection}を試してみる - 渋谷駅前で働くデータサイエンティストのブログ
    Naruhodius
    Naruhodius 2015/01/10
  • ggplot2 の凡例を並べ替える - 廿TT

    Naruhodius
    Naruhodius 2014/11/04
  • Shiny を使ってR言語のプログラムをWeb アプリ化する - Tech-Sketch

    R は統計解析向けのプログラミング言語で、お手軽にデータ分析を行うことができます。そして、R での分析結果は、Shiny というR のパッケージを使うことで、簡単にWeb アプリ化することができます。今回はR プログラムを簡単にWeb アプリ化するShiny パッケージと、Web アプリとして公開することができるShiny Server について紹介します。 What's Shiny? Shiny とはR のIDE である RStudio の開発元のRStudio Inc. が開発しているプロダクトです。Shiny を使うとR のプログラムを簡単にWeb アプリにすることができます。 Shiny で作成したWeb アプリはブラウザからのユーザー入力などをトリガーに、インタラクティブにR のプログラムを即時実行し、その実行結果を動的に確認できます。見た目に関しては、Shiny が内部的に T

    Shiny を使ってR言語のプログラムをWeb アプリ化する - Tech-Sketch
    Naruhodius
    Naruhodius 2014/09/09