R言語とは 統計解析向けのオープンソース言語です。とにかく、統計に関わるとあらゆる場所で「R」について聞きます。SPSSやSASはもちろん、Azure Machine Learningなどクラウド系の統計ソリューションでも大体、使える/連携できるようになっています。 今回はR言語環境準備としてRのインストール方法を紹介します。RStudioインストール(2020年 Windows)に続きます。 ※2020年5月に最新版でインストールし直して手順の再確認しました。一部スクリーンショットは旧バージョンインストール時のものですが、バージョンID以外変わらなかったのでそのままにしています。 参考 Wikipedia: R言語 R公式サイト 【R入門】R言語の基本的な使い方 環境:Windows7 32bit(LinuxでもMacでも使えます) Windows10 64bitでも同じ操作でインストー
Googleドライブでは Google のオンライン ストレージを無料で 15 GB 利用可能。 ワードだぁって♪ パワポだぁって♪ エクセルだぁって♪ みんなみんな保管できるよ♪ Googleドライブ♪ ※他にも、動画・画像・PDFなどさまざまなファイルを保管可能。
ヒストグラムを見るときにはRやTableauを使うことが多いのですが、Excelで簡単にヒストグラムがかけたらいいなとよく思っていました。Excelでヒストグラムを書くことが大変なのは、ググればたくさん出てきてわかります。(Excel2016では簡単にかけるようになったようですが、持ってないので使ったことはないです。) ふと、Googleスプレッドシートだったらできるかも、と思ったら、ごく簡単にできました。 範囲選択して、挿入からグラフを選んで、 ヒストグラムを選択して、 完成。 バケットサイズを変更すれば幅の調整もできます。 残念ながら、これをExcel形式でエクスポートしても、Excelからは見られませんでした。
平均は同じであるが標準偏差が大きく異なるデータのヒストグラムの例。赤で示されたデータの方が青で示されたデータよりも標準偏差が小さい。 平均 0, 標準偏差 σ の正規分布の確率密度関数。この分布に従う確率変数が 0 ± σ の間に値をとる確率はおよそ 68% であることが読み取れる。 標準偏差(ひょうじゅんへんさ、(英: standard deviation, SD)とは、データや確率変数の、平均値からの散らばり具合(ばらつき)を表す指標の一つである。偏差ベクトルと、値が標準偏差のみであるベクトルは、ユークリッドノルムが等しくなる。 標準偏差を2乗したのが分散であり、従って、標準偏差は分散の非負の平方根である[1]。標準偏差が 0 であることは、データの値が全て等しいことと同値である。 母集団や確率変数の標準偏差を σ で、標本の標準偏差を s で表すことがある。 二乗平均平方根 (RMS
この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。(このテンプレートの使い方) 出典検索?: "中心極限定理" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL(2010年2月) サイコロを n 回振ったときの出た目の和 Sn = X1 + … + Xn の分布が n を大きくするに従って正規分布による近似に近づく様子 中心極限定理(ちゅうしんきょくげんていり、英: central limit theorem, CLT)は、確率論・統計学における極限定理の一つ。 大数の法則によると、ある母集団から無作為抽出した標本の平均は標本の大きさを大きくすると母平均に近づく。これに対し中心極限定理は標本平均と母平均との誤差の分布を論ずるものである。
正規分布(せいきぶんぷ、英: normal distribution)またはガウス分布(英: Gaussian distribution)は、確率論や統計学で用いられる連続的な変数に関する確率分布の一つである[1]。データが平均値の付近に集積するような分布を表す。主な特徴としては平均値と最頻値、中央値が一致する事や平均値を中心にして左右対称である事などが挙げられる[1][2]。 中心極限定理により、独立な多数の因子の和として表される確率変数は正規分布に従う。このことによって正規分布は統計学や自然科学、社会科学の様々な場面で複雑な現象を簡単に表すモデルとして用いられている[1]。 たとえば、実験における測定の誤差は正規分布に従って分布すると仮定され、不確かさの評価が計算されている。 正規分布の確率密度関数のフーリエ変換は再び正規分布の密度関数になることから、フーリエ解析および派生した様々な数
『初めてのセイバーメトリクス講座』の第8回は最新の守備指標について面白い話をききました。講師はセイバー研究で知られる統計学者の鳥越規央先生。生徒はわたくし、漫画家のカネシゲタカシでお送りします。 鳥越:今日お話するのは「守備」のセイバー指標ですが、今回は2017年のゴールデングラブ賞(以下GG賞)に物申したい! カネシゲ:おや、いきなりボヤキですか(笑)。 鳥越:GG賞は最も守備の上手な選手に贈られる賞ですが、私が特に物申したいのはセ・リーグの三塁手部門です。 カネシゲ:セの三塁手? 鳥越:17年に守備の規定試合数(試合数×2/3。捕手は試合数×1/2)を超えていたのは鳥谷敬(阪神)と宮崎敏郎(DeNA)の2人。よって2択でした。 カネシゲ:結果、GG賞を受賞したのは鳥谷でしたね。 鳥越:そこですよ。守備の指標には守備機会数に対するエラーの数を表す失策率というのがあります。そして1から失策
2019年10⽉1⽇ 統計科学のための電子図書システムは 統計数理研究所の機関リポジトリに移行しました。 移行後のページ
Q:これは何の構造を表しているでしょう? グラフ理論 上の構造のように、頂点(ノードともいいます)の集まりと、2つの頂点をつなぐ辺(エッジともいいます)の集まりでできたもののことを「グラフ」あるいは「ネットワーク」と呼び*1、このような構造を研究する分野こそが「グラフ理論(Graph theory)」です。今回はそんなグラフを使うと、身近なものの新たな側面が見えてくる話。 (余談ですが「グラフ」という用語は、数学だと関数のグラフとか円グラフみたいなやつもあって検索精度が悪いです。グラフ理論に関してわからないことがあった場合に「グラフ ○○」や「グラフ理論 ○○」とググるよりも、「ネットワーク ○○」とググったほうが得たい情報にリーチしやすいというライフハックが知られています) さて、冒頭のグラフです。グラフ理論の知識なんかひとつもなくても、このグラフから読み取れることはいくつもあります。例
最終更新:2017年6月1日 時系列分析という名前はご存知でしょうか? 残念ながらExcelで実行するのがやや困難であるためこの名前もあまり浸透していないのではないかと思います。 時系列解析は、回帰分析とは違ってあまり知らない人も多いと思うので、ざっと解説を載せておきます。これだけ読めば、時系列分析の雰囲気はつかめるのではないでしょうか。 時系列分析の基礎の基礎からSARIMAモデルまでを一気に解説します。 それと、便利なパッケージ forecast の紹介も。 Rを使えば簡単に計算できますよ。 Pythonを使いたい方は「Pythonによる時系列分析の基礎」の実装例も併せて参照してください。 スポンサードリンク 目次 1.時系列解析って何? 2.時系列データの扱い方 3.知ると便利な用語集 3-1.自己相関係数・偏自己相関係数 3-2.ARモデル(自己相関モデル) 3-3.MAモデル(移
異常検知(いじょうけんち、英: anomaly detection)や外れ値検知(はずれちけんち、英: outlier detection)とは、データマイニングにおいて、期待されるパターンまたはデータセット中の他のアイテムと一致しないアイテムやイベントや観測結果を識別すること[1]。何が異常であるかを定義するのは、タスク次第ではあるものの、Varun Chandolaら[1]は異常というのは通常の動作として明確に定義された概念に準拠しないデータパターンである定義している。各タスクに適用すると通常、異常とは銀行詐欺(英語版)、クレジットカード不正利用、構造欠陥、医学的な問題、文書中の誤り検出、不審な行動検出、機械の故障検知などの問題に翻訳する。なお、異常(anomaly)は、外れ値(outlier)、珍しい物(novelty)、雑音(noise)、変動(deviation)、例外(exce
さて、改めて今回の目的を確認しておくと、機械学習を使って東京都23区のお買い得賃貸物件を発見しよう、というものです。前回までの記事で、お買い得賃貸物件を発見するためのデータを収集し、分析にかけられるよう前処理してきました。 www.analyze-world.com www.analyze-world.com 今回の記事では、いよいよ機械学習を使って分析していきましょう。前回まではPythonを使っていましたが、この分析ではRを用いています。なお、コードはGitHub(https://github.com/ShoKosaka/Suumo)に上げておきますので興味ある方は参照ください。 最初に、データの中身をざっくり見ていきます。具体的には、分析のキーになるポイントをグラフにしながら、賃貸物件の現状や変数同士の関係性を把握していきます。 データ探索 まず、23区の中でどこが物件数が多いのかを
ビジネスホテルチェーン国内最大手のアパホテルの宿泊満足度をめぐって、ビジネス誌2誌のアンケート調査結果が真っ二つに割れる珍現象が起きた。「週刊ダイヤモンド」11月4日号の特集「1万人が選んだ ベストホテル&エアライン」では、同ホテルの満足度は20ホテル中トップ。その1週間前に発行された「日経ビジネス」10月23日号特集「ビジネスパーソンに聞く 後悔しない航空&ホテル 5000人満足度ランキング」では、同ホテルの満足度は35ホテル中最下位だった。 なぜ正反対の結果が出たのか。その原因を探るには、ホテルの評価方法に目を向ける必要がある。 まず評価方法について。ダイヤモンドでは、直近2年間に宿泊したビジネスホテルについて、満足したホテルを上位3つ、不満だったホテルを1つ挙げる形だった。そして満足したホテルには1位5点、2位3点、3位1点を付与し、その総計でランキングしている。 一方、日経ビジネス
中小企業を支援する国の制度をめぐる不正な融資が問題になっている政府系金融機関の商工中金で、景気動向の調査に際して、企業から聞き取りをしないまま勝手に調査票を作成していたことがわかり、会社側が調査を進めています。 国の制度をめぐる不正な融資の問題を受けて、会社がほかに不正がないか調べたところ、この景気動向の調査に際して不正が行われていたという報告があったということです。 商工中金によりますと、1つの支店で、調査を担当する担当者が実際には中小企業への聞き取りをしていないにもかかわらず売上高や雇用状況などを記入する調査票を勝手に作成していたということです。このため、商工中金では、ほかの支店でもこうした不正がなかったか、調査を進めているとしています。 商工中金は、これまでの内部調査で国の制度をめぐる不正融資が全店舗のおよそ9割で行われ、関与した職員はおよそ300人に上ることが明らかになっていて、内
ダメな統計学: 悲惨なほど完全なる手引書 作者: アレックスラインハート,Alex Reinhart,西原史暁出版社/メーカー: 勁草書房発売日: 2017/01/27メディア: 単行本この商品を含むブログ (4件) を見るこの科学全盛の現代、世の中数字ばかりである。研究不正は後を絶たず、統計の誤謬が最低限見抜けなければ誤った情報で結論を導くはめになってしまうから、統計の基礎知識は科学者やデータサイエンティストのみならず必要不可欠になってきている。 世はまさに大科学時代 そこで『ダメな統計学: 悲惨なほど完全なる手引書』が登場する。本書は統計学の入門書──というわけではなく、ダメな統計学の用いられ方/ダメな統計の取り方はどのようなものか、なぜダメな統計なんてものが出てきてしまうのかといった人間の心理面、環境面まで含めて一つ一つ取り上げ、仔細検討し、読んだ人間が統計手法を用いる際の誤りを減ら
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く