[B! statistics] zaskar99のブックマーク

統計処理ソフトウェアRについてのTips

最終更新：2022年 11月 3日 (木曜日) このページでは，国際共同研究のオープンソースなプロジェクトで開発され，GNU GPLに従って公開，配布されている高機能な統計ソフトであるRについてのTipsを扱う。 Archives 保管庫インデックス保管庫1（2004年1月まで） | 保管庫2（2010年6月まで） | 保管庫3（2014年5月まで） | 保管庫4（2015年6月まで） | 保管庫5（2015年12月まで） | 保管庫6（2016年12月まで） | 保管庫7（2019年12月まで） | 保管庫8（2020年1月から）無料電子本出版社の和書刊行方針変更により絶版になったので，その時点での最終版をpdfで無料公開している。中澤　港(2003)『Rによる統計解析の基礎』ピアソン・エデュケーション（virtual 9th ed.）と中澤　港(2007)『Rによる保健医療データ

zaskar99 2022/04/02

Statistics

リンク

日本語で学べるベイズ統計学の教科書10冊 - Qiita

東京大学・株式会社Nospareの菅澤です．今回はベイズ統計学を勉強する上で個人的にオススメな日本語の教科書10冊を簡単に紹介したいと思います．一般的な方法論・基礎理論中妻照雄『入門ベイズ統計学』簡単な例と実践的な例を使ってベイズ推論の考え方が導入された後，マルコフ連鎖モンテカルロ法(MCMC)の基礎的な事項がまとめられています．基本的な数理統計学が理解できていれば十分読める内容になっている印象です．この本の続編である中妻照雄『実践ベイズ統計学』では，ファクターモデルやそのポートフォリオ選択への応用，ベイズ的線形回帰モデル，モデル平均化法などのより発展した内容について丁寧に解説されています．伊庭幸人・種村正美・大森裕浩・和合肇・佐藤整尚・高橋明彦『計算統計II』かなりボリュームのある内容の本です．基本的な話題として，MCMCの基礎や標準的な統計モデルにおけるベイズ推論に関して数

zaskar99 2021/03/06

リンク

初学者からの統計学10冊（社会科学向き） - Qiita

はじめに千葉大学・株式会社Nospareの川久保です．今回は，初学者レベルから学部上級レベルの統計学関連の教科書を，順を追って紹介していきます．普段，経済学をはじめとする社会科学（経済学・経営学や政治学など）を学ぶ学生に教えているので，タイトルに「社会科学向き」と入れてみましたが，これから紹介する多くの本は，他の応用でも役に立つものが多いはずです．入門書大屋幸輔『コア・テキスト統計学』厳密さと初学者に対する分かりやすさのバランスのとれた本です．演習問題を集めた副読本もあるので，こちらと併せて学習すると効果的だと思います．久保川達也・国友直人『統計学』入門書としては，やや硬派な教科書ですが，しっかり学びたい人にはお勧めの教科書です．「1.記述統計」「2.確率」「3.推測統計」と標準的な構成をしている中，最後の第4部では社会・経済データとして標本調査や時系列分析の話題にも触れてい

zaskar99 2021/02/05

リンク

Mizumoto Lablog | 階層線形モデル/マルチレベルモデル/線形混合モデル

このタイトルの分析方法（モデル）について， 2012/11/10にメソドロジー研究部会・言語テスティング第二言語習得合同発表会にてお話しました。 iOSの場合は，”Sorry! Page not found”と表示されるので，こちらからご覧下さい。「外国語教育研究ハンドブック」で紹介している，t 検定や，分散分析（ANOVA），回帰分析は，一般線形モデル（general linear model) と呼ばれる枠組みのものです。一方，一般化線形モデル (generalized linear model; GLM)は，その枠組みを拡張したもので，ランダム効果が入ったら，一般化線形混合モデル (generalized linear mixed model; GLMM)と呼ばれます。ランダム効果については，資料をご確認ください。分野や分析方法によって，線形混合モデルと呼んだり，

zaskar99 2020/01/13

Statistics

リンク

代表的な確率分布の特徴まとめ - Qiita

この記事について代表的な確率分布の使いどころや関係性について直感的に思い出せるように、特徴についてまとめます。早見表概要名称概要再生性形式共役分布備考

zaskar99 2020/01/08

リンク

【2019年】データ分析・可視化に本気でおすすめのツール30選（ノーコード型ツール含め） - Qiita

一般的なチャート（8）インフォグラフィック（3）地図・マップ（1）ネットワークグラフ（1）関数のグラフ（1）エンジニア向け一般的なチャート（10）地図・マップ（4）ネットワークグラフ（1）株価チャート（1） 1.一般的なチャート（1）RAWGraphs RAWGraphs はクラウド型、オープンソースのデータ視覚化ツールであり、 Excelのデータを処理するためによく使われます。RAWGraphsにデータをアップロードし、ほしいグラフを設計して、 SVGかPNGの画像に出力すれば済みます。RAWGraphsにアップロードされたデータは Web側でのみ処理されるので、データの安全を保証できます。（2）ChartBlocks ChartBlocks はグラフ作成のオンラインツールであり、スマートデータインポートガイドに従えば、データのインポートとグラフの設計を簡単に完了

zaskar99 2019/05/11

リンク

データサイエンティスト含むデータ分析職の仕事がつらい4つの理由：洋の東西を問わずつらみは同じらしい - 渋谷駅前で働くデータサイエンティストのブログ

(Image by Pixabay) 某所でバズっていたこの記事ですが。もう読んだ瞬間に「うわー、これ完全に洋の東西を問わずデータ分析業界だとどこでも見られる、業界つらみあるあるだなー」という感が湧いてきて、こみ上げてくる涙が押さえきれませんでした（嘘）。という軽口はさておき、実際にほぼ同じ内容の愚痴をUSでデータサイエンティストとして働いていた知人からも直に聞いたことがあるので、個人的にもかなり説得力のある話だなと思いました。この記事の若干嫌なところは「データサイエンティストたちはいつでも転職活動をしている、何故ならどこの職場に行っても以下のつらみがあるからだ」という書き方をしている点。いや、データサイエンティスト含むデータ分析職が全員常に転職活動しているかというとさすがに違うだろうと思いますが、「それくらいつらいんですマジ勘弁して下さい」と言われたら頷かざるを得ないのもまた事実かな

zaskar99 2018/04/03

リンク

PyStanによるはじめてのマルコフ連鎖モンテカルロ法 - Qiita

概要会社で行っている『データ解析のための統計モデリング入門』(所謂緑本)の輪読会に参加した所、大変わかりやすい本だったものの、Macユーザには悲しい事に実装サンプルがWinBUGSだったため、 9章の一般化線形モデルのベイズ推定によるアプローチをPython + STANで実装しました。やった事ざっくり以下のステップを踏んでいます。 1. 特定のパラメータに基いて確率分布からダミーデータを生成 2. 予測モデルを設定 3. ダミーデータと予測モデルから、データを生成したパラメータ(の事後分布)をMCMCで推定して答え合わせ具体的には、とある植物の体サイズが(3.0~7.0の0.1刻みの離散値をとる)を説明変数として、ポアソン分布に従う種子数(0以上の整数)の確率分布を推定します。利用ツール、ライブラリ MCMCサンプラー：　STAN(PyStan) 行列計算, 配列操作：　N

zaskar99 2018/03/31

Statistics

リンク

Stanによるベイズ推定の基礎 | Logics of Blue

新規作成日:2015年12月5日最終更新日:2016年9月22日理論がわかっても、実践ができなければ意味がありません。ここでは、Stanというフリーソフトを使って、ベイズ統計学をもとにしたパラメタ推定をパソコンで実行する方法を説明します。ベイズとMCMCの組み合わせでもって統計モデルのパラメタを推定することができるのでした。この方法を、以下では「ベイズ推定」と呼ぶことにします。ここでは、Stanを用いて統計モデルのパラメタのベイズ推定をする方法を説明します。重要な点は、「Stanの使い方」を覚えるだけではうまくいかないということです。 Stanの内部で使われているのは乱数生成アルゴリズムです。乱数を生成してパラメタを推定するという行為は、最小二乗法なりで方程式を解き、パラメタを一発で推定するやり方とは大きく異なります。その違いをぜひ理解なさってください。コードをまとめたもの

zaskar99 2018/03/31

Statistics

リンク

Stan超初心者入門

Stanの初心者が基本的な統計モデルを実行するまでの解説です。プログラミング初心者向けに書いているので，やや説明が遠回りなところもあります。

zaskar99 2018/03/31

Statistics

リンク

機械学習を使って東京23区のお買い得賃貸物件を探してみた - データで見る世界

さて、改めて今回の目的を確認しておくと、機械学習を使って東京都23区のお買い得賃貸物件を発見しよう、というものです。前回までの記事で、お買い得賃貸物件を発見するためのデータを収集し、分析にかけられるよう前処理してきました。 www.analyze-world.com www.analyze-world.com 今回の記事では、いよいよ機械学習を使って分析していきましょう。前回まではPythonを使っていましたが、この分析ではRを用いています。なお、コードはGitHub（https://github.com/ShoKosaka/Suumo）に上げておきますので興味ある方は参照ください。最初に、データの中身をざっくり見ていきます。具体的には、分析のキーになるポイントをグラフにしながら、賃貸物件の現状や変数同士の関係性を把握していきます。データ探索まず、23区の中でどこが物件数が多いのかを

zaskar99 2017/11/09

[machine-learning]

Statistics

リンク

Rで計量時系列分析：はじめに覚えておきたいこと - 渋谷駅前で働くデータサイエンティストのブログ

機械学習は全然専門ではない僕が知ったかぶりをするのも何なので*1、もっともっと以前からそこそこやっている*2計量時系列分析の話でもしてお茶を濁してみることにします（笑）。もうしつこ過ぎて自分でも嫌になってきたんですが（笑）、このシリーズでベースにするテキストは以下の2冊。沖本テキストとHamiltonテキストです*3。他にも良いテキストはあるんじゃないかと思いますが、ここではこの2冊をベースにしていきます。なお、ほとんど沖本テキストからの抜粋なのでお持ちの方はそちらを読んでもらった方が圧倒的に早いです、悪しからず。経済・ファイナンスデータの計量時系列分析 (統計ライブラリー) 作者: 沖本竜義出版社/メーカー: 朝倉書店発売日: 2010/02/01メディア: 単行本購入: 4人クリック: 101回この商品を含むブログ (6件) を見る Time Series Analysis 作者

zaskar99 2017/06/26

[analysis] [mathematics] [AI]

Statistics

リンク

「時系列データ分析の基礎」についての覚え書き | DevelopersIO

はじめに当記事は、沖本竜義先生の著作である「経済・ファイナンスデータの計量時系列分析(朝倉書店)」の内容をもとに、データ分析の前提となる基礎的な部分に関して、要点や定義などをまとめた覚え書きです。あくまで覚え書き程度の内容ですので、当記事を読まれて、より詳細な内容を知りたいと思われた方は、上記の著書を入手頂ければと思います。時系列データとは時系列データとは、時間の推移とともに観測されるデータであり、その順序におおきな意味を持つことが特徴である。経済やファイナンスで目にすることが多く、為替レート、株価、GDPなどが例としてある。時系列データの対照としてクロスセクションデータがある。クロスセクションデータは、ある一時点において複数のデータが取得できるという特徴を持つ。分析の目的時系列データの分析を行う目的として、以下のものが考えられる。将来の平均値や変動幅などの予測変数間の

zaskar99 2017/06/26

[analysis] [mathematics] [AI]

Statistics

リンク

時系列解析_理論編 | Logics of Blue

最終更新:2017年6月1日時系列分析という名前はご存知でしょうか？　残念ながらExcelで実行するのがやや困難であるためこの名前もあまり浸透していないのではないかと思います。時系列解析は、回帰分析とは違ってあまり知らない人も多いと思うので、ざっと解説を載せておきます。これだけ読めば、時系列分析の雰囲気はつかめるのではないでしょうか。時系列分析の基礎の基礎からSARIMAモデルまでを一気に解説します。それと、便利なパッケージ　forecast　の紹介も。 Rを使えば簡単に計算できますよ。 Pythonを使いたい方は「Pythonによる時系列分析の基礎」の実装例も併せて参照してください。スポンサードリンク目次１．時系列解析って何？２．時系列データの扱い方３．知ると便利な用語集３－１．自己相関係数・偏自己相関係数３－２．ARモデル（自己相関モデル）３－３．MAモデル（移

zaskar99 2017/06/26

[analysis] [mathematics] [AI]

Statistics

リンク

Pythonで統計学を学ぶメリットは？勉強の手順も解説

Pythonで統計学を勉強するメリット統計学を学ぶにあたって、Pythonを利用するメリットを確認しておきましょう。近年の統計業務は、Pythonを使ったアプリケーションで行うケースが増えており、Web上のノウハウや書籍が充実しています。これらを活用することで、統計学の知識が乏しい状態でも、Pythonを切り口として学習を進めやすくなっています。煩雑な計算を省略できる Pythonは科学計算処理に必要なライブラリが充実しています。Pythonのライブラリには、統計で用いられる専門的な計算式が内包されており、基礎的な考え方さえ理解していれば、具体的な計算式を知らずとも実践的な統計を実行可能です。もちろん読書や座学でも学習は可能ですが、Pythonを利用することで「煩雑な計算の理解」に時間を取られずにすむため「統計を使ってできること」をダイレクトに理解し易くなるでしょう。データが簡単に

zaskar99 2016/07/07

statistics

リンク

嘘を見抜ける人工知能が衝撃的すぎる (1/5)

鳥肌が立った。人間は本当にこの方向に進んでいくべきなのかと、人工知能の研究ではじめて戸惑いを感じた。人工知能を使ったゲーム大会「第1回人狼知能大会」があると教えてもらって見に行ったのだ。パシフィコ横浜で開催の開発者イベント「CEDEC 2015」で27日に開催されたものだ。大会は大人気で、観客の長い行列ができていた。人工知能に会話ゲーム「人狼」をプレイさせ、勝者を決める。人工知能が将棋を指す「電王戦」のようなもので、まずは人工知能の中でゲームの優勝者を決める。人狼というのは「スパイ探しゲーム」だ。プレイヤーにあたる「村人」たちの中には、夜ごと人をとって食う「人狼」が数人ひそんでいる。村人たちはテーブルを囲み、人狼が誰なのかを推理して村から追放する（処刑する）。人狼は誰が人狼なのか知っていて、自分は人狼ではないと嘘をつく。村人側には人狼かどうかを見抜く「占い師」など特殊能力を持ってい

zaskar99 2015/09/04

リンク

インフォグラフィックとは？視覚で情報を伝える技術を理解しよう

この記事は2016年9月1日に更新しました。突然ですが、皆さんはインフォグラフィックという言葉を聞いたことはありますか？インフォグラフィックとは情報を視覚的に表現した資料を指し、ここ数年、多用する企業が増えています。インフォグラフィックが多用される背景には、世の中に流通している情報量が多くなり、ひと目で言いたいことが分かるように工夫された「インフォグラフィック」に対する需要が高まったことがあるでしょう。インフォグラフィックは基本的にイラストや図形と数字から成り立っているものがほとんどです。言語がわからなくてもある程度意味を理解できるのでクオリティの高いものは世界的に広がりやすい傾向にあります。今回は、インフォグラフィックの基礎知識から、実際に自分で作るときに使える無料の作成ツールの紹介、そして実際に大手企業などの事例を紹介します。プレゼン資料作成やホームページ掲載用の画像作成な

zaskar99 2015/06/13

リンク

統計・データ解析

『Rで楽しむ統計』が出ました。サポートページ『Rで楽しむベイズ統計入門』が出ました。サポートページ，第7章のRコードをStanで書き直したRで楽しむStan 全国学力・学習状況調査の個票の疑似データがこちらで公開されています。データ分析の練習に使えそうです。SSDSE（教育用標準データセット）も。 R 4.x では stringsAsFactors=FALSE がデフォルトになりましたが，本サイトの古い記事ではそうなっていないところがあるかもしれません（read.csv() などで as.is=TRUE は不要になります（あってもかまいませんが））。 R 4.2 ではWindowsでもMac同様UTF-8がデフォルトになりました。もう fileEncoding オプションに "UTF-8"，"UTF-8-BOM" を指定する必要はなくなりそうです。一方で、SJIS（CP932）データの場

zaskar99 2015/06/07

リンク

ベイズ推定の概要超入門

自殺の時空間疫学 http://ikiru.ncnp.go.jp/ikiru-hp/genjo/toukei/index.html 少研究数のメタ分析 Noma, H. Statist. Med. 2011, 30 3304–3312 K=10以下での信頼区間を向上させる Topics はじめに推測統計の基本最尤推定とベイズ推定 MCMCによるベイズ推定

zaskar99 2015/03/04

リンク

金持ちとそうで無い人の生活習慣の違いが面白い(永江一石) - 個人 - Yahoo!ニュース

お金持ちと貧乏な人の間にはどんな生活習慣の相関関係があるのか。厚生労働省が平成22年に20歳以上の人を対象に調査したデータを見ると、お金持ちとそうで無い人の差が明確に出て面白い。「自分の周りは違う」みたいにマクロの話ではなく、統計データ。しかも「300単位区内で国民生活基礎調査を実施した5,411世帯のうち、転出等で対象から外れた54世帯を除く5,357世帯を調査客体とした。調査実施世帯は3,684世帯であり、生活習慣調査は20歳以上の7881名」ということで、ネットの調査のように偏りが無くてほぼ実数値に近いと思います。１　喫煙率男性も女性も、年収が上がるにつれて喫煙率は下がる。最近では喫煙者を入社させない企業もある。喫煙室で一服している時間が非喫煙者と比べて無駄という見方をしている経営者もいるだろう。逆に言えば、飲食店で顧客の層を入れ替えたい場合、ロイヤルホストみたいに「全席禁煙」

zaskar99 2014/03/03

リンク

はてなブックマーク

タグ

関連タグで絞り込む (39)

statisticsに関するzaskar99のブックマーク (59)

お知らせ

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

今週のはてなブックマーク数ランキング（2024年5月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス