タグ

rに関するbob3のブックマーク (236)

  • コレスポンデンス分析の同時布置図は本当に使えないのか?(の続き) - bob3’s blog

    前回の記事の続きです。 bob3.hatenablog.com 結論 使える同時布置図の描き方 コレスポンデンス分析の基的な流れ 標準化残差の算出 標準化残差(Z)を特異値分解する ちょっと脱線 カイ二乗検定と残差分析 座標の重みづけ 標準座標 主座標 対称バイプロット 座標の組み合わせ 指標化残差が角度と長さで表現できてるか確認 フレンチプロット(主座標) 非対称プロット(列主座標) 対称バイプロット 大きな集計表で再確認 結論(再掲) 参考リンク 結論 今回も最初に結論を。 縦横のスケールを合わせるのが大前提です。 そうしないと見かけ上の角度が歪んでしまいます。 コレスポンデンス分析の同時布置図を描くときは、対称バイプロットがおすすめです。 指標化残差を正確に角度として表現できて、なおかつ見やすいので。 従来の同時布置図はフレンチプロットが多いと思いますが、正確でないのであえて選ぶ理

    コレスポンデンス分析の同時布置図は本当に使えないのか?(の続き) - bob3’s blog
    bob3
    bob3 2022/01/22
    続きを書きました。 #rstats #R言語
  • コレスポンデンス分析の同時布置図は本当に使えないのか? - bob3’s blog

    はじめに 結論 解説 サンプルデータ コレポンの実行 指標化残差 コレポンにおける指標化残差の表現 注意! まとめ さいごに 参考リンク はじめに 松健太郎さんの「マーケティングリサーチで使われるコレスポンデンス分析について調べてみた」という記事が書かれたころからでしょうか、コレスポンデンス分析(以下、コレポン)の同時布置図に対する否定的な意見をよく目にするようになりました。 松さんの議論は どの年代で見ても20代の購入量は圧倒的なのです。そのような見方は、数量で見れば違和感を覚えます。 という疑問をきっかけに コレスポンデンス分析は、それぞれ行得点・列得点を算出しているだけで、それらを重ね合わせたに過ぎません。 つまり列要素と行要素との距離は、数理的に定義されず「近い」「似ている」のように解釈できないのです。 というところから コレスポンデンス分析は行・列をごっちゃにして分析しない。

    コレスポンデンス分析の同時布置図は本当に使えないのか? - bob3’s blog
    bob3
    bob3 2022/01/15
    コレスポンデンス分析(コレポン)について、思うところを書きました。 #R言語 #jmra #jmrx #rstats
  • SQLを学ぼう(Rで) - bob3’s blog

    はじめに 今回扱うこと、扱わないこと RとRStudioを使ったSQL学習環境の構築 RSQLiteパッケージのインストール 練習用サンプルデータの準備 RStudioでSQLを書く SELECT文を学ぼう サンプルデータについて SELECTとFROM WHEREによる条件付け フィールドの加工 並び替え テーブルの紐づけ 集計する Enjoy! リンク集 ※同じ処理のdplyrでの書き方を追記しました。(2022.01.15.) はじめに この記事は「Rは使っている、もしくは学習中であるが、SQLにはなじみがないデータサイエンティスト志望」の方を主な読者と想定しています。 データサイエンティストに求められるスキルとして、RやPythonによる分析技能と並んで、SQLによるデータ処理技能がよく取り上げられます。 データベースに蓄積された大規模データから、分析に必要なデータをSQLを使って

    SQLを学ぼう(Rで) - bob3’s blog
    bob3
    bob3 2022/01/09
    RとRStudioでSQLの学習環境を作る話を書きました。
  • キング・クリムゾンのセットリストを分析してみた - bob3’s blog

    動機 2021年最大の出来事といえばキング・クリムゾン(以下KC)の来日公演です。 2014年に現体制(公式の区分でいうところのKCVII)が結成されてから3回目の来日となりました。そして、これが最後の来日公演ともいわれています。 コロナ禍のために来日が危ぶまれていましたが、緊急事態宣言解除とオミクロン株による渡航制限発動の狭間で、奇跡の来日が実現しました。 当に感謝しかありません。 私も東京の5公演に参加しましたが、当に素晴らしいステージでした。 さて、現体制のKCの特徴として、公演ごとにころころと変わるセットリストがあります。 普通のミュージシャンであればツアー中に曲目や曲順を変えることはほとんどないと思いますが、KCは曲目も曲順も毎公演で変わります。 しかし、完全にランダムというわけではなく、ほぼ必ず演奏される曲があったり、この曲の後にはこの曲が演奏されやすい、といった 法則が見

    キング・クリムゾンのセットリストを分析してみた - bob3’s blog
    bob3
    bob3 2021/12/26
    キング・クリムゾンのセットリストを分析してみました。 #KingCrimson #キングクリムゾン #キング・クリムゾン
  • 最近officerパッケージでハマったこと3つ - 盆栽日記

    Rひとりアドベントカレンダー26日目です。 Rのofficerパッケージは便利です。 パワーポイントでレポートが簡単に作れる。 こんな感じで会社用のテンプレートを読み込んで出力なんてことも簡単にできる。 library(officer) read_pptx("会社のテンプレート.pptx") %>% add_slide(layout = "表紙", master = "hoxom") %>% ph_with(value = "サンプルレポート", location = ph_location_type(type = "ctrTitle")) %>% ph_with(value = "株式会社ホクソエム", location = ph_location_type(type = "subTitle")) %>% print(my_pres, target = "結果報告.pptx") そしてS

    最近officerパッケージでハマったこと3つ - 盆栽日記
    bob3
    bob3 2019/11/26
    officerパッケージ、試してみよう。
  • broom: a package for tidying statistical models into data frames

    bob3
    bob3 2019/08/18
    broomからの可視化。
  • Introduction to broom

    broom: let’s tidy up a bit The broom package takes the messy output of built-in functions in R, such as lm, nls, or t.test, and turns them into tidy tibbles. The concept of “tidy data”, as introduced by Hadley Wickham, offers a powerful framework for data manipulation and analysis. That paper makes a convincing statement of the problem this package tries to solve (emphasis mine): While model input

    bob3
    bob3 2019/08/18
    broom入門
  • ⭐️Rを使ったモデル構築の最善策を求めて: {dplyr} + {tidyr} + {broom} + {purrr}を使ったアプローチ - cucumber flesh

    RStudioのチーフサイエンティスト、Hadley Wickham(ハドリー)が2月に行った講演のビデオがYouTubeに上がっていたので観た。 "Making Data Analysis Easier"というタイトルでの発表(スライドでは"Managing many models"になっているけど)で、ハドリー自身が考えている、データサイエンスに必要な可視化やモデリングを効率的に行うための手法について、彼の開発してきたパッケージを中心に説明している。 www.youtube.com 分かりやすく、具体例を交えた内容なので、是非YouTubeの動画を観てもらうのが良いと思うが、自分の頭を整理するためにもここでまとめておく。なお、発表スライドはクリエイティブ・コモンズライセンス3.0のもと、表示・非営利のラインセンスで再利用可能となっている。 Hadley Wickham (Chief S

    ⭐️Rを使ったモデル構築の最善策を求めて: {dplyr} + {tidyr} + {broom} + {purrr}を使ったアプローチ - cucumber flesh
    bob3
    bob3 2019/08/18
    broomの勉強に。
  • purrrとbroomで複数の回帰モデルを効率的に管理する - REVISIO Tech Blog

    はじめまして。データサイエンティストの森下です。 TVISIONでは探索的にデータを見てく段階では、可視化に加えて複数の回帰モデルを作成して検討する、ということをよくやっています。 モデルの数が少ない場合は個別にモデルを作成してsummary()で見ていく事もできますが、モデルの数が増えるにつれてそのやり方では管理が難しくなってきます。 そこで、記事では、purrrのmap()とbroomのtidy(), glance()を用いて複数の回帰モデルを効率的に扱う方法を紹介したいと思います。 まずはライブラリを読み込みます。tidyverseはデータハンドリングと可視化のためのパッケージ群です*1。 tidymodelsはモデリングをtidyなやり方で統一的に扱えるようにするパッケージ群になります。今回はbroomのみ用いますが、後日他のパッケージの紹介記事も書ければと思っています。 lib

    purrrとbroomで複数の回帰モデルを効率的に管理する - REVISIO Tech Blog
    bob3
    bob3 2019/08/18
    broomの使い方の参考になる。
  • おそらく先がない5つのプログラミング言語? - YAMDAS現更新履歴

    おそらく先がない5つのプログラミング言語、といういろいろと怒りをかいそうな記事だが、どうせワタシが愛する C 言語なんかがまたやり玉に挙がってるんだろうと見たら、一番最初に Ruby が挙がっている…… この記事は TIOBE や RedMonk のプログラミング言語ランキングに Dice 独自の求人票情報を加味してるようだが、Ruby は落ち目という認識らしい。うーむ。 それ以外には Haskell、Objective-C、R、そして Perl が挙げられていて、この手の記事の定番といえる PerlSwift 誕生後やはり定番である Objective-C はそうですかという感じだが、ビッグデータの時代に人気を高めた R 言語ですら、Python に追いやられつつあるというのはそうなんでしょうね。 それにしても Ruby が先がないという意見には異論が出るだろう。ネタ元は Slashd

    おそらく先がない5つのプログラミング言語? - YAMDAS現更新履歴
    bob3
    bob3 2019/08/05
    はいはい、Rは滅びる、滅びる。
  • A data.table and dplyr tour · Home

    About This document has been been inspired by this stackoverflow question and by the data.table cheat sheet published by Karlijn Willems. It has been written for my own self-teaching and may contain errors or imprecisions. Corrections and suggestions are welcome. Resources for data.table can be found on the data.table wiki, in the data.table vignettes, and in the package documentation. Reference d

    bob3
    bob3 2019/06/24
    data.table と dplyr の対応まとめ。
  • Plotlyを使う人にも家族がいることを、私たちは忘れていません。 - Qiita

    はじめに スーパーでブロッコリーを見るとPlotlyを連想する病気にかかっています。 自分の作業用によく使うPlotlyの使い方をまとめたので公開します。 実際にグリグリ動かしたい方はkaggleのkernelにアップしてるのでそちらでグリグリしてください。 https://www.kaggle.com/kageyama/how-to-use-plotly ※ちなみにPlotlyの3Dグラフをグリグリしたことがない人は、是非とも一度グリグリした方がいい。感動する。 データロード データはseabornから iris,titanic,flightsの3つを適宜使用する。 import numpy as np import pandas as pd import plotly as py from plotly.offline import init_notebook_mode, iplot

    Plotlyを使う人にも家族がいることを、私たちは忘れていません。 - Qiita
    bob3
    bob3 2019/06/17
    Rでggplotly使えば分かりやすく書けますよ。/>コーディングが結構煩雑になりやすい。
  • Python で大量のファイルを並列で速く読み込む - Qiita

    from glob import glob files = glob('data/*.csv') len(files) # 10000 この 1万件の CSV ファイルを Pandas DataFrame として読み込みたい。 ちなみに検証用のデータは以下のようにして生成した。 (3列 x 10,000行 の CSV ファイル 10,000 個) import numpy as np import pandas as pd row_n = 10000 col_n = 3 columns = [f'col{i}' for i in range(col_n)] for i in range(10000): df = pd.DataFrame(np.random.randn(row_n, col_n), columns=columns) df.to_csv(f'data/{i:04}.csv',

    Python で大量のファイルを並列で速く読み込む - Qiita
    bob3
    bob3 2019/06/05
    rで試してみよう。vroom::vroom()使えば結構速いはず。
  • 総務省 ICTスキル総合習得プログラム

    このウェブサイトでは、ICT(情報通信技術)に関する教材の「総務省 ICTスキル総合習得プログラム」をオープンデータとして提供します。「総務省 ICTスキル総合習得プログラム」は、各5講座から成る4つのコース([1]データ収集、[2]データ蓄積、[3]データ分析、[4]オープンデータ・ビッグデータ利活用事例)によって構成され、ICTに関する基礎知識・基礎技術を学ぶことができます。 個々人の自学自習および学校・企業・コミュニティでの授業・勉強会にて、ご活用ください。 総務省 ICTスキル総合習得プログラム このウェブサイトでは、2017年度における総務省の事業として開発された「総務省 ICTスキル総合習得プログラム」に関して説明し、成果に関するファイルを提供します。このウェブページでは事業の成果であるIアイCシーTティー(Information and Communication Techn

    bob3
    bob3 2019/05/17
    ちょw ホッテントリ入りしてるじゃんww
  • データの集計は、ExcelよりPython使ったほうが100倍早い(pandas-profiling, pixiedust) - Qiita

    データの集計は、ExcelよりPython使ったほうが100倍早い(pandas-profiling, pixiedust)Pythonpandasデータ分析データ可視化pandas-profiling Pythonのpandas-profilingと、pixiedustの2つのライブラリを使うと、データの集計・グラフの作成が、感動的なほど早く終わることを実感したので共有します。 Excelでデータ集計・グラフ作成した場合と比較すると、体感で100倍くらい早く終わります(誇張ではなく) Pythonで爆速でデータ集計する方法(体感所要時間:5分) 前提: 以下の環境が整備されていることは、前提とします。 Pythonのインストール(約30分) データ分析に必要な各種ライブラリのインストール(約30分) →numpy, matplotlib, pandas, jupyter など →Anac

    データの集計は、ExcelよりPython使ったほうが100倍早い(pandas-profiling, pixiedust) - Qiita
    bob3
    bob3 2019/04/28
    だから、R使えってば。
  • Why are you using Python ? Rによる自動集計ガイド - Qiita

    ※タイトルで煽るのは良くないと思ったのでタイトルを変えました。 まだExcelで消耗してるの?Pythonによる自動集計ガイド 基礎編 - Qiitaを読んでいて(Rのが絶対便利…!)というお気持ちが強まってきたので勢い余って書きました。 はじめに PythonColaboratoryで手軽に試せて非常に良いです。実は、RもColaboratoryから使うことができます。ColaboratoryにはRのカーネルが既に入っているのですが、表から見えないようになっているだけなのです。 そこで、見えるようにしたものを用意しました。 R Example - Colaboratory このノートブックを使えば、Rだってすぐ試せます(もうちょっと詳しい説明はColaboratoryでRやSwiftを使う - Qiitaをどうぞ)。 試して下さい。今すぐ。 使用するパッケージ 主にdplyrを使います

    Why are you using Python ? Rによる自動集計ガイド - Qiita
    bob3
    bob3 2019/04/11
    さすがです! R便利!
  • Tokyo.R #76 (2019年03月02日) @ DeNA #TokyoR

    Kien Y. Knot @0_u0 ナァ……お前TokyoRのLT準備する釣ったよなぁ……なんでkaggleやってんだよ……なぁ……わかってんのか……優先順位在るだろ……なあ…… 2019-02-24 13:39:40

    Tokyo.R #76 (2019年03月02日) @ DeNA #TokyoR
    bob3
    bob3 2019/03/04
    Tokyo.R #76
  • B.LEAGUEデータ分析用Rパッケージ「bleaguer」を公開しました - データで観るBリーグ

    ※「Bリーガー」ではなく「Bリーグアール」と読みます ※この記事は随時更新される予定です bleaguerって何? bleaguerはプログラミング言語Rのパッケージ(拡張機能)です。このパッケージを使うと、B.LEAGUEのデータ分析をするのに便利なデータと機能が簡単にRで利用できます。 bleaguerは私が普段分析作業に使っているデータや関数などを便利にまとめたもので、ここ最近の分析作業はこのパッケージを自分で使いながら行っています。少なくても私の効率はこれで大分上がりました。 何ができるの? 各種B.LEAGUEのデータをRに簡単にロードできます。現時点でサポートされているデータは以下の様なものです。 ゲームの日付 開催アリーナ名称 観客動員数 ゲームの種類(レギュラーシーズン、プレシーズン、ポストシーズン) ホームチームとアウェイチーム チームごとのスタッツ(基的にはこのページ

    B.LEAGUEデータ分析用Rパッケージ「bleaguer」を公開しました - データで観るBリーグ
    bob3
    bob3 2019/01/24
    R用のBリーグ分析用パッケージ。
  • 統計言語 「R」の神はなぜ無償で貢献したのか

    統計データを分析する際に使う「R」というプログラミング言語がある。無料のオープンソース・ソフトウェアで、Rを使えば、データの加工や操作、線形回帰、ランダムフォレストのような機械学習の分析、解析したデータの可視化が可能になる。「Python(パイソン)」と並び、統計分析を手がける人々に人気の言語だ。 Rはオープンソースのため世界中のエンジニアが修正や機能追加を進めている。その中で、データフレームの操作に特化した「dplyr(ディープライヤー)」やデータ可視化の「ggplot2(ジージープロット2)」など、人気のパッケージ開発で貢献した人物がいる。ソースコードの入力からコンパイルやデバッグまでが可能なRの総合開発環境を提供するRStudioのチーフ・サイエンティスト、ハドリー・ウィッカム氏だ。 ウィッカム氏が独力で作り上げたパッケージは今では大学の研究者からジャーナリストまで、数多くの人間が使

    統計言語 「R」の神はなぜ無償で貢献したのか
    bob3
    bob3 2019/01/11
    日経ビジネスに Hadley Wickham が登場。
  • ランダムフォレストと検定を用いた特徴量選択手法 Boruta - 学習する天然ニューラルネット

    特徴量選択とは Borutaとは とりあえず使ってみる ベースラインの判別 Borutaの判別 Borutaのアイデアの概要 Borutaのアルゴリズム 1. 判別に寄与しないはずの偽の特徴量を作る。 2. 偽の特徴量と一緒にランダムフォレストを訓練。 3. 各特徴量の重要度と偽の特徴量の特徴量を比較。 4. 複数回比較し検定を行うことで、当に重要な特徴量のみを選択。 検定について 1. 棄却したい帰無仮説と受容したい対立仮説を用意する。 2. 観測値から検定統計量Tを定める。 3. 帰無仮説が正しいとしてTの分布を求める。 4. 十分小さい有意水準αを定め、帰無仮説が正しいときにとなる領域を棄却域とする。 5. 観測されたTがに入っていたら対立仮説を受容し、入っていなければ帰無仮説を受容する。 まとめ 補足 使う際のTips等 2019/01/06追記 参考 特徴量選択とは 特徴量選択

    ランダムフォレストと検定を用いた特徴量選択手法 Boruta - 学習する天然ニューラルネット
    bob3
    bob3 2019/01/06
    Rのパッケージもあるようなので試してみる。