タグ

ブックマーク / smrmkt.hatenablog.jp (10)

  • 書評: StanとRでベイズ統計モデリング - About connecting the dots.

    今回は書評エントリです.日のStan界隈の顔である @berobero11 さんが統計モデリングを出版し,ありがたいことに献いただきました*1.ようやっと一通り読み終えた*2ので,感想がてらの魅力について述べていきたいと思います*3. StanとRでベイズ統計モデリング (Wonderful R) 作者: 松浦健太郎,石田基広出版社/メーカー: 共立出版発売日: 2016/10/25メディア: 単行この商品を含むブログ (4件) を見る このを読んで得られるもの 「統計モデリング」とはどのようなものか,ということについての実践的な知識および心構え 書には,冒頭で,統計モデリングについて以下のように書かれています. モデルというのは不必要な性質を大胆に無視して,必要なエッセンスだけを取り上げたものだ....(中略)... 確率モデルをデータにあてはめて現象の理解と予測をうながす

    書評: StanとRでベイズ統計モデリング - About connecting the dots.
  • マーケットデザインと受入保留アルゴリズム - About connecting the dots.

    最近,ブログエントリを書くときの枕が読んだのことが多いですが,今回も御多分に洩れずであります*1. 現実の中でのマーケットデザイン つい先日まで,以下のを読んでました.マーケットデザインという分野を過分にしてしらなかったんですが,大元はゲーム理論の一種だったんですね.著者のロスさんらが,自身で証明した理論について現実問題に当てはめ,実際にうまく機能することを示した,その過程が描かれていて,非常に面白いでした.臓器移植や公立学校の希望選択,新米医者の医局配属といった,いわゆるマッチングの問題が,周到に仕組みをデザインすることで,全体的な満足度が高い状態で解決された例をみると,なるほどなーという感想しかでないです. Who Gets What (フー・ゲッツ・ホワット) ―マッチメイキングとマーケットデザインの新しい経済学 作者: アルビン・E・ロス,櫻井祐子出版社/メーカー: 日経済

    マーケットデザインと受入保留アルゴリズム - About connecting the dots.
    hoxo_m
    hoxo_m 2016/06/15
    SAM猫さんのブログ記事、毎回私に刺さっていて、あーこれこれ、ここ知りたかった!ってなる。
  • 勾配ブースティングについてざっくりと説明する - About connecting the dots.

    最近xgboostがだいぶ流行っているわけですけど,これはGradient Boosting(勾配ブースティング)の高速なC++実装です.従来使われてたgbtより10倍高速らしいです.そんなxgboostを使うにあたって,はてどういう理屈で動いているものだろうと思っていろいろ文献を読んだのですが,日語はおろか,英語文献でもそんなに資料がなかったので,ある程度概要を把握するのに結構時間をいました. そんなわけで,今回は自分の理解の確認も兼ねて,勾配ブースティングについてざっくりと説明してみようかと思います.とはいえ生理解な部分も結構あるので,マサカリが飛んできそう感が大いにしています.腑に落ちる的な理解を優先しているため,数式は一切出てきません. 勾配ブースティングとは 複数の弱学習器を組み合わせるアンサンブル学習には,いくつかの手法がありますが,ブースティングは逐次的に弱学習器を構築し

    勾配ブースティングについてざっくりと説明する - About connecting the dots.
  • Optimizelyのstats engineによる逐次A/Bテスト - About connecting the dots.

    ABテストといえば,だいぶ前に有意とか検定とかそのあたりで,データ系の界隈がいろいろと盛り上がっていたのが記憶に残っているトピックなわけですが,今年の1月にABテストの大手Optimizelyのエンジンがリニューアルされてました.これがなかなか興味深いんで,今回はざっくりとその内容をご紹介します*1. とりあえず元ネタは以下の記事とテクニカルペーパーになります. blog.optimizely.com http://pages.optimizely.com/rs/optimizely/images/stats_engine_technical_paper.pdf 以下の内容は,基的にはそこに書かれている内容の要約になります. 従来のABテストの問題点 これまでの,いわゆる古典的な統計学に従ったABテストの場合,以下のような問題があります. 想定される差分やサンプルサイズについて,事前に見

    Optimizelyのstats engineによる逐次A/Bテスト - About connecting the dots.
    hoxo_m
    hoxo_m 2015/04/16
    興味深い。
  • データビジネス・分析・開発に関して2014年に読んだ本 - About connecting the dots.

    年末なのでぼちぼち今年の振り返りをします.ちなみに去年のはこちら. データブジネス,データ分析,ソフトウェア開発の3カテゴリに分けて,それぞれについて上から読んでよかった順に並んでいます. データビジネス "超"分析の教科書 “超"分析の教科書 (日経BPムック) 作者: 日経ビッグデータ出版社/メーカー: 日経BP社発売日: 2014/11/17メディア: 単行この商品を含むブログ (2件) を見る事例集として,非常によくまとまっていました.幅広い業種で典型的に使われるような手法とか問題とかがコンパクトにまとまっていて,実務でデータ分析をしている人ならみておいて損はないのではないでしょうか.内容は割と平易に書かれているので,データ分析専業じゃない人が読んでも割と読みやすく面白いと思います. アルゴリズムが世界を支配する アルゴリズムが世界を支配する (角川EPUB選書) 作者: クリス

    データビジネス・分析・開発に関して2014年に読んだ本 - About connecting the dots.
  • 統計学・機械学習でよく使われる数学記号リスト(主に自分用) - About connecting the dots.

    統計学とか機械学習周りのを読んでいると,何の説明もなくややこしい数学記号が出てきて,そういえばこれはなんだっただろう? と途方に暮れてしまうことが少なくないので,自分用にまとめなおしてみました,というのが今回のエントリ.あくまで自分用なので,全部の数学記号を扱ってるわけではありません*1. 代数学 記号 意味 用例 用例の意味 備考 総和 要するに足し算 総乗 要するにかけ算 クロネッカーのデルタ i=jなら1,それ以外なら0 要するにブーリアン条件 ナブラ *2 3次元ベクトルの微分 要するに各要素の微分 ラプラシアン 3次元ベクトルの2階微分 要するに各要素の2階微分 下限 のとき与式は0になる との違いは,は当該値を含む必要があるが,はないこと 上限 との違いは,は当該値を含む必要があるが,はないこと 関数値が最大となるような定義域の元の集合 を最大にするような がの下にくる場合も

    hoxo_m
    hoxo_m 2014/05/04
    開区間と閉区間は逆では?
  • データ分析における不確実性と変動性の違い - About connecting the dots.

    仕事をしていてデータを意思決定に用いる場合,データから予測されるシミュレーション結果が,どの程度信頼できるかということを判断する必要があります.例えば前期に20回実施して,14回は想定通りの効果が得られ,残りは失敗した施策があるとして,これを今期実施したらどの程度成功して,いくらの売り上げになるのか,みたいな場合です. これを職場の偉い人に説明しにいくときに,予測売り上げをわかりやすく説明する必要があります.もちろん予測ぴったりになるとは限らないので,ある程度のレンジをもって伝えるわけですが,このときに,できるだけレンジの幅を縮めたり,また説明性を高めたりしないといけないわけですね.この予測のレンジについて,変動性と不確実性の2種類に区分することができます,というのが今回のネタです.元ネタはこちらのになります*1. 入門リスク分析―基礎から実践 作者: デビッドヴォース,David Vo

    データ分析における不確実性と変動性の違い - About connecting the dots.
  • 施策の効果をどうやって測るか(3) - compute.esパッケージによる効果量の計算 - About connecting the dots.

    前回までで説明した効果量について,実際にRで計算してみましょう.使用するのは{compute.es}パッケージです.基は実験系の研究分野でメタ分析を実施する際に使われるパッケージだそうです.パッケージマニュアルはこちらにあるので,詳細はこちらを見てください. 適用可能な検定の種類 対象となる検定と,効果量を算出するメソッドを以下にまとめました.いろいろ種類がありますね.たとえば2*2のクロス表におけるカイ二乗検定は,chiesを使えば効果量が算出できます.またt検定における平均値の差は,mesを使って同様に効果を算出することができます. 検定 効果量を算出するメソッド ANCOVA F-test a.fes() ANCOVA means a.mes() ANCOVA means (pooled sd) a.mes2() ANCOVA p-value a.pes() ANCOVA t-te

    hoxo_m
    hoxo_m 2014/02/25
  • About connecting the dots.

    この記事は,AWS Analytics Advent Calendar 2022 の 5 日目の記事になります. qiita.com 11/8 に Amazon Athena が Query Result Reuse をサポートしました.この機能,要するにクエリ結果のキャッシュが使えるようになったとのことで,似たようなクエリを何度も試すような場合には,結果を高速に取得できるようになります.この記事では,実際にいくつかのパターンで利用して,どのくらい効果が出るかを確認できればと思います. aws.amazon.com 試してみる 集計データ まずはマネコン上のクエリエディタから,実際にクエリを投げてみたいと思います.ちなみにこの機能は Athena のバージョン 3 エンジンでのみ使用可能なため,古いバージョンのエンジンを使っている方は,マネコンの左側メニュー Workgroups から,エ

    About connecting the dots.
  • Rで高速に大量データを読み込んでデータフレームに格納する方法 (2) - About connecting the dots.

    前回,read.table()とscan()を比較したんですが,もう少しきちんと調べてみると,実はread.tableパッケージというものがあるということを知りました.さらにstackoverflowにドンピシャのスレッドを見つけたので,これを実際に確かめてみました. freadの検証 data.tableパッケージが高速なテーブルデータの読み込みをおこなうためのパッケージで,中でもfreadが最もパフォーマンスが高いようです. ## user system elapsed Method ## 24.71 0.15 25.42 read.csv (first time) ## 17.85 0.07 17.98 read.csv (second time) ## 10.20 0.03 10.32 Optimized read.table ## 3.12 0.01 3.22 fread ##

    Rで高速に大量データを読み込んでデータフレームに格納する方法 (2) - About connecting the dots.
    hoxo_m
    hoxo_m 2013/04/25
  • 1