タグ

statisticsに関するkojosanのブックマーク (12)

  • そもそもビジネスの現場ではどういう「レベル」の統計学を使うべきなのか - 渋谷駅前で働くデータサイエンティストのブログ

    データサイエンティストブームが去りつつある一方で、データ分析ブームそのものはじわじわと広がり続けている感じのする昨今ですが。最近また、色々なところで「当にビジネスやるのに統計学って必要なの?」みたいな話題を聞くことが増えてきたので、何となくざっくりまとめて書いてみました。 ちなみに今回の話題の参考図書を挙げようと思ったら、この辺ですかね。 とある弁当屋の統計技師(データサイエンティスト) ―データ分析のはじめかた― 作者: 石田基広,りんと出版社/メーカー: 共立出版発売日: 2013/09/25メディア: 単行この商品を含むブログ (13件) を見る 統計学入門 (基礎統計学) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メディア: 単行購入: 158人 クリック: 3,604回この商品を含むブログ (78件) を見る 当は赤

    そもそもビジネスの現場ではどういう「レベル」の統計学を使うべきなのか - 渋谷駅前で働くデータサイエンティストのブログ
    kojosan
    kojosan 2014/01/22
    データ分析はとりあえず有名な統計ツール使っとけばいいみたいな風潮、ちょっと危険だと思う
  • 面白いデータは転がりまくってるけど転がってるままなので誰か助けてくれろ - あんちべ!

    転職して丁度2年がたちました。 現在はWebベンチャーで統計屋しています。大変楽しい毎日です。 なぜ楽しいかというと勿論リスプを書いているからというのも大きなる理由の一つです*1。 このエントリでは何が楽しいのか近況交えてつらつらまとまりなく書いてます。 あと現職の解決しがたい不満についても書いています。 糞長くなってしまったので要約すると 「今糞面白いけど超えられない壁あるので誰か助けて」 です。 現職面白い理由5個。 1.データが面白い*2 私は経済学科・数理統計の研究室出身で、応用先としてコミュニケーション活性化を目的とした 行動経済学やテキストマイニングをやっていました。 そういう背景があるため、学生時代いつか壮大な社会実験をやりたいと思ってたけど、 それには大変なお金がかかったり大がかりなシステムを構築しないといけなかったりで断念した。 ですが今はSNSやソーシャルゲームや広告の

    面白いデータは転がりまくってるけど転がってるままなので誰か助けてくれろ - あんちべ!
    kojosan
    kojosan 2013/12/03
    うーん、ちょっと合わないかな
  • IDEA * IDEA

    ドットインストール代表のライフハックブログ

    IDEA * IDEA
  • 統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む

    はじめに 統計解析の手法を学ぶのに、教科書を読むのは素晴らしい学習方法です。 しかし、教科書で理論的なことを学んだだけでは、統計手法を使いこなせるようにはなりません。 統計解析手法を身につけるには、実際のデータについて手法を適用し、パラメータを変えるなどの試行錯誤を行い、結果を考察するというような経験を積むことが大切です。 それでは実際のデータをどうやって手に入れましょうか? 実験や調査をして実際のデータを得るのは大変でお金もかかります。 幸運なことに、世の中には適度なサイズの自由に使えるデータがたくさん存在します。 例えば、統計言語 R には、100以上ものデータセットがデフォルトで付属しています。 ただし、不幸なことに、それらのほとんどは英語で説明が書かれています。 英語は、いつかは乗り越えなければならない壁ですが、最初のうちはちょっと避けて通りたいところです。 というわけで、今日は、

    統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む
  • 魚でもわかるRandom Projection | さかな前線

    いきなり始まった「魚でもわかる」シリーズ. 今回は情報科学系の方向け. 次元削減のいち手法である「Random Projection」を簡単に紹介します. 具体的にやってること,できることはものっそ簡単で,こないだBoostアドベ記事を書き上げてから寝付けなかったのでふと思い立って取り組んでみたら一発ですごいちゃんとできたのでブログにまとめるに至った次第(そしてその日はそのまま寝付けずに昼間死ぬかと思ったという). 最初に知ったのはMIRU2011という,夏にあった学会でとある論文を読んだ時. もちろんわかってると思いますが,ツッコミ待ちです!! 次元削減とは 機械学習やデータ処理あたりの用語で,高次元データをその情報をなるべく保ったまま低次元に変換するタスクやその技術を指します. 具体的な手法として主成分分析(PCA)や特異値分解(SVD)あたりはこの分野の院生クラスなら必須教養レベルっ

  • チームラボ忘年会

    論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...atsushi061452

    チームラボ忘年会
  • 主成分分析が簡単にできるサイトを作った - ほくそ笑む

    あけましておめでとうございます。 年もよろしくお願いいたします。 主成分分析 さて、昨年の終わりごろから、私は仕事で主成分分析を行っています。 主成分分析というのは、多次元のデータを情報量をなるべく落とさずに低次元に要約する手法のことです。 主成分分析は統計言語 R で簡単にできます。 例として iris データで実行してみましょう。 data(iris) data <- iris[1:4] prcomp.obj <- prcomp(data, scale=TRUE) # 主成分分析 pc1 <- prcomp.obj$x[,1] # 第一主成分得点 pc2 <- prcomp.obj$x[,2] # 第二主成分得点 label <- as.factor(iris[,5]) # 分類ラベル percent <- summary(prcomp.obj)$importance[3,2] *

    主成分分析が簡単にできるサイトを作った - ほくそ笑む
  • EM algorithm(EMアルゴリズム、Expectation Maximization algorithm)について - データサイエンティスト上がりのDX参謀・起業家

    EMアルゴリズムはいろんなところで使われます。 基的には未知パラメータの推定方法の一種です。 とりあえず箇条書でまとめます。 提案論文:Maximun likelihood from incomplete data via the EM algorithm. Dempster AP, Laird NM and Rubin DB. JRSS B. 39,1-38. 1977. 提案者のRubinは欠測分野、因果推論の権威で次の教科書も書いています。 Statistical Analysis with Missing Data (Wiley Series in Probability and Statistics) 作者: Roderick J. A. Little,Donald B. Rubin出版社/メーカー: Wiley-Interscience発売日: 2002/09/09メディア:

    EM algorithm(EMアルゴリズム、Expectation Maximization algorithm)について - データサイエンティスト上がりのDX参謀・起業家
  • はてなブログ | 無料ブログを作成しよう

    広島に行った話 生まれて初めて、ひとりで遠出をした。行ったのは広島だった。 「#Barbenheimer」(読み:バーベンハイマー)を覚えているだろうか。原子爆弾の父・オッペンハイマーを描いた映画『オッペンハイマー』と、実写映画『バービー』がアメリカで同日公開され、映画ファンたち…

    はてなブログ | 無料ブログを作成しよう
  • 統計学を勉強するときに知っておきたい10ポイント - Issei’s Analysis ~おとうさんの解析日記~

    googleさんやマイクロソフトさんは「次の10年で熱い職業は統計学」と言っているようです。またIBMは分析ができる人材を4,000人増やすと言っています(同記事)。しかし分析をするときの基礎的な学問は統計学ですが、いざ統計学を勉強しようとしてもどこから取りかかればいいか分からなかくて困るという話をよく聞きます。それに機械学習系のは最近増えてきましたが、統計学自体が基礎から学べるはまだあまり見かけないです。 そこで今回は、統計学を初めて勉強するときに知っておいた方が良い10ポイントを紹介したいと思います。 1. 同じ手法なのに違う呼び名が付いている 別の人が違う分野で提案した手法が、実は全く同じだったということがあります。良く聞くのは、数量化理論や分散分析についてです。 数量化理論 数量化I類 = ダミー変数による線形回帰 数量化II類 = ダミー変数による判別分析 数量化III類 =

    統計学を勉強するときに知っておきたい10ポイント - Issei’s Analysis ~おとうさんの解析日記~
  • 統計学復習メモ10: なぜ共分散行列の固有ベクトルが単位主成分なのか - Weblog on mebius.tokaichiba.jp

    かつてJR横浜線 十日市場駅近くのMebius (CPU:Pentium 150MHz)より発信していたウェブログです。 前項に書いた通り、主成分分析における主成分の単位ベクトルは、共分散行列の固有ベクトルとして求まる。そのこと自体に昔から興味があったので、主成分分析の復習ついでに考察してみる。 まず、最小2乗法で考えてみる。簡単のために2次元で考える。n個のサンプルデータを とし、第1主成分の単位ベクトルを とすると、Xに対応する主成分軸上の第1主成分Yは であり、そのYを元の座標系に戻したものX~は である。このことは、高校で習った一次変換を思い出してやってみるとわかる。このX~が、Xを第1主成分の軸上に射影したものであり、これとXとの距離が、最小にしたい誤差ということになる。その誤差Eを、Xを直交座標とした場合の距離の2乗とすると、 であり、p12+p22=1に注意すると、これは と

    統計学復習メモ10: なぜ共分散行列の固有ベクトルが単位主成分なのか - Weblog on mebius.tokaichiba.jp
  • 相関関数 [物理のかぎしっぽ]

    皆さん,想像してください.二人の人間があなたの目の前にいます.この二人は,ところどころで似通った点を持っています.髪型が同じ,服の色が同じ,好きなお酒が同じ,etc.でも,その似通った程度を数値で表せといわれたら,あなたはどうやって表しますか? 相関関数とは 上の例では人間でしたが,ここでは数学なので,二つの関数について考えます. つまり,二つの関数があるときに互いにどれだけ似通っているか(類似度)を数値で表すこと.これが相関関数の目的です. 上の式では と という二つの関数の相関を で表しています.上の式から分かることは, は と を だけずらし乗算したものを, から の範囲分まで積分したものであるということです. 相関関数で見る相関とは,二つの関数を少しずつずらしながら積を取っていくことで求まるということなのです [*]_. ただし,関数が周期関数である場合や関数の存在範囲がある場合

  • 1