タグ

statisticsに関するgfxのブックマーク (46)

  • 平均値 vs 中央値

    作者のページ ときどき所得などのデータを平均値(算術平均)のみで示している記事があります。しかし極端な外れ値があったり、著しく非対称だったりするデータは中央値で扱わないと実態がよく分からなくなってしまう場合があります。「平均所得600万円!」に騙されないように「平均値」と「中央値」の違いを実感しましょう。 追記1:以下の分布はLog-normalを仮定しているため必ず 中央値<平均値 です。そうじゃない分布も当然存在します。 追記2:このページの趣旨は「平均値だけ見ても実態がよく分からんこともあるので元の分布や他の統計量も気にしようね」ってことなので一々「最頻値も見なきゃ駄目だ」とかメールしてこなくていいです。 使い方:スライダをグリグリ動かして、それぞれの代表値を持つ分布の例を見てみよう。

  • A/B テストで施策の効果を検証!エンジニアのための R 入門 - クックパッド開発者ブログ

    こんにちは、買物情報事業部でサーバサイドの開発を担当している荒引 (@a_bicky) です。 今回のエントリでは R で A/B テストの結果検証を行う方法の一例について紹介します。 エンジニアでも自分の関わった施策の効果検証のために簡単な分析をすることがあるかと思いますが、そんな時にこのエントリが役立てば幸いです。 なお、次のような方は対象外です。 A/B テストや KPI の設計に興味のある方 この辺には全く触れません プログラミング初心者 わからない単語が大量に出てくるでしょう R で統計学や機械学習の手法をバリバリ使いたい方 世の中の “分析” の多くは集計処理がメインです Python, Julia など既に分析する上で使い慣れた言語・ツールがある方 今回のエントリ程度の内容であればわざわざ乗り換える必要もないでしょう OS は Mac を前提として説明するので、Windows

    A/B テストで施策の効果を検証!エンジニアのための R 入門 - クックパッド開発者ブログ
  • そもそもビジネスの現場ではどういう「レベル」の統計学を使うべきなのか - 渋谷駅前で働くデータサイエンティストのブログ

    データサイエンティストブームが去りつつある一方で、データ分析ブームそのものはじわじわと広がり続けている感じのする昨今ですが。最近また、色々なところで「当にビジネスやるのに統計学って必要なの?」みたいな話題を聞くことが増えてきたので、何となくざっくりまとめて書いてみました。 ちなみに今回の話題の参考図書を挙げようと思ったら、この辺ですかね。 とある弁当屋の統計技師(データサイエンティスト) ―データ分析のはじめかた― 作者: 石田基広,りんと出版社/メーカー: 共立出版発売日: 2013/09/25メディア: 単行この商品を含むブログ (13件) を見る 統計学入門 (基礎統計学) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メディア: 単行購入: 158人 クリック: 3,604回この商品を含むブログ (78件) を見る 当は赤

    そもそもビジネスの現場ではどういう「レベル」の統計学を使うべきなのか - 渋谷駅前で働くデータサイエンティストのブログ
  • ジップの法則 - Wikipedia

    ウィキペディア(30ヶ国語版)における単語の出現頻度 ジップの法則(ジップのほうそく、Zipf's law)あるいはジフの法則とは、出現頻度が k 番目に大きい要素が、1位のものの頻度と比較して 1/k に比例するという経験則である。Zipf は「ジフ」と読まれることもある。また、この法則が機能する世界を「ジフ構造」と記する論者もいる。 包括的な理論的説明はまだ成功していないものの、様々な現象に適用できることが知られている。この法則に従う確率分布(離散分布)をジップ分布という。ジップ分布はゼータ分布(英語版)の特殊な形である。 この法則はアメリカ言語学者ジョージ・キングズリー・ジップに帰せられている。ジップ以前に似た観察をしていた先行研究としてFelix Auerbach(英語版)、Jean-Baptiste Estoup(フランス語版)などの研究があり、ジップ自身もそのことを1942年

    ジップの法則 - Wikipedia
  • 因果関係がないのに相関関係があらわれる4つのケースをまとめてみたよ(質問テンプレート付き) - Take a Risk:林岳彦の研究メモ

    どもっす。林岳彦です。ファミコンソフトの中で一番好きなのは『ソロモンの鍵』です*1。 さて。 今回は、因果関係と相関関係について書いていきたいと思います。「因果関係と相関関係は違う」というのはみなさまご存知かと思われますが、そこをまともに論じていくとけっこう入り組んだ議論となります。 「そもそも因果とは」とか「因果は不可知なのか」のような点について論じるとヒュームから分析哲学(様相論理)へと語る流れ(ここのスライド前半参照)になりますし、統計学的に因果をフォーマルに扱おうとするとRubinの潜在反応モデルやPearlのdo演算子やバックドア基準(ここのスライド後半参照)の説明が必要になってきます。 その辺りのガッツリした説明も徐々に書いていきたいとは考えておりますが(予告)、まあ、その辺りをいちどきに説明しようというのは正直なかなか大変です。 なので今回は、あまり細かくて遭難しそうな話には

    因果関係がないのに相関関係があらわれる4つのケースをまとめてみたよ(質問テンプレート付き) - Take a Risk:林岳彦の研究メモ
  • Treasure Data - naoyaのはてなダイアリー

    少し前にログの話を書いた http://d.hatena.ne.jp/naoya/20130219/1361262854 ときに、Treasure Data については後日にもう少し詳細に書くと言ったので書くとしよう。 近頃 Treasure Data (以下、時折 TD) という名前をちらほら聞いたことがある人は多いのではないかと思います。「ビッグデータのクラウドサービスである」とか「日人が創業したシリコンバレーのベンチャー」、あるいは Yahoo! 創業者の Jerry Yang が投資したとか、Fluentd と何か関係があるといった文脈などなど。 けど、具体的に Treasure Data がどういうサービスで、どういう機能を持っていて、どんな場面で利用されるものなのかはまだあまり良く知られていないかもしれない・・・ようにも見える。今日はその辺から少し紹介していこうかなと思う。

    Treasure Data - naoyaのはてなダイアリー
    gfx
    gfx 2013/03/23
    TDって個人でも使えるんだ…!
  • 統計の教科書を公開 - 【小波の京女日記】(2013-03-12)

    _ 統計の教科書を公開 2013年度の学部の講義「統計学」で使用するための教科書を公開します. http://ruby.kyoto-wu.ac.jp/~konami/Text/ このテキストは,今年度まである出版社から出してもらっていたのですが,かなりの訂正と加筆を行い,元のからはかなり内容が離れてきてしまいました.また出版社も,売れ行きがぜんぜん悪いし,カリキュラムが変わって100人以上いた受講者が30人程度に激減して儲けのタネにならなくなり,書店から引き上げてしまったようです. そこで,思い切って改訂版はネットに公開して一般の人に自由に使ってもらい,学生が授業で使う分については,小部数印刷の業者に必要なぶんだけ印刷製してもらうことにしました.なんと2日で製までやってくれるということで,初回の授業で注文をとってから印刷すれば,次の講義では使えるわけです.便利な世の中です. どんな教

  • Data.gov Home - Data.gov

    An official website of the United States government Here's how you know The .gov means it's official. Federal government websites often end in .gov or .mil. Before sharing sensitive information, make sure you're on a federal government site. The site is secure. The https:// ensures that you are connecting to the official website and that any information you provide is encrypted and transmitted sec

  • はてなブログ | 無料ブログを作成しよう

    我が家のダグウッド ダグウッドとはハナミズキのことである。昔、日からポトマックリバーの桜の苗木を送った返礼として、アメリカから送られて来たのが日での始まりで、アメリカ原産でアメリカヤマボウシともいうらしい。 最近では日でも、あちこちで、街路樹であったり、庭木であっ…

    はてなブログ | 無料ブログを作成しよう
  • ソシャゲへの反感はワインの方程式が生んだ反感と同じ ?ゲームと心理学(2) | 新清士の「デジタルと人が夢見る力」 - コミニー[Cominy] / ブログ

    プロフィール 新清士 ジャーナリスト。立命館大学映像学部非常勤講師。1970年生まれ。慶應義塾大学商学部及び環境情報学部卒。著書に、『ゲーム産業の興亡』(アゴラブックス)。 2008年に、プリンストン大学の経済学者オーリー・アッシェンフェルターが発表した論文「ボルドーワインの質と価格を予想する(Predicting the Quality and Prices of Bordeaux Wines)」という論文は、ビンテージワインの専門家に対して、とどめを刺すとでもいえるような論文だ。 ビンテージワインは同じブドウ園で生産されたワインであっても、年によって出来不出来があるために、値段が変化する。品質によっては、10倍以上の差が生まれることがある。世界中にはワインコレクターがおり、将来にワインが成熟して評価が高まることで、値段が高くなることを見越して投機の対象として購入している人々もいる。 実

  • 若年層の投票率に関する雑感 - Cube Lilac

    選挙もありましたし、投票率のお話。 このグラフからいくつか言えることがあります。オレが見て取ったのは: 1990年代から2000年代前半にかけては全世代で投票率の低下が見られる 1950年代までに生まれた人(1889-1959年生まれと分類した人)の投票率は70%以上で安定している 以後世代が下がるに従い投票率は下がる傾向 それにしても70年代、80年代(1969-89)生まれの投票率は低すぎる! といったことです。 2012-12-14 このグラフを見て、個人的に気になった点は 1970 年世代 (1969/09-79/08) が 20 代だった時の投票率です。この時の投票率を見ると 57.76% となっており、1960 年世代 (1959/09-69/08)、1950 年世代 (1949/09-59/08) が 20 代だった時の投票率(それぞれ 57.83%、59.61%)と比較して

    若年層の投票率に関する雑感 - Cube Lilac
  • 統計学を勉強するときに知っておきたい10ポイント - Issei’s Analysis ~おとうさんの解析日記~

    googleさんやマイクロソフトさんは「次の10年で熱い職業は統計学」と言っているようです。またIBMは分析ができる人材を4,000人増やすと言っています(同記事)。しかし分析をするときの基礎的な学問は統計学ですが、いざ統計学を勉強しようとしてもどこから取りかかればいいか分からなかくて困るという話をよく聞きます。それに機械学習系のは最近増えてきましたが、統計学自体が基礎から学べるはまだあまり見かけないです。 そこで今回は、統計学を初めて勉強するときに知っておいた方が良い10ポイントを紹介したいと思います。 1. 同じ手法なのに違う呼び名が付いている 別の人が違う分野で提案した手法が、実は全く同じだったということがあります。良く聞くのは、数量化理論や分散分析についてです。 数量化理論 数量化I類 = ダミー変数による線形回帰 数量化II類 = ダミー変数による判別分析 数量化III類 =

    統計学を勉強するときに知っておきたい10ポイント - Issei’s Analysis ~おとうさんの解析日記~
  • 第8回 線形回帰[前編] | gihyo.jp

    機械学習はじめよう」というタイトルの連載なのですが、実は今まで機械学習そのものの話がほとんどありませんでした……。今回からようやく機械学習がはじまります。 連載の第1回では、機械学習とは「解決したい問題」を数値化する「モデル」と、モデルのパラメータをデータから決める「学習」からなることを紹介しました。しかし、これだけ聞いて「なるほど、わかった」という人はまずいないでしょう。やはりもう少し具体的な説明が欲しいところですね。 そこで今回は、数ある機械学習の中でもっとも歴史のある手法を紹介します。他の新しい手法に比べてもずっとシンプルですが、そこにはちゃんと機械学習のエッセンスが詰まっています。そこから機械学習というものをより具体的に理解できるはずです。 2つの変数の関係を見つけよう まずは例題として、2つの変数間の関係を調べてみましょう。「⁠2つの変数」には、「⁠気温と湿度」のようにいかにも

    第8回 線形回帰[前編] | gihyo.jp
  • R: The R Project for Statistical Computing

    Getting Started R is a free software environment for statistical computing and graphics. It compiles and runs on a wide variety of UNIX platforms, Windows and MacOS. To download R, please choose your preferred CRAN mirror. If you have questions about R like how to download and install the software, or what the license terms are, please read our answers to frequently asked questions before you send

  • Structural equation modeling - Wikipedia

    This article is about the general structural modeling. For the use of structural models in econometrics, see Structural estimation. For the journal, see Structural Equation Modeling (journal). Figure 1. An example structural equation model after estimation. Latent variables are sometimes indicated with ovals while observed variables are shown in rectangles. Residuals and variances are sometimes dr

    Structural equation modeling - Wikipedia
  • ひどいグラフいろいろ | Okumura's Blog

    最近Twitterで教えていただいたことの備忘録。 まず12月29日の「池上彰の学べるニュース」から[2010-06-05: リンク先が別内容に変わっていたのでリンクを外しました。旧内容の片鱗は下のコメントで書いていただいたリンク先に残っているようです]の写真をクリックしてよく見ていただきたい。 こういう情報操作はビジネスのグラフではよくあるようだ。有名なのが早稲田アカデミーが毎年出しているこういう感じのグラフ。ひどいグラフを集めた日図表審査機構 [JGRO]というサイト(個人ブログ)もある。私のブログでも「3D」とか「グラフ」で検索すればいろいろ見つかる(例えばこんな驚異の3D)。 インチキグラフを揶揄したアスキーアートのPS3とWiiは有名。 3Dグラフといえば,Excelの積み重ね棒グラフに,円錐・角錐がある。これは上ほど小さく見せたいインチキグラフ作成用。CE97の発表でも取り上

    gfx
    gfx 2010/04/15
    ひどいグラフいろいろ
  • 【これは】緒賀郷志著『Rによる心理・調査データ解析』【激ヤバ】 | ロテ職人の臨床心理学的Blog

    前にもどこかで言った(書いた?)ことがあるかもしれませんが、私は臨床心理学という学問に関して言えば「臨床現場にいる人間こそ、いいデータが集められる」と思っております。そういう意味では「臨床現場にいる人間こそ、いい研究ができる」と言ってもいいかもしれません。 ここでいう「研究」というのは、事例研究よりもむしろ基礎研究…というか事例研究以外のものを想定しております。臨床現場にいる人間が事例研究のためのデータを集められるのは当たり前です。 で、実際にはどうかというと、なかなか基礎研究的なものをやってる心理職ってのは少ないように思うです。いないわけではないのですが、心理臨床学会での発表なんかを見ても圧倒的に事例研究が多いですわな。 一体、何がネックになっているのか? 学部・大学院レベルでの研究教育の乏しさって要因も否めないでしょうけれども、もっと現実的な問題として臨床現場における研究のためのリソー

  • 統計思考力養成ギブス - #書評_ - 統計数字を読み解くセンス : 404 Blog Not Found

    2009年12月08日02:00 カテゴリ書評/画評/品評Math 統計思考力養成ギブス - #書評_ - 統計数字を読み解くセンス 化学同人竹内様より献御礼。 統計数字を読み解くセンス 青木繁伸 こんなを待っていた。 統計思考が重要なことは不透明な時代を見抜く「統計思考力」」を読めばいやでもわかるし、「統計数字を疑う」をよめば統計をそのまま信じようとはしなくなる。 しかしそれでは一体全体統計というものをどう扱えばいいのか。 書には、それがある。 書「統計数字を読み解くセンス」は、疫学という、統計を最も実践的に扱う学問の専門家が、統計のどこに目をつけ、どこに注意するのかを実際に統計を処理しながら学んでいく一冊。 目次 - KAGAKUDOJIN BOOKSHELLより 第1章 統計数字はじめの一歩 - データの集計と分析 一 どんなデータがあるのだろう カテゴリーデータ / 数値デ

    統計思考力養成ギブス - #書評_ - 統計数字を読み解くセンス : 404 Blog Not Found
  • 棒グラフは誇張に便利 | Okumura's Blog

    CACM 2009年11月号のPredicting Structured Objects with Support Vector Machinesという記事をパラパラ読んでいたら,PISAテストの出題者がびっくりするような棒グラフが二つ載っていたので,一つだけ引用。

  • 鮭の頭と多重比較 | Okumura's Blog

    死んだ鮭の頭のfMRI解析,以前に書いたブードゥー相関と似た話。多重比較はよほど注意しないと,何もないところから統計的に有意な結果が出てしまうことを皮肉った研究。 易しく解説すると,たとえば偶然では 1/20 の確率でしか起きないことが起これば単なる偶然ではなく何か原因があると考えるとする。これは性格テストのある項目と血液型との相関でもいいし,fMRI(脳の活動分布などを実時間で調べる装置)の一つのボクセル(体積素)の値でもいい。性格テストが n 項目あったり,ボクセルが n 個あったりすれば,確率 p の事象が起こる回数の期待値は np である。これは事象が独立であるかどうかによらない。全体として起こる回数の期待値 1/20 を維持するには,個々の確率は 1/(20n) でなければならない。言い方を換えれば,有意水準 p = 0.05 を維持するには,5個の値を調べるなら1個あたりの有意