タグ

statisticsに関するInoHiroのブックマーク (80)

  • 食べログ3.8問題を検証 - クイックノート

    先日、twitter上でべログの星の数について、 ある問題が話題になりました。 べログの闇として話題になったその問題とは、 「評価3.8以上は年会費を払わなければ3.6に下げられる」 というものです。 べログは飲店についての口コミを集めるサイトで、 その評価は実際のユーザーによって形成されるものとして広く認知されています。 専門的なグルメリポーターでもなく、 一般の人々の素直な感想を集めることで、 その飲店のリアルな価値が知れると期待して、 利用しているユーザーも多いでしょう。 それだけに、 「べログが評価を恣意的に操作しているかもしれない」という話は、 瞬く間にネットで話題となりました。 さて、この話は実際に行われていることなのでしょうか。 べログでは、当然評価点は公開されているので、 このような恣意的な操作があれば、 何らかの形で偏りが見つかるはずです。 ということで、

    食べログ3.8問題を検証 - クイックノート
  • 平均値 vs 中央値

    作者のページ ときどき所得などのデータを平均値(算術平均)のみで示している記事があります。しかし極端な外れ値があったり、著しく非対称だったりするデータは中央値で扱わないと実態がよく分からなくなってしまう場合があります。「平均所得600万円!」に騙されないように「平均値」と「中央値」の違いを実感しましょう。 追記1:以下の分布はLog-normalを仮定しているため必ず 中央値<平均値 です。そうじゃない分布も当然存在します。 追記2:このページの趣旨は「平均値だけ見ても実態がよく分からんこともあるので元の分布や他の統計量も気にしようね」ってことなので一々「最頻値も見なきゃ駄目だ」とかメールしてこなくていいです。 使い方:スライダをグリグリ動かして、それぞれの代表値を持つ分布の例を見てみよう。

  • 実務の現場においてモデリング(統計学的・機械学習的問わず)を行う上での注意点を挙げてみる - 六本木で働くデータサイエンティストのブログ

    気が付いたら僕がデータ分析業界に身を置くようになってそろそろ5年近くになるんですね*1。この5年間の間に色々勉強したり業界内で見聞してきた経験をもとに、「実務の現場においてモデリングを行う上での注意点」についてだらだらと書いてみようと思います。 と言うのも、色々な現場で様々なモデリング(統計学的にせよ機械学習的にせよ)が行われていることが伝わってくるようになった一方で、ともすれば「え?こんな基礎的なポイントも守ってないの?」みたいなとんでもないモデリングがまかり通る現場があると愚痴る声を業界内で聞くことが少なくないので。自戒の意も込めて重要なポイントを備忘録としてブログ記事にまとめておくのも有益かなと思った次第です。 この記事では手法選択(線形・一般化線形・ベイズ+MCMC・識別関数・識別モデル・生成モデル・樹木モデル・Deep Learning etc.)の話題は割愛しました。一般に、モ

    実務の現場においてモデリング(統計学的・機械学習的問わず)を行う上での注意点を挙げてみる - 六本木で働くデータサイエンティストのブログ
  • 仮説検証とサンプルサイズの基礎 - クックパッド開発者ブログ

    パートナーアライアンス部 森田です。有料会員の獲得施策や、それに関わるサービス内動線の最適化を担当しています。 記事の対象 仮説検証を通じて何かを改善をしたいと思っている人 仮説検証の際に「どれくらいのデータを集めたら良いか」分からない人 はじめに 仮説検証とは「仮説を立て、それを証明するためのデータを集め、真偽を確かめること」です。今回は仮説検証を行う際の手順と、その検証に必要なサンプルサイズの考え方を説明します。サンプルサイズの話のみ関心があるかたは、前半を飛ばし「サンプルサイズの決め方」を読んでください。 目次 記事の対象 はじめに 目次 仮説検証のつくりかた 1. 仮説をたてる 2. 施策/KPIを考える 3. 仮説検証後のアクションを決める 4. 対象を決める 5. サンプルサイズを計算する サンプルサイズの決め方 答えを先に サンプルサイズを決める二つの要素 「二つの平均値」と

  • 重回帰分析を使って有馬記念の1位馬を予想する! - マーケティングメトリックス研究所/MARKETING METRICS Lab. – コミュニケーションの最適化を考える。マーケティングメトリックス研究所

    マーケティングメトリックス研究所をご覧の皆様、はじめまして。 電通ダイレクトフォース・戦略コンサルティング部の小松と申します。 前回記事(ピザvsチキン!12月パーティ需要はどちらが高いか指数で明らかにする)を寄稿した小川より紹介を受け、マメ研に参加することとなりました。 よろしくお願い致します。 主な業務はダイレクトマーケティングの戦略プランナー、といったところですが、今回はもう一つの顔である「日一競馬が好きな広告マン」として記事を書きたいと思います。 統計学で馬券は当たるのか?昨今は統計学という学問がバズワードのように広がり、この業界でも学習する人が増えてきました。私も、広告やサイトの分析を行っているうちに自然と興味を持ち、勉強し始めました。 その成果をお見せしたいものの、こちらに寄稿されている方たちからみたらまだまだ若輩者。ということで、広告よりも得意な競馬をネタにして、何とか恰好

    重回帰分析を使って有馬記念の1位馬を予想する! - マーケティングメトリックス研究所/MARKETING METRICS Lab. – コミュニケーションの最適化を考える。マーケティングメトリックス研究所
  • ソフトウェアのための統計学 – 前編 | POSTD

    ソフトウェア開発の原点は可能性の追求であり、不可能を可能にすることです。ひとたび ソフトウェア が開発されると、エンジニアは次に 程度 という課題に向き合うことになります。企業向けのソフトウェアであれば、「速度はどれくらいか」と頻繁に問われ、「信頼性はどの程度か」という点が重視されます。 ソフトウェアのパフォーマンスに関する質問に答え、さらには正しい内容を語る上で欠かせないのが統計学です。 とはいえ、統計学について多くを語れる開発者はそうはいません。まさに数学と同じで、一般的なプロジェクトで統計学が話題に上ることなどないのです。では、新規にコーディングをしたり、古いコードのメンテナンスをしたりする合間に、手が空くのは誰でしょうか? エンジニアの方は、ぜひ時間を作ってください。近頃は、15分でも貴重な時間と言えるでしょうから、 こちらの記事をブックマークに追加 しておいてもいいでしょう。とに

    ソフトウェアのための統計学 – 前編 | POSTD
  • Correlation - Wikipedia

    This article is about correlation and dependence in statistical data. For other uses, see Correlation (disambiguation). Several sets of (x, y) points, with the Pearson correlation coefficient of x and y for each set. The correlation reflects the noisiness and direction of a linear relationship (top row), but not the slope of that relationship (middle), nor many aspects of nonlinear relationships (

    Correlation - Wikipedia
  • Is there a way to calculate correlation in TSQL using OVER Clauses instead of CTE's?

  • 「p値や有意性に拘り過ぎるな、p < 0.05かどうかが全てを決める時代はもう終わらせよう」というアメリカ統計学会の声明 - 渋谷駅前で働くデータサイエンティストのブログ

    以前から同様の指摘は様々な分野から様々な人々が様々な形で出してきていましたが、アメリカ統計学会が以下のような明示的な声明をこの3月7日(現地時間)に発表したということで注目を集めているようです。 AMERICAN STATISTICAL ASSOCIATION RELEASES STATEMENT ON STATISTICAL SIGNIFICANCE AND P-VALUES Provides Principles to Improve the Conduct and Interpretation of Quantitative Science https://www.amstat.org/newsroom/pressreleases/P-ValueStatement.pdf The ASA's statement on p-values: context, process, and p

    「p値や有意性に拘り過ぎるな、p < 0.05かどうかが全てを決める時代はもう終わらせよう」というアメリカ統計学会の声明 - 渋谷駅前で働くデータサイエンティストのブログ
  • 競馬の予測をガチでやってみた - stockedge.jpの技術メモ

    的に競馬なんてやるべきではないと私は思っている。胴元の取り分が多いからだ。宝くじに比べればまだましだが、それでも賭け金の20~30%は胴元に取られることになる。*1 しかし今回は、ちょっと思い立って競馬の予測をやってみることにした。 理由は馬券の安さだ。私は現在、資金量が少ない人間でも不利にならない投資先を探しているのだが、馬券の一枚100円という安さは魅力的に映る。株の場合にはどんな安い株であれ最低購入額は数万円以上*2なので、ある程度まとまった資金が必要になる。 また、競馬には技術介入の余地(努力次第で勝利できる可能性)がある。 例えばこんな例がある。 160億円ボロ儲け!英投資会社が日の競馬で荒稼ぎした驚きの手法 - NAVER まとめ 彼らは統計解析によって競馬で勝っており、その所得を隠していたらしい。こういうニュースが出るということは、解析者の腕次第では競馬で勝てる可能性が

    競馬の予測をガチでやってみた - stockedge.jpの技術メモ
  • http://scale.t.u-tokyo.ac.jp/lecture/stat/

  • トレジャーデータで実践:A/B テスト(問題集編) - トレジャーデータ(Treasure Data)ブログ

    トレジャーデータはクラウドでデータマネージメントサービスを提供しています。 ↑ 理論編は少し難解ですが,知っておいて損はありません。 さて,シリーズの最後として他のテスト(統計的仮説検定)の事例を紹介します。 全ての問題で共通においている前提 ※ 検定方向ついて 以下で紹介するテストは全て両側検定としている。両側検定についてはこちらを参照して下さい。両側検定にする理由は,(1) 片側より棄却されにくいこと,(2) 信頼区間を同時に求める際に,棄却域と信頼区間が交わるような矛盾を極力避けるため。(ただし信頼区間についてはここでは取り上げません。) ※ 有意水準について 有意水準は全て 0.05  としています。 ※ サンプルサイズについて 計算する統計量とそれの従う分布(特に標準正規分布か t 分布かで)はサンプルサイズによって異なってきます。ここでは「大標」を n > 100 または

    トレジャーデータで実践:A/B テスト(問題集編) - トレジャーデータ(Treasure Data)ブログ
    InoHiro
    InoHiro 2015/10/14
    実践的
  • 不偏分散はなぜ n – 1 で割るのか?

    鈴木です。技術ネタではなく異色のマニアックなネタです。 社内では統計の勉強会を毎週行っております。 その中で、普通の分散は\( n \)で割るのに、 不偏分散はなぜ\( n – 1 \)で割るのか、という疑問がわいたのですが、 社内では誰も納得できる答えを持ち合わせておりませんでした。 文献によっては「自由度」という概念で説明されていたのですが、 単に言葉で誤魔化しただけのような気がして、 自分で納得できる答えを探し求めた結果をここに残しておきます。 不偏分散とは 日人全体の身長の平均と分散を求めることを考えてみます。 分散というのは、平均からどの程度散らばっているかを示す数値です。 例えば、120cm、140cm、160cmの3人は、138cm、140cm、142cmの3人よりも分散が大きくなります。 日人全員の身長の分散といった場合は、身長の平均を求めて、 各人の身長から平均を引い

    不偏分散はなぜ n – 1 で割るのか?
  • Think Stats 第2版

    「プログラミングのスキルを統計の理解に役立てよう」というコンセプトで人気を博した第1版に大幅な加筆を行い、全面的に書き換えた改訂版です。数学的な観点から語られることが多い統計について、計算処理の観点から説明。実際にPythonのコードを示し、実データを分析しながら統計の基礎を解説しています。実際に手を動かしながら統計が学べる、という第1版の長所はそのままに、Anaconda、pandas、IPython Notebookといったツールやライブラリを使った統計手法を示すほか、仮説検定、回帰、時系列分析、生存分析などについて新たな章を追加し内容を充実させました。例題、演習問題をGitHubに掲載。プログラマのための統計入門の決定版です。 正誤表 ここで紹介する正誤表には、書籍発行後に気づいた誤植や更新された情報を掲載しています。以下のリストに記載の年月は、正誤表を作成し、増刷書籍を印刷した月で

    Think Stats 第2版
  • オンラインで無料で読める統計書22冊|Colorless Green Ideas

    はじめに 今回は、ウェブを通じて無料で読むことができる統計に関する書籍を紹介したい。英語で書かれたが多いが、日語で書かれたも若干ある。 入門書 まず、統計の初学者のために書かれた入門書を紹介したいと思う。 福井正康 (2002). 『基礎からの統計学』基礎から扱っている統計の入門書である。統計を扱う際に必要となる場合の数、確率などについて詳しく説明している。理解を助けるための演習問題とその解答がついている。統計処理用のソフトとしてはExcelを使っている。同じサイトに社会科学系の学生向けの数学の教科書もある。 小波秀雄 (2013). 『統計学入門』基礎から扱っている統計の入門書。内容としては、記述統計、確率、確率分布、簡単な推定・検定、相関と線形回帰などがある。確率や確率分布などの理論的な話が占める分量が多いので、分量のわりには、具体的な統計手法はあんまり載っていない。もちろん理論

    オンラインで無料で読める統計書22冊|Colorless Green Ideas
  • 統計情報:農林水産省

    農林水産基データ農林水産業に関する主要なデータ(自給率、労働力、生産量など)について、直近のデータを毎月1日現在で掲載しています

  • 統計検定:Japan Statistical Society Certificate

    統計検定」とは、統計に関する知識や活用力を評価する全国統一試験です。問い合わせ:統計検定センター

    InoHiro
    InoHiro 2015/07/23
    メトリクスとして受験するの良いかも
  • 統計学やってるけど質問ある? : IT速報

    1:以下、\(^o^)/でVIPがお送りします 2014/06/11(水) 01:29:19.45 ID:1ybSD3q90.net

    統計学やってるけど質問ある? : IT速報
  • 季節調整 - Wikipedia

    傾向変動 一方向的な方向を持続する変化であり、周期が15年以上の長期的な波動(波状の上下変動)を含む。 循環変動 周期が通常3~15年であって周期の確定していない波動だが、もっと短期間の景気の好・不況も含む。傾向変動と循環変動とがひとまとめにされることもしばしばある。キチンの波やジュグラーの波などが有名。詳細は景気循環を参照。 季節変動 1年を周期とする定期的な波動。季節調整において取り除く対象となる波動である。 不規則変動 上記三つの変動の残差と考えられ、不規則、攪乱要素で起きる変動。典型例として、消費税率の更新前の駆け込み需要が挙げられる。 変動要因の合成[編集] 4つの変動要素を組み合わせて元の時系列データ(原系列)の動きを説明する。このとき、組み合わせる方式として、加法モデルと乗法モデルとが考えられている。 モデル名 概要 計算式 経済統計データの季節調整には、乗法モデルの方が適し

  • Kleinberg のバースト検知

    時系列データにおいてイベントが急激に増加したことを検出する手法の一つである、Jon Kleinberg のバースト検知アルゴリズムを紹介します。 Jon Kleinberg が考案したバースト検知のアルゴリズムは、 Bursty and Hierarchical Structure in Streams に示されています。 この手法を用いることによって、例えば、あるマイクロブログサービス上で、 ある話題がどの程度の期間、どの程度の盛り上がりをみせたのかを捉えることができます。 バースト検知とは時系列データに対する異常検出の一つで、 イベントの集中的な発生を検出することを言います。 例えば、マイクロブログサービス上で、 ある単語(商品名など)に対する投稿が急激に増えることがあります。 このような現象を「バースト」と呼び、 これを検出する用途にバースト検知は使われます。 バーストを自動的に検出