タグ

統計に関するNyohoのブックマーク (45)

  • 【FANZA REPORT 2018】 今年のエロトレンドは!?「性に関する統計調査」結果発表! - FANZA Magazine

    「FANZA REPORT 2018」とは、2017年9月1日から2018年8月31日までの直近1年間を対象に、「FANZA」を訪問した約3億5千万人の利用情報からGoogle Analyticsを活用して抽出したデータをまとめた統計情報です。これほど膨大な数を対象にした“性に関する統計調査”は国内でも初めての試みと言えるのではないでしょうか。 なお、調査について、ライター・ヨッピーさんの書き下ろしコラムも別記事でご紹介しております。是非ご覧ください! 【FANZA REPORT 2018 特設コラム】 人はシコり方が9割 - ライター・ヨッピー

    【FANZA REPORT 2018】 今年のエロトレンドは!?「性に関する統計調査」結果発表! - FANZA Magazine
    Nyoho
    Nyoho 2018/10/14
  • 広く使える情報量規準(WAIC)

    このページをご覧いただき、ありがとうございます。 ここでは、情報量規準 WAIC を紹介しています。 ベイズ推測のための情報量規準(WAIC)が導出されました。 WAIC は(真の分布、確率モデル、事前分布)がどのような場合でも使う ことができます。他の規準と異なり理論的な基盤を持っています。 (0) モデル選択やハイパーパラメータの最適化に使えます。 (1) 漸近的に汎化損失と同じ平均値と同じ分散を持ちます。 (2) WAIC は簡単に計算できます。 (3) 真の分布が確率モデルで実現可能でなくても使えます。事前分布が真の事前分布でなくても使えます。 (4) 平均対数損失を最小にするパラメータがユニークでなくても使えます。 平均対数損失を最小にするパラメータが特異点を含む解析的集合であっても 使えます(注1)。 (5) フィッシャー情報行列が正則でなくても使えます。 (6) 事後分布が正

    Nyoho
    Nyoho 2016/10/24
  • 「福島の甲状腺がん50倍」論文に専門家が騒がないわけ(下) – Global Energy Policy Research

    (上より続く) 20-50倍は驚く数字か この論文の中では、さらに 「でも、スクリーニング効果で何十倍も発症率を上げるとは考え難い」 という議論もなされています。しかし、例えは過去の韓国の論文によれば、一般人の甲状腺がんのスクリーニングが導入されたことで、甲状腺がんの罹患率が15倍に上がった、というデータがあります。これは10万人当たり約4人であったものが、約60人まで増加しています(図)。(注6) この論文によれば、スクリーニングの受診率が10%上がると、甲状腺がんの発症率が10万人当たり約40人増加したとしています。もし100%に上がったら、単純計算で10万人あたり400人増加、つまり元々の4人から比べ100倍になるという事です。 福島県の子供たちのスクリーニング受診率は100%ではありませんが15%よりはるかに高いので、スクリーニング効果は15倍から100倍の間くらいになることが予測

    Nyoho
    Nyoho 2016/02/16
  • 「福島の甲状腺がん50倍」論文に専門家が騒がないわけ(上) – Global Energy Policy Research

    先日、ある学会誌に「福島の子供たちの間で、甲状腺がんが他の地域の20-50倍上がっている」という論文が受理されたようです。(注1)最近になり、この論文が今でも世間で物議をかもしているという事を聞き、とても驚きました。なぜならこの論文は、多少なりとも甲状腺やスクリーニングの知識のある研究者の間ではほとんど問題にされないものだったからです。 しかし、このような研究者の態度がジャーナリストの反応とあまりにかい離しているために、むしろ 「福島の研究者が不当に真実を隠している」という誤解も生んでいるようです。 なぜこのようなかい離が生まれたのでしょうか? ひとつの理由は、統計や疫学、甲状腺がんやスクリーニングに関する知識の違いの差があります。もうひとつは、研究の妥当性と政府に対する批判の妥当性が混在してしまっていることがあるように思います。 ここではまず論文の限界について述べた後、この論文が報道され

    Nyoho
    Nyoho 2016/02/16
  • 年収300万未満都市マップ、作ってみた。

    むかし、「未満都市」というドラマがありましたね。まぁ、関係ないですけど。 ネットをさまよっていたら下記のような記事をみつけました。 年収300万円世帯と1000万円世帯では、子どもの学力がはるかに違う~広がる「教育格差」。施設支援から厳しい現実が見えた 件の記事の是非はともかく、以前、整形した「平成25年住宅・土地統計調査」データの中に「世帯の年間収入階級(5区分)」というデータがあったので、地図上にマッピングしてみました。だた、すべての市区町村のデータがあるわけではないので一部の分布のみとなります。 世帯の年間収入マップ 「300万円未満、300万円〜500万円、500万円〜700万円、700万円〜1000万円、1000万円以上」という区分からひとつを選択し、その地域の世帯に対する割合をスライドで選択すると該当する地域が赤く塗られます。 灰色になっているところはデータがない地域です。 マ

    年収300万未満都市マップ、作ってみた。
    Nyoho
    Nyoho 2015/12/02
  • 年収「300万円未満」や「1000万円以上」の世帯がどの地域に多いのか一目で分かる「世帯の年間収入マップ」

    by Personal Creations 総務省統計局が公開している平成25年住宅・土地統計調査の中には「世帯の年間収入階級(5区分)」というデータがあり、「300万円未満、300万円〜500万円、500万円〜700万円、700万円〜1000万円、1000万円以上」の世帯がどのくらいあるかが調査されているのですが、そのデータを地図上にマッピングしたのが「世帯の年間収入マップ」です。「年収1000万円以上の世帯が5%を超える地域」など指定することで、どの地域にどういう年収の世帯が多いのかが一目でわかるようになっています。 世帯の年間収入マップ http://shimz.me/datavis/mimanCity/ ウェブサイトはこんな感じ。 画面左下から世帯年収を「300万円未満」「300万円~500万円」「500万円~700万円」「700万円~1000万円」「1000万円以上」に設定可能で

    年収「300万円未満」や「1000万円以上」の世帯がどの地域に多いのか一目で分かる「世帯の年間収入マップ」
    Nyoho
    Nyoho 2015/12/02
  • そのデータ分析待って!まずはわくわくする統計学本から数字のセンスを身につける。

    Amazonアソシエイト ここ2-3年、統計学や機械学習が劇的に増えたと思います。2014, 2015のガートナーのハイプサイクルからもわかると思いますが、ビックデータや機械学習などのデータ分析に関する事柄などは過渡期を少し過ぎたあたりになります。過渡期に執筆が増え今まさに販売されてきているといったところでしょうか。 そこで今回はいきなりデータ分析に取り組む前に、まずはわくわくするところから数字のセンスを身につけよう、ということでいくつかおすすめとなる統計学を紹介させていただきます。そして、最後にビジネス×統計学やデータサイエンティスト入門のためのも一覧として載せています。 うーん、カイザー・ファングさんの、ナンバーセンスは表紙から刺激的ですね。 THE 鉄板!まずは、西内啓さんから。説明不要な気がしますが、今年話題になったのはJリーグのアドバイザー契約になりますね。西内啓さんを

    そのデータ分析待って!まずはわくわくする統計学本から数字のセンスを身につける。
  • 日本の労働分配率はこの30年で2割減、アメリカの3倍も激減=日本企業の内部留保は過去最高で貧困は過去最悪

    Home 経済・税財政, 貧困と格差 日の労働分配率はこの30年で2割減、アメリカの3倍も激減=日企業の内部留保は過去最高で貧困は過去最悪 OECD東京センターでデータ収集の仕事をしていて気がついたデータを紹介しておきます。(このシリーズってどこまでも続きそうですが(^▽^;) 上のグラフは、主要国の労働分配率のグラフです。日の労働分配率がいちばん高かったのが1977年で直近で出されているデータは2011年です。主要国の労働分配率の数字は以下になります。 フランス 1977年80.0%→2011年68.6% 【マイナス14.3%】 日 1977年76.1%→2011年60.6% 【マイナス20.4%】 ドイツ 1977年75.3%→2011年67.6% 【マイナス10.3%】 イギリス 1977年68.9%→2011年69.6% 【プラス1.01%】 アメリカ 1977年68.2%

    日本の労働分配率はこの30年で2割減、アメリカの3倍も激減=日本企業の内部留保は過去最高で貧困は過去最悪
  • 実務で使う統計手法は、5つ。すごい、そんなシンプル?

    このセミナー、冒頭の渋谷 直正さん(日航空 旅客販売統括部Web販売部 1to1マーケティンググループ アシスタントマネジャー)のお話がとても参考になりました。 まず、渋谷さんはご存知のように、2014年に「データサイエンティスト・オブ・ザ・イヤー」を受賞され、ビジネス・サイドにおける、データサイエンスのリーダー的存在です。 その渋谷さんの「実務で使う分析手法は5つで十分、マーケターこそデータサイエンティスト候補」という講演は、多くの示唆に富んだものでした。 まず、みなさんが気にしている5つの手法とは、 クロス集計 ロジスティック回帰 決定木 アソシエーション分析 非階層的クラスター分析(k-meansなど) の5つです。統計の教科書にはさまざまな手法が出てきますが、マーケターが実務で使うのはこの5つ程度だと説明されるのです。でも、この説明には、私も思い当たる部分があります。東大数学

    実務で使う統計手法は、5つ。すごい、そんなシンプル?
    Nyoho
    Nyoho 2015/09/03
  • 一般化線形混合モデル入門の入門

    2014.12.6. Nagoya.R #12 外国語教育研究の仮想データを用いてRのlme4パッケージやlmerTestパッケージを使ってみるというような主旨の発表です。 slideshare上から無料でダウンロードできなくなってしまったので,speakerdeckにも同じ資料をあげました。ダウンロードされたい方,広告がうっとおしいという方は下記のURLからどうぞ。 https://speakerdeck.com/tam07pb915/an-introduction-to-lme

    一般化線形混合モデル入門の入門
    Nyoho
    Nyoho 2015/06/21
  • 統計を始めたい人に僕がPythonよりRを勧める理由 - 蛍光ペンの交差点

    今回は「ほぼRしか使ったことがない」人間*1が、できる限り二者の優劣をくっきり述べる。 僕はほとんどRしか使ったことがない。Pythonはtfidfやクイックソートをライブラリ無しで実装した程度。 前半の主張は以下である。 「過去のRでの10回程度の解析において、Rで不十分さを感じてPythonを使った経験は1度だけ、しかも部分的にしかなかった。Rの使いにくさを感じることも最近はだいぶ無くなった。だから初学者には「事足りる」Rを勧める。」 前半の主張 今までにRでやった解析の内容は大体以下である。 (未発表)は途中で頓挫した、もしくは現在進行中/契約により詳細&解析結果の公開不可能のプロジェクトである。 [ビジネス・製造業] 米国新車価格の線形重回帰分析(授業の期末課題) [ビジネス・不動産不動産賃貸価格の線形重回帰分析(発表スライド) [ビジネス・IT] EコマースサイトのARIMA

    統計を始めたい人に僕がPythonよりRを勧める理由 - 蛍光ペンの交差点
  • データサイエンティストというかデータ分析職に就くための最低限のスキル要件とは - 渋谷駅前で働くデータサイエンティストのブログ

    追記(2017年7月) こちらのスキル要件ですが、2017年版を新たに書きましたので是非そちらをご覧ください。 「データサイエンティストというかデータ分析職に就くためのスキル要件」という話題が某所であったんですが、僕にとって馴染みのあるTokyoR界隈で実際に企業のデータ分析職で活躍している人たちのスキルを眺めてみるに、 みどりぼん程度の統計学の知識 はじパタ程度の機械学習の知識 RかPythonでコードが組める SQLが書ける というのが全員の最大公約数=下限ラインかなぁと。そんなわけで、ちょろっと色々与太話を書いてみます。なお僕の周りの半径5mに限った真実かもしれませんので、皆さん自身がどこかのデータサイエンティスト()募集に応募して蹴られたとしても何の保証もいたしかねますので悪しからず。 統計学の知識は「みどりぼん以上」 データ解析のための統計モデリング入門――一般化線形モデル・階層

    データサイエンティストというかデータ分析職に就くための最低限のスキル要件とは - 渋谷駅前で働くデータサイエンティストのブログ
  • NIKKEI STYLEは次のステージに

    キャリア、転職、人材育成のヒントを提供してきた「リスキリング」チャンネルは新生「NIKKEIリスキリング」としてスタート。 ビジネスパーソンのためのファッション情報を集めた「Men’s Fashion」チャンネルは「THE NIKKEI MAGAZINE」デジタル版に進化しました。 その他のチャンネルはお休みし、公開コンテンツのほとんどは「日経電子版」ならびに課題解決型サイト「日経BizGate」で引き続きご覧いただけます。

    NIKKEI STYLEは次のステージに
  • 俺が長年貯め込んだグラフ・一覧・比較・図解フォルダが今、火を吹く : 哲学ニュースnwk

    2015年01月10日22:30 俺が長年貯め込んだグラフ・一覧・比較・図解フォルダが今、火を吹く Tweet 1: 名無しさん@おーぷん 2014/10/31(金)20:36:22 ID:ltanglYdy 転載元:http://open01.open2ch.net/test/read.cgi/news4vip/1414755382/ 大学生がよく着てる服のブランドを俺が勝手に批評するスレwwwwwwwwww http://blog.livedoor.jp/nwknews/archives/4807841.html それなりに面白そうなのを選んで貼っていく 3: 名無しさん@おーぷん 2014/10/31(金)20:39:42 ID:ltanglYdy まあすぐ終わると思うが 4: 名無しさん@おーぷん 2014/10/31(金)20:40:12 ID:SbSza7HjS これは期待 5

    俺が長年貯め込んだグラフ・一覧・比較・図解フォルダが今、火を吹く : 哲学ニュースnwk
    Nyoho
    Nyoho 2015/01/12
    これはすごいな…
  • 相関係数の大小は相関の有無とは全く関係ない件について。

    話題になった日経のトンデモグラフに対する突っ込みで、相関係数には言及してもp値、有意水準についての言及は少なく、勘違いしている人が多いのではないか?と感じたのでブラッシュアップも兼ねてまとめました。

    相関係数の大小は相関の有無とは全く関係ない件について。
  • 日本の薬の使用量はケタ違いなのか? - NATROMのブログ

    なぜ日で最大の死因がガンなのか?なぜ日の薬の使用量はケタ違いなのか?・・・それは投資ビジネスとして仕掛けている人たちがいるから。だから薬害エイズは防げなかったし、丸山ワクチンも認可されないのです。 bit.ly/RVyfYh— tamayanさん (@tama0905) 8月 28, 2012 「日の薬の使用量はケタ違い」なのだそうだ。当かな?日の総医療費は諸外国と比較して多くはないことは知っていたけれども、薬の使用量についてはそういえば知らなかったので調べてみた。だいたいこの手の統計はOECD(経済協力開発機構)がまとめている。紹介しよう。 ■Health at a Glance 2011(PDFファイル)より引用 2009年(または近傍の年)の統計。左が1人当たりの、右がGDPに占める薬剤に対する支出を示す。1人当たりの薬剤費支出のトップはアメリカ合衆国。まあだいたい予想の範

    日本の薬の使用量はケタ違いなのか? - NATROMのブログ
  • 異端的統計学者としてのナイチンゲール : 人類応援ブログ

    そんな彼女に科学者、しかも「戦闘的」で「異端的」で「革命的」な「統計学者」としての顔があったことを、皆さんはご存知でしょうか。

    異端的統計学者としてのナイチンゲール : 人類応援ブログ
  • シンプソンのパラドックス - Wikipedia

    この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。(このテンプレートの使い方) 出典検索?: "シンプソンのパラドックス" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL(2012年10月) 母集団全体では負の相関があるにもかかわらず、各層では正の相関があるといった逆転現象が起こり得る。 シンプソンのパラドックス(英: Simpson's paradox)もしくはユール=シンプソン効果(英: Yule–Simpson effect)は1951年にイギリスの統計学者エドワード・H・シンプソン(英語版)によって記述された統計学的なパラドックスである[1]。母集団での相関と、母集団を分割した集団での相関は、異なっている場合があるという逆説。

    シンプソンのパラドックス - Wikipedia
  • パラメトリックな手法とノンパラメトリックな手法

    パラメトリックな手法とノンパラメトリックな手法     Last modified: May 16, 2002 パラメトリックな手法 母集団の特性を規定する母数についてある仮説を設けるもので,平均値の差の検定($t$ 検定と略称されることが多い)や分散分析($F$ 検定と略称されることがある)などがこれに該当する。これらの検定手法では,母集団の正規性や等分散性が仮定される。 ノンパラメトリックな手法 母集団の分布型(母数)について一切の仮定を設けない。 このため,分布によらない手法と呼ばれることもある。 特に,標サイズが小さい場合には,それから求められた統計量の分布型は不正確なことが多く,パラメトリックな手法を適用することは不適切になりやすい。 しかし,ノンパラメトリックな手法は常に適用可能である。 このほかにも両者の相違点は数多く,それらは表 1 のようにまとめられる。

  • Web系女子がLispと出会って統計学に目覚めるまでのお話 - あんちべ!

    こんにちは!今年の春からWeb系企業でHTML/CSSデザイナーとして働きだしたキラキラ女子(を目指してる)のあんちべ(23)です!よろしくお願いします!私は普段自社のWebサービスCSSなどを書いている*1のですが、最近データマイニングに興味を持ち始め、データを分析して、自社サービスの売り上げ改善に貢献したいなーと思うようになりました!でも。。。私は文系出身で統計学とか全然わからない*2し、プログラミングも得意じゃない*3し、高価な統計解析ソフトを買うのも辛いです。。。無い無い尽くしですね><;!そんな私に救いの手が!インストール作業不要で、便利な統計処理機能が色々あって、しかも無料という素晴らしいソフト*4を発見しました!その名も"Incanter"です!なんでも、 Lispっていう古くから使われてきた実績のあるプログラミング言語で動いてて、Lispの文法でどんな処理をすればよいかを

    Web系女子がLispと出会って統計学に目覚めるまでのお話 - あんちべ!