タグ

統計に関するYaSuYuKiのブックマーク (124)

  • 日本統計学会創立75周年記念出版『21世紀の統計科学』(全3巻) 増補HP版 (2012年1月)

    2008年に日統計学会75周年記念出版として刊行されました国友直人・山拓監修『21世紀の統計科学』(全3巻)の増補版を, 日統計学会のホームページを通じて提供することとなりました.書の増補版の オンライン公開が統計科学の今後の発展に資することを期待しております. 第I巻 社会・経済の統計科学 (国友直人・山拓編) 第II巻 自然・生物・健康の統計科学 (小西貞則・国友直人編) 第III巻 数理・計算の統計科学 (北川源四郎・竹村彰通編)

  • 金やプラチナなど統計調査に誤り 経産省 | NHKニュース

    厚生労働省で不適切な統計調査が明らかになる中、金などの流通量を毎月公表する「貴金属流通統計調査」でデータの一部に誤りがあったことが分かり、所管する経済産業省は今月中をめどに修正を行うことになりました。 このうち、平成15年以降のデータの一部で、月や年の初めの在庫の数量が記載されていなかったり、年末の在庫の数量が、誤って1月から12月の在庫数量を足し上げたデータが記載されたりしていたということです。 去年11月に、外部の事業者からの指摘で分かったということです。 経済産業省は、マニュアルの不備による担当者の引き継ぎ不足や計算ミスなどにより、誤りが常態化していた可能性があるとして、今月中をめどに修正を行い、正しいデータを公表するということです。 貴金属流通統計調査は、政府が特に重要な統計として位置づけている「基幹統計」には該当せず、経済産業省は、来年度の予算案や政府のほかの統計などに影響はない

    金やプラチナなど統計調査に誤り 経産省 | NHKニュース
  • データサイエンスのための統計学入門

    データサイエンスに必要な統計学と機械学習の重要な50の基概念と、関連する用語について、簡潔な説明と、それを裏付ける最低限の数式、クリアな可視化、実現するRコードを提示して、多方面からの理解を促します。データの分類、分析、モデル化、予測という一連のデータサイエンスのプロセスにおいて統計学のどの項目が必要か、どの項目が不必要かを示し、重要な項目について、その概念、数学的裏付け、プログラミングの各側面からアプローチします。データサイエンスに必要な項目を効率よく学べて、深く理解することが可能です。 正誤表 ここで紹介する正誤表には、書籍発行後に気づいた誤植や更新された情報を掲載しています。以下のリストに記載の年月は、正誤表を作成し、増刷書籍を印刷した月です。お手持ちの書籍では、すでに修正が施されている場合がありますので、書籍最終ページの奥付でお手持ちの書籍の刷版、刷り年月日をご確認の上、ご利用く

    データサイエンスのための統計学入門
  • nenshuhensachi.com

    nenshuhensachi.com 2023 著作権. 不許複製 プライバシーポリシー

    nenshuhensachi.com
    YaSuYuKi
    YaSuYuKi 2017/08/08
    対数正規分布はこのようなグラフになる(例はニコ動の再生数分布) http://d.hatena.ne.jp/rikunora/20140320/p1 このような分布だと重要なのは中央値で平均値ではない。偏差値40台でも余裕で上位半分な事がある
  • 日本の2大コンテンツ、ゲームとアニメの制作企業の実像を比較する(その1);アニメとゲームの国内市場規模では、「二次市場」の重要性が大きく異なる。ゲームの1.8兆円に対して、アニメ制作の直接市場は1,700億円。しかし、広義のアニメ市場規模は1.24兆円に拡大。

    の2大コンテンツ、ゲームとアニメの制作企業の実像を比較する(その1);アニメとゲームの国内市場規模では、「二次市場」の重要性が大きく異なる。ゲームの1.8兆円に対して、アニメ制作の直接市場は1,700億円。しかし、広義のアニメ市場規模は1.24兆円に拡大。 2017年7月27日 ゲームの国内市場規模は約1.8兆円 アニメの狭義国内市場規模は1,700億円。しかし広義では1.24兆円に拡大 ゲームとアニメの売上の推移は連動している? 様々な統計データを用いて、日の2大コンテンツであるゲーム制作企業(以下、ゲーム会社)とアニメの制作企業(以下、アニメ会社)の実像に迫っていく連載記事をアップしています。まずは、ゲームとアニメの市場企業を比較し、その違いを見ていきます。

    日本の2大コンテンツ、ゲームとアニメの制作企業の実像を比較する(その1);アニメとゲームの国内市場規模では、「二次市場」の重要性が大きく異なる。ゲームの1.8兆円に対して、アニメ制作の直接市場は1,700億円。しかし、広義のアニメ市場規模は1.24兆円に拡大。
  • 一筋縄ではいかない、Pawooとマストドンのデータ分析について - pixiv inside

    こんにちは。新卒エンジニアのtohhyとpotato4dです。 今回の記事では、新卒研修の一環として行っている、Pawooのデータ解析基盤の整備業務について紹介します。 Pawooのデータとマストドンの思想について Pawooの開発で社として特に意識している事柄として、マストドン家の思想の尊重があります。 マストドンは成り立ちとして、SNSというもののあり方に対する問題意識からスタートしたOSSであり、設計の根底には開発者の思想があります。 マストドンのランディングページの最下部に特徴として列挙されている項目が、そうした思想の一端を表しています。 この「マストドンの特徴」の中に、トラッキングに関する言及があります。「広告もトラッキングもありません」という記述がそれです。 Pawooは家マストドンからフォークして実装されており、独自の機能を持ってこそいますが、家に対して変更を提案したり

    一筋縄ではいかない、Pawooとマストドンのデータ分析について - pixiv inside
    YaSuYuKi
    YaSuYuKi 2017/06/06
    SPAの利用状況分析か。面白い
  • 【デレマス】「シンデレラガール総選挙」を数学的に分析して各アイドルの得票数を推定してみた

    先日、「シンデレラガール総選挙」の結果が発表された。 いきなりで何のことか分からない人のために説明すると、ゲームアプリ「アイドルマスターシンデレラガールズ」内で行われた人気投票である。 投票対象となるアイドルは総勢183人。1位に輝いた高垣楓は約106万票を獲得した。 では、私の担当(応援しているアイドル)である神谷奈緒の票数は……と見てみると、出てないじゃん! そう、得票数が発表されたのは、全体のトップ10と各属性(※)のトップ5まで。神谷奈緒は全体15位なので、何票獲得したのかが分からないのだ。 ※アイドルごとに属性(キュート・クール・パッション)が設定されている ならばこちらにも考えがある。公開されているデータを最大限使って、数学的に各アイドルの得票数を推定してやろうではないか。 注:この総選挙はゲーム内でゲットした「投票券」1枚で1票投票できる。ログインボーナスで1日1票は手に入る

    【デレマス】「シンデレラガール総選挙」を数学的に分析して各アイドルの得票数を推定してみた
    YaSuYuKi
    YaSuYuKi 2017/06/04
    おおむね妥当な分析だと思う
  • カープは本当に“責任追及打線”なのかを調べてみた : 鯉速@広島東洋カープまとめブログ

    2017年04月18日07:00 カープは当に“責任追及打線”なのかを調べてみた カテゴリデータ系プレー Comment(65) 引用元(おーぷん2ちゃんねる):・http://hayabusa.open2ch.net/test/read.cgi/livejupiter/1492437193/ 1: 名無しさん@おーぷん 2017/04/17(月)22:53:13 ID:sPI 2017年今季の広島打線は責任追及打線と称されている。 当に相手のエラーに付け込むのか? 当に責任追及打線なのか? 以上の疑問を解決すべく、 「責任追及指数」「責任追及得点率」を定義して分析を行うことにした。 2: 名無しさん@おーぷん 2017/04/17(月)22:54:21 ID:sPI 責任追及指数= (タイムリーエラー数+エラーによる出塁の生還数+出塁しないエラーによる進塁者の生還数-タイムリーエラ

    カープは本当に“責任追及打線”なのかを調べてみた : 鯉速@広島東洋カープまとめブログ
    YaSuYuKi
    YaSuYuKi 2017/04/18
    興味深い。同時にカープの強さもよくわかる
  • CESA、「2017CESA一般生活者調査報告書」発刊・発売開始 ゲーム全体の継続プレーヤー人口は4,614万人に

    CESA、「2017CESA一般生活者調査報告書」発刊・発売開始 ゲーム全体の継続プレーヤー人口は4,614万人に
  • 都市伝説を追う! ルーター性能でガチャのレア度は変わるのか (1/3)

    芥川龍之介の短編小説『杜子春(とししゅん)』には、散財で没落した杜子春を助ける奇妙な仙人(鉄冠子)が登場する。唐の都・洛陽の西の門でぼんやり空を仰ぐ杜子春に声をかけた仙人は、杜子春がその夜の寝る場所にも困っていることを知り、彼にこう語りかけるのである。 「ではおれが好いことを一つ教へてやらう。今この夕日の中に立つて、お前の影が地に映つたら、その頭に当る所を夜中に掘つて見るが好い。きつと車に一ぱいの黄金が埋まつてゐる筈だから。」 (芥川龍之介『杜子春』、青空文庫) 仙人の言うことをその通りに実行し、一夜のうちに都でもただ1人の大金持ちに返り咲いた杜子春。しかし結局、彼は金にあかせて贅沢を尽くし、3年後には再び一文無しとなってしまう。住むところもなくなり、洛陽の西の門でぼんやり空を仰いでいた杜子春は、またしても奇妙な仙人に出会い、一夜にして大金持ちに戻るが、これもまた3年で散財。3度、目の前に

    都市伝説を追う! ルーター性能でガチャのレア度は変わるのか (1/3)
    YaSuYuKi
    YaSuYuKi 2017/03/15
    「何かが悪いのだとすれば、それはおそらく筆者の頭」
  • 平均値 vs 中央値

    作者のページ ときどき所得などのデータを平均値(算術平均)のみで示している記事があります。しかし極端な外れ値があったり、著しく非対称だったりするデータは中央値で扱わないと実態がよく分からなくなってしまう場合があります。「平均所得600万円!」に騙されないように「平均値」と「中央値」の違いを実感しましょう。 追記1:以下の分布はLog-normalを仮定しているため必ず 中央値<平均値 です。そうじゃない分布も当然存在します。 追記2:このページの趣旨は「平均値だけ見ても実態がよく分からんこともあるので元の分布や他の統計量も気にしようね」ってことなので一々「最頻値も見なきゃ駄目だ」とかメールしてこなくていいです。 使い方:スライダをグリグリ動かして、それぞれの代表値を持つ分布の例を見てみよう。

    YaSuYuKi
    YaSuYuKi 2017/01/23
    正規分布してないものの平均は本当に役に立たん
  • ゼロからはじめるデータサイエンス

    TOPICS Data Science , Database , Python 発行年月日 2017年01月 PRINT LENGTH 400 ISBN 978-4-87311-786-7 原書 Data Science from Scratch FORMAT PDF 書は、データサイエンスも、プログラミングも最初から学んでみたい、という要望に応える、幅広いトピックをカバーしたデータサイエンスの入門書です。架空のソーシャルネットワーク運営企業、データサイエンス・スター社のデータサイエンティストとして、さまざまな課題を解決しながら、必要な知識とスキルを着実に積み上げていきます。Pythonプログラミングの基礎から線形代数、統計確率の基礎、回帰、機械学習、ナイーブベイズ、決定木、ニューラルネットワーク、自然言語処理、グラフ解析、リコメンドシステム、データベースとSQLMapReduceまで

    ゼロからはじめるデータサイエンス
  • 社会的望ましさのバイアスと大統領選挙予想 - A Successful Failure

    2017年01月09日 社会的望ましさのバイアスと大統領選挙予想 Tweet 2016年最も予想外であったトランプ大統領の誕生が確定してから2ヶ月ほど経過したが、なぜ事前の予想がことごとく外れたのかという点の解明には数ヶ月かかると見られており、確かなことはまだ言えない状況が続いている。 その中でも有力な仮説が幾つか存在し、『大外れした大統領選の予想。考えられる理由とは』などで紹介されている。 こうした仮説を受けて、筆者は次のTWを行い、現在までに累計3,000を超えるRTを頂いた。 LM-7@LunarModule7大統領選挙結果をうけて思い出すのはマクドナルド原田元会長の言葉。 「アンケートをとると必ずヘルシーなラップサンドやサラダがほしいと要望があって商品化したけども売れたためしがない。ヘルシーなサラダでなくメガマックが売れる。お客は言うこととやることが違うからお客の話を聞いてはだめ」

    社会的望ましさのバイアスと大統領選挙予想 - A Successful Failure
  • 昨年の全国の交通事故死者数、67年ぶり3千人台に ピーク時の4分の1以下 高齢者数は過去最悪 - 産経ニュース

    平成28年に全国で発生した交通事故死者数は前年より213人(5・2%)少ない3904人で、昭和24年以来67年ぶりに4千人を切り、3千人台となったことが4日、警察庁のまとめで分かった。統計を開始した昭和23年以降では3番目の少なさで、最多だった昭和45年の1万6765人と比べると4分の1以下となった。 このうち65歳以上の高齢者の交通事故死者数は2138人で、全体に占める割合は54・8%。高齢者の死者数の統計を始めた42年以降で過去最悪となった。 警察庁幹部は交通事故死者数が減少した理由を「交通安全教育の普及や車の安全性の向上、信号機や道路の改良などが進んだ結果と考えられる」と分析している。 平成28年11月末までの死亡事故を形態別にみると、自動車乗車中1208人(前年同期比20人増)▽自動二輪車乗車中422人(同11人増)▽原付乗車中212人(同11人増)▽自転車乗車中448人(同73人

    昨年の全国の交通事故死者数、67年ぶり3千人台に ピーク時の4分の1以下 高齢者数は過去最悪 - 産経ニュース
    YaSuYuKi
    YaSuYuKi 2017/01/05
    理由に「事故率の高い若年層ドライバーの減少」も追加で
  • TechCrunch | Startup and Technology News

    The moment Amazon feared when FTC Chair Lina Khan was appointed may soon arrive: Bloomberg reports that the agency is putting the final touches on its most substantial antitrust case against the tech

    TechCrunch | Startup and Technology News
  • 図録▽第2次世界大戦後における武力紛争による戦死者数

    戦死者数についての客観的な統計はもともと成立が困難なものである。まず、戦争や紛争、ジェノサイドその他の大虐殺によって殺された者のうち戦死者をどこまで含めるかの定義の問題がある。また当事者の報告は、もともと記録が取られているか、逃亡・行方不明との区別、戦死者を多く見せたい、少なく見せたいという意向などによって影響されている。 ここでは、ウプサラ大学のオスロ国際平和研究機構(PRIO)*が取りまとめたデータベース、および世界銀行報告書(「世界銀行アトラス 人間の安全保障はどう守られているか 」)をもとに部族間抗争や虐殺を除く国家が関与した武力紛争の戦死者数の第2次世界大戦後の推移を図録にした。 *Uppsala University/International Peace Research Institute, Oslo (PRIO) 戦死者数には戦闘員だけでなく激しい交戦に巻き込まれて死亡し

  • 『ポケモンGO』は無課金が8割、まずはゲーマー層にリーチ。niconicoで60万人を超える大規模アンケート調査を実施

    22時間で回答数60万人超 ニコニコアンケート史上最大の回答数に 全世界で7500万ダウンロード、日でも一週間を待たず1000万ダウンロード越えと、まさに世界的規模で社会現象を巻き起こしているタイトル。実際にどのくらいの人が、どれだけ遊んでいるのだろうか? 7月28日12時〜7月29日10時にかけて、電ファミニコゲーマーでは、niconicoと共同で『ポケモンGO』に関するアンケート調査を行った。総投票数は、60万4260人。短い期間だったにもかかわらず、非常に多くの方にご協力頂いた。実はこの数値、niconicoアンケート史上最大の数値とのことで、過去に行った世論調査(そちらは3日間かけての調査だった)の49万人を大きく引き離しているという。 まずはこの場を借りて、御礼申し上げます。 さて。では、気になるアンケート結果を順に見ていこう。 ポケモン世代が流れ込んでいる!? 10~20代

    『ポケモンGO』は無課金が8割、まずはゲーマー層にリーチ。niconicoで60万人を超える大規模アンケート調査を実施
    YaSuYuKi
    YaSuYuKi 2016/07/29
    プレイヤー数も課金率もすさまじいな
  • みんなのウェディングのデータ分析基盤の現状 — みんなのウェディングエンジニアリングブログ

    こんにちは、みんなのウェディングの小室 (id:hogelog) です。 今回はみんなのウェディングにおけるデータ分析基盤の現状についてご報告させていただきます。 三行まとめ 忙しい人のために先に結論を書くと bricolage と embulk で Redshift に集めて re:dash で分析 です。 データ収集 データ収集は bricolage のジョブネット機構を用いて bricolage の各種ジョブや embulk を連携させ、Redshift にデータを取り込んでいます。 参考までに https://github.com/hogelog/dwh-example に簡単な構成例を準備しました。 MySQL → Redshift みんなのウェディング http://www.mwed.jp/ のデータベースとしては MySQL を利用しています。 MySQL から Redshi

    みんなのウェディングのデータ分析基盤の現状 — みんなのウェディングエンジニアリングブログ
  • 「パナマ文書」解析の技術的側面

    世界中で話題になっているパナマ文書。各国で政権を揺るがすような事態にもなっていますが、純粋にデータとしてみた場合、これは計算機やデータ解析に関わる人々にも面白いものだと思います。データの中身や背景などについてはさんざん報道されていますのでここでは触れません。一方、現場でどのような作業が行われているのかはあまり報道されていません。現実的な問題として、人力ではどうしようもない量のリークデータを手に入れた場合、調査報道機関はどんなことを行っているのでしょうか?私も以前から疑問に思っていたのですが、先日あるデータベース企業と、データ分析アプリケーションを作成する会社のブログにて、その実際の一端を窺うことができる投稿がありました: Panama Papers: How Linkurious enables ICIJ to investigate the massive Mossack Fonseca

    「パナマ文書」解析の技術的側面
    YaSuYuKi
    YaSuYuKi 2016/04/11
    この辺のグラフ解析の実例はニコニコ学会の発表にいっぱいあるので興味があると調べると良い。パナマ文書と違うのはノード数が桁違いに多く個別のノードの価値が低いところだが共通点も多い
  • 出現確率1%のガチャを100回引いても,4割近くの人は全部はずれる。“本当の確率”を読み解いてみよう

    出現確率1%のガチャを100回引いても,4割近くの人は全部はずれる。“当の確率”を読み解いてみよう ライター:宮里圭介 まったく確率表示をしていなかったり,レア度別の確率のみ表示したりと,タイトルによって対応はさまざまだ スマートフォン向けゲームに欠かせない存在となっている「ガチャ」。お目当てのキャラやアイテムを引き当てたときの嬉しさは格別だし,結構な額のリアルマネーを使ったあげく,ハズレばかりだったときの悔しさもまたかなりのものだ。 すべては運にかかっているので,プレイヤーが頼りにできるデータといえば,公開されている出現確率ぐらいだろう。以前はその確率が公開されていないゲームが多かったが,最近は業界として確率表示を進める動きが強まっており,人気タイトルの「グランブルーファンタジー」でも,日(2016年3月10日)から装備品個別の出現確率が表記されるようになる。 だが,確率が明らかにな

    出現確率1%のガチャを100回引いても,4割近くの人は全部はずれる。“本当の確率”を読み解いてみよう
    YaSuYuKi
    YaSuYuKi 2016/03/10
    「ガチャを引いた結果から、運営から提示された確率が事実である可能性が一定確率以上であると言える確率が一定確率以上になる試行回数」を計算したい。ベイズ推定を学べば良いが手ごわすぎてまだ良くわからない