タグ

統計に関するspirobisのブックマーク (13)

  • 合計特殊出生率の計算式の1971年変更について - remcat: 研究資料集

    今日の東京新聞ウェブサイト (TOKYO Web) にこんな記事が載っていた: 少子化対策の重要な指標の一つ「合計特殊出生率」の公表値が、実態より過大であることが分かった。基となる厚生労働省の統計の対象が「日における日人」で、外国人の女性は計算に入らないのに、国際結婚で生まれた日人の子は入っているためだ。 ――――― 東京新聞「合計特殊出生率 実態は公表値よりもっと低かった…専門家が「信じられない」統計手法とは」(TOKYO Web 2023年7月2日 06時00分) https://www.tokyo-np.co.jp/article/260366 うん。まあそれは専門家なら誰でも知ってる話である。そういう計算式であることは以前から公表されていて、この50年間一貫してるのだから、それで計算した結果が何を意味してるかについてちゃんと議論すればよかろう。 これ自体はそういうことなのだが

    合計特殊出生率の計算式の1971年変更について - remcat: 研究資料集
    spirobis
    spirobis 2023/07/03
    筆者がTwitterで言及していた件の詳細な解説で解像度が高まった。これは東京新聞に限らず、一般的な新聞クラスならどこでもやらかしていた感はある。それくらい細かいけど、統計上重要で、大事な指摘。
  • 機械学習/データサイエンスに活用できる「政府系」オープンデータセット3選

    の政府系のオープンデータで一番有名なのが「e-Stat」である。統計学やデータサイエンスに携わるもの/学ぶものであれば、名前は聞いたことがあるだろう。かつては各省庁がバラバラに管理&公開していた公的データを、一カ所に集めて誰でも簡単に利用できるようにしたサイトである(2008年から運用が開始され、2018年にリニューアルされた)。 統計分野は多岐にわたり、「国土・気象」「人口・世帯」「労働・賃金」「農林水産業」「鉱工業」「商業・サービス業」「企業・家計・経済」「住宅・土地・建設」「エネルギー・水」「運輸・観光」「情報通信・科学技術」「教育文化・スポーツ・生活」「行財政」「司法・安全・環境」「社会保障・衛生」「国際」「その他」という17分野が提供されている。データセットは、条件指定によるフィルタリングやグラフ化が行える。例えば人口ピラミッドのグラフも簡単に作成できる。 また、もちろん無

    機械学習/データサイエンスに活用できる「政府系」オープンデータセット3選
  • 家に本が多いほうがテストの正答率高い? 文科省調査

    文部科学省が全国の小中学生を対象に「家庭の蔵書数」を初めて調査したところ、25冊以下が3割を占めた一方、蔵書数が多いほうがテストの正答率が高くなる傾向が明らかになりました。 文部科学省はことし5月、全国の小学6年生と中学3年生の200万人以上を対象に「全国学力テスト」を実施し、家庭の経済的、文化的な資をはかる指標の1つとして、国際的な調査でも用いられる「家庭の蔵書数」を初めて調べました。 その結果、家にあるの数が、 ▽0~10冊と答えたのは小学生で11%、中学生で14% ▽11~25冊が小学生で19%、中学生で20%で 25冊以下と答えた子どもが3割を占めました。 ▽26~100冊が小学生で34%、中学生で32% ▽101~500冊が小学生で32%、中学生で30% ▽501冊以上が小中学生とも5%でした。 学力テストの正答率をみると、小学校の算数では、蔵書数が最も多い子と最も少ない子で

    家に本が多いほうがテストの正答率高い? 文科省調査
  • 2014年春版:ビジネスにおけるデータ分析のプロを目指すなら揃えておくべき12冊 - 渋谷駅前で働くデータサイエンティストのブログ

    さて、前回リストの記事から半年ぐらい経ちましたよーということで、それ以降に発刊された書籍などを吟味した上で更新したリストをお届けしたいと思います。といっても引き続き今回のリストにも入っているものが多いので変わり映えしないかもですが。。。 前回同様、統計学や機械学習にまつわる学術的な知識を得るだけにとどまらず、ビジネスにおけるデータ分析のプロとして知っておきたい知識を得るために必要な書籍もリストに入れてあります。 確率論まわりの基礎理論についての書籍は僕自身が勉強途中なので割愛しました*1。またコーディングまわりのは一旦割愛してあります。というか僕はエンジニアとは言い難い身なので(泣)、コーディングまわりや詳細な実装プロセスなどは適宜必要なを読んで下さいということで。。。 そして改めての断り書きですが、これは「ある程度既に統計学や機械学習などに馴染みがあってそれなりにPythonでコード

    2014年春版:ビジネスにおけるデータ分析のプロを目指すなら揃えておくべき12冊 - 渋谷駅前で働くデータサイエンティストのブログ
  • 9割の人が知らない再現性の危機 - 本しゃぶり

    で読んだ知識をドヤ顔で紹介したら、その実験には再現性がありませんでした。 そんな恥ずかしい記事を書いたブロガーは誰でしょう? そう、私です。 ステレオタイプ脅威はありますん ちょっと前に「ステレオタイプ脅威」の記事が話題になっていた*1。 世の中には「女性は数学に弱い」というような負のステレオタイプがある。自分のアイデンティティがそれに該当していると意識してしまうと、実際にパフォーマンスが落ちるというものだ。これは様々な実験の結果によって示されている。というのが記事で紹介されていた話だった。 ところが現在、その「実験結果」は再現性が無いと言われている。ステレオタイプ脅威の根拠は実験結果にあるというのに、その土台は不確かなものであるのだ。 とくに、最近の研究ではほとんど再現性がないとされている「ステレオタイプ脅威」について、リベラルバイアスにも言及しながら議論しているのが印象的。 日では

    9割の人が知らない再現性の危機 - 本しゃぶり
    spirobis
    spirobis 2020/12/07
    これも良作。前記事と一緒にセットで。
  • COVID-19 感染予測 (日本版) の公開について | Google Cloud 公式ブログ

    Google Cloud は今年 8 月に Harvard Global Health Institute とのパートナーシップのもとで COVID-19 Public Forecasts を公開しました。このサービスは予測開始日から将来 14 日間における米国内の COVID-19(新型コロナウイルス感染症)陽性者数や死亡者数などの予測を提供しています。この度、サービスを日にも拡張し、COVID-19 感染予測(日版)の提供を開始します。日版では予測開始日から将来 28 日間のあいだに予測される国内の陽性者数や死亡者数等の予測値を表示します。 米国で提供している COVID-19 Public Forecasts は AI と膨大な疫学的データを組み合わせ、さらに、時系列の予測を扱う斬新な機械学習のアプローチを採用することで実現しました。米国向けのこの初期モデルは今年 8 月に初

    COVID-19 感染予測 (日本版) の公開について | Google Cloud 公式ブログ
    spirobis
    spirobis 2020/11/17
    北海道の拡大が収まるのは遠い話だというのはよく分かった。欧州と同緯度に位置するし、欧州並みの対策を打たないと厳しいなという答えを突き付けられているようにみえる。
  • えるエル on Twitter: "東大が無償でPDF公開している,統計学会の75周年記念出版『21世紀の統計科学』の3冊 1と2は実際の統計データを用いて,各事例への統計学の応用手法,3は機械学習の人なら馴染み深い統計計算を解説 下手な市販の本を買うよりは,この3… https://t.co/w2cSVIxmUI"

    東大が無償でPDF公開している,統計学会の75周年記念出版『21世紀の統計科学』の3冊 1と2は実際の統計データを用いて,各事例への統計学の応用手法,3は機械学習の人なら馴染み深い統計計算を解説 下手な市販のを買うよりは,この3… https://t.co/w2cSVIxmUI

    えるエル on Twitter: "東大が無償でPDF公開している,統計学会の75周年記念出版『21世紀の統計科学』の3冊 1と2は実際の統計データを用いて,各事例への統計学の応用手法,3は機械学習の人なら馴染み深い統計計算を解説 下手な市販の本を買うよりは,この3… https://t.co/w2cSVIxmUI"
  • 食べログ3.8問題を検証 - クイックノート

    先日、twitter上でべログの星の数について、 ある問題が話題になりました。 べログの闇として話題になったその問題とは、 「評価3.8以上は年会費を払わなければ3.6に下げられる」 というものです。 べログは飲店についての口コミを集めるサイトで、 その評価は実際のユーザーによって形成されるものとして広く認知されています。 専門的なグルメリポーターでもなく、 一般の人々の素直な感想を集めることで、 その飲店のリアルな価値が知れると期待して、 利用しているユーザーも多いでしょう。 それだけに、 「べログが評価を恣意的に操作しているかもしれない」という話は、 瞬く間にネットで話題となりました。 さて、この話は実際に行われていることなのでしょうか。 べログでは、当然評価点は公開されているので、 このような恣意的な操作があれば、 何らかの形で偏りが見つかるはずです。 ということで、

    食べログ3.8問題を検証 - クイックノート
  • 統計不正はこれほどヤバい | 西日本新聞me

    永田健の時代ななめ読み 「空気を読まない」を信条とするベテラン記者が、今起きている政治、社会、国際問題を「ななめに」論評します。賛同とお叱りが相半ばする人気のコラム(日曜更新) ただ「統計」というなじみの薄いジャンルであるためか、初報から政治問題化まで時間差が生じ、現在でも世論の関心はいまひとつに思える。そこで今週は「統計不正はどれほど大問題か」を、文系脳の私が例えを駆使し、分かりやすく読者に解説したいと思う。 私はひそかに「九州の池上さん」のポジションを狙っているのである。 ◇    ◇ 統計不正問題は多岐にわたるが、丸の「毎月勤労統計」について論じる。 簡単に説明すれば、厚生労働省はこの統計の作成手法を不正に簡略化。それを途中から「完全版」に近づけるため数値の復元加工をしたところ、結果として実質賃金の伸び率がかさ上げされた。つまり実態より過大に「賃金が上がった」と公表していたのだ。

    統計不正はこれほどヤバい | 西日本新聞me
  • 官邸意向で見直しか 厚労省勤労統計の手法(共同通信) - Yahoo!ニュース

    厚生労働省が毎月勤労統計の調査対象入れ替え方法の変更を検討した経緯について、同省関係者が14日、共同通信の取材に「国会でも賃金の話が出ており、何とかしなきゃいけないと思った」と証言した。公正であるべき統計に経済政策を重んじる官邸の意向が影響した可能性が出てきた。2015年、当時の中江元哉首相秘書官に賃金伸び率の低下を説明した同省幹部は「アベノミクスで賃金の動きが注目されている」として急きょ有識者検討会を設け、短期間で結論を出すよう要請していた。

    官邸意向で見直しか 厚労省勤労統計の手法(共同通信) - Yahoo!ニュース
    spirobis
    spirobis 2019/02/15
    まだ氷山の一角では? とは思う。一方、こうした記事が出てきたことはが朗報。こんな記事すら出なくなって改竄すらしたかしないかが分からなくなるディストピアな事態が来る前に、徹底的に洗い出せ。
  • 枠母集団

    https://anond.hatelabo.jp/20180424082940 「母集団」について 増田で盛り上がることがあろうとは! とうれしくなってしまったので、解説しておく。 事例に出てきた選挙の話で考えてみると、新聞社等大手マスコミが行っている電話での世論調査は下記のように整理できる。 RDD調査の例A.日の有権者全体=母集団(目標母集団) B.RDDで補足できる電話番号全体=枠母集団 C.実際に調査対象となった電話番号全体=対象数 D.答えてくれた電話番号=回答数。 ここでサンプリング理論が関係してくるのは、Cを適切な数集めたらBが推定できるよね、って話。 人口が何千万人もいるのに2000人対象に調査するだけでいいのはどうして?っていうのはBとCの関係。 AとBの差(カバレッジ誤差)は統計学では埋められない。 じゃ、ネットの世論調査はどうか?っていうと、 ネット会社のパネルに

    枠母集団
  • 統計検定を理解せずに使っている人のために I - J-Stage

    318 化学と生物 Vol. 51, No. 5, 2013 セミナー室 研究者のためのわかりやすい統計学-1 統計検定を理解せずに使っている人のために I 池田郁男 東北大学大学院農学研究科 319 化学と生物 Vol. 51, No. 5, 2013 1 1 320 化学と生物 Vol. 51, No. 5, 2013 2 μ σ σ 3 * 2 3 * 321 化学と生物 Vol. 51, No. 5, 2013 4 * 5 * 6 σ 4 5 6 σ * * 322 化学と生物 Vol. 51, No. 5, 2013 μ μ μ μ μ σ 7 σ σ σ σ σ σ σ σ σ σ 8 8 9 7 σ 323 化学と生物 Vol. 51, No. 5, 2013 9 10 11 * σ σ * * * * 10 11 * * * * 324 化学と生物 Vol. 51, No.

  • まとめ記事のタイトルをテキストマイニングした結果をご覧ください - ただ眠いんだ

    まとめサイトみたいな記事タイトルを使ってみたのだけど、中身は「まとめサイトのタイトルを解析してみた」という内容だ。タイトル通り! まとめサイトあるある?として「マスコミは偏向報道をする!真実はネットにしかない!」なんて話はよく聞く。そんなもん人間がやってるんだからある程度は当たり前だと思う。 ネット真実があるかどうかは知らないけれど、マスコミをマスゴミと呼ぶ人達が愛してやまないまとめサイト自体はどれだけ偏っているの?というのがこの記事の趣旨である。 まとめサイトの偏りだったり誤りは色々なところで語られてるものの、見える形で出ているのはあまり見たことがない。 スポンサーリンク そんなわけで、僕が選ぶアレなまとめサイト4選、は○ま、J○N、保○速、ハム速の4サイトから新しい記事500ずつ、合計2000の記事タイトルを抽出してテキストマイニングをかけてみた。 おかげでクリップボードがとんでも

    まとめ記事のタイトルをテキストマイニングした結果をご覧ください - ただ眠いんだ
  • 1