タグ

統計に関するwata88のブックマーク (46)

  • 統計・機械学習の理論を学ぶ手順 - Qiita

    社内向けに公開している記事「統計・機械学習の理論を学ぶ手順」の一部を公開します。中学数学がわからない状態からスタートして理論に触れるにはどう進めばいいのかを簡潔に書きました。僕が一緒に仕事をしやすい人を作るためのものなので、異論は多くあると思いますがあくまでも一例ですし、社員に強制するものではありません。あと項目の順番は説明のため便宜上こうなっているだけで、必ずしも上から下へ進めというわけでもありません。 (追記)これもあるといいのではないかというお声のあった書籍をいくつか追加しました。 数学 残念ながら、統計モデルを正しく用いようと思うと数学を避けることはできません。ニューラルネットワークのような表現力が高くて色々と勝手にやってくれるような統計モデルでも、何も知らずに使うのは危険です。必ず数学は学んでおきましょう。理想を言えば微分トポロジーや関数解析のような高度な理論を知っておくのがベス

    統計・機械学習の理論を学ぶ手順 - Qiita
  • 悪用厳禁:絶対に成功するA/Bテストの作り方

    ソフトウェアエンジニアの間でも一般的な言葉になった「機械学習」。書では、その機械学習データ分析の道具をどのようにビジネスに生かしていけば良いのか、また不確実性の高い機械学習プロジェクトの進め方などを「仕事で使う」という観点から整理し… オライリージャパンさんからは、売れ行きがとてもいいという話を伺っており、これで新しいノートPCを買う足しになるかなぁと思っています。 物理については少数ですが、Cloudera World Tokyo2017で限定販売されるそうです。CWT2017申し込みが始まったので、物理版がほしい方は申し込むとよいんじゃないでしょうか。 書評もいくつか届いており、勝手ながら紹介させていただきます。

    悪用厳禁:絶対に成功するA/Bテストの作り方
  • 短時間労働者の賃金統計 厚労省が調査法の変更申請せず 大学教授や医師らの追加で時給が急上昇 :東京新聞 TOKYO Web

    厚生労働省が賃金統計で短時間労働者の賃金を集計する際、2020年分から時給が高い大学教授や医師らを加えたのに、統計法で義務付けられた総務相への変更申請をしていなかったことが分かった。高給の職種を加えたことで平均の時給は前年比23%上昇。総務相が専門家の意見を聴くため諮問する統計委員会の審議も経ておらず、変更の手続きや意図の説明責任が問われる。 (渥美龍太) この統計は「賃金構造基統計調査」と呼ばれ、重要度が高い国の基幹統計。厚労省は調査や集計の方法を20年分から大幅に変更することを決め、先月末に結果を初公表していた。集計対象の約3割を占める短時間労働者は、主にパートなどの非正規労働者で、一部に正社員も含む。 これまでは時給3000円超の医師や塾講師らを除く平均時給を算出。今回から厚労省は、短時間労働者の多様な働き方を反映するには全体像の把握が必要だとし、全てを含む「全体集計」に変更した。

    短時間労働者の賃金統計 厚労省が調査法の変更申請せず 大学教授や医師らの追加で時給が急上昇 :東京新聞 TOKYO Web
    wata88
    wata88 2021/04/07
    100歩譲って変えるのはいいんだが、過去は旧指標のままにして比べても無意味になって、グラフが虚無化する。悪意があるというより無能だと思うよ
  • 可視化や統計でデータに『恣意的なストーリーを語らせる』16の闇の魔術【bad charts】 - Qiita

    闇の魔術に対する防衛術 Advent Calendar 2020の三日目 はじめに データの可視化は非常に難しい。 まずデータの抽出が難しい ・データソースごとの整合性が取れているか ・取得したデータとソースデータに欠損が生じていないか ・SQL文を実行したサマリの結果が部分的に抜け落ちていないか。 その確認は時間的にも精神的にも苦痛。 しかし、苦労して抽出したデータも使い方で全くの無駄になる その例として「可視化や統計」部分に着目してお話をしようと考えた。 データの背景を知らない人には、データ可視化が歩み寄る手段になるし、伝えたい事をインパクトを伴って伝えられるなど非常にメリットである。 ※ただし 「可視化」の使い方によっては誤った理解をさせることも可能。 伝えたい事だけを正しいように見せる方法もあり、 可視化に詳しくない人に誤解を与えて自分の主張を通すこともできるかもしれない。 これは

    可視化や統計でデータに『恣意的なストーリーを語らせる』16の闇の魔術【bad charts】 - Qiita
  • 実はフェイクでありながらも、未だに多くの人が真実だと信じている写真はありますか?

    回答 (5件中の1件目) アベ政治をゆるさないという看板をもったおじさんの横に昭恵さんがいるやつですね。しかも昭恵さんもその写真をアップしていて、わけがわかりません。 まあ、画像はいいですね、有名なので。

    実はフェイクでありながらも、未だに多くの人が真実だと信じている写真はありますか?
  • 国際比較に使える唯一の指標「超過死亡」で明らかになる実態 - 新型コロナウイルス情報室 - Quora

    今回取り上げるのは、フィナンシャル・タイムズからの「死者数は報告されているよりも60%高い可能性がある」というレポートです。 Global coronavirus death toll could be 60% higher than reported | Free to read ここで、論に入る前に、少し前置きです。 アウトブレイクが現在進行形で起きているときに、異なる国での政策の良し悪しを議論するのに使える、信頼できる統計データとは何でしょうか? 感染者数は、検査の性能・件数・方針などに強く依存するため、もっとも信頼性の低い指標です。一方、死亡者数は、相対的には信頼できる指標ですが、検査を受けないままに死亡してしまったケースについてはアンダーレポート(過小報告)となります。 特にいったん医療崩壊を起こしてしまうとあらゆる報告が追いつかなくなり、感染者数も死亡者数もきちんと管理できな

  • 児童手当使途の調査報告書が間違っているようなので、厚生労働省に電話しました - おたまの日記

    ひとつ前のブログで、児童手当についての話題をとりあげました。 www.shiratamaotama.com 簡単にまとめると下記のようになります。 日経新聞による報道 ・児童手当を「大人の小遣いに充てる」「使わずに残っている」人は年収600万~1000万円未満で39%、1000万円以上では49% ・これをふまえ、財務省は高所得者への児童手当廃止を含めた見直しを要請する 私が調べたこと ・児童手当の使途についての国の調査は、H24厚労省「児童手当の使途等に係る調査報告書」しかなさそう ・この調査報告書では、世帯年収1,000万円以上で児童手当を「大人のおこづかい」にしている割合は0.9%しかない。「使わずに残っている」17.1%と足しても18%であり、日経新聞の報道とは数字がかけ離れている 前回のブログを書いた後で、さらに発見したこと そして2019年10月9日の財政制度等審議会資料(財務省

    児童手当使途の調査報告書が間違っているようなので、厚生労働省に電話しました - おたまの日記
  • BBCが「日本の年金生活者が刑務所に入りたがる」という誤解を広げている - 斗比主閲子の姑日記

    BBCのこの記事を読みました。 日の年金生活者が刑務所に入りたがる理由 - BBCニュース 記事の中では、日の年金生活者が刑務所に入りたがっていることを示すために、具体的な事例の他に一部統計が紹介されています。文章の部分と、統計のグラフはこちらです。 タカタ氏のケースは、日の犯罪にみられる際立った風潮の代表例だ。日は驚くほどよく法律を守る社会だが、その中で65歳以上の高齢者が起こす犯罪の比率が急上昇している。1997年には犯罪20件に1件の割合だったのが、20年後には5件に1件を超えていた。人口全体に占める65歳以上の割合が増えたペースを、はるかに上回る上昇ぶりだ(65歳以上の高齢者は現在、人口の4分の1以上を占めている)。 一般刑法犯検挙人員の年齢層別構成比。高齢者による犯罪の比率が高くなっている(情報源:日法務省) これだけ見ると65歳以上の犯罪が増えているように見えます。6

    BBCが「日本の年金生活者が刑務所に入りたがる」という誤解を広げている - 斗比主閲子の姑日記
  • 厚生労働省のコンドームの統計資料にミスがあるかも - 人生万事こじらせるべからず

    勤労統計に誤りがあったが、元の資料が廃棄されてしまっている……というニュースを見てショックを受けました。 「もしかしてコンドームの出荷量の元資料も残ってないのか!?!?」 ライフワークとしてコンドームの出荷量について調べていたところ、15年ほど前までのデータについては他の誰かが作ってくれたグラフが残っていたのですが、最新のものについてはグラフが見つからなかったのです。 そこで、厚生労働省が発表している薬事工業生産動態統計調査から、コンドームの出荷量をひっぱって自力でグラフを作ることにしました。 www.mhlw.go.jp そしたらですね、一か月だけ外れ値を見つけてしまいました。 2009年12月だけコンドームの出荷量が普通の月の20倍になっている様子をご覧ください。 毎月、コンドームは2000〜3000万個の出荷量なのですが、2009年12月においては4億6000万個出荷していることにな

    厚生労働省のコンドームの統計資料にミスがあるかも - 人生万事こじらせるべからず
  • 統計の不備と、各種統計の「相関」の話 - 山形浩生の「経済のトリセツ」

    Executive Summary 統計の信頼性について疑問を呈した柳下毅一郎のツイートを、山形は一蹴した。が、その後勤労統計の集計方法の不備が露見した。ここから、この統計は捏造であり、それが相関しているならすべての統計が捏造だ、という極論を述べたブログが出た。しかし統計は、一かゼロか、完璧かすべて捏造か、というものではない。またその相互の関係も、機械的な関係があるということではない。信頼性の非常に広い幅の中で上下するだけなので、実際にどんな不備があってどのくらい影響を及ぼすのかを具体的に考えないと、妥当性のない陰謀論に流れてしまうだけだ。 はじめに しばらく前に、柳下毅一郎がこんなツイートをした。 アベノミクスで経済がよくなってるとおっしゃるリフレ派の方々は、なぜ財務省の出す経済指標は捏造されてないと信じられるのだろうか。— Kiichiro Yanashita (@kiichiro)

    統計の不備と、各種統計の「相関」の話 - 山形浩生の「経済のトリセツ」
  • 勤労統計問題は根深い問題である - まなめはうす

    アゴラ(池田信夫氏)のキャッチーな取り上げ方に騙されてはいけない。 agora-web.jp アゴラ:COBOLが原因 事実:開発で使われている言語を扱える者が少なかったことが原因(JavaでもPythonでも使える人が少なければ起きる) アゴラ:COBOLで書かれた特殊なプログラムなので高齢者しか読めず、そのミスがチェックできない 事実:COBOLで有名といえば「株式会社COBOL」だけれど、サイト見たとおりに若い女性が多数いる。私もちょっとだけ読めるけれど、COBOLなんて制御簡単で業務を記載する言語だろうから他の言語読めればほとんど読めると思う。 そんな感じでCOBOLTwitterでバズっているけれど、当の原因は何なのか。厚労省の報告書からプログラムのバグに関するところを読んでみた。 変更管理がされていない 抽出替え等によりシステム改修の必要性が生じた場合には、企画担当係とシス

    勤労統計問題は根深い問題である - まなめはうす
  • 政府統計「信頼できる」100% 内閣府調査

    内閣府は14日、GDP(国内総生産)など政府の統計調査に対する国民の信頼度を調査する「政府統計信頼度調査」を公表した。調査結果によると、「政府統計を信頼できる」と答えた割合は100%で、「信頼できない」の0%を大きく上回った。 「統計調査信頼度調査」は、内閣府が16年から3カ月ごとに行っている。9、10両日に行われた今年最初の調査は、厚生労働省が「毎月勤労統計調査」を不適切に行っていたことが発覚した直後だったが、前回調査と比べて信頼度への影響は見られなかった。 信頼度調査を行う内閣府は、国内で生産された財やサービスの付加価値を示すGDPも発表している。しかし近年、速報値と確報値に大きなずれがあることから、独自に統計を取ろうと生データの提供を求める日銀行と対立している。内閣府では「政府統計に対する国民の信頼に揺らぎは見られない」として、今回の調査結果を根拠に、今後日銀との交渉を有利に運びた

    政府統計「信頼できる」100% 内閣府調査
  • 決定木の可視化ライブラリ「dtreeviz」が凄かったのでまとめる - St_Hakky’s blog

    こんにちは。 決定木の可視化といえば、正直scikit-learnとgraphvizを使うやつしかやったことがなかったのですが、先日以下の記事をみて衝撃を受けました。そこで今回は、以下の解説記事中で紹介されていたライブラリ「dtreeviz」についてまとめます。 explained.ai dtreevizの概要 dtreevizとは より良い決定木の可視化を目指して作られたライブラリです。 解説記事 : How to visualize decision trees Github : GitHub - parrt/dtreeviz: A python machine learning library for structured data. Sample Imagesdtreeviz/testing/samples at master · parrt/dtreeviz · GitHub

    決定木の可視化ライブラリ「dtreeviz」が凄かったのでまとめる - St_Hakky’s blog
    wata88
    wata88 2018/10/01
    すごいわかりやすい
  • [グラフ]増えない賃金 - Think outside the box

    就業者数は過去最高で完全失業率も1980年代後半の水準まで低下してきましたが、 totb.hatenablog.com 賃金(現金給与総額)の伸びは依然として緩慢です。*1 フルタイム換算平均賃金(PPP)をOECD主要国と比較します。 金融危機の1997年→2016年は唯一のマイナスで、 世界金融危機の2007年→2016年も南欧の劣等生と大差ありません(ギリシャは別格)。 増える就業者と増えない賃金を繋いでいるのが、好調な企業業績です。 ウォーレン・バフェットは資家(投資家)が階級闘争に勝利したと言っていましたが、 Warren Buffett: "There’s been class warfare for the last 20 years, and my class has won" http://t.co/a5haX6LF via @ThePlumLineGS — Washi

    [グラフ]増えない賃金 - Think outside the box
    wata88
    wata88 2018/06/16
    悪くはないと思う。税をなんとかしてほしい
  • 雇用者急増でもGDPが減る日本経済の「謎」

    コンテンツブロックが有効であることを検知しました。 このサイトを利用するには、コンテンツブロック機能(広告ブロック機能を持つ拡張機能等)を無効にしてページを再読み込みしてください。 ✕

    雇用者急増でもGDPが減る日本経済の「謎」
    wata88
    wata88 2018/06/10
    働く人、働けるは十分にいる状態になったと見えるが、次はその全体の給与を高めていかないとなー
  • 1~3月のGDP改定値 年率換算マイナス0.6% | NHKニュース

    内閣府の発表によりますと、ことし1月から3月までのGDP=国内総生産の改定値は、年率に換算した実質の伸び率がマイナス0.6%となり、先月、発表された速報値の段階と同じでした。

    1~3月のGDP改定値 年率換算マイナス0.6% | NHKニュース
    wata88
    wata88 2018/06/08
    結果1.6%で下回っちゃったか。まだまだだなぁ
  • 機械学習のスタックしていた案件をFacebook Prophetで3日で返済した話 - にほんごのれんしゅう

    機械学習のスタックしていた案件をFacebook Prophetで3日で返済した話 背景 広告代理店業を行なっており、クライアント企業から予算を預かって、インターネット広告やマーケティング業をしているのだが、クライアントの予算消化の異常値を監視したい 2016年半ばに外部のデータ分析専門の会社に、その日の予算消化が異常の場合、アラートを鳴らすシステムを外注開始、2016年10月に納品 2017年9月半ばに進捗率が芳しくないことが判明した。終わる見込みが立たなかったので、私が解決に当たる (ついでに"Machine Learning: The High-Interest Credit Card of Technical Debt[2]"と呼ばれる負債化してしまう機械学習のシステムとはという評価軸があったので、これらから今回使えそうなプラクティスを取り出して適応してみたいというモチベーションが

    機械学習のスタックしていた案件をFacebook Prophetで3日で返済した話 - にほんごのれんしゅう
  • 年収を偏差値化した世界

    年収を偏差値で表すと、どんなことが起きるのでしょうか。 「偏差値」という統計量は、受験戦争を通じて日社会に定着しています。 私も受験期にはこの言葉が大嫌いでした。 受験業界ではもはやなくてはならない統計量になっている偏差値ですが、その数値の高低のみで進学先を決定する風習から偏差値至上主義を生み出し、”悪の元凶”のように目の敵にされてしまっている一面があります。 実際、偏差値に振り回されて嫌な思いをされた方も多いのではないでしょうか。 しかし、これだけ長きに渡り、日の受験業界に君臨している指標ですから、使い方次第で大きな恩恵を手にできる優れた面も持ち合わせているはずです。 一方で、この偏差値という数値指標は、受験生時ほぼ毎日のように耳にし、その数値を意識して過ごしていきますが、一旦入試を終え、社会に出ると耳にする機会はほとんど無くなります。 社会人になると自分自身の客観的な立ち居地を把握

    年収を偏差値化した世界
    wata88
    wata88 2017/07/17
    すごい人だ
  • 藤井四段で学ぶ最尤推定、MAP推定、ベイズ推定 - Qiita

    藤井四段の連勝が止まらないですね。 21日の対局に勝利して、連勝記録を1位タイの28連勝まで伸ばしてきました。26日の対局で勝利すれば単独トップになります。 そんな藤井四段の対戦成績は28勝0負。勝率でいうと1.000です。クラクラするような成績ですが、この「勝率」とは何かを少し数学的にみてみましょう。 単純に言葉だけをみると「藤井四段が勝利する確率」ではないかと考えられます。つまり $$P(\text{勝利}\ |\ \text{藤井四段}) = 1.0$$かのように感じます。 ではここで、26日の対局で藤井四段が勝利する確率はどれだけでしょう? $P(\text{勝利}\ |\ \text{藤井四段}) = 1.0$として考えると、これはつまり藤井四段は必ず勝つので、100%になってしまいます。しかし、もちろんそんなことはありません。藤井四段ですらも負けることはあるはずです。 実はここ

    藤井四段で学ぶ最尤推定、MAP推定、ベイズ推定 - Qiita
    wata88
    wata88 2017/06/28
    なつかしい
  • 統計学が最強の学問であり、学問とはその程度であるということ

    シバタアキラです。先日書いたブログが500はてブ超えたのを励みに、引き続き熱く語っていきたいと思っております。 きょうは、弊社白ヤギコーポレーションで毎週開催している勉強会の記念すべき第十回目を行いました。回を重ねるごとに私の思いはどんどん確信に変わっていきます。「統計学が最強の学問であり、学問とはその程度である」ということです。そして私が白ヤギコーポレーションを設立した時の決断は、やっぱり正しかった。 日お話いただいたのは弊社のインターン、増山に加え、株式会社ウフルの下野さんでした。テーマは「なぜ40個のサンプルで調査をするのか」 こんな内容でした: 統計学に鋭い洞察をお持ちの下野さん。素晴らしい切り口で、数式をひとつも使わずに統計のチカラを語っていただきました。例えば、2つの事象に相関があることを90%の確度で確認するには37のサンプル(実証実験)が必要であるということです。相関があ

    統計学が最強の学問であり、学問とはその程度であるということ
    wata88
    wata88 2015/03/01
    銀の弾丸は無いということです