タグ

statisticsに関するtnalのブックマーク (50)

  • データ解析を駆使して食べログ3.8問題が証明できなかった話 - konkon3249’s diary

    (2019/10/12追記 データ解析のプログラムもGitHubで公開しました) (2019/10/15追記 会員の見分け方に誤りがありました。文中では"非会員"と"有料会員"に分けると述べていますが、正確には"非会員・無料会員"と"有料会員"に分かれています。以後の図・文章は脳内で変換していただけると幸いです。詳細は https://anond.hatelabo.jp/20191011180237 で他の方が調べてくださっています) はじめに この記事は、藍屋えん氏( @u874072e )の以下のブログに触発されて、個人的に行った一連のデータ解析をまとめたものです。 clean-copy-of-onenote.hatenablog.com 上のブログでは、べログ3.8問題と称される問題、 「評価3.8以上の店舗は年会費を払わなければ評価を3.6に下げられる」 との説をべログの店舗

    データ解析を駆使して食べログ3.8問題が証明できなかった話 - konkon3249’s diary
    tnal
    tnal 2019/10/12
  • Winning Isn’t Everything: Corruption in Sumo Wrestling

    Winning Isn’t Everything: Corruption in Sumo Wrestling By MARK DUGGAN AND STEVEN D. LEVITT* There is a growing appreciation among econ- omists of the need to better understand the role that corruption plays in real-world economies. Although some have argued that it can be wel- fare enhancing (Nathaniel Leff, 1964), most commentators believe that a willingness to ac- cept bribes (or similar forms o

  • 統計的因果推論のためのPythonライブラリDoWhyについて解説:なにができて、なにに注意すべきか - Unboundedly

    機械学習など主に予測を目的とした統計手法に強いイメージのPythonでしたが、統計的因果推論を行うためのライブラリ、“DoWhy”がついにリリースされました。 DoWhy | Making causal inference easy — DoWhy | Making Causal Inference Easy documentation これまで因果推論があまり浸透してこなかった*1データサイエンス界に新しい風が吹くのではと期待が高まります。 一方でこのパッケージが何を可能にし、逆に何ができないのかを理解しなければ、雑なデータ分析が増えて逆に有害なのではと思い、今回ブログを書くことにしました。 先に言っておくと、私自身はPythonをメインに使っているわけではありません(使ったことはあるので一応コードを読んで何が起こっているかくらいはわかります)。したがって記事の目的は、DoWhyライブ

    統計的因果推論のためのPythonライブラリDoWhyについて解説:なにができて、なにに注意すべきか - Unboundedly
  • 猛暑日の増加

    [2018-07-20] as.POSIXct() を as.Date() に変えました。 東京管区気象台の東京における雷日数や真夏日等の日数の変化というページを見ると,猛暑日(日最高気温35℃以上)の日数が1876年以来著しく増加していることがわかる。ところが,平均気温を見ると,地球温暖化・都市化の影響で徐々に増加しているが,激しく変わっているようには見えない。平均ではなくて猛暑日の日数を見るべきであるという議論もある。しかし,「猛暑日」(日最高気温35℃以上)や「真夏日」(日最高気温30℃以上)のような分布の裾の日数は,何℃で切るかによって印象が大きく異なる。気温変化を誇張することにならないか。 「東京」の観測地点は2014年12月2日に約900m離れた地点に移転している。詳しくは「東京」の観測地点の移転について(PDF,2014年11月14日,気象庁観測部)を参照されたい。 東京の日

  • 沖縄県統計資料WEBサイト

    <お問合わせ先> 沖縄県企画部統計課 〒900-8570 沖縄県那覇市泉崎1-2-2 電話 098-866-2050   FAX 098-866-2056

  • Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing

    Publication | ACM SIGCHI Conference on Human Factors in Computing Systems 2017 (Honorable Mention) Same Stats, Different Graphs Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing “…make both calculations and graphs. Both sorts of output should be studied; each will contribute to understanding.” F.J. Anscombe, 1973 Anscombe’s Quartet It can be difficult

    Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing
  • Private Presentation

    Private content!This content has been marked as private by the uploader.

    Private Presentation
  • 総務省統計局 データサイエンス・オンライン講座 社会人のためのデータサイエンス演習

    第1週:データサイエンスとは ・データサイエンスの発展 ・社会で起きている変化~データサイエンスの必要性~ ・データサイエンスに求められるスキルや知識 ・データサイエンスの未来と発展 ・データサイエンスのサイクルと課題解決の進め方 ・分析の手法の選択 第2週:分析の概念と事例 ~ビジネス課題解決のためのデータ分析基礎 (事例と手法)(1)~ ・Analysis(分析)とは ・1変数の状況の把握(1)(可視化の活用) ・1変数の状況の把握(2)(代表値の活用) ・比較して2変数の関係を見る ・ビジネスにおける比較(1)(概要) ・ビジネスにおける比較(2)(適切なA/Bテストの活用) 第3週:分析の具体的手法 ~ビジネス課題解決のためのデータ分析基礎 (事例と手法)(2)~ ・クロス集計の軸設定と見方 ・散布図と相関の調べ方 ・相関関係と因果関係の違い ・時系列データの見方 ・時系列データの

    総務省統計局 データサイエンス・オンライン講座 社会人のためのデータサイエンス演習
  • 「統計学と機械学習の違い」はどう論じたら良いのか - 渋谷駅前で働くデータサイエンティストのブログ

    何かこんなメディア記事が出ていたようです。 これを読んで色々な人がツッコミを入れまくっている模様ですが、この記事の不思議なところは「完全に間違った説明というわけでもないのに何故か(両分野に詳しい)誰が読んでも猛烈な違和感を覚える」ところなんじゃないかなぁと。 正直、これはライター・インタビュアー・コメンテーター・編集者の誰のせいなのかは全く分からないんですが、ツッコミ入れられまくっている内容について色々あげつらってもあまり建設的でないので、ここでは記事中で題として取り上げられている「統計学と機械学習の違い」についてちょっとコメントしてみようと思います。 あ、もちろん僕がこれから書くコメントも別に正しいとは全く限らないので、おかしいところや間違ってるところがあったらバンバン突っ込んでいただければ幸いです*1。そしてガチ勢向けのコメントでもないので何卒悪しからず。 統計学はデータを「説明」す

    「統計学と機械学習の違い」はどう論じたら良いのか - 渋谷駅前で働くデータサイエンティストのブログ
  • 因果フェスでGranger因果について話してきたら、色々いじれば非線形でもやれるんじゃないかという気がしてきた - 渋谷駅前で働くデータサイエンティストのブログ

    日8月6日に駒場で開かれた日生態学会関東地区会公開シンポジウム「非ガウス性/非線形性/非対称性からの因果推論手法:その使いどころ・原理・実装を学ぶ」通称因果フェスにて、Granger因果について話してきました。 ちなみに事前に林岳彦(id:takehiko-i-hayashi)先生からご紹介下さった記事がこちら。林先生、この度はお招き下さいまして有難うございました&業務対応のため遅れて会場入り&直後に退出という慌ただしいスケジュールになってしまい大変失礼いたしました。。。また色々お話させていただければ幸いです。 ということで、既にslideshareに資料をupしてあります。まぁいつも通りというか2年前に何度か計量時系列分析について話した時のスライドを下敷きにしてますが、当時より学術的な集会での講演ということで幾つか理論的基礎についても触れてあります。 Granger因果による 時系列

    因果フェスでGranger因果について話してきたら、色々いじれば非線形でもやれるんじゃないかという気がしてきた - 渋谷駅前で働くデータサイエンティストのブログ
  • 8/6因果フェスのプレビュー:「系列Aと系列Bの関係は?」という問いに対する4つの素敵な解法について - Take a Risk:林岳彦の研究メモ

    こんにちは。林岳彦です。エ・レ・ファ・ン・ト・カ・シ・マ・シ(←滝川クリステル風に声に出して読みたい日語)。 さて。 今回は8月6日に迫った日生態学会関東地区会シンポジウム(a.k.a 因果フェス)についてのプレビューを書いてみたいと思います。 今回のシンポにおける問いを一言で言うと:「系列Aと系列Bはいかなる関係か?(*但し共変量および背景に関する情報は無いものとする*)」 統計的因果推論というと「介入効果/措置効果の推定」のことを思い浮かべる方も多いのかもしれませんが、そのテーマは昨年に扱いました。 で、今年については質的には以下の問いが中心になると言えるのかなと思います: 「系列Aと系列Bはいかなる関係かについて答えよ(*但し共変量および背景に関する情報は無いものとする*)」 はい。 これはシンプルではありますが非常に奥の深い問いです。 今回のシンポでは、この問いに対する4つの

    8/6因果フェスのプレビュー:「系列Aと系列Bの関係は?」という問いに対する4つの素敵な解法について - Take a Risk:林岳彦の研究メモ
  • 「続・わかりやすいパターン認識」11章「ノンパラメトリックベイズ」の「クラスタリングの事前確率」について - 木曜不足

    昨日の「続・わかりやすいパターン認識」読書会にて、「ホップの壺や中華料理店過程のシミュレーションをみると、これを使うと均等にクラスタリングされるのではなく、クラスタサイズが大きいものから順に小さくなっていくようなクラスタリングがされるように見えるのだが、その認識で正しいのか」といった感じの質疑があった。 いい質問。 実は「続・わかりやすいパターン認識」(以降「ぞくパタ」)では、 p225 の「クラスタリングの事前確率の考え方」のところに、ダイレクトにではないがその質問の答えにつながることが書いてあったりする。coffee break というコラムの形になっているので、つい読み飛ばしちゃった人も多いかもしれないが、結構大事なことが書いてあるので一度じっくり読んでみるといい。 そのあたりも含めて読書会でフォローした内容をここにメモしておく。 まずそもそもの話として。 ベイズにおいて、事前確率(

    「続・わかりやすいパターン認識」11章「ノンパラメトリックベイズ」の「クラスタリングの事前確率」について - 木曜不足
  • 機械学習を網羅したおすすめ書籍プロフェッショナルシリーズ全29巻が2015年4月に発売 | Brainvalley 人工知能と脳科学のアーカイブサイト。

    カンデル神経科学は、脳科学・神経科学分野のバイブル的存在。2014年4月に日語版が出版され、英語や医学用語が得意でない方にも大変読みやすくなりました。脳科学、神経科学について学ぶなら絶対に持っておきたいおすすめの一冊。 カンデル神経科学(Amazon) カンデル神経科学(楽天)

    機械学習を網羅したおすすめ書籍プロフェッショナルシリーズ全29巻が2015年4月に発売 | Brainvalley 人工知能と脳科学のアーカイブサイト。
  • 同じデータセットに対するアプローチの違いから見る「データ分析のステージ」 - 渋谷駅前で働くデータサイエンティストのブログ

    追記 (2015/02/21) いくつか抜けてるところがあったなぁと思ったので、後から追記や加筆修正してみました。最初のオリジナル版から少し内容が変わっているところがありますがご了承ください。 ちょっと前の記事でこんなネタをやってみたわけですが。 世の中には色々な「データ分析」のやり方があるなぁと思った時に、この同じ2013年のテニス四大大会のデータからそれぞれのやり方をしている人たちがどんな異なるアプローチを取るのかなぁとふと想像したもので、半分ネタ的に書いてみました。便宜的に以下のようにステージを分けてあります。 集計ステージ 検定ステージ 相関ステージ 重回帰分析ステージ 機械学習を含めたモデリングステージ 厳密性に拘るステージ なお、データは以前の記事と同じこちらのものをお使い下さい。 その上で、Rで分析する際は以下のように前処理しておきます。単にプレイヤー名・獲得ゲーム数・総獲得

    同じデータセットに対するアプローチの違いから見る「データ分析のステージ」 - 渋谷駅前で働くデータサイエンティストのブログ
  • マイナーだけど最強の統計的検定 Brunner-Munzel 検定 - ほくそ笑む

    対応のない 2 群間の量的検定手法として、最も有名なのは Student の t 検定でしょうか。 以前、Student の t 検定についての記事を書きました。 小標問題と t検定 - ほくそ笑む しかし、Student の t 検定は、等分散性を仮定しているため、不等分散の状況にも対応できるように、Welch の t 検定を使うのがセオリーとなっています。 ただし、これら 2つの検定は分布の正規性を仮定しているため、正規性が仮定できない状況では、Mann-Whitney の U検定というものが広く使われています。 Mann-Whitney の U検定は、正規性を仮定しないノンパラメトリック検定として有名ですが、不等分散の状況でうまく検定できないという問題があることはあまり知られていません。 今日は、これらの問題をすべて解決した、正規性も等分散性も仮定しない最強の検定、Brunner-

    マイナーだけど最強の統計的検定 Brunner-Munzel 検定 - ほくそ笑む
  • Rでデータ分析・統計学・機械学習・データマイニングを学ぶならこの10冊で(2015年2月版) - 渋谷駅前で働くデータサイエンティストのブログ

    今週はまともなデータ分析やら統計学やら機械学習やらの記事を書くのが面倒になったので*1、しばらくやってなかったお薦め書籍リストでも書こうかと思います。 今回まとめるリストは、ズバリ「Rでデータサイエンス・統計学・機械学習を学ぶための10冊」。Rと言えばこのブログのメイン言語なので特に説明は要さないでしょう。去年1年間は拙著も含めてR絡みのが大豊作で、以前のお薦め書籍リストに比べるとRの良書が増えたという部分もあり、そう言えばRだけでリスト作れるなぁと思ったのでした。 というわけで、主に僕が持っているor読んだことがあるを中心にお薦めリストをまとめてみました。いつも通り独断と偏見まみれなので、他にも良いRは沢山ありますよーという旨予めお断りしておきます。 そうそう、先に書いておきますがこのリストは中級者向けです。でも初学者向けに良いRのってあるのかなぁ。。。初学者はまずはExcel

    Rでデータ分析・統計学・機械学習・データマイニングを学ぶならこの10冊で(2015年2月版) - 渋谷駅前で働くデータサイエンティストのブログ
  • 統計学の初心者が入門として最初に読むべき一冊|Colorless Green Ideas

    統計についてほとんど何も知らない人が読むべきとしては『マンガでわかる統計学』が一番のおすすめである。 『マンガでわかる統計学』 「統計って、今まで全然勉強したことはないけれども、将来必要になるかもしれないから、勉強してみようかな」とか、「統計を勉強してみたいとは思ってるんだけど、何から始めれば良いか見当がつかないんだよね」と思っている人は少なくないと思う。こうした人、すなわち統計学についてほとんど何も知らない人は何を使って勉強し始めれば良いのだろうか。 こうした初心者は、まず入門として『マンガでわかる統計学』というを読むのが良いと私は考えている。このは、統計に関する知識がほとんどない人にとって、わかりやすく、そして取り組みやすいだ。 高橋信. (2004). 『マンガでわかる統計学』 東京:オーム社. この『マンガでわかる統計学』というは、統計について特に何も知らない女子高生のル

    統計学の初心者が入門として最初に読むべき一冊|Colorless Green Ideas
  • ダメな統計学:目次|Colorless Green Ideas

    2017年1月20日追記:『ダメな統計学――悲惨なほど完全なる手引書』というが出版されることになった。このは、ここに掲載されているウェブ版の『ダメな統計学』に大幅に加筆したものだ。ウェブ版の『ダメな統計学』を読んで興味を持った方は、書籍となった『ダメな統計学』をぜひ読んでいただければと思う。書籍版の詳細については「『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版」という記事をご参照願いたい。 ここに公開する『ダメな統計学』は、アレックス・ラインハート (Alex Reinhart) 氏が書いたStatistics Done Wrongの全訳である。この文章は全部で13章から構成されている。詳しくは以下の目次を参照されたい。 はじめに データ分析入門 検定力と検定力の足りない統計 擬似反復:データを賢く選べ p値と基準率の誤り 有意であるかないかの違いが有意差でない場合 停止規則と

    ダメな統計学:目次|Colorless Green Ideas
  • 統計科学・機械学習の講義

    統計科学や機械学習、および関連する諸分野の講義・講演のアーカイブです。講師名の敬称は略させて頂いています。★の数は専門性・予備知識の量を示します。★1つは一般の方でも楽しめる部分のある講演(レベルが低いという意味ではありません)、★2つは大学院生向きとして標準程度、★3つはより専門的な講演、をそれぞれ示します。

    統計科学・機械学習の講義
  • ミス・ユニバース日本代表の統計学 - hiroyukikojima’s blog

    今、統計学系の新書を執筆している途中だ。ぼくの次の刊行物は、来月に出るPHP新書なんだけど(詳細はもう少し時間が経ってからで紹介する)、その次に刊行すべく今執筆中なのが、統計学についての新書ということ。おまけに、来月に出るある雑誌の統計学の特集にも寄稿することになっている。なので、今年に入ってから、ずっと、数理統計学の復習と統計学を利用したビジネスシーンのリサーチをしていた。そんな中、とても面白いを見つけたので、今回はそれをエントリーしようと思う。 その前に、近況を少々。 もうね、いくつかのことを誰かがぼくに止めて欲しいよ。まず、このどうにもならない欲を、誰か止めてほしい。あとね、2ちゃんねるの生物板をいい歳して一日中閲覧する、このとんでもなく無駄な時間の悦楽を誰か止めてくれ(書き込みはしとらんぞ)。とりわけ、アスキーアートが面白すぎて癖になってる。それから、将棋タイトル戦、将棋・電王