タグ

ブックマーク / okumuralab.org/~okumura (21)

  • 都道府県別平均寿命

    [2020-01-21追記] このページの最初のグラフと同じもの(都道府県名がなくマーカーだけの散布図)が2020-01-19の大学入試センター試験「数学I」「数学I・数学A」に出た。いっしょに出ている「男の市区町村別の平均寿命の箱ひげ図」は厚労省平成27年市区町村別生命表の概況からリンクされている ckts15-06.xls のデータを描いたものと思われる。この箱ひげ図の中で際立って長い「P10」は大阪府である(大阪市西成区の男の平均寿命73.5歳)。 [2020-01-24追記] 上記Excelファイルをパースするのはかなり面倒。裏 RjpWiki さんのこの記事参照。また,センター試験に出てきた平均寿命の箱ひげ図をExcelPythonで作ってみるにも書かれているように,e-Statのこちらのページにある Excel ファイルから0歳の余命をとるほうが楽かもしれない。 厚労省のEx

    Rion778
    Rion778 2018/04/04
  • 統計グラフの色

    [TODO] R 4.0.0 以降の色についてはそのうち書きます。とりあえず palette() のヘルプをご覧ください。palette("Okabe-Ito") とするとsafe colorsになります。→ A New palette() for R,Color Universal Design,Essentials of color in R。あと Colorspace 2.0 とその JSS paper。 はじめに 統計グラフに色を付けることは広く行われています。しかし,色は万人に共通のものではありません。日人男性の5%,白人男性の8%は,RGB(赤緑青)のうち赤と緑の区別がうまくできません。その内訳は1:3で赤の感受性がないP型(1型,protanopia)と緑の感受性がないD型(2型,deuteranopia)に分かれます。青を感じない人や,RGBのうち2色以上を感じない人もい

  • 与えられた面積比のベン図を描く

    正しい比率で描くとこんなもんでしょうか pic.twitter.com/XpsyaulAvB — Haruhiko Okumura (@h_okumura) 2017年7月25日 このような正しい面積比の円を描いてみよう。 2円の中心を $\mathrm{O}_1$, $\mathrm{O}_2$ とし,2円の交点を $\mathrm{A}$, $\mathrm{B}$ とする。それぞれの半径は $r_1 = \mathrm{O_1A}$, $r_2 = \mathrm{O_2A}$ である。中心間の距離を $d = \mathrm{O_1O_2}$ とする。さらに $\theta_1 = \angle\mathrm{AO_1O_2}$, $\theta_2 = \angle\mathrm{AO_2O_1}$ とする。余弦定理より \[ \cos\theta_1 = \frac{r_1^2

    Rion778
    Rion778 2017/07/28
  • 2段階t検定の是非 | Okumura's Blog

    2群の平均値の差の検定で,まずF検定で分散が等しいかどうか検定してから,通常のt検定かWelchの検定かに振り分けることを勧めるやサイトがまだ多い。何でそんな気持ち悪いことをするんだ!?という話を少し前に書いた(t検定の話)。理屈だけでは弱いので,シミュレーション結果を載せている論文がないか調べたところ, Donald W. Zimmerman, ``Some properties of preliminary tests of equality of variances in the two-sample location problem'', The Journal of General Psychology, Vol.123, pp.217-231 (1996) というのを見つけた(たくさんあるだろうが最初に見つかったのがこれである。ほかにあったら教えてください)。乱数で1万回ずつ

  • FizzBuzz問題 | Okumura's Blog

    どうしてプログラマに・・・プログラムが書けないのか?(原文Coding Horror: Why Can't Programmers.. Program?)のFizzBuzz問題をわが情報教育課程3年生の優秀な学生42人に制限時間付きでC言語で解かせてみた。結果はそのうちどこかで。この話をしていたら天才なかの先生が「いったん書いて消す」というヒントをくださったのでやってみた: #include <stdio.h> int main(void) { int i; for (i = 1; i <= 100; i++) { printf("%d\r", i); if (i % 3 == 0) printf("Fizz"); if (i % 5 == 0) printf("Buzz"); printf("\n"); } return 0; } ただし上書きすると前のが消える端末専用。

  • Wordでまともな文書を作る方法 | Okumura's Blog

    日経パソコン2010-03-08特集1「魅せる文書の勘所」すばらしい。Wordでペラもの作らせるならこういう指導を。ただ文字色をグレーにするのは網掛けになって読みにくくなる場合があるので注意。サンプル文書は日経パソコン Onlineからダウンロードできる。 左は稚拙な例,右は良い例。 この特集記事に相当するは私の知る範囲では次のものくらい(やや古い): Wordでマスターする 使えるビジネス文書 レイアウトの極意 実際に次のはWordで組まれている: Moodle入門 オープンソースで構築するeラーニングシステム 逆にTeXで組まれていてもどうしようもない文書もある。伝えるためのルールを知らなければいくらマクロをハックしても自己満足に終わる。 [2010-03-09追記] 上は昨日Twitterでつぶやいたことのまとめのつもりで書いた。Twitter経由でいくつかお礼をいただき恐縮。

    Rion778
    Rion778 2010/03/08
  • Webで数式をもっと簡単に使う方法 | Okumura's Blog

    Webで数式を書く方法,Webで数式を簡単に使う方法に次いで,さらに方法を教えていただいた。 CodeCogsはGoogleAPIに似ているが解像度も指定できる(デフォルト110dpi)。例えば <img src="http://www.codecogs.com/gif.latex?\200dpi x=\frac{-b\pm\sqrt{b^2-4ac}}{2a}" alt="" /> は のようになる。ほかにWYSIWYGのオンライン数式エディタとか,TeX風に書くとimgタグに翻訳してくれるJavaScriptプログラムとか,いろいろ便利なものが提供されている。 手書き数式記号をTeXに直す Detexify LaTeX handwritten symbol recognition というサイトも教えていただいた。

  • グラフの描き方

    的な考え方 棒グラフは比例尺度の量を表すのに用い,棒の長さ(面積)が量に比例するように描くのが基。一つだけずば抜けて大きい値があるときに棒の上のほうで省略線を用いることはあるが,下を省略して全体の長さを切り詰めることは好ましくない。例えば気象観測データについては,雨量は比例尺度であるので棒グラフで表してもよいが,気温は(絶対温度でない限り)間隔尺度であり,棒グラフは使えない。 折れ線グラフは,両軸とも間隔尺度以上であるのが基。0点から始める必要はない。特に時系列データについてよく使われる。 円グラフは全体における割合を表すにはよいが,全体との比較ではなく個々の値どうしの比較には棒グラフがよい。いわゆる3次元(3D)円グラフは,錯覚を利用して特定の部分を大きく見せるためのもので,一般には用いない。 円グラフは複数回答のアンケート結果の図示には絶対に用いない。 色分けして凡例を付けるの

    Rion778
    Rion778 2010/03/05
  • Webで数式を簡単に使う方法 | Okumura's Blog

    以前Webで数式を書く方法について書いたが,今なら Google Chart Tools のAPIを使うほうが簡単。例: <img src="http://chart.apis.google.com/chart?cht=tx&amp;chl=x=\frac{-b\pm\sqrt{b^2-4ac}}{2a}" alt="" /> URL中に使えない文字は%16進2桁で表記する。例えばスペースは試した限りではそのまま使えたが用心するなら%20とする。詳しくはGoogleの解説 Mathematical (TeX) Formulas 参照。 問題点:ピクセルサイズの指定はできるが,標準の2倍の大きさにしたいという指定はできないみたい。

  • 31886

    Rion778
    Rion778 2010/01/18
    "\abovedisplayskipなどは\begin{document}以下"
  • 波形グラフの縦軸? | Okumura's Blog

    音の標化・量子化について,理屈だけではあまり理解していないようなので,Windowsのサウンドレコーダーを使って自分の声を録音してWAVE形式で保存し,WAVE file format にある dumpwave.c をコンパイルしたものでテキスト化し,Excelで読み込んでグラフを描かせ,自分の声の周波数を読み取らせる実習をした(その過程で dumpwave.c の改良・デバッグができた)。 学生たちの波形グラフを見ると,縦軸を「振幅(dB)」としているものがあった。「これ全然違うよね」と言って,その場で「音 標化 量子化」でググってみたところ,見つかった最初のサイトのグラフの縦軸が学生の描いたものと同じ「振幅(dB)」になっていて,びっくりした。「振幅は最大の振れ幅のことで,dBはその対数だから,まったく違うよね」と言ったところ,「では何と書けばいいのですか」と聞かれて,さらにググっ

    Rion778
    Rion778 2009/12/16
  • 学校の暴力行為のグラフ比較 | Okumura's Blog

    文科省が11月30日に発表した平成20年度「児童生徒の問題行動等生徒指導上の諸問題に関する調査」結果(暴力行為、いじめ等)についての内容を各紙が報道している。 問題の暴力行為の件数は上記サイトのPDFファイルの8ページ下のグラフで表されている。このグラフを素直に描き直したのが産経。時事ドットコムも同様(上の楕円グラフは問題だがさておき)。一方,朝日は母集団が違う2006年度以降も同じ線で繋いでしまった。読売はさらに「合計」を付けてグラフをうるさく(clutter)してしまった。 東京新聞の栃木版は積み重ね棒グラフ。茨城版は中学と高校のラベルが間違っているようだ。

  • この散布図の意味? | Okumura's Blog

    この図,横軸はモスクワの地区ごとの投票率,縦軸は各政党に投票した有権者の割合。青がプーチンのЕдиная Россия(統一ロシア),赤が共産党,など。これは何を意味するか?

    Rion778
    Rion778 2009/10/14
    これはやばい…
  • 世論調査のウソを数学で見抜く | Okumura's Blog

    Slashdot の Math Indicates Pollster Is Forging Results からのリンク,特に Strategic Vision Polls Exhibit Unusual Patterns, Possibly Indicating Fraud を少し読んでみた。 世論調査会社 Strategic Vision の調査結果の末位の数字(0〜9)の度数分布は 562, 431, 472, 490, 526, 599, 533, 639, 676, 616 である。一様分布からのずれをχ2検定してみると p 値はほぼ 0 であり,でっちあげの数字である可能性がある。 ところが,2008年の上院や大統領選の世論調査の末位の数字の分布は 560, 563, 619, 620, 672, 673, 644, 642, 652, 609 であり,これも一様分布からかなり

  • 「アメリカ心理学会では統計的有意度は廃止されたそうです」 | Okumura's Blog

    という驚くべき内容の書き込みが群馬大学の青木繁伸先生の掲示板にあるのを見つけた。1999年の書き込みで,ソースは「又聞き」だそうである。もちろん統計的検定が廃止されたという事実はない。以下に少し書くように,いろいろな議論があることは確かであるが,伝言ゲームで「廃止された」という極端な話になるのは,メディアリテラシー(?)の題材としておもしろい。 統計の誤用については,あちこちで議論があり,なかには統計的仮説検定を「廃止」しようというような極端な主張もあることは確かである。そこで,アメリカ心理学会の The APA Board of Scientific Affairs: Task Force on Statistical Inference では,このことを議論し,1996年の Initial reportPDF)に続いて,1999年に最終レポート Statistical methods

  • Excel使うな | Okumura's Blog

    Computational Statistics and Data Analysis Volume 52, Issue 10 (2008) に Excel 2007 特集がある。 まず最初の論文 (B.D. McCullough and David A. Heiser, On the accuracy of statistical procedures in Microsoft Excel 2007, pp.4570-4578) のアブストラクト: Excel 2007, like its predecessors, fails a standard set of intermediate-level accuracy tests in three areas: statistical distributions, random number generation, and estimat

  • モルトかブレンドか

    柏野雄太氏のブログに紹介されていた Stephen D Chadwick and Hugh A F Dudley, "Can malt whisky be discriminated from blended whisky? The proof. A modification of Sir Ronald Fisher's hypothetical tea tasting experiment", British Medical Journal, Vol 287, No 6409, pp.1912-1913 を調べてみた。 8人の被験者(著者たちの同僚)を,ウイスキーをよく飲む群4人と,そうでない群4人とに分けて,目隠しをして,モルトウイスキー3種とブレンドウイスキー3種を各6回ずつ順不同に飲んでもらう。各群で4×6×6=144回の結果を表にしたところ,次のようになった。 よく飲む群 モルト

  • 新社会人に一言:統計学! | Okumura's Blog

    For Today's Graduate, Just One Word: Statistics(NYTimes.com),Googleで統計学がホットな話。 ここにも出てくる I keep saying the sexy job in the next ten years will be statisticians というのはGoogleのchief economist Hal Varianの言。Hal Varian on how the Web challenges managers(McKinsey Quarterly)から引用: I keep saying the sexy job in the next ten years will be statisticians. People think I'm joking, but who would've guessed that co

  • 統計グラフの色 | Okumura's Blog

    時間がないのでメモだけ。 Excel(特に2007より古いもの)の色のセンスは最悪。専用ツールで作画する場合も,ついred,green,blue,yellowのような原色を使ってしまうが,広い面積を原色で塗りつぶすと長く見つめるのが難しくなり,統計グラフには不向き。彩度・明度の調節が必要。参考文献: Ross Ihaka (Rの作者), Colour for Presentation Graphics, DSC 2003 Achim Zeileis, Kurt Hornik and Paul Murrell, Escaping RGBland: Selecting colors for statistical graphics, Computational Statistics & Data Analysis, 53, No.9, 3259-3270 (2009); 著者最終稿PDF Rで

  • 統計・データ解析

    『Rで楽しむ統計』が出ました。サポートページ 『Rで楽しむベイズ統計入門』が出ました。サポートページ,第7章のRコードをStanで書き直したRで楽しむStan 全国学力・学習状況調査の個票の疑似データがこちらで公開されています。データ分析の練習に使えそうです。SSDSE(教育用標準データセット)も。 R 4.x では stringsAsFactors=FALSE がデフォルトになりましたが,サイトの古い記事ではそうなっていないところがあるかもしれません(read.csv() などで as.is=TRUE は不要になります(あってもかまいませんが))。 R 4.2 ではWindowsでもMac同様UTF-8がデフォルトになりました。もう fileEncoding オプションに "UTF-8","UTF-8-BOM" を指定する必要はなくなりそうです。一方で、SJIS(CP932)データの場