タグ

統計学に関するkoyacorgのブックマーク (34)

  • 統計で転ばぬ先の杖|第1回 そのグラフ、大丈夫ですか|島田めぐみ・野口裕之 | 未草

    あちらこちらで発表された修士論文を見ると、最近は授業で統計手法について学ぶ機会もあるようで、多くの学生が統計手法を用いています。しかし、基的な誤り、特に報告の仕方に誤りが少なからず見られます。当に基的なこと、基中の基は、当たり前すぎて、統計入門のには書いていないのかもしれません。この連載では、当たり前すぎてどこにも書いていないようなことを考えていきたいと思います。 グラフの「大量生産」 初回は、グラフを取り上げたいと思います。なぜかというと、多くの学生がグラフを使うと効果的だと思っているようで、大量生産されているように思うからです。また、世に出ている論文を見ても、疑問に思うことがあります。 グラフの大量生産については、言語テストの専門家J. D. Brown も著書Using Surveys in Language Programsの中で、若手研究者はグラフをレポートの中で多用

    統計で転ばぬ先の杖|第1回 そのグラフ、大丈夫ですか|島田めぐみ・野口裕之 | 未草
  • 【統計学】初めての「標準偏差」(統計学に挫折しないために) - Qiita

    統計をこれから学ぼうという方にとって、非常に重要な概念ですが理解が難しいものに「標準偏差」があると思います。「平均」くらいまでは馴染みもあるし、「わかるわかるー」という感じと思いますが、突如現れる「標準偏差」 の壁。結構、この辺りで、「数学無理だー」って打ちのめされた方もいるのではないでしょうか。 先にグラフのイメージを掲載すると、下記の赤い線の長さが「標準偏差」です。なぜこの長さが標準偏差なのか、ということも解き明かしていきます。 (code is here) 記事では数学が得意でない方にもわかるように1から標準偏差とはなにか、を説明してみようという記事です。 数式はわかるけど、イマイチ「標準偏差」の意味わからんという方にも直感的な理解がしてもらえるような説明もしていきますので、ぜひご覧ください。 (※ この記事では標準偏差の分母に $n$を使用しています。$n-1$を使用するケースも

    【統計学】初めての「標準偏差」(統計学に挫折しないために) - Qiita
  • JavaScript で始めるデータ ビジュアライゼーション –色表現編–

    ArcGIS API for JavaScript を用いてデータ ビジュアライゼーションの手法とそれを実現する機能についてご紹介していく「JavaScript で始めるデータ ビジュアライゼーション」シリーズの第4弾です。 第1弾から様々な表現手法をお伝えしてきましたが、今回は「色」による表現手法にフォーカスしてご紹介します。以下でご紹介するサンプル アプリではESRIジャパン オープンデータポータルで配信している静岡県の用途指定及び市街化区域・市街化調整区域データの「容積率」を属性値として利用してデータを表現していきます(※サンプル アプリは IE 9 以前では動作しません)。 ■まずは始めてみよう(サンプル アプリを閲覧) 色を使ったデータのマッピングは ArcGIS API for JavaScript を使えば数行のコードで実現できます。まずは Web マップ アプリケーション上

    JavaScript で始めるデータ ビジュアライゼーション –色表現編–
  • 統計データサイト14選|市場動向を的確に把握してマーケティングに活用 | LISKUL

    市場規模を知る・・・ 消費者意識を知る・・・ 今後の動向を確認する・・・ マーケティングをする際に、これらの情報は必須です。 時には、企画書・提案書作成の際にデータを挿入することもあるでしょう。 統計サイトを利用すると、市場や消費者に関する情報・データを得ることができます。 実際に、統計サイトをよく利用している方も多いのではと思います。 様々な統計調査がなされていますが、一方で、望んだデータが得られないことも多いのではないでしょうか。 今回は、手っ取り早くお望みのデータが得られるよう、カテゴリ別に統計のデータベースを紹介いたします。 更新頻度が高く、利用しやすいサイトを厳選して紹介しますので、是非ご参考ください。 統計データを調査するなら!ネットリサーチ会社の一覧 ≫ 統計データについてそもそも「統計データってなに!?」、「使い道がわからない!!」という方に統計データとその活用法を説明しま

    統計データサイト14選|市場動向を的確に把握してマーケティングに活用 | LISKUL
  • なるほど統計学園高等部

    はじめに 統計のできるまで データの探し方(初級編) グラフの作り方(初級編) 特徴を捉える(初級編) 統計クイズ王!

  • なるほど統計学園TOP

    はじめに 統計のできるまで データの探し方(初級編) グラフの作り方(初級編) 特徴を捉える(初級編) 統計クイズ王!

  • 総務省統計局 データサイエンス・オンライン講座 社会人のためのデータサイエンス入門

    統計データを用いた分析事例を知り、 統計リテラシーを学ぶ ・大人がデータサイエンスを学ぶべき理由 ・統計データからわかること① ・統計データからわかること② ・統計データからわかること③ ・統計リテラシーの重要性 ・統計を利用する際の注意点 データ分析に必要な統計学の基礎を学ぶ ・データの種類 ・代表値~平均・中央・最頻値 ・ヒストグラムと相対度数 ・四分位・パーセンタイル・箱ひげ図 ・分散・標準偏差 ・相関関係 ・回帰分析 ・標分布 ・信頼区間 データの見方と 適切なグラフの選び方を学ぶ ・統計表の見方 ・比率の見方①-クロスセクションデータ- ・比率の見方②-使い方と注意点- ・時系列データの見方① ・時系列データの見方② ・グラフの選び方① ・グラフの選び方② ・グラフを作る時・読む時の注意点 誰もが使える公的統計データの取得方法と 使い方を学ぶ ・公的統計とは ・公的データの入手

    総務省統計局 データサイエンス・オンライン講座 社会人のためのデータサイエンス入門
  • エクセルを用いたフーリエ変換(FFT)

    音波、電磁波、地震波などの波は大きさ(振幅)、周波数、位相が異なる三角関数波(sin,cos)の組み合わせで表すことができる。フーリエ変換は波の分析ツールとしてよく使用され、オーディオ機器は音波を分析し、周波数(低音、中音、高音等)ごとの波の大きさをディスプレイしている。 周波数(ヘルツ:Hz)とは、波が1秒間に振動する回数のことで、音波の場合、高音になるほど周波数が大きくなる。 フーリエ変換は時間(t)の関数である波形 f(t) を周波数(k)の分布関数F(k)に変換し、その逆がフーリエ逆変換である。 フーリエ逆変換 f(t) = ∫F(k) ei2πkt dk     ・・・・・ (1) フーリエ変換  F(k) = ∫f(t) ei2πkt dt      ・・・・・ (2) i : 虚数 i2 = -1となる。 F(k)は一般的に複素数で、 F(k) = x + iy

  • 統計学・データサイエンスの勉強法

    ここ数年、私はデータサイエンスについて学んでいます。おすすめの学習資料を紹介したいと思います。 教師用の教科書と初心者用の教科書 私自身、データサイエンスを学ぼうとして色々なソースを試してみました。残念なことに、日語の良い学習資料は見つけられませんでした。どこかのブログで読んだことがありますが、教科書は教師用と学生用の二週類があるそうです。一つめは内容が既に分かっている教師の為の教科書で、日はこのタイプです。もう一つのタイプの教科書は自学自習を目的に作られているので、教師なしで学ぶできる教科書になっているということで、アメリカはこのタイプの教科書が多いです。私自身、他の文系・理系の教科書を探した時もアメリカの教科書の方が分かりやすく、そのだけを読めば分かるようになっていると同じ印象を持ちました。 オンライン教育(MOOC) アメリカは科学教育に熱心であり、最近はやりのMOOCでも豊富

    統計学・データサイエンスの勉強法
  • 社会人なら知っておきたい無料の公的統計データ「e-Stat」と「統計メールニュース」 | 初代編集長ブログ―安田英久

    今日は、マーケティングや企画に携わる社会人なら知っておきたい、というよりは、知らないと恥ずかしい、無料で利用できる公的統計データのポータルサイト「e-Stat」の情報と、新しい統計データが自動的に飛んでくる「統計メールニュース」の情報をお届けします。 すでに6月も下旬。新入社員の方も配属部署が決まってバリバリ働いていることだと思います。 マーケティングや企画の仕事をする人にとって、調査データというのは大切なもの。 ネット上で発表される「○○のサービスのユーザー数が○○万人」なんて調査データ、みんな好きですよね。Googleトレンドのような検索ボリュームの情報や、どのブラウザがどれぐらい使われているかといった調査データも人気です。 どれも無料で入手できるデータですが、実は税金でちゃんとした手法でつくられている、質の高い調査データというのが、あるのです。 それが、政府の出している統計データ。

    社会人なら知っておきたい無料の公的統計データ「e-Stat」と「統計メールニュース」 | 初代編集長ブログ―安田英久
  • とっつきにくいけど実はエクセル以上に賢いヤツ フリー統計解析ソフトウェア「R」を触ってみよう【R入門講座】

    『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine Academy』『MarkeZine プレミアムセミナー』の 最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day

    とっつきにくいけど実はエクセル以上に賢いヤツ フリー統計解析ソフトウェア「R」を触ってみよう【R入門講座】
  • 「ビッグデータ処理の常識をJavaで身につける」関連の最新 ニュース・レビュー・解説 記事 まとめ - ITmedia Keywords

    ビッグデータ処理の常識をJavaで身につける(8): 管理が困難―分散処理の常識はZooKeeperで変わる Hadoopをはじめ、Java言語を使って構築されることが多い「ビッグデータ」処理のためのフレームワーク/ライブラリを紹介しながら、大量データを活用するための技術の常識を身に付けていく連載(2012/6/22) ビッグデータ処理の常識をJavaで身につける(7): Hadoopの現実解「バッチ処理」の常識をAsakusaで体得 Hadoopをはじめ、Java言語を使って構築されることが多い「ビッグデータ」処理のためのフレームワーク/ライブラリを紹介しながら、大量データを活用するための技術の常識を身に付けていく連載(2012/5/28) ビッグデータ処理の常識をJavaで身につける(6): リアルタイム分散処理の常識をApache S4で身につける Hadoopをはじめ、Java言語

  • 試すのが難しい―機械学習の常識はMahoutで変わる

    ビッグデータ時代―なぜ、いま機械学習なのか Apache Hadoop(以下、Hadoop)の登場で、今まで捨てていたデータ、貯めるだけで処理しきれなかったデータを活用できるようになりました。 活用手段として最近とみに注目されている技術が「機械学習」であり、Hadoopの強みを生かし簡単に機械学習を行うためのライブラリが、「Apache Mahout」(以下、Mahout)です。 稿ではMahoutを動かしてみることで、機械学習の常識を身に付けます。 そもそも、機械学習とは? 機械学習とは、一定のデータをコンピュータ・プログラムに「学習」させ(すなわち、そのデータに潜むパターンや規則性を表す「モデル」を自動的に構築させ)、他のデータにそのモデルを適用すれば、あたかも人間のように複雑で柔軟な判断が行えるようにするという試みです。 機械学習をビジネスに活用した例は、レコメンド(ユーザーや商品

    試すのが難しい―機械学習の常識はMahoutで変わる
  • 機械学習や統計に関する情報収集 - Qiita

    機械学習界隈の情報収集方法 http://d.hatena.ne.jp/kisa12012/20131215/1387082769 いきなりですが上記の記事に機械学習に関する有力な情報源がまとまっています。まずはここを参考にするのが良いかと思います。ただ情報が多すぎですので、筆者は Wikicfp と arXiv.org あたりの論文、それにはてなブックマークをチェックしています。 また論文については機械学習の論文を探すにも良い情報がまとまっています。こちらも参考になります。 機械学習は日進月歩の世界ですので、最新の査読済み論文を追って概略だけでも理解する能力を身に付けると良いかと思います。 書籍としては次の 2 冊が聖書とも言える必読書で、気で機械学習をやりたければ必ず参考になるかと思います。 パターン認識と機械学習 (上・下) http://www.amazon.co.jp/dp/4

    機械学習や統計に関する情報収集 - Qiita
  • データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性

    2012年12月6日(木)に開催されEMCジャパン主催「第2回データサイエンティストワークショップ」での弊社社員の講演資料です。

    データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
  • グラフでウソをつく方法(あまり真似しないでください)

    どれどれ。ふーん、売上前年比が125%、130%、150%か。毎年増収だな。しかしこれだけから業績良好と判断するのはあまりにも危険だな。 「何でだよ。手堅く増収してるんだぞ」 んじゃ、極端な話ながら、この会社の実態が仮にこうだとしたらどうする(図2)。可能性は決してゼロではないはずだ。

    グラフでウソをつく方法(あまり真似しないでください)
  • エンジニアのためのデータ可視化実践入門という本を書いた - あんちべ!

    2014/10/14 追記 書87ページに「母数」という単語が複数回出てきますが、 これは全て「分母」とすべきでした。*1 通常、統計学の文脈では、母数は各確率分布を特徴付ける変数を指す単語であり、 例えば正規分布は平均と分散という二つの母数によって形状が決定されます。 決して母数と分母(あるいは全数)と誤解してはなりません。 しかし母数と分母を混同することは当によくあることで、 書はこのような頻出する誤解を訂正し、 皆様が統計を用いる際の失敗を一つでも減らす という目的で執筆に至ったにも拘らず、 まさか書でこのような重大な失敗をしてしまったことに対し 心からお詫び申し上げ訂正させて頂きます。 なお、問題個所の記述は共著者の森藤氏ではなく 私が記述したものであり、全責任は私にあります。 を書くに当たり、誤字脱字や言い回しの不備は出来る限り無くすべきですが、 人間であるためミスをす

    エンジニアのためのデータ可視化実践入門という本を書いた - あんちべ!
  • 事実と真実はどう違うか。また裁判官のキャリブレーションについて - 極北データモデリング

    俺が通ってるジムのステアマスターにはテレビが付いていて、いつもテレビ見ながらをステアマスター漕いでるんだけど、この前北斗の拳の再放送見ようと思ってテレビ点けたら放送大学の講義をやっていて、これがえらく面白かった。 それは科学哲学の講義で、テーマは「事実と真実はどう違うか」というものだった。 話の要点は以下の3つだ。 1. 真実は観測できない 先生はこんなフリップを出して話を始めた。 「何かを観測して得たデータを事実と呼ぶならば、事実には必ず誤差が含まれています。事実の集積から、何らかの手続きで誤差を消去して抽出したものを真実といいます」 ガタガタのヒストグラムという事実を集めて、そこから滑らかな曲線を描く真実を取り出すわけだ。 先生の定義によれば、真実は事実のように直接観測できるものではない。 現実世界で見ることも、手で触れることもできないのだ。この点、事実よりも思い込みや妄想に近い存在だ

    事実と真実はどう違うか。また裁判官のキャリブレーションについて - 極北データモデリング
  • 「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ - 六本木で働くデータサイエンティストのブログ

    先日の記事はおかげさまで好評をいただいたんですが、勉強中の身で教科書を確認せずに書いたこともあり多数ツッコミをいただきました。ツッコミをいただけるというのはもちろん大変良い勉強の機会になるということで*1、今回もひとしきり勉強してみました。 ということで、自戒も込めて備忘録的に勉強したことをまとめておこうと思います。今回はあまり広く読んでもらう内容ではないので、不親切かもしれませんがごめんなさい。ただし、あまりにも理論的側面ばかり色々書いても何なので、インターネット広告業界の言葉で喩えて言うなら「クリック数*2をモデリングしたい場合」と「コンバージョン数*3をモデリングしたい場合」とに分けた、と理解してもらえたら良いかなと思ってます。 今回も参考文献は久保です。一般化線形モデルまわりではこのより分かりやすいは依然としてないと思います。 データ解析のための統計モデリング入門――一般化線

    「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ - 六本木で働くデータサイエンティストのブログ
  • 社団法人データサイエンティスト協会、ついに発足 - 渋谷駅前で働くデータサイエンティストのブログ

    昨年来僕も準備会に名前を加えていただいていたデータサイエンティスト協会ですが、日ついに発足したとのこと。 一般社団法人データサイエンティスト協会発足について - 一般社団法人データサイエンティスト協会 ビッグデータ分析 人材育成へ - NHK News Web 一般社団法人データサイエンティスト協会が発足、職種の定義や人材育成支援などを実施へ - クラウドWatch ちなみに賛同者名簿に不肖ながら僕も名前を連ねさせていただく予定だったのですが、事務手続き上の都合*1により日のプレスリリースに間に合わず。。。関係各方面の皆様には大変申し訳ないですm(_ _)m 早速色々な反応がweb上にあふれているみたいですが*2、個人的にはこれで今まで日国内ではイメージばかりが先行し続けてきた*3「データサイエンティスト」という代物に、ようやくある程度の「実体」を与えることができたのではないかと思っ

    社団法人データサイエンティスト協会、ついに発足 - 渋谷駅前で働くデータサイエンティストのブログ