タグ

clipと統計に関するrichard_rawのブックマーク (195)

  • そのデータ、言うほど強く「相関」してますか? CORREL関数と分析ツールで相関係数を求める

    『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine Academy』『MarkeZine プレミアムセミナー』の 最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day

    そのデータ、言うほど強く「相関」してますか? CORREL関数と分析ツールで相関係数を求める
    richard_raw
    richard_raw 2012/07/31
    Excelも統計も使いこなせている気がしないので勉強します。
  • Ruby、君のオブジェクトはなんて呼び出せばいいの?

    Rubyには大量のメソッドがあります。次のコードでRuby1.9.3に含まれるメソッド数を数えたら単純合計で1659個、ユニーク数(同名を1と数えて)で937個と出力されました。 all_methods = ObjectSpace.each_object(Module).flat_map do |c| c.methods(false) + c.instance_methods(false) end.reject { |m| "#{m}".start_with? '_deprecated' } all_methods.size # => 1659 methods = all_methods.uniq methods.size # => 937 つまりRubyには、937個もの異なる名前のメソッドがあるのです。各メソッド名は、その動作や機能を端的に表現したものでなければならないので、その一つ一

    richard_raw
    richard_raw 2012/07/20
    メソッドの命名傾向。
  • あまりにも異常な日本の論文数のカーブ - ある医療系大学長のつぼやき

    鈴鹿医療科学大学学長、元国立大学財務・経営センター理事長、元三重大学学長の「つぶやき」と「ぼやき」のblog 今年度から、私は内閣府総合科学技術会議の「基礎研究および人育成部会」という会議の委員として出席をしているのですが、その会議で配られた資料には、日の学術論文数が減少していること、そして、若手教員(研究者)の比率が減っていることを含め、たくさんの日の研究機能についての分析データが示されていました。 日の若手研究者の減少については、以前のブログでもご紹介したように、最も有名な科学誌の一つであるNature誌の3月20日号にも記事が掲載されていましたね。http://www.nature.com/news/numbers-of-young-scientists-declining-in-japan-1.10254 そして、資料の中で私が目を留めたのは、エルゼビア(Elsevier)社

    あまりにも異常な日本の論文数のカーブ - ある医療系大学長のつぼやき
    richard_raw
    richard_raw 2012/06/28
    おお、ぞっとしませんな。中国の伸びが著しい。
  • 日本の若者はこれからもずっと不幸です/成功よりも「没落」の可能性のほうが高い理由(わけ) - デマこい!

    社会の荒廃を、貧困層のせいにする人がいる。いわく、貧乏人は無計画に子供を作り、しかも教育にカネをかけないので、バカが増えるという。当だろうか? あるいは教育コストの高騰で「豊かな人がますます豊かになる」という。当だろうか? どちらも間違っていると、私は思う。 一般的に、所得が増えると出生率は下がる。これは世界中で観察される現象だ。 ところが日のように豊かさが飽和した社会では、「金持ちでなければ子供を作れない」という状況が成立する。極端な例を想像してみよう。もしも生まれてくる子供たちが「金持ちの子」だけだとしたら、数世代後には全人口が金持ちの家系の子孫になるはずだ。反面、所得格差がなくなるとは考えづらく、人口が入れ替わっても貧富の差は残り続ける。つまり大多数の人が「没落」を経験することになる。 現実には、こんな極端な状況にはならない。が、「高所得なほど子供をたくさん作る」という傾向

    日本の若者はこれからもずっと不幸です/成功よりも「没落」の可能性のほうが高い理由(わけ) - デマこい!
    richard_raw
    richard_raw 2012/06/18
    なるほど興味深い。
  • Our Mobile Planet

    モバイルユーザーについてもっと知りたくありませんか? Our Mobile Planet がお答えします。 40ヶ国におよぶスマートフォン利用の実態が分かります。また、モバイルユーザーについての深い洞察とモバイル戦略立案のためのデータの収集に役立つさまざまなチャートを自由に作ることができます。 グラフを作成

    richard_raw
    richard_raw 2012/06/15
    Googleによる40ヶ国におよぶスマートフォン利用の実態調査。選んだ項目でグラフを作成してくれる。
  • A/Bテストの数理 - 第1回:人間の感覚のみでテスト結果を判定する事の難しさについて - - doryokujin's blog

    データ解析の重要性が認識されつつある(?)最近でさえも,A/Bテストを始めとしたテスト( = 統計的仮説検定:以後これをテストと呼ぶ)の重要性が注目される事は少なく,またテストの多くが正しく実施・解釈されていないという現状は今も昔も変わっていないように思われる。そこで,シリーズではテストを正しく理解・実施・解釈してもらう事を目的として,テストのいろはをわかりやすく説明していきたいと思う。 スケジュール スケジュール 第1回 [読み物]:『人間の感覚のみでテスト結果を判定する事の難しさについて』:人間の感覚のみでは正しくテストの判定を行うのは困難である事を説明し,テストになぜ統計的手法が必要かを感じてもらう。 第2回 [読み物]:『「何をテストすべきか」意義のある仮説を立てるためのヒント』:何をテストするか,つまり改善可能性のある効果的な仮説を見いだす事は,テストの実施方法うんぬんより

    A/Bテストの数理 - 第1回:人間の感覚のみでテスト結果を判定する事の難しさについて - - doryokujin's blog
    richard_raw
    richard_raw 2012/05/25
    取り敢えず第1回をブックマーク。Rはインストールしたけど使ってないな……。
  • “統計の基礎を無視している”Hadoop使いが考えるビッグデータ

    Hadoopをバッチ処理の高速化に活用しているノーチラス・テクノロジーズは、ビッグデータのブームに真っ向から異論を唱える。「ビッグデータは中身のないバズワード」と断言する代表取締役社長 神林飛志氏に、その真意を聞いた。 Hadoop=ビッグデータは大きな誤解 ノーチラス・テクノロジーズは、基幹系システム向けのミドルウェアを手がける国産ベンチャー。Webサービスのように決して派手ではないが、「そもそもダウンすると、飛行機が飛ばないとか、病院で人が死んでしまうとか、電車が動かないとか、生活に影響が出る分野」(神林氏)という、まさにミッションクリティカルな領域のITで、同社の製品は活用されている。 同社の「Asakusa Framework」は、Hadoopを活用した分散処理により、基幹系バッチの高速化を実現する。神林氏は、「Hadoopというと、WebやSNS系、BIやデータ解析での使い方がメ

    “統計の基礎を無視している”Hadoop使いが考えるビッグデータ
    richard_raw
    richard_raw 2012/05/10
    「そもそも統計学はビッグデータを不要にする技術なはず」おおー、一刀両断。
  • コンプガチャの数理 -コンプに必要な期待回数の計算方法について- - doryokujin's blog

    目次 1. 『コンプガチャの数理 -コンプに必要な期待回数の計算方法について-』 2. 『「数学ゲームデザイン」というアプローチ』 3. 『コンプガチャの数理 -ガイドラインに基づいたゲームデザイン その1-』 4. 『コンプガチャの数理 -ガイドラインに基づいたゲームデザイン その2-』 目的 コンプガチャのコンプに必要な回数を求める問題は「The Coupon Collector's Problem」と呼ばれる数学モデルの枠組みに沿った美しい問題である事を述べ,いくつかの有用な結果を示す。 ※ あくまで個人研究のつもりで書いたので,色々不備があるかもしれません。その際は一言頂けると助かります。 定義 コンプガチャ問題を Coupon Collector's Problem に準じた形で書くと以下の様になる: 「全部で n 種類のアイテムがあって,1つのガチャの中にアイテムが1つ入って

    コンプガチャの数理 -コンプに必要な期待回数の計算方法について- - doryokujin's blog
    richard_raw
    richard_raw 2012/05/09
    自分もこんな風に数学を使いこなしたいです。
  • 一年で身に付ける!Rと統計学・機械学習の4ステップ - データサイエンティスト上がりのDX参謀・起業家

    久しぶりの投稿です。この一年間、Rの勉強会などに参加したり主催したりしてきて、後輩や勉強会の方々の話をいろいろ聞くとこができました。そんな中、一年間でRと統計学・機械学習を身に付けれるようなフローを作れるかも?と思ったので、ここで記録しておきます。統計学や機械学習は理論を勉強するだけでなく、Rで実際に解析してみることで、より理解が深まります。 ステップ1. 分布・検定 理論 統計学入門 (基礎統計学?) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メディア: 単行購入: 158人 クリック: 3,604回この商品を含むブログ (79件) を見る R Rによるやさしい統計学 作者: 山田剛史,杉澤武俊,村井潤一郎出版社/メーカー: オーム社発売日: 2008/01/25メディア: 単行購入: 64人 クリック: 782回この商品を含

    一年で身に付ける!Rと統計学・機械学習の4ステップ - データサイエンティスト上がりのDX参謀・起業家
    richard_raw
    richard_raw 2012/04/03
    いきなりステップ1の理論で玉砕しそうな件。/取り敢えずRをインストールしてみます。
  • 「喫煙率が下がると肺がん死が増える」のはなぜか? - NATROMのブログ

    武田邦彦氏が、「どうも何かを間違っているような気がします」という保留付きながら、「タバコを吸わない人に対して、タバコを吸うと肺がんの死亡率は10倍以上減る」という推論をしていました。 ■武田邦彦 (中部大学): 奇っ怪な結果?? タバコを吸うと肺がんが減る?! でも、なにか釈然としなかったので、1955年頃から1985年頃までの統計的データから、「タバコを吸うと何倍ぐらい肺がん(気管、気管支を含む)になりやすいのか?」という計算をしてみました。基礎となるデータは厚労省やがんセンターなどから出ている男性のものを使い(下の図。データ自体は誰も異議がないと思います)、次の前提を起きました。 1) タバコの害は継続的に20年ぐらい吸った人が、さらに20年ぐらい後に肺がんになる(そのために1985年以後の喫煙率のデータは使えません。1985年の20年後は2005年になり、それ以後はデータがまだ無いか

    「喫煙率が下がると肺がん死が増える」のはなぜか? - NATROMのブログ
    richard_raw
    richard_raw 2012/03/21
    「せめて、ネットを検索してみて、自分の思ったことぐらいはとっくに誰かが考えついていて、既に反論されているという可能性について検証してみてください。」
  • 日本統計学会創立75周年記念出版『21世紀の統計科学』(全3巻) 増補HP版 (2012年1月)

    2008年に日統計学会75周年記念出版として刊行されました国友直人・山拓監修『21世紀の統計科学』(全3巻)の増補版を, 日統計学会のホームページを通じて提供することとなりました.書の増補版の オンライン公開が統計科学の今後の発展に資することを期待しております. 第I巻 社会・経済の統計科学 (国友直人・山拓編) 第II巻 自然・生物・健康の統計科学 (小西貞則・国友直人編) 第III巻 数理・計算の統計科学 (北川源四郎・竹村彰通編)

    richard_raw
    richard_raw 2012/03/19
    これは太っ腹。職場で周知します。
  • WEBで読める統計関係の良質な資料 - Interdisciplinary

    私がよく参考にする所を三箇所紹介します。いずれも、説明が極めて明瞭で、論理的な整合性や用語の丁寧な使い方を志向している所に好感が持てるサイトです。 ▼Econom01 Web Site, Sophia University, Tokyo, Japan 上智大学の大西博氏のサイト。私が統計関連で最もよく参照する所です。説明の仕方の明瞭さや、具体例を用いた解説がとても良いと思います。確率統計の一つ一つの概念について、大変丁寧に説明されています。たとえば、「相関(および因果関係)」については、 2つの変数の同時分布と、その条件付き分布は、変数の間の数量的結び付きを示しています。この数量的結び付きは、統計的頻度分布として観察されるものであり、現象の背後にある実態的な「関係」や「構造」から導かれる法則性を必要としません。 例えば、人間の身長と体重とは密接な統計的分布関係を持っていますが、両変数を決定

    WEBで読める統計関係の良質な資料 - Interdisciplinary
    richard_raw
    richard_raw 2012/03/16
    講義資料とか。何故か検定の手法しか習わなかったのでこういうのは助かります。
  • 岡田副総理、若者の自殺増に満足感

    9日、警察庁が発表した「学生・生徒」の自殺者数が調査開始以来初めて1000人を越えたことについて、行政改革を担当する岡田克也副総理は「評価できる」と述べた。岡田副総理は行政改革実行部(部長・野田首相)の会合で、国家公務員の新規採用を7割削減するよう指示していることから、若者の自殺増が採用削減の後押しになると見たようだ。 警察庁が発表した昨年1年間の自殺者数は3万651人。全体では前年より1039人下回ったが、統計を取り始めた1978年以来初めて「学生・生徒」の自殺が1000人を越えたのが特徴だ。自殺の原因は「学業不振」(140人)と「進路の悩み」(136人)がほぼ同数。いずれの場合も、長引く不況と不安定な雇用のため将来が見通せないことが相次ぐ若者自殺の根底にあると見る向きも多い。 このような先の見えない雇用情勢のなか、岡田副総理は国家公務員の新規採用を09年度比で7割以上削減するよ

    richard_raw
    richard_raw 2012/03/11
    虚構注意。でも最後の一文がシャレになってない……。
  • facebook女子とmixi女子の違いとは? -データからみるペルソナ図鑑(3)-

    株式会社コプロシステム取締役 商品計画研究所所長。携帯電話キャリア、電機・品・化粧品各メーカー、エンタメ系企業等のブランディング、商品開発に関するプロジェクトを多数手がける。Mac大好き。

    facebook女子とmixi女子の違いとは? -データからみるペルソナ図鑑(3)-
    richard_raw
    richard_raw 2012/02/22
    それより平均年れ……ゲフンゲフン。十代はグリーやモバゲーですかね。
  • 統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む

    はじめに 統計解析の手法を学ぶのに、教科書を読むのは素晴らしい学習方法です。 しかし、教科書で理論的なことを学んだだけでは、統計手法を使いこなせるようにはなりません。 統計解析手法を身につけるには、実際のデータについて手法を適用し、パラメータを変えるなどの試行錯誤を行い、結果を考察するというような経験を積むことが大切です。 それでは実際のデータをどうやって手に入れましょうか? 実験や調査をして実際のデータを得るのは大変でお金もかかります。 幸運なことに、世の中には適度なサイズの自由に使えるデータがたくさん存在します。 例えば、統計言語 R には、100以上ものデータセットがデフォルトで付属しています。 ただし、不幸なことに、それらのほとんどは英語で説明が書かれています。 英語は、いつかは乗り越えなければならない壁ですが、最初のうちはちょっと避けて通りたいところです。 というわけで、今日は、

    統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む
    richard_raw
    richard_raw 2012/02/15
    Rの標準データセット。example関数で解析例が見られる。
  • はてなブログ | 無料ブログを作成しよう

    うめぇヨーグルトソースでもいかがですか。個人差にもよりますが。もしよろしければ。 お久しぶりです。 最近うんめぇ〜と思ってるヨーグルトソースがあるので、書いていこうと思います。 ヨーグルトとハーブ類をもりもり使うので、そういうのがべられない方にはうんめぇソースではないです。ごめんなさい…。もしよろしければお茶だけも…旦~ 【用意する…

    はてなブログ | 無料ブログを作成しよう
    richard_raw
    richard_raw 2012/02/13
    73歳にして現役。理解できるようになりたいです。
  • 国内の開発者が使っている言語、1位C、2位VB、3位Java。アジャイル開発は2割が採用、半数以上がウォーターフォール。IDC調べ

    国内の開発者が使っている言語、1位C、2位VB、3位Javaアジャイル開発は2割が採用、半数以上がウォーターフォール。IDC調べ 調査会社のIDC Japanは、「国内ソフトウェア開発者の実態調査」を発表しました。それによると、国内のソフトウェア開発者が最も使用している言語は、1位がC言語で19.8%、2位がVisual Basic で17.5%、3位がJavaで14.2%だそうです。

    国内の開発者が使っている言語、1位C、2位VB、3位Java。アジャイル開発は2割が採用、半数以上がウォーターフォール。IDC調べ
    richard_raw
    richard_raw 2012/02/09
    CとVBとCOBOLが多い……。
  • Rが使えるフリをするための14の知識

    米国FDAで公認され、ハーバード大学やイェール大学の授業で利用されるようになり、世間での認知度が着実に上昇している統計用プログラミング環境のRだが、ユーザーなのか、ユーザーになりたいのか、ユーザーとして振舞いたいのか分からない人が増えてきた。 スノッブなユーザーとして振舞う場合は、Rの特性を語れる必要があるので、ユーザーになるよりもRへの知識や理解が必要で、実は難易度が高い行動である。それでもあえて意識の高いRユーザーとして振舞いたい人々のために、最低限求められる事のチェック・リストを用意してみた。 1. 参考文献や参考ページを押さえておく 一番大事な事だが、参考文献や参考ページを押さえておこう。公式サイトで配布されている、「R 入門」「R 言語定義」「R のデータ取り込み/出力」は持っておくべきだ。R-TipsやRjpWikiも参考になる。 2. 演算子や制御構文をマスターする 四則演算

    Rが使えるフリをするための14の知識
    richard_raw
    richard_raw 2012/02/06
    ぜんぜんフリじゃない!使いこなせてるよ!
  • ベイズ推定を知っているフリをするための知識

    最近はベイジアンが増えてきて、実用分野での利用も進んでいるようだ。話題としては知っておきたいが、世間一般には理解に混乱を生んでいるようだ。 ベイズ推定は入門レベルの統計学の教科書ではオマケ的な扱いがされており、実際に伝統的な統計手法を拡張している面が強い。そういう意味では、誤解や混乱があっても仕方が無い。 利用する必要があるのか無いのか良く分からない点も多いのだが、知らないと告白するのも気恥ずかしいかも知れない。自分ではベイズ推定で分析を行わない人が、ベイズ信者と話をあわせるために最低限知っておくべき事をまとめてみた。 1. ベイズ推定とは何か? ベイズ推定とは、ベイズの定理を応用した推定手法だ。端的に理解するためには、最尤法に事前確率を導入している事だけ覚えれば良い。これで哲学的議論を全て回避してベイズ推定を把握することができる。 下の(1)式ではπ(θ)が事前確率、π(θ|x)が事後確

    ベイズ推定を知っているフリをするための知識
    richard_raw
    richard_raw 2012/02/03
    取り敢えず最尤法(MS Office IMEでスムーズに出ない……)と事前確率とMCMCを憶えておく、名前だけ。
  • Googleの広告を買っているのが一体どこの誰なのかよくわかる図

    by 401K 今やその存在抜きではいろいろなことが成り立たないぐらいに人々の生活に浸透しているGoogle。その2011年の収益は379億ドル(約2兆9000億円)で、このうち96%が広告収入でした。これはGoogle Adwordsがそれだけ売れているということですが、では、どこがGoogleの広告枠を買っているのでしょうか。 Who Buys All Those Google Ads? | Visual.ly 分野別で分けるとこのようになります。 ◆第1位 金融&保険:40億ドル(約3054億円) State Farm(自動車保険):4370万ドル(約33億3700万円) Progressive(自動車保険):4310万ドル(約32億9100万円) GEICO(自動車保険):2370万ドル(約18億1000万円) Quicken Loans(住宅ローン):2110万ドル(約16億11

    Googleの広告を買っているのが一体どこの誰なのかよくわかる図
    richard_raw
    richard_raw 2012/02/02
    保険屋さんすごいな。あとオンライン大学って結構お金持ってるんですね。