統計に関するlinuxdiaryのブックマーク (33)

  • 統計モデリングで癌の5年生存率データから良い病院を探す - StatModeling Memorandum

    概要 2017年8月9日に国立がん研究センターは、がん治療拠点の約半数にあたる全国188の病院について、癌患者の5年後の生存率データを初めて公表しました(毎日新聞の記事)。報告書は国立がん研究センターが運営するウェブサイトからダウンロードできます(ここ)。報告書をダウンロードしようとすると注意点を記したポップアップが表示されます。大切な部分を抜粋すると以下です。 報告書には、施設別の生存率を表示していますが、進行がんの多い少ない、高齢者の多い少ないなど、施設毎に治療している患者さんの構成が異なります。そのため、単純に生存率を比較して、その施設の治療成績の良し悪しを論ずることはできません。 一般に高齢者が多い病院ほど、進行癌(ステージが進んだ癌)が多い病院ほど、その病院の生存率は下がるわけです。それならば、統計モデリングで年齢と進行度(ステージ)の影響を取り除いて(専門的な言葉で言えば「調

    統計モデリングで癌の5年生存率データから良い病院を探す - StatModeling Memorandum
  • 米国500社の財務諸表ビッグデータ分析で見えた7つの事実 - データで見る世界

    最近よくビジネスニュースというか経済ニュースを見ていて思うんですが、注意しないと各企業についてバイアスがかかるリスクがあるなぁと。メディアが悪いと言えばなんとなく悪い感じがしてきますし、賢い人がすごいと言えばなんだかすごい気がしてきます。具体的には、Amazonの戦略がすごい!とか、Appleは税金を納めてなくてひどい!とか、そういうニュースを真に受けてしまっている自分に気がつきます。これはよくないですね。事実ではなく、他人の意見に支配されています。 ではどうすればいいのでしょう?メディアを遮断すればいいのでしょうか。それとも、他人の意見を全て否定すればいいのでしょうか。 バイアスを取り除く方法はただ一つ。データ分析です。データは嘘をつきません。賢そうな人の意見を鵜呑みにするのではなく、自分で生のデータを分析すれば、事実にたどり着けます。 企業について知るためには、財務諸表をひも解くのが一

    米国500社の財務諸表ビッグデータ分析で見えた7つの事実 - データで見る世界
  • 【Day-23】機械学習で使う"距離"や"空間"をまとめてみた - プロクラシスト

    データ分析ガチ勉強アドベントカレンダー 23日目。 ここまでデータをどういう風に処理したり、どういうタスクをこなしていくかについて勉強してきたが、 一度基礎的な事項に戻ってみたいと思う。基礎だから簡単というわけではない。基礎だからこそ難しく、また質的な内容。 データ分析で使われている手法などをまとめて集約して、簡単な説明を付け加えていく。 しかし、このあたりの数学*1は苦手なので、なるべく直感的に自分のイメージを書いていく。 われわれが生きている空間や、距離は"正しい"のか ユークリッド空間/ユークリッド距離 点の距離 分布の距離 wasserstein計量 カーネル(再生核ヒルベルト空間) Topological Data Analysis(TDA) 次元削減/Embedding PCA(principal component analysis) t-SNE(t-Distributed

    【Day-23】機械学習で使う"距離"や"空間"をまとめてみた - プロクラシスト
  • 機械学習を使って東京23区のお買い得賃貸物件を探してみた - データで見る世界

    さて、改めて今回の目的を確認しておくと、機械学習を使って東京都23区のお買い得賃貸物件を発見しよう、というものです。前回までの記事で、お買い得賃貸物件を発見するためのデータを収集し、分析にかけられるよう前処理してきました。 www.analyze-world.com www.analyze-world.com 今回の記事では、いよいよ機械学習を使って分析していきましょう。前回まではPythonを使っていましたが、この分析ではRを用いています。なお、コードはGitHub(https://github.com/ShoKosaka/Suumo)に上げておきますので興味ある方は参照ください。 最初に、データの中身をざっくり見ていきます。具体的には、分析のキーになるポイントをグラフにしながら、賃貸物件の現状や変数同士の関係性を把握していきます。 データ探索 まず、23区の中でどこが物件数が多いのかを

    機械学習を使って東京23区のお買い得賃貸物件を探してみた - データで見る世界
  • 勾配降下法の最適化アルゴリズムを概観する | POSTD

    (編注:2020/10/01、2016/07/29、いただいたフィードバックをもとに記事を修正いたしました。) 目次: さまざまな勾配降下法 バッチ勾配降下法 確率的勾配降下法 ミニバッチ勾配降下法 課題 勾配降下法を最適化するアルゴリズム Momentum(慣性) Nesterovの加速勾配降下法 Adagrad Adadelta RMSprop Adam アルゴリズムの可視化 どのオプティマイザを選ぶべき? SGDの並列化と分散化 Hogwild! Downpour SGD SGDのための遅延耐性アルゴリズム TensorFlow Elastic Averaging SGD 最適化されたSGDに対する更なる戦略 シャッフル学習とカリキュラム学習 バッチ正規化 早期終了 勾配ノイズ 結論 参考文献 勾配降下法は、最適化のための最も知られたアルゴリズムの1つです。これまではニューラルネット

    勾配降下法の最適化アルゴリズムを概観する | POSTD
  • 【Python】自然言語処理でラーメン屋を分類してみる - Qiita

    はじめに こんにちは、コピペデータサイエンティストです。 3年ぐらい前に「ラーメンと自然言語処理」というおちゃらけLTをしたのですが、今見ると恥ずかしいぐらいショボいので、Pythonで作りなおしてみました。 長くなったので3行でまとめると Web上に転がっている口コミとか紹介文を Pythonのライブラリを用いて解析することで 好きなラーメン屋に似たラーメン屋を見つける手法を構築した 方法 統計的潜在意味解析という手法を用います。ざっくり言うと、文書がどんなトピックを持っているか、何に関する文書なのか、を推定してくれるものです。 以下の様なイメージで各トピックに割り振られる割合を算出できるため、以下の例ではAとBが近い、ということを計算することが可能です。 ラーメン屋A: [0.75, 0.15, 0.10] ラーメン屋B: [0.60, 0.15, 0.15] ラーメン屋C: [0.0

    【Python】自然言語処理でラーメン屋を分類してみる - Qiita
  • 【Ruby】機械学習をするためのgemをつくった - Qiita

    概要 Rubyistでも機械学習がしたい! ということで、タイトルの通りRuby機械学習のためのgemをつくってみました。機械学習のための、と書きましたが、試作品ということもあり2016年4月現在実装されているのは多層パーセプトロンと自己符号化器のみです。今後、時間が空いたときに少しずつ更新して、中身を増やせていければよいなと思っています。 Rubyにも機械学習のためのライブラリがいくつかあるのは知っていますが、選択肢を増やすためにも稚拙ながら実装してみました。 インストール ソースコード https://github.com/seinosuke/sabina デモ examples/ 以下にあるサンプルの実行結果をデモとして示します。これらのデモの実行にはgemに加えてv5.0以上のgnuplotが必要です。 多層パーセプトロン その1 以下の図はタグ付けされた訓練データの画像と、学

    【Ruby】機械学習をするためのgemをつくった - Qiita
  • 今までの投稿記事のまとめ(統計学/機械学習/数学 etc) - Qiita

    久々の投稿です、@kenmatsu4 です 久々なのですが、新規投稿ではなく今までの記事まとめです 昨年末くらいにまとめを書くといっていながら半年が経過してしまいましたが、ようやっと公開します。 統計学、機械学習、プログラミング、数学、その他にカテゴリ分けしてみました。

    今までの投稿記事のまとめ(統計学/機械学習/数学 etc) - Qiita
  • 初心者でも今すぐ機械学習・ディープラーニングの勉強を始められるスライド11 - paiza開発日誌

    Photo by PROTim Regan こんにちは。谷口です。 最近「人工知能」や「機械学習」に関する話をよく耳にします。実際に機械学習の勉強をしている人や、機械学習に関連した研究開発の求人を探す人も増えてきたなーと感じます。弊社のITエンジニアにも機械学習を勉強中という人がいますが、特に最初の頃は難しすぎて何から手を付けたらいいのかよく分からず、とても悩んだと言っていました。 というわけで今回は 実は機械学習とディープラーニングの違いがわかってない 機械学習勉強したいけど仕事してると体系的に学ぶ時間がない 仕事や研究で「機械学習やって」って言われそうな気配がする 過去に機械学習の勉強にチャレンジしたことがあるけど難解すぎて挫折した という方々のために、機械学習を勉強している弊社のエンジニアに、機械学習に入門した頃に役立ったスライドを聞いてきたのでご紹介します。 ■機械学習とディープラ

    初心者でも今すぐ機械学習・ディープラーニングの勉強を始められるスライド11 - paiza開発日誌
  • ディープラーニングの勉強用参考書まとめ - あれもPython,これもPython

    ディープラーニングタノシイ! イラストで学ぶ ディープラーニング イラストで学ぶ ディープラーニング (KS情報科学専門書) 作者: 山下隆義出版社/メーカー: 講談社発売日: 2016/02/23メディア: 単行(ソフトカバー)この商品を含むブログ (1件) を見る 以前、『初めてのディープラーニング』を紹介した時に、 こっちのほうがおすすめだよ、と言われた書籍です。 私はあくまでも初めてのディープラーニングのが好きですけど! レベルとしては初めてのディープラーニングとほとんど一緒。 こちらのほうが、Chainer,TensorFlowと多彩なフレームワークの説明あり。 初めてのディープラーニング 初めてのディープラーニング --オープンソース"Caffe"による演習付き 作者: 武井宏将出版社/メーカー: リックテレコム発売日: 2016/02/19メディア: 単行(ソフトカバー)

    ディープラーニングの勉強用参考書まとめ - あれもPython,これもPython
  • ライブラリーを使わずにPythonでニューラルネットワークを構築してみよう – Mojiブログ

    コードはこちら: 全てのコードはGithub上のIpython Notebookでも公開しています。 この投稿では、1から3階層のシンプルなニューラルネットワークを構築します。出てくる全ての数学の解説はしませんが、可能な限り必要な部分は、わかりやすく説明したいと思います。数学の詳細が気になる方は、英語が多いですが参考になるリンクを下記で記載します。 この投稿の読者は最低限、微分と機械学習の基礎(クラシフィケーションや正則化など)を知っていると仮定します。更にGradient Descent(勾配降下法)のような最適化技術を知っていれば、なお良しです。ただ上記を知らなくても、ニューラルネットワークに興味のある方なら楽しめる内容だと思います。 それではまず、なぜ一からニューラルネットワークを構築する必要があるのでしょうか?後の投稿で PyBrain や Tensorflow のようなニューラル

    ライブラリーを使わずにPythonでニューラルネットワークを構築してみよう – Mojiブログ
  • R vs Python:データ解析を比較 | POSTD

    主観的な観点からPythonとRの比較した記事は山ほどあります。それらに私たちの意見を追加する形でこの記事を書きますが、今回はこの2つの言語をより客観的な目線で見ていきたいと思います。PythonとRを比較をしていき、同じ結果を引き出すためにはそれぞれどんなコードが必要なのかを提示していきます。こうすることで、推測ではなく、それぞれの言語の強みと弱みの両者をしっかりと理解できます。 Dataquest では、PythonとRの両方の言語のレッスンを行っていますが、データサイエンスのツールキットの中では両者ともそれぞれに適所があります。 この記事では、NBA選手の2013/2014年シーズンの活躍を分析したデータセットを解析していきます。ファイルは ここ からダウンロードしてください。解析はまずPythonとRのコードを示してから、その後に2つの異なるアプローチを解説し議論していきます。つま

    R vs Python:データ解析を比較 | POSTD
  • 統計学やってるけど質問ある? : IT速報

    1:以下、\(^o^)/でVIPがお送りします 2014/06/11(水) 01:29:19.45 ID:1ybSD3q90.net

    統計学やってるけど質問ある? : IT速報
  • 線形モデルによる文京区の賃貸物件価格の解釈(「最高の借家」は統計解析で見つかるか?)

    2. Copyright (C) Takimoto Seminar. All Rights Reserved.3/29/15 自己紹介 @windfall_j 某大学の学部4年生 みどりぼん読み中 統計見習い 今回Tokyo.R初参加です 発表内容に誤解などあれば指摘お願いします 上京 ➜ 東京の地理知識ゼロ 3月まで文京区に4年ほど住んでいた 2

    線形モデルによる文京区の賃貸物件価格の解釈(「最高の借家」は統計解析で見つかるか?)
  • 機械学習アルゴリズムまとめ | 株式会社フルスピード - Growth Seed

    みなさんこんにちは。アナリストの荒木です。近い将来さまざまな仕事がロボットに置き換わっていくと多くの人が予想しており、そのコアテクノロジーの一つが機械学習です。GoogleがDeepMindを買収したことで機械学習という言葉も身近になりつつありますが、すでにamazonレコメンドや画像認識などで活躍しています。 そこで今回は、ウェブ担当者が「機械学習ってどんなことをやっているのだろう?」という場合に勉強できるスライドをまとめました。 ↓株式会社フルスピードのSEOコンサルティングサービスのご紹介(資料DLページ) 機械学習によるデータ分析まわりのお話機械学習でどんなことをしているのかをまとめたスライドです。データのこと・機械学習のこと・評価のこと・分析のことの4部構成で、データマイニングの一連の流れを学ぶことができます。 Deep LearningGoogle認識例で有名になった手法を

    機械学習アルゴリズムまとめ | 株式会社フルスピード - Growth Seed
  • 統計解析 & R言語超初心者入門資料まとめ

    興味を持ち続けていた統計解析や、R言語の勉強をはじめました! まだまだ初歩の初歩ですが、この記事がいつか偉大な一歩になれるように頑張っていく所存ですw まずは、R言語や統計解析に関する入門記事や、モチベーションがアップしそうな記事をまとめていきます! (02/23 11:00) 初学者の人にお勧めな資料にフォーカスしてまとめ直し 🍮 [スライド] 統計学入門 統計学の全体像をつかむのに最適なスライドです。初歩…とはちょっと呼べないくらい内容が深いです! 🏈 [スライド] 初めての「R」 統計解析を始めるときにWindowsな方も、Macな方もとっつきやすのが『R』です。このRを完全初心者をターゲットに説明をしていただけている資料です。超わかりやすいです! 🍄 [デスクトップアプリケーション] R用のIDE: RStudioRStudio RStudioはR言語用のIDEです。Wind

    統計解析 & R言語超初心者入門資料まとめ
  • 伝説のベイジアン先生にベイズの基礎を教えてもらえる「図解・ベイズ統計「超」入門」を読んだ - EchizenBlog-Zwei

    「図解・ベイズ統計「超」入門 あいまいなデータから未来を予測する技術」というを読んだ。 社会人のアヤとケンが社内研修で伝説のベイジアン先生からベイズの基礎を教わる、という設定の会話形式でベイズについて書かれた入門書。社内研修でベイズのプロから指導を受けるとかどんだけ恵まれてるんだ。 アヤさんは大学で統計をやったが数学は詳しくないという設定。ただ時々鋭い質問をする。また統計に詳しいイケメン兄がいる。 ケンくんは知識は全くなく最後まで「わかりません」を連発する。彼女持ちのリア充。 伝説のベイジアン先生は社内研修の講師。ベイズの基礎を豊富な具体例で教えてくれるまじぱない先生。あまりにもいけてるので数カ月後に転職しそうな感じ。 内容は1章が導入、2章が同時確率・条件付き確率、3章がベイズの定理、4章がベイズの定理を用いた事後確率計算の具体例、5章が事例の追加による事前確率の更新(具体例としてナイ

    伝説のベイジアン先生にベイズの基礎を教えてもらえる「図解・ベイズ統計「超」入門」を読んだ - EchizenBlog-Zwei
  • 『異端の統計学 ベイズ』 "信念"を数字に - HONZ

    書は、「ベイズ統計」の歴史について述べただ。「ベイズの法則」は、迷惑メールの振り分けや商品のおすすめ表示などの様々な分野に応用されている手法である。書はそれを、このように説明する。 ベイズの法則は、一見ごく単純な定理だ。 いわく、「何かに関する最初の考えを、新たに得られた客観的情報に基づいて更新すると、それまでとは異なった、より質の高い意見が得られる」 この定理を支持する人からすれば、これは「経験から学ぶ」ということをエレガントに表現したものに他ならない。 この法則がキリスト教長老派のベイズ牧師によって発見されたのは古く、1740年代である。ヒュームの懐疑主義が神のデザインに疑義を申し立てた時代に発見された、起きた結果から原因を推測する手法であった。以来現在に至るまで、この法則は数奇な遍歴をたどる。書の原題は“TheTheory That Would Not Die”、200年の不

    『異端の統計学 ベイズ』 "信念"を数字に - HONZ
  • 2013年秋版:データサイエンティストを目指すなら揃えておくべき10冊 - 渋谷駅前で働くデータサイエンティストのブログ

    5ヶ月前に書いた記事がだいぶ陳腐化してきた*1気がするので、それ以降出版された書籍や、他にも学術的知識を得るだけでなく「データサイエンティストとして働く上で必要なスキル」について書かれた書籍などを加えて、「2013年秋版」の10冊をチョイスしてみました。 これはあくまでも「データサイエンティストを目指す上で必要な素地が既にある程度備わっている人」向けのスタートアップとしての10冊です。実際にはこの10冊では知識が足りなくなる場面の方が多いので、その場合は適宜発展的な書籍に当たってどんどん独習していくことをお薦めします。逆に、当にゼロからスタートする初学者の人にはこれでもかなり辛いかもなので、今回は見なかったことにしてください、ということで。。。 そうそう、相変わらずですが僕個人はアフィリエイトやってないので、こちらのリンクから書籍を購入されても儲かるのは僕ではなくはてなです(笑)。 (※

    2013年秋版:データサイエンティストを目指すなら揃えておくべき10冊 - 渋谷駅前で働くデータサイエンティストのブログ
  • 2013年秋版:データ分析初心者にお薦めする「基礎を本当にゼロから学ぶ」ためのテキスト5冊 - 六本木で働くデータサイエンティストのブログ

    前回の書籍リストは、基的には「そこそこ統計学のことは知っていて」「機械学習とはどんなものかというイメージがあって」「Pythonの初歩ぐらいはできて」「を見ながらで良ければRを使える」人たちを対象にしたものでした。 なのですが、世の中そんな最初から基礎レベルであってもきちんとスキルが揃ってる人なんてそうそう多くないわけで*1、特に今の「ビッグデータ」「データサイエンティスト」ブームを受けて勉強を始める人のほとんどが完全な初心者でしょう。 ということで、僕が実際に読んだことがあったり人から借りて読んでみたり書店で立ち読みしたりしたものの中から、そういう初心者向けのテキストを5冊に絞って紹介してみます。なお、毎回毎回しつこいですが下のリンクから書籍を購入されても、儲かるのは僕ではなくはてななのでそこのところよろしくです(笑)。 データ分析の「考え方」を身に付けるために 色々評判の良いものも

    2013年秋版:データ分析初心者にお薦めする「基礎を本当にゼロから学ぶ」ためのテキスト5冊 - 六本木で働くデータサイエンティストのブログ