タグ

statisticsに関するLianのブックマーク (146)

  • 統計学を哲学する « 名古屋大学出版会

    内 容 統計学は実験や臨床試験、社会調査だけでなく、ビッグデータ分析AI開発でも不可欠である。ではなぜ統計は科学的な根拠になるのか? 帰納推論や因果推論の背後に存在する枠組みを浮き彫りにし、科学的認識論としてデータサイエンスを捉え直す。科学と哲学を架橋する待望の書。 【ALL REVIEWS】序章(抜粋) 目 次 序 章 統計学を哲学する? 1 書のねらい 2 書の構成 第1章 現代統計学のパラダイム 1 記述統計 1-1 統計量 1-2 「思考の経済」としての記述統計 1-3 経験主義、実証主義と帰納の問題 2 推測統計 2-1 確率モデル 2-2 確率変数と確率分布 2-3 統計モデル 2-4 推測統計の世界観と「確率種」 第2章 ベイズ統計 1 ベイズ統計の意味論 2 ベイズ推定 2-1 仮説の確証と反証 2-2 パラメータ推定 2-3 予測 3 ベイズ統計の哲学的側面 3-1

  • データ視覚化のプロが選ぶデータ分析のオススメ本32選

    データ分析&データ視覚化のコンサルティングをしております、永田ゆかりと申します。 これまで2000人以上の方にデータ分析や活用の研修・トレーニング講師、企業への分析コンサルティングをさせていただいており、仕事をさせていただく中で必要なを読み続けているうちに、気がついたらデータ分析領域のを200冊以上読んでいました。 中でもデータビジュアライゼーション・視覚化の領域に関しては私自身の得意領域ということもあり、数多く読み込んでいます。 記事では数多くのクライアントの方々との問題解決に役立った知識・ノウハウが書かれている良書をご紹介させていただきますので、是非最後までご覧ください。 データ可視化そのものについて知りたいたは、こちらの記事からどうぞ。 データ可視化とは?その重要性や手法、よくある課題と解決策を解説 データ分析における視覚化(ビジュアライゼーション)系のおすすめの17選1 S

    データ視覚化のプロが選ぶデータ分析のオススメ本32選
  • 機械学習の濫用は科学に「再現性の危機」をもたらす、米研究者

    関連度順 日付順 ニューズラインエマージング・テクノロジーの最新情報をお届け。 Tommy LaVergne | Rice University Machine learning is contributing to a “reproducibility crisis” within science 機械学習手法を使って成された科学的発見は、そのまま鵜呑みにすることはできない、とライス大学のジェネヴェラ・アレン准教授(統計学)は警告する。 さまざまな専門分野の科学者たちがデータ分析の精度向上とスピードアップのために、機械学習システムを使うことが増えている。それはまた、新たな医薬化合物のような新発見をもたらす研究者たちの能力向上を加速している。 しかし、問題がある。アレン准教授は、機械学習手法を採用することで、科学における「再現性の危機」が高まりつつあると警告する。さまざまな研究の成果が他の

    機械学習の濫用は科学に「再現性の危機」をもたらす、米研究者
    Lian
    Lian 2019/02/28
    医薬品の例を出してきたのがよくわからんが、Googleみたいなデータ/計算資源がリッチすぎる環境を他で用意できないという話?
  • 機械学習のための特徴量エンジニアリング

    書は、機械学習モデルの性能を向上させるために、データから良い特徴量を作る特徴量エンジニアリングについて解説します。 前半では初学者に向けて、数値、テキスト、カテゴリ変数の基的な取り扱い方を説明し、後半では特徴量ハッシング、ビンカウンティング、PCAによるデータの圧縮、さらに非線形特徴量とモデルスタッキング、画像特徴量抽出と深層学習による自動特徴学習などの高度なテーマを扱います。 特徴量エンジニアリングの原理について直感的な理解が得られるように図や例を豊富に使い、またPythonコードによる実行例を数多くあげて解説しており、実際の業務に適用するための具体的な知識が得られます。 特徴量エンジニアリングを使いこなし、機械学習モデルの性能を最大限に引き出したいエンジニア必携の一冊です。Kaggle GrandmasterのKohei Ozaki(@smly)氏による「日語版に寄せて」を収録し

    機械学習のための特徴量エンジニアリング
    Lian
    Lian 2019/02/07
    ふむ〜
  • 統計のモデルと機械学習のモデル、どう使い分ければよいのか - Qiita

    以前、「結局、機械学習と統計学は何が違うのか?」というポストの中で「統計と機械学習の違い」について、手法や技術的な側面から簡潔に説明していた記事を紹介しました。 今回は、もう一歩先に進んで、それでは、統計と機械学習のモデルがあった時、どう使い分ければいいのか」について簡潔にまとめられていた記事、"Road Map for Choosing Between Statistical Modeling and Machine Learning" を紹介したいと思います。 以下、要訳。 Road Map for Choosing Between Statistical Modeling and Machine Learning by Frank Harrell - Link 統計モデルはデータ生成のメカニズムに確率を持ち込み、大抵の場合は未知の値を持つ解釈可能なパラメータ(例えば予測変数の影響(係

    統計のモデルと機械学習のモデル、どう使い分ければよいのか - Qiita
  • ロジスティック回帰の自然勾配降下法|内場 崇之|note

    Introduction機械学習の学習アルゴリズムではさまざまな数理最適化が活躍しています。今回はロジスティック回帰を例に、 ・標準的な学習アルゴリズムである勾配降下法 ・勾配降下法のconsを解決し得る自然勾配降下法 を紹介し、その比較対照実験を行いましょう。 なお勾配降下法や自然勾配降下法の実装はR言語によって行っています。環境はMac OS version 10.14, R version 3.5.0です。また、このノートは数値計算 Advent Calendar 2018, 14日目の記事になります。作成者の@ceptreeさんに感謝申し上げます。なお、急用により投稿が遅くなってしまったことをお詫び申し上げます。 デモデータの生成ロジスティック回帰の学習に用いるデータを乱数で生成しておきましょう。 ・ラベルy = 1のデータポイントを母平均(1, 1), 母分散Eで生成する。 ・ラ

    ロジスティック回帰の自然勾配降下法|内場 崇之|note
  • Python: 機械学習における不均衡データの問題点と対処法について - CUBE SUGAR CONTAINER

    機械学習における分類問題では、扱うデータセットに含まれるラベルに偏りのあるケースがある。 これは、例えば異常検知の分野では特に顕著で、異常なデータというのは正常なデータに比べると極端に数が少ない。 正常なデータが 99.99% なのに対し異常なデータは 0.01% なんてこともある。 このようなデータセットは不均衡データ (Imbalanced data) といって機械学習で扱う上で注意を要する。 今回は、不均衡データを扱う上での問題点と、その対処法について見てみる。 なお、登場する分類問題の評価指標については、以前このブログで扱ったことがあるのでそちらを参照のこと。 blog.amedama.jp 使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.14.2 BuildVersion: 18C54 $ python

    Python: 機械学習における不均衡データの問題点と対処法について - CUBE SUGAR CONTAINER
  • 「27°C×2=54°C」が何の意味もない理由とは――「測定」と「データ」の基礎知識 (1/2):「AI」エンジニアになるための「基礎数学」再入門(2) - @IT

    「27°C×2=54°C」が何の意味もない理由とは――「測定」と「データ」の基礎知識:「AIエンジニアになるための「基礎数学」再入門(2)(1/2 ページ) AIに欠かせない数学を、プログラミング言語Pythonを使って高校生の学習範囲から学び直す連載。今回から具体的に数学を学ぶと予告しましたが、まずは「測定」と「データ」の基礎知識について押さえておきましょう。 私たちは“測定”を毎日行っている AIに欠かせない数学を、プログラミング言語Pythonを使って高校生の学習範囲から学び直す連載『「AIエンジニアになるための「基礎数学」再入門』。初回は、「AIエンジニア」になるために数学を学び直す意義や心構え、連載で学ぶ範囲についてお話ししました。今回から具体的に数学を学ぶと予告しましたが、まずは「測定」について理解する必要があります。 そもそも統計や機械学習AI)を用いて問題を分析する

    「27°C×2=54°C」が何の意味もない理由とは――「測定」と「データ」の基礎知識 (1/2):「AI」エンジニアになるための「基礎数学」再入門(2) - @IT
    Lian
    Lian 2018/11/28
    "絶対温度で考えてみると、273K→300Kとなっており" 300K->327Kでは
  • 統計検定を理解せずに使っている人のために I - J-Stage

    318 化学と生物 Vol. 51, No. 5, 2013 セミナー室 研究者のためのわかりやすい統計学-1 統計検定を理解せずに使っている人のために I 池田郁男 東北大学大学院農学研究科 319 化学と生物 Vol. 51, No. 5, 2013 1 1 320 化学と生物 Vol. 51, No. 5, 2013 2 μ σ σ 3 * 2 3 * 321 化学と生物 Vol. 51, No. 5, 2013 4 * 5 * 6 σ 4 5 6 σ * * 322 化学と生物 Vol. 51, No. 5, 2013 μ μ μ μ μ σ 7 σ σ σ σ σ σ σ σ σ σ 8 8 9 7 σ 323 化学と生物 Vol. 51, No. 5, 2013 9 10 11 * σ σ * * * * 10 11 * * * * 324 化学と生物 Vol. 51, No.

  • Rubyによるデータ解析

    Rubyは、Webアプリケーションの領域を中心に利用が広がっているが、データ解析の分野ではライバルであるPythonに大きく遅れを取っている。発表では、Rubyによるデータ解析の現状と今後の発展についての展望を述べた。 DCワークショップ2016(http://dcworkshop.github.io/201602/0_about.html)での発表。

    Rubyによるデータ解析
  • データサイエンティストを目指して半年で学んだことまとめ - Qiita

    はじめに 記事では、データサイエンティストを目指して勉強した半年間で学んだこと、気付いたことをまとめます。これからデータサイエンティストを目指して勉強する人の参考になればと思います。 最初の一手 個人的にではありますが、最初はアプローチの理解から始めると思いますが、数式とプログラミングの両方を勉強する方が良いと思います。数式→プログラミング or プログラミング→数式の順序はどちらでも良いと思いますが、プログラミング(フレームワーク)のみはやめた方が良いと思います。出力結果の解釈で苦労することになるので、理論、数式はしっかり理解した方が良いです。 プログラミング、フレームワークの力で、機械学習ができるのは事実ですが、作ったモデルや予測結果の説明ができなければ価値がありません。 そして、モデルは作るだけでなく、評価・改善していく必要があります。その際に、グリッドサーチのようにモデルのパラメ

    データサイエンティストを目指して半年で学んだことまとめ - Qiita
  • ロジスティック回帰の考え方・使い方 - TokyoR #33

    協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)西岡 賢一郎

    ロジスティック回帰の考え方・使い方 - TokyoR #33
  • 実タスクで機械学習を導入するまでの壁とその壁の突破方法 - yasuhisa's blog

    社内で機械学習の案件があった際に、機械学習の経験者しか担当できないと後々の引き継ぎで問題が起こりがちです。これを防ぐために、機械学習に興味があり、これまで機械学習を経験したことがないエンジニアにも担当できる体制を整えられることが望ましいです。しかし、機械学習のことに詳しく知らないディレクターやエンジニアにとっては、どのような機械学習の理解段階ならばタスクを任せられるかの判断をするのはなかなか困難です。そこで、このエントリでは機械学習を実タスクでやるまでに乗り越えるべき壁だと私が思っているものについて説明します。 第一の壁: 綺麗なデータで機械学習の問題を解ける 講義で扱われるような綺麗なデータを扱える 行列形式になっていて、欠損値や異常値もない 上記のデータを回帰や分類問題として解くことができる 実際に解く際にはライブラリを使って解いてよい 手法を評価する上で何を行なえばよいか(Preci

    実タスクで機械学習を導入するまでの壁とその壁の突破方法 - yasuhisa's blog
  • 自然言語処理における前処理の種類とその威力 - Qiita

    自然言語処理に前処理は不可欠です。テキストは文字の羅列であり構造化されていないため、そのままでは処理するのが難しいです。特にWebテキストの中には HTMLタグ や JavaScript のコードといったノイズが含まれています。このようなノイズは前処理して取り除かなければ期待する結果は得られないでしょう。 出典: Deep learning for computational biology 記事では自然言語処理における前処理の種類とその威力について説明します。説明順序としては、はじめに前処理の種類を説明します。各前処理については、1.どんな処理なのか、2.なぜその処理をするのか、3.実装方法(なるべく) という観点から説明します。種類について説明した後、前処理の威力を測るために前処理をした場合としなかった場合での文書分類の結果を比較します。 前処理の種類と実装 この節では以下に示す5つ

    自然言語処理における前処理の種類とその威力 - Qiita
  • Pythonではじめるデータラングリング

    「ラングリング」(wrangling)とはもともと馬や牛を集めて飼いならすという意味があります。牛を集めてうまく操るカウボーイ(wrangler)のように、データを自在に操るためのスキルを身につけた「データラングラー」になろうというコンセプトのもと、データ収集、処理、分析、利用に関わるテクニックとサンプルを豊富に収録。例題を通じて、効果的なデータの取得、クリーニング、分析、プレゼンテーション方法などを身につけることが可能です。自動化やスケジューリング、大規模データセットの処理、魅力的なストーリー付けの方法なども紹介。Pythonでデータを扱うための実用的な知識とテクニックを網羅しています。脱Excelを図ってスキルアップしたいというニーズにも応える一冊です。 正誤表 ここで紹介する正誤表には、書籍発行後に気づいた誤植や更新された情報を掲載しています。以下のリストに記載の年月は、正誤表を作成

    Pythonではじめるデータラングリング
    Lian
    Lian 2017/04/13
    ほしい
  • データサイエンス、データ分析、機械学習に必要な数学 - Qiita

    データサイエンス、データ分析機械学習の専門書の前書きには「大学初年度の数学」≒微分積分と線形代数を前提としているものが多い。 それならば大学に行っている人はほとんど履修しているはずなのだが、その専門書を読むと全然歯が立たない事が多い。 かといって微分積分や線形代数のテキストを開くと、これが機械学習データ分析のどこに役立つのか全然分からず、途方に暮れる。 データの変化を捉えるから微分 変化を結果にまとめるから積分 多変量を扱いやすくするための線形代数 なのだがそんなお題目ではどうにもこうにも…… そんなときには下記の 『統計学のための数学入門30講 (科学のことばとしての数学)』 がいい。1冊で微分積分と線形代数の内容が入っている。また、それらが統計学にどうつながっているか、統計学のどこでどう使われているかが明示されている。「統計学のための」なので必ずしも機械学習データ分析向けではない

    データサイエンス、データ分析、機械学習に必要な数学 - Qiita
  • Amazon.co.jp: Pythonではじめるデータラングリング ―データの入手、準備、分析、プレゼンテーション: Jacqueline Kazil (著), Katharine Jarmul (著), 嶋田健志 (監修), 長尾高弘 (翻訳): 本

    Amazon.co.jp: Pythonではじめるデータラングリング ―データの入手、準備、分析、プレゼンテーション: Jacqueline Kazil (著), Katharine Jarmul (著), 嶋田健志 (監修), 長尾高弘 (翻訳): 本
  • 『ダメな統計学 悲惨なほど完全なる手引書』で科学の基盤をより確かなものにする - HONZ

    世界は数字であふれている。政治家の支持率から健康品が病気のリスクを下げる確率まで、ニュースや広告を介して、新たな数字が次々とわたしたちに届けられる。しかしながら、その数字がどのようにつくられ、どのような意味を持つのかを真に理解することは容易ではない。特に、数字の送り手に悪意がある場合には注意が必要だ。50年以上前に出版された世界的ベストセラーの『統計でウソをつく法』で知られるように、統計を恣意的に用いれば、多くの人を欺くことはそれほど困難ではないのだ。 それでは、きちんとした科学研究室・大学によって裏付けられたデータならば無条件で信用できるのだろうか。そうではない、と統計学の講師でもある著者のアレックス・ラインハートはいう。科学者たちに悪意があり、統計学を歪めて使用しているわけではない。科学者たちもまた、わたしたち一般市民と同様に統計学をきちんと理解していないというのだ。 科学者は、統計

    『ダメな統計学 悲惨なほど完全なる手引書』で科学の基盤をより確かなものにする - HONZ
  • データサイエンスにおけるRubyの現在の位置づけと可能性

    村田 賢太 はじめに現在Ruby*1は、データサイエンスの業務ではほとんど役に立たないプログラミング言語であると言っても過言ではない。 Rubyはデータサイエンスの世界では存在していないも同然の扱いであり、選択肢にすら上がらない。 その理由は、実用的に使える環境が存在しないことである。データサイエンスで使えるRuby向けのツールは少ないが存在はする。 しかし、これらは開発者各自が思い思いのツールを好き勝手に作る方式で供給されており、計画性がないオープンソース活動に支えられている。 そのため、ツール間でデータのやり取りができない、データサイエンスのすべての工程を一貫してRubyで実施できない、ツールの品質が悪くて利用できないなどの理由から業務での利用を諦めざるを得ないのが現実である。 この状況を一変させるには、データサイエンスの仕事を最初から最後までRubyで実施できる実用的な環境を作り上げ

    データサイエンスにおけるRubyの現在の位置づけと可能性
    Lian
    Lian 2017/02/07
    少しrsruby使ってたことあるけど、インストール面倒だし書きづらいんだよなー
  • ダメな統計学を防ぐための書籍11冊|Colorless Green Ideas

    科学における統計の誤用を扱った『ダメな統計学――悲惨なほど完全なる手引書』を読んだ後に、実際に統計の誤用を防ぐために読むと良いについて紹介する。 はじめに この記事では、科学研究における統計の誤用を扱った『ダメな統計学――悲惨なほど完全なる手引書』を読んだ後に、実際に統計の誤用を防ぐ方法を学ぶために役立つと思われる書籍を紹介する。主に、統計的仮説検定で間違いを犯さないようにする場合に役立つ書籍を紹介するが、それ以外の分野の書籍についても紹介する。 なお、『ダメな統計学――悲惨なほど完全なる手引書』は、科学の世界での統計の誤用について説明したで、私が日語訳に当たった。2017年1月27日から販売された。このの詳しい紹介は、「『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版」という記事に書いたので、そちらもご参照願いたい。 アレックス・ラインハート〔著〕・西原史暁〔訳〕.(201

    ダメな統計学を防ぐための書籍11冊|Colorless Green Ideas