並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 309件

新着順 人気順

bayesianの検索結果1 - 40 件 / 309件

  • 「日本語の原郷」についての論文を読んでみた

    歴史言語学についてはまったくの素人だけど、最近話題になった「日本語の原郷は「中国東北部の農耕民」 国際研究チームが発表 | 毎日新聞」(はてブ)っていう記事の元になったロベーツらの論文(Robbeets et al. 2021)を読んでみたよ! 結論うさんくさい 前提知識共通の祖先を持つことが証明された言語の集団を「語族」という日本語は琉球諸語と共通の祖先を持つことが明らかである(日琉語族;Japonic)しかし日琉語族と他の言語との系統関係は証明されていない内陸アジアのテュルク語族、モンゴル語族、ツングース語族、そして欧州のウラル語族は特徴が似ているかつて、テュルク・モンゴル・ツングース・ウラル・日琉・朝鮮の諸語族が「ウラル・アルタイ語族」に属するという説があったが、結局誰もこれらの諸言語が共通の祖先を持つという証明ができなかった今回の論文は、テュルク・モンゴル・ツングース・日琉・朝鮮諸

      「日本語の原郷」についての論文を読んでみた
    • 【資料】PCR検査抑制論の年譜と語録|伊賀 治 デマ撲滅ファクトチェック集

      [2023/12/15更新] 過去を糾弾したいわけではない。 未来に過ちを繰り返さない為に。 「政治の信頼を回復するには、過ちや不公正に毅然と対峙することが必要です。この一年半のあいだ、政府や厚労省、一部の医師や専門家によって宣伝された偽情報は、撤回されなければなりません。合理的なコロナ対策はその先にしかないからです。」(※1. 引用元) 政府が検査抑制を進めた結果、日本は未だ検査キャパ不足の課題を引きずっている。もちろん、当時は致し方ない理由として、海外製試薬の調達不足・検査体制の未整備・医療従事者の感染の不安等もあったと思う。然し、それをベイズ推定という全く別の説明で安易に世論を抑え込もうとした。騙す意図はなかったとしても「国民の声を封じればよい」として、真の問題解決への努力を怠り、検査への誤った不信を抱かせ、後々の感染症対策に大きな弊害となったことは明らかだろう。 当時、多くの識者や

        【資料】PCR検査抑制論の年譜と語録|伊賀 治 デマ撲滅ファクトチェック集
      • 「全数調査なら何でもわかる」という誤解 - 間違えがちな母集団とサンプリングそしてベイズ統計 - - ill-identified diary

        この文章は pandoc-hateblo で tex ファイルから変換しています. PDF 版はこちら 2021/10/15 追記: 後半のベイジアンブートストラップに関する解説はこちらのほうがおそらく正確です ill-identified.hatenablog.com 概要挑発的なタイトルに見えるかも知れないが, 私はしらふだしこれから始めるのは真面目な話だ — 正直に言えばSEOとか気にしてもっと挑発的なタイトルにしようかなどと迷ったりはしたが. 「全数調査できれば標本抽出の誤差はなくなるのだから, 仮説検定は不要だ」という主張を見かけた. いろいろと調べた結果, この問題を厳密に説明しようとすると最近の教科書には載ってない話題や視点が必要なことが分かった. ネット上でも勘違いしている or よく分かってなさそうな人をこれまで何度か見かけたので, これを機に当初の質問の回答のみならず関

          「全数調査なら何でもわかる」という誤解 - 間違えがちな母集団とサンプリングそしてベイズ統計 - - ill-identified diary
        • 「データ分析をやるならRとPythonのどちらを使うべき?」への個人的な回答 - 渋谷駅前で働くデータサイエンティストのブログ

          (Background image by Pixabay) 最近また「データ分析をやるならRとPythonのどちらでやるべきか」という話題が出ていたようです。 言語仕様やその他の使い勝手という点では、大体この記事に書いてあることを参考にすれば良いと思います。その上で、人には当然ながら趣味嗜好がありますので、個々人が好みだと思う方を使えば良い話ではあります。 とは言え、僕自身もクソコードの羅列ながらこのブログにR & Pythonのコードを載せているということもあるので、便乗して今回の記事では僕個人の意見と感想も書いてみようと思います。いつもながらど素人の意見(特にPythonは本業ではない)なのと、自分がメインに使っているRでもtidyverseをほとんど使わないなど割とout-of-dateな使い方をしているということもあり、読んでいておかしなところなどあればどしどしご指摘くださると有難

            「データ分析をやるならRとPythonのどちらを使うべき?」への個人的な回答 - 渋谷駅前で働くデータサイエンティストのブログ
          • ベイズ統計学を勉強する参考書のフロー - Qiita

            慶應義塾大学・株式会社Nospareの菅澤です. 今回はベイズ統計学を勉強するための参考書の順番 (私見) について紹介していきます. 3年ほど前に『日本語で学べるベイズ統計学の教科書10冊』を紹介しましたが,今回は「どのような順番でどの参考書を読んでいくと比較的スムーズに勉強が進められるのか」に焦点を当て,比較的最近の書籍や英語の書籍まで含めて紹介していきます. まずは全体的なフローのイメージを提示しておきます. 今回の記事では,「ベイズ統計学を勉強すること」のスタートとゴールを以下のように定めます. (スタート) 統計学の基礎的な内容 (統計検定2級程度の内容) は身についている (ゴール) ベイズモデリングに関する最新の論文がある程度理解して読め,自力でモデルを組んだり実装することができる また,このゴールへの道のりとして,大きく2通りのルートを想定します. (ルートA: フルスクラ

              ベイズ統計学を勉強する参考書のフロー - Qiita
            • 日本語で学べるベイズ統計学の教科書10冊 - Qiita

              東京大学・株式会社Nospareの菅澤です. 今回はベイズ統計学を勉強する上で個人的にオススメな日本語の教科書10冊を簡単に紹介したいと思います. 一般的な方法論・基礎理論 中妻照雄『入門ベイズ統計学』 簡単な例と実践的な例を使ってベイズ推論の考え方が導入された後,マルコフ連鎖モンテカルロ法(MCMC)の基礎的な事項がまとめられています.基本的な数理統計学が理解できていれば十分読める内容になっている印象です.この本の続編である中妻照雄『実践ベイズ統計学』では,ファクターモデルやそのポートフォリオ選択への応用,ベイズ的線形回帰モデル,モデル平均化法などのより発展した内容について丁寧に解説されています. 伊庭幸人・種村正美・大森裕浩・和合肇・佐藤整尚・高橋明彦『計算統計II』 かなりボリュームのある内容の本です.基本的な話題として,MCMCの基礎や標準的な統計モデルにおけるベイズ推論に関して数

                日本語で学べるベイズ統計学の教科書10冊 - Qiita
              • 日本の新型コロナ対策を総括する

                「海外事情」に寄稿した文章です。許可を得てこちらに転載します(初稿)。書いたのは昨年12月なのでデータはやや古くなりましたが、「総括」なので、内容は特に問題ないと思います。御覧ください。 緒言 日本の新型コロナ対策を「総括」、すなわち総合的なパースペクティブからまとめようとしたものが過去に2つ存在する。一つは、書籍になった「新型コロナ対応/民間臨時調査会 調査・検証報告書」[1]であり、もう一つは、政府が招聘した新型コロナウイルス感染対応に関する有識者会議が出した「新型コロナウイルス感染症へのこれまでの取組を踏まえた次の感染症危機に向けた中長期的な課題について」[2]である。 しかし、前者はどちらかというと「証言集」に近く、やや厳しい言い方をすれば、「個人の感想」集であり、属人的なものだった。データ解析、ファクトの解析には乏しかった。後者については政府に依頼されて役人が突貫工事でまとめたも

                  日本の新型コロナ対策を総括する
                • 2019-nCoVについてのメモとリンク

                  リンク集目次 国内外の状況 政府機関・国際機関等 学術情報 疫学論文 分子生物学/ウイルス学論文 臨床論文 インフォデミック関係 ワクチン関係 変異株関係 時系列メモ目次 新型コロナウイルス(2020年1月6日,11日) インペリグループによる患者数推定(2020年1月18日) 患者数急増,西浦さんたちの論文(2020年1月20日,23日) WHOはPHEIC宣言せず(2020年1月23-24日) 絶対リスクと相対リスク(2020年1月26日) 研究ラッシュが起こるかも(2020年1月27日) なぜ新感染症でなく指定感染症なのか? なぜ厚労省令でなく閣議決定なのか?(2020年1月27日) コロナウイルスに対する個人防御(2020年1月27日) 国内ヒト=ヒト感染発生(2020年1月28日) フォローアップセンター設置,緊急避難等(2020年1月29日) PHEICの宣言(2020年1月3

                  • 大塚淳『統計学を哲学する』について - mercbeinpのブログ

                    この記事は、大塚淳『統計学を哲学する』(2020年、名古屋大学出版会)についての記事である。特に、哲学の観点から、本書における認識論への言及について論じる。 先に自己紹介をしておこう。私は数年前に大学院の修士課程を修了し、それ以降は特に哲学とは関係のない仕事をしている。大学では、学部・院を通して分析的認識論を勉強・研究していた。伝統的・非形式的な認識論のほうが詳しいと思っているが、形式認識論(特に確率を用いるベイズ認識論)についても関心を持っていて、博士課程に進んでいたらベイズ認識論を中心にした研究を行おうとも思っていた。数年前の記事になるが、私がどのようなトピックを学んでいたかは、現代の分析的認識論を紹介したこのブログ記事を読むとより把握できると思う。 踏まえて、以下の文章は主に哲学の視点からみたものになり、記述の大半は哲学的認識論に割かれている。帰納推論や因果推論などのトピックについて

                      大塚淳『統計学を哲学する』について - mercbeinpのブログ
                    • 状態空間モデルを用いた因果効果の推定: CausalImpact - Qiita

                      東京大学・株式会社Nospareの菅澤です. 今回は状態空間モデルによる時系列予測手法を用いた因果効果の推定手法であるCausalImpactについて紹介します. CausalImpactとは CausalImpactはGoogleによって開発された因果効果推定の方法です.手法の詳細はBrodersen et al. (2015, AoAS)に記載されており,手法を実装したRパッケージも公開されています. CausalImpactは,ある介入が時間変化するアウトカムにどのような影響を与えるかを推定(推測)するための手法です.時間変化するアウトカム(時系列データ)に対して因果効果を推定する有名な方法としてDifference-in-Difference (DID)がありますが,DIDよりも緩い仮定のもとで時間変化する因果効果を推定できる方法として知られています. CausalImpactのコ

                        状態空間モデルを用いた因果効果の推定: CausalImpact - Qiita
                      • 無料、独学で機械学習エンジニアになる!~機械学習が学べる無料サイト、書籍~ - Qiita

                        こんにちはkamikawaです 今回は無料で利用できる機械学習、データサイエンスに関するサイトや書籍をまとめました 私自身も機械学習プロジェクトに関わった経験があるのですが、ここに載せたサイトや資料を勉強に使っていました 機械学習エンジニアを目指す人必見です 入門者レベル〜応用・発展レベルまで幅広く載せていますレベルは個人の見解です。(あくまでも参考程度に) 日本語のものと英語のものを紹介します 海外の大学の講義もあるので英語の勉強にも使えます 海外でのキャリアを考えている方も必見です 対象読者 機械学習を学びたいけどお金をかけたくない人 独学で機械学習を身につけたい人 機械学習エンジニアになりたい人 発展的な機械学習を学びたい人 日本語 Python 三重大学奥村教授のサイト 機械学習、様々な分析、スクレイピング、データ可視化、地図データ、CV、統計など幅広い分野を扱っている R編もある

                          無料、独学で機械学習エンジニアになる!~機械学習が学べる無料サイト、書籍~ - Qiita
                        • 2021年版:データサイエンティストを初めとするデータ分析職向け推薦書籍リスト(初級5冊+中級8冊+テーマ別14冊) - 渋谷駅前で働くデータサイエンティストのブログ

                          (Image by Pexels from Pixabay) 今年も恒例の推薦書籍リストの季節がやって参りました。……なのですが、昨年はCOVID-19の影響で*1データ分析業界及び隣接分野の新刊書を読む機会が減ってしまいましたので、例年に比べてラインナップの変更をほとんど検討しないままでリストアップしている点、予めご容赦いただければと思います。 そして今回の記事では、これまで以上に「実務家向け」「実践的」であることを重視しています。そのため昨年までのリストに比べて大幅に刷新されているカテゴリもあったりします。また、末尾に僕なんぞが選ぶよりもずっと優れた推薦書籍リストへのリンクも付しておきました。併せて参考にしていただけると幸いです。 初級向け5冊 総論 統計学 機械学習 中級向け8冊 統計学 機械学習 テーマ別14冊 PRML 機械学習の実践 Deep Learning 統計的因果推論

                            2021年版:データサイエンティストを初めとするデータ分析職向け推薦書籍リスト(初級5冊+中級8冊+テーマ別14冊) - 渋谷駅前で働くデータサイエンティストのブログ
                          • 超関数型プログラミング

                            この記事はFOLIO Advent Calendar 2022の23日目です。 ソフトウェア2.0 ソフトウェア2.0 という新しいプログラミングのパラダイムがあります。これは Tesla 社のAIのシニアディレクターだった Andrej Karpathy が自身のブログ記事("Software 2.0")で提唱した概念で、 ニューラルネットワーク のような最適化を伴うプログラムを例に説明されています。 従来のプログラム(Software 1.0)は人間が命令に基づいたプログラムを作成し、望ましい挙動を行わせます。それに対してニューラルネットワークのようなプログラム(Software 2.0)では人間はある程度の自由度をパラメータという形で残したプログラムを作成し、「入出力のペア」や「囲碁に勝つ」というような教師データや目的を与えてプログラムを探索させるというものです。 画像出典: "So

                              超関数型プログラミング
                            • 使える統計モデル10選(前編) | AIdrops

                              使える統計モデル10選(前編) 統計モデリング(statistical modelling)はデータ解析の方法論の1つです。データ解析の目的は、通常はただの数値や記号の羅列であるデータから、人間が何かしらの判断を行うために有益な情報を引き出すことにあります。データ分析者は、そのままでは意味をなさないデータに対して、折れ線グラフやヒストグラムなどを用いて、人間が判断を行いやすいようにデータの可視化を行います。一方で、時にはニューラルネットワークのような複雑な計算モデルを使ってデータを解析し、まだ観測されていない将来の値を予測させたりします。このように、データから有益な情報を引き出すために、データに対して人為的な視点や事前知識、数学的な仮定などを設計する作業をモデリング(modeling)と呼びます。 統計モデリングによるデータ解析では、データ自体や解析の目的に合わせて分析者が適切なモデルを設

                                使える統計モデル10選(前編) | AIdrops
                              • 95%信頼区間の「95%」の意味 - 渋谷駅前で働くデータサイエンティストのブログ

                                ふと思い立ってこんなアンケートを取ってみたのでした。 頻度主義統計学における「95%信頼区間」の95%というのは、以下のどちらだと思いますか— TJO (@TJO_datasci) 2021年7月16日 結果は物の見事に真っ二つで、95%信頼区間の「95%」を「確率」だと認識している人と、「割合」だと認識している人とが、ほぼ同数になりました。いかに信頼区間という概念が理解しにくい代物であるかが良く分かる気がします。 ということで、種明かしも兼ねて95%信頼区間の「95%」が一体何を意味するのかを適当に文献を引きながら簡単に論じてみようと思います。なお文献の選択とその引用及び解釈には万全を期しているつもりですが、肝心の僕自身が勘違いしている可能性もありますので、何かしら誤りや説明不足の点などありましたらご指摘くださると有難いです。 頻度主義において、95%信頼区間の「95%」は「割合」を指す

                                  95%信頼区間の「95%」の意味 - 渋谷駅前で働くデータサイエンティストのブログ
                                • 一般的な時系列のモデリング&予測に、機械学習系の手法よりも古典的な計量時系列分析の方が向いている理由を考えてみた(追記あり) - 渋谷駅前で働くデータサイエンティストのブログ

                                  この記事は、以下の@icoxfog417さんによる問題提起に合わせたちょっとした実験をまとめたものです。 時系列予測の問題において、機械学習のモデルより既存の統計モデル(ARMAモデルなど)の方が予測精度において優良な結果が出るという研究。データへの適合=予測精度の向上ではないことも実験で示している。機械学習の研究では統計モデルとの比較も入れるべきという提言をしている。 https://t.co/jboGhYSX6E— piqcy (@icoxfog417) September 16, 2019 この点について僕はこんなコメントをしたのですが。 だいぶ以前から「一般的な時系列データ予測の問題は単位根過程や季節調整など非定常過程との戦いなので、本質的に定常過程を想定する機械学習手法での予測は計量時系列分析など非定常過程も考慮した古典的なモデルによる予測には及ばない」と言い続けてきたけど、やっ

                                    一般的な時系列のモデリング&予測に、機械学習系の手法よりも古典的な計量時系列分析の方が向いている理由を考えてみた(追記あり) - 渋谷駅前で働くデータサイエンティストのブログ
                                  • 小さく始めて大きく育てるMLOps2020 | | AI tech studio

                                    AI Labの岩崎(@chck)です、こんにちは。今日は実験管理、広義ではMLOpsの話をしたいと思います。 MLOpsはもともとDevOpsの派生として生まれた言葉ですが、本稿では本番運用を見据えた機械学習ライフサイクル(実験ログやワークフロー)の管理を指します。 https://www.slideshare.net/databricks/mlflow-infrastructure-for-a-complete-machine-learning-life-cycle 参考記事のJan Teichmann氏の言葉を借りると、 エンジニアがDevOpsによって健全で継続的な開発・運用を実現している一方、 多くのデータサイエンティストは、ローカルでの作業と本番環境に大きなギャップを抱えている クラウド含む本番環境でのモデルのホスティングが考慮されないローカルでの作業 本番のデータボリュームやス

                                      小さく始めて大きく育てるMLOps2020 | | AI tech studio
                                    • バンディットアルゴリズムを用いた推薦システムの構成について - ZOZO TECH BLOG

                                      はじめに ZOZO研究所ディレクターの松谷です。 ZOZO研究所では、イェール大学の成田悠輔氏、東京工業大学の齋藤優太氏らとの共同プロジェクトとして機械学習に基づいて作られた意思決定の性能をオフライン評価するためのOff-Policy Evaluation(OPE)に関する共同研究とバンディットアルゴリズムの社会実装に取り組んでいます(共同研究に関するプレスリリース)。また取り組みの一環としてOPEの研究に適した大規模データセット(Open Bandit Dataset)とOSS(Open Bandit Pipeline)を公開しています。これらのオープンリソースの詳細は、こちらのブログ記事にまとめています。 techblog.zozo.com 本記事では、ZOZO研究所で社会実装を行ったバンディットアルゴリズムを活用した推薦システムの構成について解説します。バンディットアルゴリズムを用い

                                        バンディットアルゴリズムを用いた推薦システムの構成について - ZOZO TECH BLOG
                                      • kaggle本で参考になった点のなぐり書き - ML_BearのKaggleな日常

                                        これはなに? kaggle本を読んで血肉になった/したい点をなぐり書きにしたただの個人用メモです。ちゃんとした書評を書こうと思い続けてはや半月以上経過したので一旦書きました。 この箇条書きの記事だけ読んでも多分内容わからないと思うので、気になった点があればぜひ購入しましょう!読後すぐに書いた推薦ツイートは以下のとおりです。 kaggle本読み終わりました。初心者にも良い本だと思いますが、ExpertやMasterなりたての人が最も恩恵を得られそうだなと感じました。自分の今までのコンペ経験を思い返しつつ、その中では経験できなかった内容を学ぶことができ「賢者は歴史に学ぶ」が可能になった感があります。著者の方々に感謝です!— ML_Bear (@MLBear2) October 23, 2019 リンク Chap. 2 - タスクと評価指標 「しきい値の最適化」という概念 正例か負例のラベルを提

                                          kaggle本で参考になった点のなぐり書き - ML_BearのKaggleな日常
                                        • 2019年、俺の読んだ論文50本全部解説(俺的ベスト3付き) - Qiita

                                          第一位 Focal Loss for Dense Object Detection 物体検知のためのFocal Loss これは不均衡データに対処するための損失関数Focal Lossを提案した論文なのですが, とにかくそのシンプルさにやられました. 画像のFLの式を見てください. たったこれだけです. ptは正解ラベルに対する予測値なのですが, ptが大きければ大きいほど損失値をしっかり抑えられるように設計された関数となっています. 正解ラベルに対して0.6と予測するサンプルを学習に重要視せず, 0.3とか0.1とか予測しちゃうサンプルにしっかりと重要視するのです. 自分も7月くらいまでは不均衡データに関する研究していたのですが, 自分が考えた多くのアイディアが結局Focal Lossの下位互換に帰結してしまうのです. しかもこの損失関数の汎用性は非常に高く, あらゆるタスクに入れること

                                            2019年、俺の読んだ論文50本全部解説(俺的ベスト3付き) - Qiita
                                          • 新卒データサイエンティストの成長ストーリー #3 RecSys 2022 参加レポート - techtekt

                                            まえがき こんにちは。デジタルテクノロジー統括部アナリティクスグループ新卒の安藤です。前の記事から3ヶ月も空いてしまいました......。 先日9/19-23に行われた国際学会RecSys 2022をオンラインで聴講したので、その報告として記事を書くことにしました。パーソルキャリアからは私を含め3名以上が参加したと聞いています。 The ACM Conference on Recommender Systems、通称RecSysは推薦システムに関するトップカンファレンスであり、ジョブマッチとは密接な関わりがある分野です。 推薦システムの最先端がどのようなものであるかを知ることでビジネスに活かしたいとの思いから参加を申し出た、という経緯です。 (かなり直前の申請でしたが許可をいただくことが出来ました。この場を借りて改めてお礼申し上げます......!) 非常に興味深い発表が多数ありましたが、

                                              新卒データサイエンティストの成長ストーリー #3 RecSys 2022 参加レポート - techtekt
                                            • 【記事更新】私のブックマーク「反実仮想機械学習」(Counterfactual Machine Learning, CFML) – 人工知能学会 (The Japanese Society for Artificial Intelligence)

                                              Home » リソース » 私のブックマーク » 【記事更新】私のブックマーク「反実仮想機械学習」(Counterfactual Machine Learning, CFML) 反実仮想機械学習(Counterfactual Machine Learning, CFML)齋藤 優太(東京工業大学) はじめに機械学習の応用において,反実仮想(Counterfactual)─起こり得たけれども実際には起こらなかった状況─についての情報が得られるとうれしい場面が多くある.例えば,「今動いている推薦アルゴリズムを仮に別のアルゴリズムに変えたときにコンバージョン率はどれくらいになるだろうか?」や「あるユーザに仮にクーポンを与えた場合に離反率はどれくらい減少するだろうか?」などの実務現場でよくある問いに答えるためには,反実仮想についての情報を知る必要がある. 反実仮想機械学習(CFML)とは,因果効果

                                              • 推薦システム実践入門

                                                情報化時代が到来し、日常で意思決定をする回数と選択肢の数が急増したことで、推薦システムの需要が高まっています。そのため、昨今では多くのウェブサービスへ新たに推薦システムの導入が検討されることも増えました。本書では、推薦システムの概要から、UI/UX、アルゴリズム、実システムへの組み込み、評価まで紹介し、適切な推薦システムの実装ができるようになります。「実際の仕事に活かす」ことを目的に、著者たちが実務で経験した推薦システムの成功事例や失敗事例を交えながら、実サービスに推薦システムを組み込むという観点を重視した入門的な内容です。 正誤表 ここで紹介する正誤表には、書籍発行後に気づいた誤植や更新された情報を掲載しています。以下のリストに記載の年月は、正誤表を作成し、増刷書籍を印刷した月です。お手持ちの書籍では、すでに修正が施されている場合がありますので、書籍最終ページの奥付でお手持ちの書籍の刷版

                                                  推薦システム実践入門
                                                • ベイズ統計・ベイズ機械学習を始めよう | AIdrops

                                                  ベイズ統計・ベイズ機械学習を始めよう コンピュータやネットワークの技術進化により,これまでにないほどの多種多様なデータを取り扱う環境が整ってきました.中でも統計学や機械学習は,限られたデータから将来を予測することや,データに潜む特徴的なパターンを抽出する技術として注目されています.これらのデータ解析を行うためのツールはオープンソースとして配布されていることが多いため,初学者でも手軽に手を出せるようになってきています. しかし,データ解析を目的に合わせて適切に使いこなすことは依然としてハードルが高いようです.この原因の一つが,統計学や機械学習が多種多様な設計思想から作られたアルゴリズムの集合体であることが挙げられます.毎年のように国際学会や産業界で新たな手法が考案・開発されており,一人のエンジニアがそれらの新技術を1つ1つキャッチアップしていくのは非常に困難になってきています. 1つの解決策

                                                    ベイズ統計・ベイズ機械学習を始めよう | AIdrops
                                                  • 意思決定の理由の可視化が可能なグラフ構造の学習アルゴリズムの紹介 - ZOZO TECH BLOG

                                                    ZOZO研究所の清水です。弊社の社会人ドクター制度を活用しながら、「社内外に蓄積されているデータからビジネスへの活用が可能な知見を獲得するための技術」の研究開発に取り組んでいます。 弊社の社会人ドクター制度に関しては、以下の記事をご覧ください。 technote.zozo.com 私が現在取り組んでいるテーマの1つに、「機械学習が導き出した意思決定の理由の可視化」があります。この分野は「Explainable Artificial Intelligence(XAI)」と呼ばれ、近年注目を集めています。 図.XAIに関連する文献数の推移(引用:https://arxiv.org/abs/1910.10045) その中でも今回はユーザに対するアイテムの推薦問題に焦点を当て、「なぜこのユーザに対して、このアイテムが推薦されたのか?」という推薦理由の可視化が可能なモデルを紹介します。 本記事の概要

                                                      意思決定の理由の可視化が可能なグラフ構造の学習アルゴリズムの紹介 - ZOZO TECH BLOG
                                                    • 「Kaggleで勝つデータ分析の技術」から見る実用的な機械学習の知見

                                                      はじめに 機械学習に関する実用的な知見を知るために、「Kaggleで勝つデータ分析の技術」を読んだので、Kaggle以外の場面でも活用できる話題をまとめてみた。本書は機械学習の基本的な内容も含んでいるが、この記事では機会学習に関する一通りの知識を持ち、実問題に利用している読者を想定してまとめた。従って、勾配ブースティング木の仕組みや、回帰タスクの評価方法等、基本的な内容については解説しない。本記事では、評価の落とし穴や、モデルを改善するための特徴量の工夫、チューニングのTipsについて紹介する。 特徴量 Tips 1: 欠損値の扱い データにはしばしば欠損値が含まれている。欠損値は、そもそも値が存在していない場合の他に、ユーザが意図して入力していない場合や、観測器のエラーによって取得できていない場合等、様々な理由によって生じる。欠損がランダムに発生していない限り、欠損しているという事実が何

                                                        「Kaggleで勝つデータ分析の技術」から見る実用的な機械学習の知見
                                                      • Python で学ぶベイズフィルタとカルマンフィルタ (翻訳) - inzkyk.xyz

                                                        翻訳について これは Roger R. Labbe 著 Kalman and Bayesian Filters in Python の翻訳です。英語版は CC BY 4.0 ライセンスで公開されています。 この翻訳は CC BY 4.0 ライセンスの許諾に基づいて公開されます。 PDF 版と Jupyter Notebook 版について この翻訳の PDF 版と Jupyter Notebook 版を BOOTH で販売しています。 謝辞 英語版の著者 Roger R. Labbe 氏に感謝します。 誤植を指摘して頂いた小山浩之氏 (https://twitter.com/0yama) に感謝します。

                                                          Python で学ぶベイズフィルタとカルマンフィルタ (翻訳) - inzkyk.xyz
                                                        • 握手会が延期になったので「効果検証入門」を読んで Python で (ほぼ) 実装した - 糞糞糞ネット弁慶

                                                          効果検証入門〜正しい比較のための因果推論/計量経済学の基礎 作者:安井 翔太発売日: 2019/12/27メディア: Kindle版 ゴールデンウィークの握手会が延期になり気力が完全に尽きてしまい(そもそも2020年のほとんどのイベントが延期または中止になっているわけですが),同じく握手会が延期になった友人と「アイドルとシロクマのことを考えないでください状態になっていてつらい」「何か没頭できる事は無いの」という話になった結果,「効果検証入門」を読んだ. 「どうせ読むのならば短期集中で」ということで,一日目午後に1章と2章,二日目午前に3章,午後に4章,三日目午前に5章のペースで Zoom で交互に節単位を音読しながら進めた.2020年,30歳を過ぎて音読. 感想 数学力が低い自分でわかった気分になれる,非常に参考になった.明日からでも試したい.随所に「実際のビジネスの現場ではこんな滅茶苦茶

                                                            握手会が延期になったので「効果検証入門」を読んで Python で (ほぼ) 実装した - 糞糞糞ネット弁慶
                                                          • 計算機統計学・ベイズ統計学周辺でのお勧めの教科書10冊 - Qiita

                                                            はじめに 千葉大学/Nospareの米倉です.今回は僕が専門にしている計算機統計学・ベイズ統計学周辺で僕が勝手にお勧めだと思う教科書を10冊簡単なコメント付きで紹介したいと思います.初学者向けといより,修士・博士課程位のレベルのが多いので,ややプロ向けです. お勧めのプログラミング言語 僕は普段Julia言語を用いています.特徴は非常に高速なのと,可読性の高さでしょうか.個人的にはPythonやRより優れていると感じていて,僕の周りの専門家でも使っている人が多いです. Robert and Casella "Monte Carlo Statistical Methods" この分野のバイブルと言えばバイブルみたいな感じですが,そう呼ぶにはちょっと頼りない感じもします.けどモンテカルロ法に興味がある人はマストバイです.色々な種類のモンテカルロ法が網羅的に紹介されています. Efron and

                                                              計算機統計学・ベイズ統計学周辺でのお勧めの教科書10冊 - Qiita
                                                            • PyCon JP 2019で見たセッションの聴講記録20個分 / 資料・動画・関連リンクなど - フリーランチ食べたい

                                                              2019年9月16日/17日に開催されたPyCon JP 2019で自分が直接/YouTubeで聴講したセッションについてのまとめです。主に下記の内容を書いています。 スピーカーURL 配信動画 スライド 発表内で出てきたライブラリなどのURL 自分の感想 「あのセッションで話していたライブラリなんだっけ」と思い出したい方やざっくり内容が知りたい方に読んでいただければ幸いです。PyCon JPに自分も発表者としても参加し、スタッフとして参加し、Webサイトの開発もしたので、それについては改めて書きたいと思います。 pycon.jp PythonとAutoML / 芝田 将 スピーカー: https://twitter.com/c_bata_ 動画: https://www.youtube.com/watch?v=Whkwu46DgBs スライド: https://www.slideshar

                                                                PyCon JP 2019で見たセッションの聴講記録20個分 / 資料・動画・関連リンクなど - フリーランチ食べたい
                                                              • 8行のデータで理解する階層ベイズ - Qiita

                                                                学習効果を統計的に評価したい! こんにちは グロービスではさまざまな教育事業を展開していますが、多くの人に学習を継続してもらうためには、研修をしたりコンテンツを視聴してもらったりするだけでなく、その学習効果を測定してユーザーにフィードバックすることが重要です。このとき、だれが見ても明らかな効果が出れば良いのですが、受講前後の成績変化のばらつきが大きかったりデータが少なかったりして、必ずしも分かりやすい結果が得られるとは限りません。そういった場合にデータを丁寧に紐解いて、どの程度効果があったのかを明らかにするのも分析の仕事のひとつです。 今回は階層ベイズモデルという統計モデルを使って、高校における学力コーチングの成果についてのデータを分析します。階層ベイズはやや高度な統計モデルというイメージがありますが、この記事ではたった8行のデータを例にしてその概要を説明してみたいと思います。 想定読者

                                                                  8行のデータで理解する階層ベイズ - Qiita
                                                                • 2022年版:実務の現場で働くデータサイエンティスト向け推薦書籍リスト(初級5冊+中級8冊+テーマ別14冊) - 渋谷駅前で働くデータサイエンティストのブログ

                                                                  (Image by ElasticComputeFarm from Pixabay) 今年も恒例の推薦書籍リストの季節がやって参りました。……なのですが、相変わらず続くCOVID-19の影響*1でデータ分析業界及び隣接分野の新刊書を読む機会が減ったままにつき、例年とほぼ同じラインナップになっている点、予めご容赦いただければと思います。 初級向け5冊 総論 R・Pythonによるデータ分析プログラミング 統計学 機械学習 中級向け8冊 統計学 機械学習 テーマ別14冊 回帰モデル PRML 機械学習の実践 Deep Learning 統計的因果推論 ウェブ最適化 ベイズ統計 時系列分析 グラフ・ネットワーク分析 SQL コメントなど 初級向け5冊 初級向け書籍リストはあまり出入りがないのが通例ですが、今回も微妙に入れ替わりがあります。 総論 AI・データ分析プロジェクトのすべて[ビジネス力×

                                                                    2022年版:実務の現場で働くデータサイエンティスト向け推薦書籍リスト(初級5冊+中級8冊+テーマ別14冊) - 渋谷駅前で働くデータサイエンティストのブログ
                                                                  • GitHub - mjl-/mox: modern full-featured open source secure mail server for low-maintenance self-hosted email

                                                                    Quick and easy to start/maintain mail server, for your own domain(s). SMTP (with extensions) for receiving, submitting and delivering email. IMAP4 (with extensions) for giving email clients access to email. Webmail for reading/sending email from the browser. SPF/DKIM/DMARC for authenticating messages/delivery, also DMARC aggregate reports. Reputation tracking, learning (per user) host-, domain- an

                                                                      GitHub - mjl-/mox: modern full-featured open source secure mail server for low-maintenance self-hosted email
                                                                    • ベイズ最適化で最高のコークハイを作る - わたぼこり美味しそう

                                                                      はじめに コークハイとか酎ハイをお店で飲むと、割り方とかレモンが効いていたりとかでお店によって結構違いが出ますよね 自分好みの最高のコークハイの作り方を知ることは全人類の夢だと思います。 本記事は一足先にそんな夢に挑戦したという記事です。 手法としてはベイズ最適化を使用します。 実データで実験計画と絡めながらベイズ最適化を実際に行う記事はあまり見かけなかったので今回は、 最適化パラメータ 1. コーラとウイスキーの比 2. レモン汁の量 目的変数 コークハイの美味しさ という2次元入力、1次元出力で実際に実験とチューニングを並行しながら行ってみたいと思います。 目次 はじめに ベイズ最適化とは 実験系の説明 実験条件 実験で考慮しないこと(パラメータ) 実験材料 実験方法 スコアの付け方 実験をやりました(本題) 実装コード 実験開始 ARDありver. 反省点 さいごに ベイズ最適化とは

                                                                        ベイズ最適化で最高のコークハイを作る - わたぼこり美味しそう
                                                                      • AI科学者「AI-Descartes」 データと理論から最適な数式を自動推論 「相対性理論」などで実証

                                                                        Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2 IBM Research、Samsung AI、米メリーランド大学、米ミネソタ大学、米コロンビア大学に所属する研究者らが発表した論文「Combining data and theory for derivable scientific discovery with AI-Descartes」は、データと理論を与えると一般的な論理的公理によって表現された事前知識を尊重しながら、データを正確に記述する意味のある最も適した数式を導き出すシステムを提案した研究報告である。 データによく合う方程式の候補を作成し、どの方程式が背景となる科学理論に最も適合するかを識

                                                                          AI科学者「AI-Descartes」 データと理論から最適な数式を自動推論 「相対性理論」などで実証
                                                                        • まえがき: 渡辺澄夫ベイズ理論の素晴らしさを多くの方に伝えたい | 機械学習の数理100問シリーズ

                                                                          渡辺澄夫先生と初めてお会いしたのは、私が産総研の麻生英樹先生が主催していた研究会に呼ばれて、90分程度のセミナーで話をしたときでした。大阪大学に(専任)講師として着任した1994年の初夏で、ベイジアンネットワークの構造学習に関する内容だったと思います。そのときに、2-3分に1回くらい、終わってみると全部で20-30回くらい私に質問をされた方がいました。その方が渡辺先生でした。 渡辺先生が、「学習理論の代数幾何的方法」というタイトルで、IBIS(情報論的学習理論ワークショップ)という機械学習の研究会で講演されたのは、それから5年ほど後のことでした。私自身も当時、代数曲線暗号や平面曲線に関する論文も書いていて(J. Silverman氏との共著論文は、100件以上引用されている)、ベイズ統計学と代数幾何学はともに自信がありました。しかし、渡辺先生のIBISの話は、オリジナリティに富みすぎていて

                                                                          • 『「数理科学を使えば統計の”主義”を争う必要ない」という主張について検討する』

                                                                            ・はじめに 統計学の歴史では、頻度主義とベイズ主義という異なる立場の方法が存在し、違いに論争を繰り広げてきました。しかし、近年の統計学者の中には「現代の統計学は数理的な方法に基づいているから、主義の争いは解決した」と考える人もいるようです(この立場のことを、この記事では便宜的に「統計数理による主義不要論」と呼ぶことにします)。この記事では、「統計数理による主義不要論」に対して私なりの反論を考えてみることにします。論点は、以下の3つです。 1.     「“数理的な方法”を使っても、主義の争いが解決しない」ということを示唆する事実が存在する 2.     頻度主義とベイズ主義の論争を「どちらの方法が正しいか」という争いとして捉えると論争の全体像を見誤る 3.     WAICに代表される現代ベイズ法の意義は、「数理によって主義の争いを解決した」のではなく「仮にあなたが頻度主義的な価値観を重視

                                                                              『「数理科学を使えば統計の”主義”を争う必要ない」という主張について検討する』
                                                                            • 『大塚(2020)「統計学を哲学する」を読む』

                                                                              光栄にも大塚淳先生より新著「統計学を哲学する」(名古屋大出版会: 以下「本書」)を御恵投いただきました。御礼に替えて、簡単に内容を紹介し議論をしていこうかと思います。特に本書が導入した「存在論」「意味論」「認識論」という三つの区別の意義を大久保の視点から論じます。最後に、私が関心を持った今後の展開について言及します。 ・はじめに 科学哲学とは、どのような分野なのだろうか。もちろん私が考えるにはあまりにも大きすぎる問だが、他の人に紹介するなら「科学における概念や論争を分析すること」あるいは「ある学術的主張の背後で暗黙的に措定されている前提を分析すること」と答えるかもしれない。本書の著者がTwitter述べた通り、 Jun Otsuka@junotk_jp あと哲学っていうと論理が及ばないところを棍棒で殴り合う、っていうイメージがあるみたいだけど、それは全くの誤解ですね。むしろ私のイメージする

                                                                                『大塚(2020)「統計学を哲学する」を読む』
                                                                              • MCMCをフルスクラッチで実装するトレーニング方法 - Qiita

                                                                                はじめに 東京大学・株式会社Nospareの菅澤です. 今回はベイズ統計を用いたデータ分析を実施する上で欠かせないマルコフ連鎖モンテカルロ法(いわゆるMCMC)をフルスクラッチで実装するためのトレーニング方法と,そのための参考書について紹介いたします. 最近ではstanのように,モデルと事前分布を記述するだけで汎用的にMCMCが実行できてしまう環境が整っていますが, そもそもMCMCがどういう流れで動いているのか理解する stanなどの汎用ツールがうまく使えない(orうまく動かない)場面に遭遇したときに自分の手で実装できるようにする ためには,標準的なモデルでMCMCをフルスクラッチで実際に組んだ経験が重要になってくると思います. 参考書について トレーニングのために私がオススメするのは以下の本です. J. Chan, G. Koop, D. J. Poirier, J. L. Tobia

                                                                                  MCMCをフルスクラッチで実装するトレーニング方法 - Qiita
                                                                                • RecBole を用いてクックパッドマートのデータに対する50以上のレコメンドモデルの実験をしてみた - クックパッド開発者ブログ

                                                                                  こんにちは。研究開発部の深澤(@fufufukakaka)です。 本記事では最近面白いなと思って watch しているレコメンド系のプロジェクト RecBole を紹介いたします。また、クックパッドが展開している事業の一つであるクックパッドマートのデータを使って数多くのレコメンドモデルを試す実験も行いました。その結果も合わせて紹介します。 TL;DR: レコメンドモデルは作者実装に安定性がなく、またモデルをどのように評価したかも基準がバラバラで、再現性が難しいとされている(from RecSys 2019 Best Paper) 再現性に取り組むプロジェクトとして 2020年12月に始まった RecBole がある。 RecBole を利用することでなんと 50個以上のレコメンドモデルを大体1コマンドで試せる クックパッドマートでユーザに対してアイテムをレコメンドするシチュエーションを想定

                                                                                    RecBole を用いてクックパッドマートのデータに対する50以上のレコメンドモデルの実験をしてみた - クックパッド開発者ブログ