研究・開発に関するwackyhopeのブックマーク (767)

  • まとめ - 主成分分析、PLS関連 - 東京に棲む日々

    業でPLSに関してちょっとまとめる必要があるので、計算を主成分分析から始めてたどってみた。 以下、過去記事のまとめ。 主成分分析を計算してみる http://highschoolstudent.hatenablog.com/entry/2013/04/20/101836 主成分分析を、固有値問題、スペクトル分解で解いた。 Rのprcomp()関数を使ってみた。 主成分分析と特異値分解 http://highschoolstudent.hatenablog.com/entry/2013/04/21/125222 特異値分解とそのプロパティ。 主成分分析を特異値分解で解いた。 主成分分析をNIPALSアルゴリズムで解いてみる http://highschoolstudent.hatenablog.com/entry/2013/04/23/192356 その他主成分分析に関する関連事項。 主成

    まとめ - 主成分分析、PLS関連 - 東京に棲む日々
    wackyhope
    wackyhope 2017/04/25
    参考に。"ニューラルとかの方があてはまりは良くなる/ニューラルは変数間の関係性が不鮮明ということで、線形モデルのPLSがエンジニアリングの分野では好まれる場合があると思う"
  • Microsoft PowerPoint - 2b.PLS入門.ppt

    wackyhope
    wackyhope 2017/04/25
    PLS(部分的最小二乗法)入門。参考に。
  • プログラミング

    RでPLSを初めて行う時、正直使い方がわからなくて困りました。 なぜかRjpWikiでPLSを検索しても引っかからないし...。 ネット上でRでのPLSの仕方を紹介しているサイトもあるんですが、少し昔のバージョンが紹介されているので、新しいバージョンの説明をここでして、皆さんの助けになればいいかなと思ってます。 library(pls) data(yarn) Rでのヘルプと同じように今回はRにもともとついているデータセットyarnを用いてPLSを行いたいと思います。 まず、library(pls)でパッケージplsを使えるようにします。パッケージplsがRに入ってない人はダウンロードしておきましょう。 続いて、data(yarn)でyarnのデータセットを扱いやすくしておきます。 なおRでPLSを行う際は分散が0の説明変数をもちいるとエラーとなります。必ず分散0の説明変数は取り除いておきま

    wackyhope
    wackyhope 2017/04/25
    RでPLS回帰を行うパッケージ、方法。参考に。
  • RColorBrewer | R でグラフを描く際に使える便利なカラーパレット

    wackyhope
    wackyhope 2017/04/25
    参考に。"様々な美しいカラーパレットが含まれている。アメリカの地理学者 Cynthia A. Brewer が考案したカラーパレット"
  • 英語による科学論文の書き方 “Scientific Writing in English” Learn how to write papers and presentations — KYOTO-U OPEN COURSEWARE

    英語による科学論文の書き方 “Scientific Writing in English” Learn how to write papers and presentations

    wackyhope
    wackyhope 2017/04/25
    京大の公開講座。YouTubeの講義ビデオへのリンク有り。
  • Nakagawa HP - SlideShareのアップロード一覧

    AIと社会、倫理 最終講義資料:人工知能と社会 AI倫理 AI Ethics and Accountability, Privacy Protection AI takes over human jobs AI アカウンタビリティと AI兵器 人工知能倫理と法制度、社会 自動運転車と情報環境 AGIへの道程:2017年度版 シンギュラリティ以前 シンギュラリティ以後 プライバシー保護の数理 Deformation Caused by Anonymization パーソナル履歴データに対する匿名化と再識別 SCIS2017での発表資料 Privacy Protection

    Nakagawa HP - SlideShareのアップロード一覧
    wackyhope
    wackyhope 2017/04/22
    中川裕志氏の公開資料(Slide Share)へのリンク集。機械学習関連も多数。参考に。
  • 線形回帰および識別

    オンライン学習 オンライン(あるいは逐次)学習とは データを1つづつ読み込んで、それまでの学習結果 を更新する。 2つの利用局面 1. データ全体は保持しているが、学習を1データ毎に行う 2. データが1こずつ時系列としてやってくる この場合はストリームという。 データ全体をメモリの乗せなくてよいのでマシンに必 要なメモリ少、あるいはメモリに乗りきらないほど大 きなデータから学習可能 1個のデータからの学習(これを1ラウンドという)だけ なら高速 オンライン学習の定式化 以下1,2,3を時刻 t=1,2,…,Tで繰り返す 1. 時刻tにおいて、仮説ht、入力データxt 、正しい結果 データytが与えられる。 2. 仮説ht による結果ht (xt)を計算し、その後でytとの 比較を損失関数lによって行う。つまりl(ht ,(xt , yt )) を計算 3. 損失関数lの値に応じて

    wackyhope
    wackyhope 2017/04/22
    中川裕志氏による東大での資料。参考に。/氏のリンク集でのタイトルが『線形回帰および識別』のため、ブクマページタイトルにも反映。
  • ビッグデータ時代の機械学習アルゴリズム:オンライン学習

    キーワードで探す カテゴリで探す トレンドを知る 事例を知る 展望を知る 技術ブログ サービスで探す コンサルティング CRMSalesforce) ERP(SAP/Biz∫) 顧客接点・決済 カーボンニュートラル SCM・ロジスティクス 電子申請 データ&インテリジェンス アプリケーション開発・管理 ブロックチェーン 量子コンピュータ・イジングマシン デジタルツイン IoT ロボティクス・RPA クラウド ネットワーク データセンター サイバーセキュリティ アウトソーシング 生成AI 業種で探す 金融 官公庁・自治体 医療・ヘルスケア 防災・レジリエンス 品 流通・小売 モビリティ 製薬・ライフサイエンス 農・農業 製造 通信・放送 電力・ガス・水道 建設・不動産 個人のお客様向け 教育 トピックで探す Foresight Day サステナビリティ キーワードで探す カテゴリで探す

    ビッグデータ時代の機械学習アルゴリズム:オンライン学習
    wackyhope
    wackyhope 2017/04/22
    参考に。"データを1つずつ読み込んでモデル更新を繰り返すことで学習を行う手法/新たなデータのみを既存のモデルに取り込む逐次更新が可能"
  • 確率的勾配降下法 - Wikipedia

    ミニバッチを使い上下に行ったり来たりしながら目的関数の値が減少していく例 確率的勾配降下法(かくりつてきこうばいこうかほう、英: stochastic gradient descent, SGD)は、連続最適化問題に対する勾配法の乱択アルゴリズム。バッチ学習である最急降下法をオンライン学習に改良したアルゴリズムである。目的関数が微分可能な和の形であることを必要とする。 背景[編集] 下記の和の形の目的関数を最小化する問題を扱う。 パラメータ はQ(w) を最小化するように推定する。典型的には、 は i 番目の訓練データ。 古典的な統計学において、和の最小化問題は、最小二乗問題や最尤推定問題などにあらわれる。一般的なケースでは、和を最小化する推定量はM推定量と呼ぶ。しかしながら、Thomas S. Fergusonの例[1]などで示されるように、いくつかの最尤推定の問題において、最小解ではな

    確率的勾配降下法 - Wikipedia
    wackyhope
    wackyhope 2017/04/22
    参考に。"確率的勾配降下法(オンライン学習)では、Q(w) の勾配は、1つの訓練データから計算した勾配で近似/全てではないが複数の訓練データで勾配を計算する方法をミニバッチ"
  • Caretで機械学習 (Elastic netとその友達)

    Caretで機械学習 (Elastic netとその友達) はじめに glmnetパッケージを利用すると, elastic netによる回帰が簡単にできます. また, elastic netでハイパーパラメータの値を調整すれば, LassoもRidge回帰も試せます. クロスバリデーションによるハイパーパラメータ設定は, caret::trainを使うと楽です. 簡単な例で, caretでelastic netをやってみます. パッケージ読み込み library(dplyr) library(data.table) library(caret) library(mlbench) 使うデータ mlbenchパッケージに入っているSonarデータを使います. ソナーを, 金属か岩に当てた結果を表しているらしいです. データの内容は, 反響に含まれる60種類の周波数について, それぞれの強度を表

    wackyhope
    wackyhope 2017/04/19
    caretパッケージでglmnet(Elastic Net, LASSO, Ridge)を使用する実例。ちょうどやりたかったところなのでありがたい。参考に。
  • 同じデータセットに対するアプローチの違いから見る「データ分析のステージ」 - 渋谷駅前で働くデータサイエンティストのブログ

    追記 (2015/02/21) いくつか抜けてるところがあったなぁと思ったので、後から追記や加筆修正してみました。最初のオリジナル版から少し内容が変わっているところがありますがご了承ください。 ちょっと前の記事でこんなネタをやってみたわけですが。 世の中には色々な「データ分析」のやり方があるなぁと思った時に、この同じ2013年のテニス四大大会のデータからそれぞれのやり方をしている人たちがどんな異なるアプローチを取るのかなぁとふと想像したもので、半分ネタ的に書いてみました。便宜的に以下のようにステージを分けてあります。 集計ステージ 検定ステージ 相関ステージ 重回帰分析ステージ 機械学習を含めたモデリングステージ 厳密性に拘るステージ なお、データは以前の記事と同じこちらのものをお使い下さい。 その上で、Rで分析する際は以下のように前処理しておきます。単にプレイヤー名・獲得ゲーム数・総獲得

    同じデータセットに対するアプローチの違いから見る「データ分析のステージ」 - 渋谷駅前で働くデータサイエンティストのブログ
    wackyhope
    wackyhope 2017/04/16
    参考に。データ解析のみでゴリゴリ進める場合という感じかな。変数の絞込みで、ドメイン知識使って変数の妥当性を検討する場合には、どの辺りからデータ解析と絡めるのかも聞いてみたい。
  • すべてがMFになる - Fire and Motion

    すべてがFになる,映像化するみたいですね.犀川創平も西之園萌絵も配役がイメージと違って一部で話題になっていました.さて,最近テンソル分解を使った論文をよく見かけるのですが,いまだにきちんと整理できずにいます.テンソルかわいいよ,テンソル. そこで,まずは行列分解(matrix factorization, matrix decomposition)を整理してみようと思います.行列の分解手法というと線形代数的な観点からは簡単に思いつくだけでも 固有値分解 LU分解 コレスキー分解 などがありますが,これらは分解前の行列と分解後の行列が一致する(たとえばA=LU)方法です.一方で,機械学習やデータマイニング界隈(特にレコメンデーション等)で出てくる行列分解というのは,大規模データや関係性データの中から低ランクの構造を抽出することや次元圧縮を目的としています.なので,正確に言うならば,行列分解と

    すべてがMFになる - Fire and Motion
    wackyhope
    wackyhope 2017/04/16
    参考に。"行列分解(matrix factorization, matrix decomposition)を整理/機械学習やデータマイニング界隈(略)で出てくる行列分解というのは(略)行列分解というよりは低ランク行列近似と呼ぶ方が正しいように思います"
  • アルゴリズム - Wikipedia

    アルゴリズム(英: algorithm[注 1])とは、解が定まっている「計算可能」問題に対して、その解を正しく求める手続きをさす[注 2]。あるいはそれを形式的に表現したもの。 実用上は、アルゴリズムの実行に要する記憶領域の大きさや完了までに要する時間(空間計算量と時間計算量)が小さいこと、特に問題の規模を大きくした際に必要な記憶領域や計算量が急激に大きくならないことが重要となる。 アルゴリズムの実行は形態によらない。コンピュータプログラムはコンピュータ上に実装されたアルゴリズムの例である。 概要[編集] フローチャートはアルゴリズムの視覚的表現としてよく使われる。これはランプがつかない時のフローチャート。 岩波国語辞典「算法」に、まず「計算の方法」とした後に2番目の詳細な語義でalgorithmの訳として、 特に、同類の問題一般に対し、有限回の基的操作を、指示の順を追って実行すれば、

    アルゴリズム - Wikipedia
    wackyhope
    wackyhope 2017/04/15
    「モデル」と「アルゴリズム」の関係。"計算可能性のための数学モデル(計算モデル)がいくつも提案され/現在では「これらによって『計算可能なもの』を計算する手続き」をアルゴリズムと呼ぶ"
  • 施策の効果をどうやって測るか(2) - 検出力と効果量 - About connecting the dots.

    前回で仮説検定のお話をしましたが,その中で「有意水準」というものがでてきました.今回は,その有意水準を正しく検出できる力(=検出力)と,検出された効果の実質的な意味(=効果量)についてみていきます. 有意水準とは 前回でも触れましたが,有意水準(significance level)は,それより確率が低い事象が起きたときには「その事象は偶然ではない」と判断するための基準値です.分野によって違いますが,だいたいの行動科学では,通常は5%が,効果が検出しづらい研究対象/分野では10%が有意水準として使われる場合が多いです.なので,5%とか10%とかに実質的な意味はありません.単なる慣習です. サンプルサイズと検出力 検定を行う対象となる統計量は,基的にはサンプルサイズが増えれば増えるほど大きな値を取る傾向があります.たとえば下の例は,スチューデントのt統計量ですが,式をみればわかる通り,サン

    wackyhope
    wackyhope 2017/04/15
    こちらも分析項目ごとの効果量の大小の目安も。参考に。
  • 効果量(effect size)のはなし - 渋谷駅前で働くデータサイエンティストのブログ

    統計学的検定の話を始めたら自分の勉強の方が止まらなくなってしまったので(笑)、ついでにやってみようと思います。ちなみにこの記事は前回のやたらブクマを集めた記事の続きみたいなものです。 そもそもビジネスの現場ではどういう「レベル」の統計学を使うべきなのか - 六木で働くデータサイエンティストのブログ 例えば有意ではないという結果になった時にそれが「実際に帰無仮説が真」なのか「単にサンプルサイズが小さくて検出力が足りないだけ」なのか判断せよという問題。前者なら果てしなくサンプルサイズを大きくしても有意にはならないし、後者なら今度は効果量(effect size)のことを考えなければいけません。 というように前回の記事では検出力(statistical power)と効果量(effect size)について触れたんですが、タイムリーに先日の第36回TokyoRでその辺の話をしてきたので*1、そ

    効果量(effect size)のはなし - 渋谷駅前で働くデータサイエンティストのブログ
    wackyhope
    wackyhope 2017/04/15
    Rのpwrパッケージと分析項目ごとの効果量の大小の目安も。参考に。
  • 残りの私たちにとって、Rが最高のプログラミング言語である理由 | POSTD

    訳注:2017/5/23、いただいた翻訳フィードバックをもとに記事を修正いたしました。 私はRを使用して6年以上になります。Rとの最初の出会いは、財政学におけるモンテカルロシミュレーションの博士課程の時で、紹介してくれたのはWolfgang Hörmannでした。プログラミング言語に関しては、それ以前にもいくつか使ったことがあり、最後のものはC++(これも私は大好きです)でしたが、それらのどれもRほど 便利 ではありません。 残りの私たちにとってRが最高の言語である理由をリストアップする前に、まず “残りの私たち” の定義を明確にしておきましょう。残りの私たちとは、ExcelユーザやSPSSユーザ、そしてコンピュータサイエンス(CS)界の外にいる人々(*)、つまり簡潔さを目指して努力しながら、同時にパワーと柔軟性を追求する “プログラムの利用者” のことです。Rは、そんな 私たち にとって

    残りの私たちにとって、Rが最高のプログラミング言語である理由 | POSTD
    wackyhope
    wackyhope 2017/04/15
    "残りの私たちとは、ExcelユーザやSPSSユーザ、そしてコンピュータサイエンス(CS)界の外にいる人々(*)、つまり簡潔さを目指して努力しながら、同時にパワーと柔軟性を追求する “プログラムの利用者” のこと"
  • data_sciesotist on Twitter: "統計手法(主に検定)の選び方のフローチャート https://t.co/DDp5pKYJPh (Bates大学Greg Anderson教授による)を訳した。初心者向けの本にも、あまりこういうのは載ってない。 https://t.co/Cm5ZPbrxkO"

    統計手法(主に検定)の選び方のフローチャート https://t.co/DDp5pKYJPh (Bates大学Greg Anderson教授による)を訳した。初心者向けのにも、あまりこういうのは載ってない。 https://t.co/Cm5ZPbrxkO

    data_sciesotist on Twitter: "統計手法(主に検定)の選び方のフローチャート https://t.co/DDp5pKYJPh (Bates大学Greg Anderson教授による)を訳した。初心者向けの本にも、あまりこういうのは載ってない。 https://t.co/Cm5ZPbrxkO"
    wackyhope
    wackyhope 2017/04/14
    まとめ資料として参考に。
  • 統計について相談するときに心がけておきたい3つのこと|Colorless Green Ideas

    統計について相談する場合に心がけておきたい点について。早めに相談を行い、統計で何でもできると思わず、情報を色々と出していくことが大事になる。 はじめに 今日は、統計について相談するときに心がけておきたいことを3つ紹介したいと思う。これらのことを心がけておくと、統計についての相談がうまくいき、良い結果が得られる可能性が高くなるだろう。 今回紹介するのは以下の3点である。詳細については後ほど説明する。 相談は早めに行う 統計は魔法の杖でないと知る 情報の出し惜しみをしない これら3点は、私が統計に関する相談を通じて得た経験則である。私は統計について特に詳しいというわけではないのだが、色々な人から統計の使用について相談を持ちかけられることがある。相談の中にはうまくいったものもあれば、うまくいかなかったものもある。成功の原因あるいは失敗の原因は個別の案件ごとに違うのだが、うまくいった相談の場合、相

    統計について相談するときに心がけておきたい3つのこと|Colorless Green Ideas
    wackyhope
    wackyhope 2017/04/14
    最後に偶然(?)「化粧品会社のマーケティング担当者」という例があって笑ってしまった。心がけとしては本当にその通り。参考に。
  • Neural Networkで3対7程の不均衡データの2クラス分類問題を学習させてみたいのですが、何か良い方法をご教示いただけませんか。 | ask.fmhttps://ask.fm/TJO_datasci

    Neural Networkで3対7程の不均衡データの2クラス分類問題を学習させてみたいのですが、何か良い方法をご教示いただけませんか。 | ask.fmhttps://ask.fm/TJO_datasci
    wackyhope
    wackyhope 2017/04/10
    ニューラルネットワーク(R・nnet)での不均衡データに対する重み付け対応法。参考に。
  • Web開発におけるコンピュータサイエンス - 機械学習編2 - Hatena Developer Blog

    この教科書は、はてなサマーインターンの講義資料として作成されたものです: https://github.com/hatena/Hatena-Textbook 機械学習編1(基礎編)では、最も初歩的な分類器である単純パーセプトロンを題材に、機械学習の基について勉強しました。機械学習編2(実用編)では、実問題に機械学習を適用する上でのコツや、各種の機械学習アルゴリズムの使い分け、高次元データへの対処法、といったトピックについて解説していきます。 実問題に機械学習を適用する タスクを定義する データを特徴ベクトルに変換する 評価方法を決める 正解データの正例と負例は均等に ベースラインとなる手法を実装する 実データに向き合うときの心構え 機械学習のワークフロー 1. 前処理 データセット作成 サンプリング 特徴抽出 欠損値・欠測値への対応 値のスケーリング 特徴選択 次元削減 2. 学習 モデ

    Web開発におけるコンピュータサイエンス - 機械学習編2 - Hatena Developer Blog
    wackyhope
    wackyhope 2017/04/10
    続編。より実践的な課題と対応の方策、ワークフロー等。こちらも基礎的な部分は私の領域にも参考になる。