[B! 行列][*algorithm] sh19910711のブックマーク

sh19910711 id:sh19910711

行列と*algorithmに関するsh19910711のブックマーク (4)

Matrix Factorizationとレコメンドと私 - Qiita
レコメンドにおける次元削減手法の一つであるMatrix Factorizationについてまとめた自分用メモ的なものです。なおタイトルは「部屋とYシャツと私」にちなんだだけで、ちなんだ意味はありません。 1. レコメンドシステムにおける次元削減 1.1 レコメンドの設定と協調フィルタリングすでにレコメンドをたくさんされている方にとってはとても当たり前の話かもしれませんが一応前提をば。今回考えるデータセットはMovieLens100kのように「ユーザ×アイテム」の行列でできているもので、例えば以下のような形のものを想定しています。レコメンドでおなじみの協調フィルタリング1では相関係数やコサイン類似度を用いてユーザ（orアイテム）同士の類似度を出し、それを用いた評価の予測値に基づきレコメンドをするという趣旨のものでした。この協調フィルタリングのようなレコメンド手法のことを近傍ベースア
sh19910711 2024/05/27
"synonymy: 赤い缶のコーラを買う人と青い缶のコーラを買う人はそれぞれ別の色のコーラを買わないと思われ + 通常の協調フィルタではこの赤い缶ユーザと青い缶ユーザの類似性をうまく捉えることができません" 2019

*algorithm

search

行列
リンク
【推薦システム】レコメンドアルゴリズムまとめ①【入門/協調フィルタリング/NMF】 - Qiita
一言で表すと、ユーザーの行動履歴に基づいた推薦アルゴリズム。メモリベースの手法とモデルベースの手法の二種類があります。メモリベース手法ユーザ間の類似性やアイテム間の類似性に着目して推薦を生成する手法です。このうち、さらにユーザーベースの手法とアイテムベースの手法に分類されます。特徴ドメイン知識を必要としない(商品の内容を知らなくてもレコメンドできる) 異なるジャンルをまたいだ推薦ができる利用者が多い場合に有利推定の都度全データに対して計算を行う(類似度を計算する)アプローチをとるのでデータのサイズに比例して計算コストが高くなる。ユーザーベース対象となるユーザーと類似した嗜好を持つユーザーのグループを調べることによって、各ユーザーに適したレコメンデーションを提供する手法です。メリットアルゴリズムがシンプル、データセットが頻繁に変更されても対応できる。デメリット巨大
sh19910711 2024/05/21
"Cold Start問題: 嗜好に関するデータがある程度集まらないと有意な推薦ができない / NMF: 元行列Vと分解したW,Hの要素の値がすべて非負値 + 基底ベクトルと係数を非負に限定することで、係数が疎になりやすく" 2021

*algorithm

search

行列
リンク
Collective Matrix Factorization - 自然言語データのエレガントなデータ探索法 - - Qiita
データ解析を行う上でデータの性質を知ることは欠かせません．データの性質を知ること自体が価値を持つこともありますし，正しい前処理の方法やモデルを選択する為にもデータの性質を知らなければいけません．カテゴリー型の変数なら分布や従属変数との関係などの簡単な統計量を調べるだけでも多くのことがわかります．しかし自然言語データの場合は全く同じ文章が２度現れることはまずありません．文章を単語単位に分解して考えようとしても，単語の種類が膨大なため，データ探索は一筋縄ではいきません．自然言語データの探索法は色々ありますが，今回の記事ではその中でも - 教師ありデータと相性が良い - 間違った解釈に至りづらい - 数学的にエレガントな探索法であるCollective Matrix Factorization (CMF)について紹介します．要約自然言語データは高次元なので，次元を削減することが解釈の
sh19910711 2024/04/10
"CMF; Collective Matrix Factorization: 教師データを活用しながらトピックを抽出 / 文章と教師ラベルを格納する行列 + 文章のトピックの分布を表す行列と各トピックの目的変数への寄与を持つ重み行列の積で近似できるはず" 2018

*algorithm

NLP

行列
リンク
疎行列の格納方式メモ - Negative/Positive Thinking
はじめに巨大だけどほとんどの要素がゼロであるような疎行列は、そのまま保持するより、要素がゼロじゃないところだけをうまく保持する事でメモリや計算量を減らせたりする。扱う行列のタイプによって、効率のよい形式がいくつかあるようなので代表的なものをメモしておく。 Coodinate(COO) Format 非ゼロ要素の(row indices, column indices, value)を要素数分持たせる形式非ゼロ要素が散らばっている場合に有利 0 4 0 0 2 0 0 0 1 を row 0 1 2 column 1 1 2 value 4 2 1 のように保持する。 compressed sparse row(CSR) Format / compressed sparse column(CSC) Format Coodinate Formatにおいて、左から右、上から下へ順番に要素を
sh19910711 2014/08/14
*algorithm

行列
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx