sh19910711のブックマーク - はてなブックマーク

sh19910711 id:sh19910711

ブックマーク / qiita.com/keitakurita (2)

Kaggle Masterに学ぶ実践的機械学習[Kaggle TalkingData Competition編] - Qiita
Kaggleでは世界トップクラスのデータサイエンティストが集まり，しのぎを削りながら賞金を狙って日々データを分析しています．これは意外と知られていないのですが，Kaggleはただ単にみんなが競争しているだけでなく，かなり活発なフォーラムがあり，そこでcompetitionが終わった時に優れた結果を残したmasterたちが自分の手法を紹介することが通例となっています．この記事では，先日終了したKaggle TalkingData Competitionで3000以上の参加者の中で特に優れた結果を残した一部の参加者の用いた手法とそこから学べることについて分析・紹介していきます． Competitionの趣旨 Kaggle TalkingData Competitionは大量のクリックデータを元にアプリがダウンロードされるかどうかを予測するという趣旨のcompetitionでした．用いる特
sh19910711 2024/04/20
"TalkingData Competition: 大量のクリックデータを元にアプリがダウンロードされるかどうかを予測 / Categorical Embedding: カテゴリー同士の共起回数（またはそのlog）を要素とする行列を計算 + SVD・NMF・LDAで分解" 2018

*algorithm

contest

--

機械学習
リンク
Collective Matrix Factorization - 自然言語データのエレガントなデータ探索法 - - Qiita
データ解析を行う上でデータの性質を知ることは欠かせません．データの性質を知ること自体が価値を持つこともありますし，正しい前処理の方法やモデルを選択する為にもデータの性質を知らなければいけません．カテゴリー型の変数なら分布や従属変数との関係などの簡単な統計量を調べるだけでも多くのことがわかります．しかし自然言語データの場合は全く同じ文章が２度現れることはまずありません．文章を単語単位に分解して考えようとしても，単語の種類が膨大なため，データ探索は一筋縄ではいきません．自然言語データの探索法は色々ありますが，今回の記事ではその中でも - 教師ありデータと相性が良い - 間違った解釈に至りづらい - 数学的にエレガントな探索法であるCollective Matrix Factorization (CMF)について紹介します．要約自然言語データは高次元なので，次元を削減することが解釈の
sh19910711 2024/04/10
"CMF; Collective Matrix Factorization: 教師データを活用しながらトピックを抽出 / 文章と教師ラベルを格納する行列 + 文章のトピックの分布を表す行列と各トピックの目的変数への寄与を持つ重み行列の積で近似できるはず" 2018

*algorithm

NLP

行列
リンク
1