antipopのブックマーク - はてなブックマーク

Universal Sentence Encoderを使って文章の異常検知をする - Qiita
概要講談社MLPの「異常検知と変化検知」を読んで、何か具体的な問題で試してみたいと思ったので、「方向データの異常検知」を文章の埋め込みベクトルに適用して、文章群に混じった異質な文章を検知できるか試してみました。具体的には、夏目漱石の小説から取った文章群の中に企業の有価証券報告書から取った文章を少数だけ混ぜて、異質なデータである有価証券報告書の文章を検知する機械学習モデルを作成しました。埋め込みベクトル（分散表現）の計算にはMultilingual Universal Sentence Encoderを用いています。方向データの異常検知「異常検知と変化検知」（著：井出剛、杉山将）のChapter 7「方向データの異常検知」から必要な事項をまとめます。正解ラベルの付いていないデータ $\mathcal{D}$ を用いて異常検知モデルを作成するときの基本的な考え方は、データに含まれる異常
antipop 2020/09/21
リンク
ELMo, BERT, USEを使って文章の異常検知をする - Qiita
概要以前に投稿した記事 Universal Sentence Encoderを使って文章の異常検知をするでは、Universal Sentence Encoder (USE)を用いて、夏目漱石の文章に混じった有価証券報告書の文章を見つけるというタスクを方向データの異常検知問題として扱いました。今回はUSEだけでなくELMoとBERTも用いて同種のタスクを解いて、３つのエンコーダーモデルを比較してみます。日本語事前学習済みのELMoとBERTは、どちらもストックマークが公開しているモデルを使用します。大規模日本語ビジネスニュースコーパスを学習したELMo（MeCab利用）モデルの紹介大規模日本語ビジネスニュースコーパスを学習したBERT事前学習済（MeCab利用）モデルの紹介環境計算はすべてGoogle Colaboratory上で行いました。BERTはTensorFlow 1
antipop 2020/09/21
リンク
1

はてなブックマーク

タグ

ブックマーク / qiita.com/jovyan (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第1週）

今週のはてなブックマーク数ランキング（2024年5月第4週）

今週のはてなブックマーク数ランキング（2024年5月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / qiita.com/jovyan (2)

Universal Sentence Encoderを使って文章の異常検知をする - Qiita

ELMo, BERT, USEを使って文章の異常検知をする - Qiita

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第1週）

今週のはてなブックマーク数ランキング（2024年5月第4週）

今週のはてなブックマーク数ランキング（2024年5月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス