タグ

ブックマーク / qiita.com/jovyan (2)

  • Universal Sentence Encoderを使って文章の異常検知をする - Qiita

    概要 講談社MLPの「異常検知と変化検知」を読んで、何か具体的な問題で試してみたいと思ったので、「方向データの異常検知」を文章の埋め込みベクトルに適用して、文章群に混じった異質な文章を検知できるか試してみました。具体的には、夏目漱石の小説から取った文章群の中に企業の有価証券報告書から取った文章を少数だけ混ぜて、異質なデータである有価証券報告書の文章を検知する機械学習モデルを作成しました。埋め込みベクトル(分散表現)の計算にはMultilingual Universal Sentence Encoderを用いています。 方向データの異常検知 「異常検知と変化検知」(著:井出剛、杉山将)のChapter 7「方向データの異常検知」から必要な事項をまとめます。 正解ラベルの付いていないデータ $\mathcal{D}$ を用いて異常検知モデルを作成するときの基的な考え方は、データに含まれる異常

    Universal Sentence Encoderを使って文章の異常検知をする - Qiita
    antipop
    antipop 2020/09/21
  • ELMo, BERT, USEを使って文章の異常検知をする - Qiita

    概要 以前に投稿した記事 Universal Sentence Encoderを使って文章の異常検知をする では、Universal Sentence Encoder (USE)を用いて、夏目漱石の文章に混じった有価証券報告書の文章を見つけるというタスクを方向データの異常検知問題として扱いました。今回はUSEだけでなくELMoとBERTも用いて同種のタスクを解いて、3つのエンコーダーモデルを比較してみます。 日語事前学習済みのELMoとBERTは、どちらもストックマークが公開しているモデルを使用します。 大規模日語ビジネスニュースコーパスを学習したELMo(MeCab利用)モデルの紹介 大規模日語ビジネスニュースコーパスを学習したBERT事前学習済(MeCab利用)モデルの紹介 環境 計算はすべてGoogle Colaboratory上で行いました。BERTはTensorFlow 1

    ELMo, BERT, USEを使って文章の異常検知をする - Qiita
    antipop
    antipop 2020/09/21
  • 1