ni66lingのブックマーク - はてなブックマーク

実際問題、Few-Shot学習手法SetFitはいつ使うとよいのか？ - Qiita
概要少量の学習データ（Few-Shot）でも精度が出る深層学習手法が登場してきています。その一つがSetF itです。テキスト分類向けのFew-Shot学習手法です。本記事では、SetF itを使うとよい（使わない方がよい）場面を見極めるために、リアルな問題に近い日本語ニュースジャンル分類タスクをお題に、学習データ数を変えながらそこそこ強い日本語T5と戦わせてみます。忙しい方向けに最初に結論をまとめ、その後にSetF itの使い方の説明を兼ねて実験を再現するためのコードの解説をしていきます。結論 Livedoor news記事のジャンル分類タスク（9分類タスク）について、クラスあたりのデータ数を2倍ずつ変えながら、SetF itと日本語T5それぞれについて分類精度を計測しました。結果は下図のとおりです。なお、クラスあたりのデータ数は全クラスで同一（均衡）になるようにランダムサンプリン
ni66ling 2024/02/23
クラスあたりのデータ数が64個未満（合計576個未満）ならSetFit, それ以上ならT5等

SetFit

few-shot learning

qiita

2022
リンク
【日本語モデル付き】2020年に自然言語処理をする人にお勧めしたい文ベクトルモデル - Qiita
2023/03/20 追記 Studio Ousia様によるLUKEモデルをベースに学習したSentence-LUKEモデルを公開しました。 Sentence-LUKEモデル: https://huggingface.co/sonoisa/sentence-luke-japanese-base-lite 手元の非公開データセットでは、日本語Sentence-BERTモデル（バージョン2）と比べて定量的な精度が同等〜0.5pt程度高く、定性的な精度は本モデルの方が高い結果でした。 2021/12/14 追記 MultipleNegativesRankingLossを用いて学習した改良版モデルを公開しました。改良版（バージョン2）のモデル: https://huggingface.co/sonoisa/sentence-bert-base-ja-mean-tokens-v2 手元の非公開デー
ni66ling 2020/09/22
sentence bert

bert

日本語

qiita

model
リンク
1

はてなブックマーク

タグ

ブックマーク / qiita.com/sonoisa (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / qiita.com/sonoisa (2)

実際問題、Few-Shot学習手法SetFitはいつ使うとよいのか？ - Qiita

【日本語モデル付き】2020年に自然言語処理をする人にお勧めしたい文ベクトルモデル - Qiita

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス