end-to-endの文書画像認識モデルDonutをファインチューニングする｜oshizo

テクノロジーカテゴリーの変更を依頼記事元:

note.com/oshizo

17 usersがブックマークコメント

コメント

1

記事へのコメント1件

注目コメント
新着コメント

misshiki “DonutはOCRを使わないend-to-endの文書理解モデルです。Vision Encoder Decoder Modelになっており、OCRエンジンに依存せずに視覚的な文書分類や情報抽出を高い精度で行う”

2023/05/08 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

end-to-endの文書画像認識モデルDonutをファインチューニングする｜oshizo

DonutはOCRを使わないend-to-endの文書理解モデルです。 Vision Encoder Decoder Modelになっており、OC... DonutはOCRを使わないend-to-endの文書理解モデルです。 Vision Encoder Decoder Modelになっており、OCRエンジンに依存せずに視覚的な文書分類や情報抽出を高い精度で行うことができます。 Donutは日本語を含む4言語で学習されたモデルnaver-clova-ix/donut-baseが公開されており、日本語で何かしたいときにファインチューニングして使えそうだなと思っていました。今回、AIキャラクターと一緒にノベルゲームをプレイするために、ノベルゲーム風画面の合成データセットでdonut-baseをファインチューニングしました。以下を目標として作成しました。 <unk>になる漢字をvocabに追加して学習する選択肢、名前、メッセージを別々に認識し、jsonを出力する SKIP、LOADなどのUIの文字、日付表示などを読み取らないルビを無視する

ブックマークしたユーザー

anoworl2023/08/14
TakayukiN6272023/05/20
unfini2023/05/18
gDomon2023/05/18
dhesusan46492023/05/18
secondlife2023/05/18
marutaku01312023/05/18
comb_81072023/05/18
misshiki2023/05/08
s_ryuuki2023/05/05
thorikawa2023/05/05
yuiseki2023/05/04
yag_ays2023/05/04

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx