タグ

ブックマーク / signate.jp (1)

  • 国立国会図書館の画像データレイアウト認識 | SIGNATE - Data Science Competition

    背景 図書館が所蔵資料をデジタル化することは、資料の検索可能性や提供可能性を向上させる上で重要な意味を持ちます。デジタル化は、多くの場合テキスト情報を持たない画像データの作製にとどまっており、そのままでは資料文中に記述されている情報を検索することができませんが、昨今のOCR技術の進展により、画像データからテキストデータを作成することで文検索が可能になるため、技術的検討が進められています。例えば、国立国会図書館ではOCRを利用した文検索機能を含む、機械学習技術を応用した実験的検索サービス「次世代デジタルライブラリー(https://lab.ndl.go.jp/dl/)」が公開されています。しかし、昭和前期以前に刊行された資料の画像は、撮影時の資料の状態や現代の刊行物とのレイアウトの違いといった問題から、新刊書等をOCR処理する場合に比べてテキスト化の精度が大きく低下するという課題があり

    国立国会図書館の画像データレイアウト認識 | SIGNATE - Data Science Competition
    kitone
    kitone 2020/01/15
    賞金(総額60万)はどこから出るんだろう
  • 1