Amazon Web Servicesの年次イベント「AWS re:Invent 2018」では、ファイルシステム、データベース、セキュリティ、機械学習など多岐にわたるサービスが発表されたが、その中から「Amazon Textract」を紹介しておきたい。 OCRを越えたテキスト抽出サービス Amazon Textractはスキャン文書からテキストおよびデータを自動的に抽出するサービスだ。基本機能はOCR (Optical Character Recognition)と同等だが、コンテキストを加味してデータを抽出し整理する点がOCRとは大きく異なる。OCRはただ文字データを抽出するだけだが、Amazon Textractではどの部分の文字列がどの意味を持っているかを加味して整理してくれるのだ。 Amazon Textract 例えば、現在は、印刷された文書をオペレーターが手動で電子データと