マコなり社長 @mako_yukinari あ…ありのまま 今 起こった事を話すぜ! 「おれは Google Driveで画像を開いたと 思ったら いつのまにか文字がすべて書き起こされていた」 な… 何を言っているのか わからねーと思うが おれも 何をされたのか わからなかった… pic.twitter.com/DFGD03VH9z 2018-02-01 09:46:18
昨日ツイッターのフォロワーさんがTLで「人を殴ったらかなり痛いくらいの紙書類の束渡されて、一晩で再編集とか死ぬる」とおっしゃってまして、まだまだ紙ベースの業務進行ってありますしPCに取り込んで効率的にさばくにはどうしたらいいだろうなーと思いまして。 調べてみたところ、GoogleDriveでもテキストスキャンした画像ファイルをOCR変換する機能があるらしくちょっとサンプル作って試して見ましたので本日はそのレビューを。 【追記】縦書き版の検証記事も書いときました。あわせて参考にどうぞ。 GoogleDriveOCR、縦書きだったらどうなのよ? Google Drive OCRの使い方GoogleDrive利用するにはとりあえずGoogleアカウント必要なのでない方はまずそちらのご用意を。GoogleDriveの導入については過去に サービス開始したオンラインストレージ『Google Driv
電子化業界では、なぜか、「80%以上の精度」にこだわります。通称「80%ルール」です。 Our experience suggests that should the word accuracy be greater than 80%, then most fuzzy search engines will be able to sufficiently fill in the gaps or find related words such that a high search accuracy (>95-98%) would still be possible from newspaper content because of repeated significant words. http://www.dlib.org/dlib/july09/munoz/07munoz.html とい
国会図書館とグーグルのデジタルデータは 似て非なるもの ここまで「本」のデジタル化という表現をしてきましたが、そのデジタル化の具体的な内容については説明していませんでしたので、今回は「デジタル化の中身」を取り上げたいと思います。グーグルでのデジタル化と、現段階における国会図書館のデジタル化とはその実態においてかなりの違いがあるからです。 前回、国会図書館は約15万冊の蔵書のデジタル化を終え、今回の補正予算によって新たに75万冊の蔵書デジタル化を進める計画が進行中であることを説明しました。この国会図書館のデジタル化データは、現段階では全て画像となっています。「本」のページをスキャンしたイメージが画像データとして保存されている、ということです。もちろん、「本」のタイトルや著者名、発行年月日といった情報は別途デジタルデータ化され、画像データと関連付けて保存されています。国会図書館が提供してい
ニュージーランド国立図書館が、2001年から実施している新聞デジタル化プロジェクト(ウェブサイト“Papers Past”で公開中)に関連して、デジタル化した画像をOCRを使ってテキスト化する際に、白黒二値(bitonial)画像とグレイスケール(greyscale)画像とで正確さにどの程度相違があるかを調査した結果を、D-Lib Magazine誌2009年3/4月号で発表しています。これによると、白黒二値の方が少し正確性が高いが、双方に有意な差は見られなかったとのことで、プロジェクトチームは同館に対し、当面は白黒二値でのデジタル化を続けることと、継続的に関連情報を収集しデジタル化方針をレビューすることを勧告しています。 Tracy Powell ; Gordon Paynter. Going Grey?: Comparing the OCR Accuracy Levels of Bit
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く