■イベント :【SenseTime Japan × Sansan】画像処理勉強会 https://sansan.connpass.com/event/230636/ ■登壇概要 タイトル:深層学習時代の文字認識とその周辺 発表者: 技術本部 DSOC R&D研究員 宮本 優一 ▼Twitter https://twitter.com/SansanRandD
D.M.です。今回は RPA にて PDF を OCR で読み取る検証をしたお話です。 TL;DR ・実用性は AI OCR しか勝たん。 ・AI OCR は Google vs Microsoft の構図。 両者精度高。 ・Google も Microsoft も API に無料枠があり Python などのプログラムで連携できる。 ・Microsoft は有料の RPA 連携機能が超絶楽勝なのでコードを書かない前提ならこっちも選択肢。非エンジニアでも楽々自動化できる。 ※関連記事 AI OCR でクレカ読み取りをやっています。 スマホNativeアプリでクレジットカード番号の読み取り機能の技術検証結果まとめ https://recruit.gmo.jp/engineer/jisedai/blog/technical_review_ocr_solutions_on_auto_detect
科学的知識は主に書籍や科学誌に保存されていますが、PDF形式が一般的です。しかし、この形式は特に数学的表現においてセマンティック情報の損失を引き起こします。この問題に対処するために、Meta AIの研究チームは『Nougat(Neural Optical Understanding for Academic Documents)』という新しいOCR(光学式文字認識)技術を開発しました。 Nougatは、数式や文章が複雑に配置された画像であっても、それをマークアップ言語に高品質で変換する能力を持っています。この技術は、新しい論文だけでなく、電子データが存在しない古い書類などの解析にも非常に有用です。 参照論文情報 タイトル:Nougat: Neural Optical Understanding for Academic Documents 著者:Lukas Blecher, Guillem
アプリ版ChatGPTの使い方 ダウンロード後、画像左端のようなログイン画面が表示されるので、すでにアカウントを持っている場合は「log in」からログイン、アカウント開設がまだの方は「Sigh in」からアカウント開設を行ってください。 ログインが完了すると、以下の注意事項が表示されます。 「Continue」をタップするとChatGPTを利用し始めることができます。 ChatGPT Plusとは?有料版の料金や限定の新機能について ChatGPT Plusとは一言で言えばChatGPTのより先進的なモデルである「GPT-4」を使えるプランのことです。料金は20ドル/月(約3000円弱)です。 ChatGPT Plus(GPT-4)限定の新機能としては「音声出入力」、「画像やPDF、Wordファイルなどの入力」、WEBブラウジング機能や各種プラグインなどがあります。また、通常のチャットに
LINEに画像、音声、動画ファイル、YouTubeのURLを投げると、AIがすべて自動で文字起こし📝して返してくれる「文字起こすくん」というサービスを作りましたー!🙌 もう面倒な文字起こし作業からは解放されましょー💡 以下からLINEの友達登録できます!https://t.co/cvTfCQIGHb pic.twitter.com/My09VqwWz9 — 2z / AIメーカー開発者 (@2zn01) August 24, 2019 こんにちは、2z(Twitter: @2zn01 )です。 趣味でWebサービスの個人開発をしており、以下のサービスを開発・運営しています! ■AIメーカー https://aimaker.io/ ■waifu2x-multi https://waifu2x.me/ ■ツイレポ https://twirepo.com/ 今回作ったもの LINEに文字起
4 September 2023 - Version 1.7.1 Fix several compatibilities 25 May 2023 - Version 1.7.0 Add Apple Silicon support (thanks@rayeesoft and @ArtemBernatskyy, see PR) Fix several compatibilities 15 September 2022 - Version 1.6.2 Add CPU support for DBnet DBnet will only be compiled when users initialize DBnet detector. 1 September 2022 - Version 1.6.1 Fix DBnet path bug for Windows Add new built-in mo
PDF を Gyazo に展開して Scrapbox の記事にして全文検索する という試みについてです。 まず PDF を Gyazo に展開して Scrapbox の記事にするということですが、これについてブラウザ上で簡単に動くツールを実装しました。 https://ssig33.github.io/pdftoscrapbox/ おそろしく素朴な見た目ですがとりあえず動きます。Chrome や Edge に Tamper Monkey (試してないけど Firefox と Greasemonkey でも動くんじゃないかな)を入れて、 input に Scrapbox のプロジェクト名を入れて user.js をインストールした上で赤いところに PDFをドラッグ&ドロップすると、 PDF.js で PDF でレンダリングした上で全てのページを Gyazo にアップロードして Scrapbo
この記事はLayerXテックアドカレ2023の5日目の記事です。 昨日はmakogaさんがEngineering Career Ladderを作るときに気をつけたこと 其の一を書いてくれました。 次回はyuya-takeyamaさんがMicrosoft Graph APIについて書いてくれます!乞うご期待! こんにちは、機械学習を通じて誰かをラクにしたい yakipuです。 今回は、10月から始まったインボイス制度に伴う適格請求書発行事業者登録番号(以下「登録番号」と表記します)のOCR読み取りの戦いについて記したいと思います。 インボイス制度は、売手が買手に対して正確な税率や消費税額を示す適格請求書(インボイス)を交付することで、買手が仕入税額控除の適用を受けるために必要な制度です。売手側は登録事業者として登録番号などが記載されたインボイスを交付し、買手側はインボイスを保存する必要があり
画像に含まれる文字をテキストデータ化する光学文字認識(OCR)は、請求書やレシート、名刺などの印刷物をデジタル化する手法として広く使われています。そんなOCRをディープラーニングフレームワークで実現したのが、オープンソースのOCRシステム「PP-OCRv2」のデモ版となる「PaddleOCR」です。 PaddleOCR - a Hugging Face Space by akhaliq https://huggingface.co/spaces/akhaliq/PaddleOCR GitHub - PaddlePaddle/PaddleOCR: Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recog
R&D チームの徳田(@dakuton)です。 最近は画像とテキストの狭間にいます。 今回記事のまとめ 簡単にまとめると以下のとおりです。 いくつかの超解像(高解像度化)モデルがOpenCV extra modules(opencv_contrib)インストール + コード数行記述で導入可能 超解像に限らず、文字が一定サイズ以上になるような前処理 -> OCR解析 を実施すると、OCR精度改善につながることがある 超解像による見た目の滑らかさに比例して、OCR精度改善につながるわけではない 低計算コストな画像拡大から超解像に変更する恩恵は発生しにくい テスト条件を変えた場合、違った結果になる可能性あり(用いるOCRエンジン、画像の劣化条件、OpenCV未提供の後発モデル利用など) 実験内容 利用するOCRエンジンの実行条件は変えずに、前処理部分のみ変更した場合のOCR精度・速度変化を調べま
「(古い資料の)本文検索ができるようになれば、新たな本の価値を届けられる」。国立国会図書館次世代システム開発研究室の徳原直子室長は力を込める。 国立国会図書館(NDL)は2022年4月25日、新たに開発した「NDLOCR」をオープンソースとして公開した。NDLOCRは、書籍や雑誌などの画像データから本文のテキストデータを作成できるOCR(光学的文字認識)処理プログラム。明治~昭和期の独特なレイアウトにも対応しているのが特徴だ。古い資料でも本文検索ができるようになる。 NDLが蔵書のデジタル化に乗り出したのは2000年代に遡る。資料をスキャンし、主に「JPEG 2000」のフォーマットで保存、提供してきた。NDLが手掛けるオンラインサービス「国立国会図書館デジタルコレクション」から利用可能だ。 デジタル化を進める最大の目的は資料の保存にある。時がたつほど紙は劣化していくからだ。 ただし、ND
PDFファイルは、どんな環境のPCでもテキストや画像の表示を崩すことなく見られるデータ形式です。しかし、PDFからテキストデータをコピーしようとすると、うまく選択できなかったり、テキストの内容がおかしくなってしまったりすることがあります。なぜPDFファイルからのテキスト抽出が難しいのかを、PDFファイルのテキスト化およびデータベース作成を行う団体、FilingDBが報告しています。 PDF text extraction | FilingDB https://www.filingdb.com/pdf-text-extraction ◆読み取り保護 PDFファイルの中には内容が保護されているものが存在します。テキスト自体は正しく表示されていても、テキストをコピーしようとすると「Copying text was denied (テキストのコピーが拒否されました)」といった内容が表示され、テキス
関連研究 ChatGPTの”ふるまいの変化”を定量的に分析した結果 OpenAI、大規模言語モデルの数学能力を大きく向上させることに成功 GPT-4を使用した知的労働者のパフォーマンスは軒並み向上し、もとの成績が良くないほど顕著。※注意点あり 従来の課題 GPT-4Vは、従来のGPT-4が抱えていたいくつかの課題を解決する形で登場しました。 テキスト中心の処理能力 従来のGPT-4は、テキストデータの処理能力に特化しており、テキストベースの質問応答、文章生成、自然言語理解など、多くの用途で非常に有用でした。 しかし、裏を返せば画像や音声など他のメディア形式に対する対応が不足していました。テキストと画像が組み合わさったマルチモーダルなデータに対する処理能力が限定的でした。 画像入力とプライバシー GPT-4の画像データに対する安全な処理能力には限界がありました。例えばプライバシー保護の観点が
はじめに 日々の業務作業で、画面や画像を見てその内容によって、その後の作業の流れや結果を変更する場面があります。そういった業務作業をPower Automate for desktopで自動化する際に、OCRのアクションを利用できます。 今回は、文字列が含まれた画像ファイルが複数入ったフォルダーを用意して、その中の各画像の文字列を抽出するサンプルフローを作成します。 [注意] アクションには、MicrosoftコグニティブのOCRの機能もありますが今回は使用しません。Azureアカウントなどは不要です。 「ファイル選択ダイアログ」アクションの後に「OCRを使ってテキストを抽出」アクションを使用するとデッドロックしてフリーズしてしまう問題があるようですので、ご注意ください。 フォルダー/素材の準備 まずはOCR読み込みのもととなる画像ファイルと、サンプル実行に必要なフォルダーを準備します。
Googleは5月7日、「Google レンズ」に紙のテキストを撮影することで、簡単にパソコンへコピーする新機能を追加したと発表しました。新たに撮影したテキストの読み上げ機能も追加。Androidは「Googleレンズ」アプリ、iPhoneは「Googleアプリ」から利用できます。 Googleレンズ新機能は「スマホで撮影したテキストをPCにコピー」「Googleレンズ」で撮影した紙のテキストをPCにコピーGoogleレンズに、「紙のテキストをパソコンにコピーする」機能が追加されました。 これまでもGoogleレンズでは、スマートフォンで撮影した手書きのメモや書類のテキストを読み取ることは出来ましたが、アップデートにより、読み取ったテキストをパソコンに共有、パソコンでコピー&ペーストできるようになりました。 パソコンにコピーするには、パソコン側でChrome(最新版)を使用し、スマートフォ
こんにちは! オフショア開発チームで通訳/翻訳をしているゆまです。 今回は長年の悩みだった「PDFの文字起こし」について、感動する出来事があったのでシェアさせてください。 ※手っ取り早く方法だけ知りたい方は、「Googleドライブで文字起こしする方法」からご覧ください! ある日の出来事 翻訳依頼が入りました。 しかし、原本がPDF…… しかもWordなどから生成されたものではなく、スキャンされた画像…… わかります……最終的に保管したい文書ってサイン済、捺印済の書類ですよね……。 これ、翻訳担当あるあるじゃないですか? 翻訳に限らず、コーポレートあるあるな気がするのですが、皆さんどうですか? けっこう前に締結した契約書をベースにしたい、でもWordファイルどっか行っちゃった、とか……。 原文、どうやって文字起こしする?手打ちする? さて、こういった状況の場合、どうやって文字起こししますか?
こんにちは、ふなさんです。 普段、勉強やブログの内容をまとめるためにGoogle keepを使っているのですが、OCR機能があることを今更ですが知りました。 OCR機能とは、簡単に言うと画像の中の文字データを読み取ってテキスト化するものです。 私は勉強するときに手書きメモを取ることがありますが、後からまとめるときに手で入力するのは時間がかかります。 OCR機能があると、一瞬で文字データに変えてくれるので、手入力する手間が省けてとても便利です✨ chrome.google.com ①Google Keep でOCR機能を使う手順 Google Keep でOCR機能を使うための手順は以下の通りです。 PC版 ①Google Keep のメモに画像を追加する ②メモの「その他のアクション」をクリック ③「画像のテキストを抽出」をクリック スマホ版 ①Google Keep のメモに画像を追加す
名刺管理のSansan、「ほぼ手作業」だったデータ入力はどう進化した? CTOが語った軌跡(1/2 ページ) 「AWS Summit Tokyo 2019」のセッションに、Sansanの藤倉成太CTO(最高技術責任者)が登壇。創業時(2007年)から現在までの歩みを振り返った。かつてはオペレーターが名刺情報を手入力していた同社は、データ化の手法をどう進化させてきたのか。 「本当はテクノロジーに頼りたかったが、求める水準に技術が追い付かない場合は、勇気を出して他の手段を選ぶべきだと判断した」――。Sansanの藤倉成太CTO(最高技術責任者)は、アマゾン ウェブ サービス ジャパンの年次カンファレンス「AWS Summit Tokyo 2019」のセッションでこう明かした。 Sansanは2007年創業。クラウド型の名刺管理サービス「Sansan」(法人向け)と「Eight」(個人向け)を提
収録した音声をそのままテキストに自動で文字起こしするSpeech to Text(STT、音声テキスト変換)モデルや、入力したテキストを自動音声で読み上げるText to Speech(TTS、テキスト音声変換)モデルをオープンソースで開発する企業が「Coqui」です。 Coqui https://coqui.ai/ Coquiの創設者たちはもともとFirefoxやThunderbirdの開発で知られるMozillaに在籍していました。創設者たちは音声技術が大企業によって独占され、オープンソースで提供されなくなるかもしれないと考え、独立して企業を立ち上げ、オープンソースの音声認識エンジンを構築したとのこと。 CoquiのSTTモデル「Coqui STT」のリポジトリはGitHubにホストされています。Coqui SSTの特徴は、あらかじめ音声ライブラリが用意されているのではなく、あらかじめ
概要 OCRを使った文字読み取りの開発をしていると、読み取られたテキストと画像と見比べて結果の確認をすることがよくあります。読み取られたこの文字は画像のどこから出てきたのかとか、単語の区切りが不自然なときになぜそうなったのかとかといった確認の際には、テキストとその座標から画像中の該当箇所を見つける必要があり、人間が目視で行うにはなかなか大変な作業です。物体認識などのタスクでは、画像上に四角形のバウンディングボックスを物体名のラベルとともに描写して可視化していますが、OCRの読み取りの場合は文字が画像上で密に配置されていたりと、画像上に直接描写するには情報量が過多になってしまいます。なるべくインタラクティブに操作出来る形で情報を表示し、必要な部分だけを確認できるようにしたい場合が多いです。 この記事では、OCR読み取りの結果を画像上に描写して、インタラクティブに結果を確認する方法を紹介します
日本は、古典籍、古文書、古記録などの過去の資料(史料)を千年以上も大切に受け継いでおり、数億点規模という世界でも稀なほど大量の資料が現存しています。日本の歴史・文化の研究や、過去の災害などの自然現象の解明を進めるには、これらの資料をデジタル化・オープン化するとともに、その内容を読み解く必要があります。ところが、現代のほとんどの日本人は「くずし字」で書かれた過去の資料を読めなくなっており、大量のくずし字をどう読み解くかが重要な課題となっています。 そこでこの社会課題の解決にAI(人工知能)を活用する方法を探るため、この7月から10月にかけて、世界最大規模の機械学習コンペプラットフォームである「Kaggle(カグル)」で、「くずし字認識:千年に及ぶ日本の文字文化への扉を開く」と題する全世界的なコンペを開催します。コンペを通して画期的なくずし字認識手法の開発が進むだけでなく、くずし字データセット
「メモ」というネーミングもあり、簡易的な機能を想像してしまうiPhoneのメモアプリだが、その実態は多機能なノートアプリに近い。WordやPagesのような文章レイアウトまではできないものの、画像を張り付けたり、表組を挿入したりと、短い文章を書くだけにとどまらない機能を備えている。メモ本来の意味である覚え書きを超えて、あたかもノートを作成するかのような使い方が可能だ。メモアプリはiPhoneの言語を英語にすると「Notes」という名称になるが、搭載されている機能や用途は「Notebook」に近い印象も受ける。 そんなiPhoneのメモアプリが、iOS16でより整理しやすく進化している。新機能として注目したいのが、「クイックメモ」。この機能を使うと、ブラウジングなどをしている際に、素早くメモを残せるようになる。特定の条件に合ったメモを自動でフォルダに分ける「スマートフォルダ」も、設定項目が増
LayerX バクラク事業部 機械学習チームの機械学習エンジニア兼マネージャーの松村(@yu-ya4)です。半年間に結婚祝いでいただいたたくさんのお酒が順調に減ってきているのですが、サントリーウイスキー角瓶 4Lペットだけはなくなる気配がありません。 この記事はLayerXテックアドカレ2023の16日目の記事のはずです。 前回はosukeさんの『Azure AI SearchのSemantic Ranker』という記事でした。 次回はminako-phさんによるタメになる記事、『Notionでスプリントのあれこれをダッシュボードで可視化する 』が公開予定ですされました。 昨今のAIの進化には目を見張るものがあります。先日のOpenAI DevDayやMicrosoft Igniteでも様々な衝撃的な発表がなされました。今週は違う意味で衝撃的なニュースが多かったですが。 そのような時代です
PNG・JPEG・GIFといった画像ファイルやPDFファイルから、TesseractによるOCR(光学文字認識)でテキストを抽出できる「OCR PDFs and images directly in your browser」をエンジニアのサイモン・ウィルソン氏が公開しました。OCR PDFs and images directly in your browserはすべての処理をブラウザ上で実行するため、ファイルをどこかのサーバーにアップロードすることがないというのが大きな特徴です。 OCR PDFs and images directly in your browser https://tools.simonwillison.net/ocr Running OCR against PDFs and images directly in your browser https://simon
[簡単にできる!] Power Automate for desktop(RPA)で PDF請求書をまとめてエクセルに転記する。PDFOCRPowerPlatformPowerAutomateDesktop 今回は、オフィスの業務課題を想定して、Power Automate for desktop(RPA)で、月末営業から届く大量の請求書(PDF)の内容をOCRを使って文字認識させて、エクセルに転機して売上一覧を作成することを自動化します。 この自動化は、PDFから取得する文字の位置が違うとデータが取れませんので、レイアウトが基本同じであることが条件です。よくあるのは、合計金額を表示する位置が、見積もりの項目数により位置が変わる場合などは取得が難しいです。 Power Automate for desktopはWindows10や11に無償で提供されていますが、時間で定期的に起動したり、何
まず、英語版のバードに行きます。 画像をアップロードしてほしい情報を入力すると教えていただけます。 生年月日について聞いてみました "平成元年3月31日生"と正しく認識できてます フォーマットも指定可能です 有効期限も聞きました "2025年3月31日まで有効"と正しく認識できてます 4桁の番号を教えて 何キロカロリーありますか? まとめ 言われたことしかできない人は、仕事がAIに取られるかもしれません。 信じるか信じないかはあなた次第です 引用 Register as a new user and use Qiita more conveniently You get articles that match your needsYou can efficiently read back useful informationYou can use dark themeWhat you ca
当HPは無料で使える翻訳支援ツール「PCOT」を公開しています。 「なにこれ便利!」と思った方は是非Twitterをフォローしてください! 作者のTwitter:ぬるっぽ 翻訳支援ツールです。プロセスが接続できるものであればなんでも翻訳可能です。 フルスクリーン、または一部のプロセスには非対応です。 リアルタイム翻訳には対応していません。ご了承頂ける方のみDLしてください。 環境によってはウイルスと誤認識される可能性がありますが、それらの類は一切組み込んでいません。
LINE株式会社は、国立国会図書館(東京都千代田区)のOCRテキストデータ化プロジェクトに、同社の「CLOVA OCR」が採用されたと発表した。昭和前期以前の資料を中心にした247万点、2億2300万枚を超えるデジタル化資料が2022年3月までにテキストデータ化される。 国立国会図書館では「ビジョン2021-2025 国立国会図書館のデジタルシフト」の一環として、デジタルで全ての国内出版物が読める未来をめざし、デジタル化資料をテキストデータ化する取り組みを進めている。 今回テキストデータ化するデジタル化資料の多くは昭和前期以前の資料で、紙面のレイアウトが複雑だという。そのため、処理に多くの時間かかるうえに、学習機能のない既存のOCRでは読み取り精度が低かった。 CLOVA OCRは文書解析と認識に関する国際会議ICDARで評価された実績を持ち、ルビ・割注・割書きといった特殊な文書や、文字領
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く