並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 290件

新着順 人気順

OCRの検索結果1 - 40 件 / 290件

  • PCの操作をすべて録画&文字起こしして過去の操作を丸ごと検索可能にするアプリ「Windrecorder」

    PCを使っていると、過去の操作内容やブラウザで閲覧していた情報を思い出したくなるタイミングが頻繁に発生します。そんな時に役立ちそうなPC操作記録アプリ「Windrecorder」がオープンソースで開発されています。 GitHub - yuka-friends/Windrecorder: Windrecorder is a memory search app by records everything on your screen in small size, to let you rewind what you have seen, query through OCR text or image description, and get activity statistics. https://github.com/yuka-friends/Windrecorder I made an o

      PCの操作をすべて録画&文字起こしして過去の操作を丸ごと検索可能にするアプリ「Windrecorder」
    • [解決!Python]PDFファイルからテキストや画像を抽出するには

      pdfminer.sixパッケージを用いて、PDFファイルからテキストや画像を抽出する方法を紹介する。 from pdfminer.high_level import extract_text from pathlib import Path # PDFファイルからテキストを抽出 source = Path('atmarkit_ebook116.pdf') text = extract_text(source) print(text) # extract_text_to_fp関数を使う from pdfminer.high_level import extract_text_to_fp dest = Path('out.txt') with open(source, 'rb') as fp_in, open(dest, 'wb') as fp_out: extract_text_to_fp

        [解決!Python]PDFファイルからテキストや画像を抽出するには
      • アノテーションにおけるUIの工夫 - CADDi Tech Blog

        こんにちは、MLOpsチームです。先日OCRモデルを学習するためのアノテーションにおいて、作業効率を検証するためのPoCとしてアノテーションUIを開発しました。本記事ではこのアノテーションUIにおける工夫について、試用によって得られた知見をまじえつつ紹介します。 はじめに アノテーションUIを開発することとなった背景について説明します。 アノテーションUIとは アノテーションUIは機械学習の学習データを作成するためのUIです。アノテーションUIはアノテーション作業の効率に強く影響し、アノテーション作業によって得られる学習データの量は機械学習の精度に大きく寄与します。したがって、アノテーションUIは機械学習において最も重要なコンポーネントのひとつといえます。 UIを開発した背景 キャディではOSSツールなどのUIを用いてアノテーションが行われていましたが、ここに独自の工夫を導入すれば入力効率

          アノテーションにおけるUIの工夫 - CADDi Tech Blog
        • さようなら、全てのエヴァーノート - 本しゃぶり

          2011年6月10日、Evernoteを使用開始。 2014年9月19日、有料プランに加入。 2024年3月23日、クソみたいなメールが届く。 プラン、廃止 いつも Evernote をご利用いただき、ありがとうございます。このたびは今後の Evernote 登録プランに関する変更についてご案内させていただきます。 お使いの Evernote アカウントは Plus から Personal に移行されました。Evernote Plus など、一般のお客様に数年間ご利用いただけなかった従来の登録プランが廃止となったためです。この変更により、Personal プランで利用可能な機能すべてをご利用いただけます。 今後はAnnualの登録プランが現在の Evernote Personal プランの料金 129.99 USD/Yearに合うように更新されます。この料金は次の更新日である2024/4/

            さようなら、全てのエヴァーノート - 本しゃぶり
          • GitHub - Filimoa/open-parse: Improved file parsing for LLM’s

            You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

              GitHub - Filimoa/open-parse: Improved file parsing for LLM’s
            • OCR PDFs and images directly in your browser

              This tool runs entirely in your browser. No files are uploaded to a server. It uses Tesseract.js for OCR and PDF.js to convert PDFs into images. Language: Drag and drop a PDF, JPG, PNG, or GIF file here or click to select a file

              • 無料&ブラウザ上でPDF・JPEG・PNG・GIFファイルからOCRによるテキスト抽出ができる「OCR PDFs and images directly in your browser」

                PNG・JPEG・GIFといった画像ファイルやPDFファイルから、TesseractによるOCR(光学文字認識)でテキストを抽出できる「OCR PDFs and images directly in your browser」をエンジニアのサイモン・ウィルソン氏が公開しました。OCR PDFs and images directly in your browserはすべての処理をブラウザ上で実行するため、ファイルをどこかのサーバーにアップロードすることがないというのが大きな特徴です。 OCR PDFs and images directly in your browser https://tools.simonwillison.net/ocr Running OCR against PDFs and images directly in your browser https://simon

                  無料&ブラウザ上でPDF・JPEG・PNG・GIFファイルからOCRによるテキスト抽出ができる「OCR PDFs and images directly in your browser」
                • NVIDIA Triton Inference Server の性能検証 - LayerX エンジニアブログ

                  機械学習エンジニアの吉田です。今回は機械学習モデルの推論サーバとして NVIDIA Triton Inference Server の性能を検証した話です。 背景 バクラクでは請求書OCRをはじめとした機械学習モデルを開発していますが、これらの機械学習モデルは基本的にリアルタイムで推論結果を返す必要があります。 請求書OCRを例にとると、お客様が請求書をアップロードした際にその内容を解析し、請求書の金額や日付などを抽出します。 このような推論用のAPIサーバはNginx, Gunicorn/Uvicorn, FastAPIで実装し、PyTorchモデルをGPUで推論する構成となっており、SageMaker Endpointを使ってサービングしています。 バクラクの推論APIはこのような構成でリリース以降特に問題なく稼働してきていますが、ご利用いただくお客様が増えるにつれてリクエストも増加し

                    NVIDIA Triton Inference Server の性能検証 - LayerX エンジニアブログ
                  • Table TransformerとGPT-4Vを用いたPDF内の表の解析|QunaSys

                    RAGは非常に有用なツールですが、PDFの論文などを扱う際には、表データを正しく読み取れない場合があります。 表の構造を適切に処理することは難しく、いくつかの改善策が提案されています。 例えば、RAGを構築するのに使われるライブラリであるLlamaIndexのドキュメントに以下のような情報があります。 このドキュメントでは表を含むデータを扱う方法として、PDFを一旦すべて画像データに変換し、画像として表の形式を保持したままGPT-4Vでデータを解析することを提案しています。 ただ、PDF1ページ分の画像をそのままGPT-4Vに解析させても精度はあまり良くないようで、後述するTable Transformerを使って表部分の画像のみ抽出してから解析を行うことで、より良い結果が得られたのことでした。 本記事では、この方法を用いてPDF内の表の解析を試してみます。 手順としては 1. PDFの全

                      Table TransformerとGPT-4Vを用いたPDF内の表の解析|QunaSys
                    • GitHub - xavctn/img2table: img2table is a table identification and extraction Python Library for PDF and images, based on OpenCV image processing

                      You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                        GitHub - xavctn/img2table: img2table is a table identification and extraction Python Library for PDF and images, based on OpenCV image processing
                      • GPTが人知れず既存の名刺管理アプリを抹殺していた話 - Qiita

                        抹殺は言い過ぎかもしれませんが簡易な名刺管理アプリであれば自作で十分という時代がきていたようです これで紙の名刺からはきっとバイバイできるでしょう! 名刺管理アプリ作ってほしいといわれた それは2/22のお話。 ことの発端は別の部署からかかってきた一本の電話でした。 新規事業の部署でいろいろな取引先様と付き合いがあるものの、紙の名刺が非常に多く管理に困っているとのことのことです。 私は小売業に勤務しているしがない一社員で、現在Eコマースの戦略立案に関する部署に所属しています。 電話先の方は、以前一緒の部署で勤務したことがある方です。現在新規事業のプロジェクト推進をしており、冒頭のような課題感を持っているため既存の名刺管理アプリ導入を考えたのですが、あまりのお値段の高さに卒倒して私に藁をもすがる思いで連絡されたようです。 これまでのアプリは名刺の識別専門のAI()を使っていた 話を聞いてみた

                          GPTが人知れず既存の名刺管理アプリを抹殺していた話 - Qiita
                        • pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama

                          これは二段構えの構成を持っています。この二段構えを正確に検出し、テキストを理解することが望ましいです。 Unstructuredを使うPythonのライブラリであるUnstructuredを試してみましょう。 参考記事 導入は非常に簡単です。 pip install 'unstructured[pdf]' 実装も簡単です。 解析コード: from unstructured.partition.pdf import partition_pdf pdf_elements = partition_pdf("pdf/7_71_5.pdf") 表示コード: for structure in pdf_elements: print(structure) 結果: 残念ながら、2段組のカラムを正確に検出することはできませんでした。 Grobidを使うGrobidは、peS2oというオープンアクセス論文のコ

                            pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama
                          • RAGの性能を改善するための8つの戦略 | Fintan

                            近年、OpenAIのGPT-4やGoogleのGemini、MetaのLLaMAをはじめとする大規模言語モデル(Large Language Model:LLM)の能力が大幅に向上し、自然言語処理において優れた結果を収めています[1][2][3]。これらのLLMは、膨大な量のテキストデータで学習されており、さまざまな自然言語処理タスクにおいて、タスクに固有なデータを用いてモデルをファインチューニングすることなく、より正確で自然なテキスト生成や、複雑な質問への回答が可能となっています。 LLM-jp-eval[4]およびMT-bench-jp[5]を用いた日本語LLMの評価結果。Nejumi LLMリーダーボード Neoより取得。 大規模言語モデルは近年急速な進歩を遂げていますが、これらの進歩にもかかわらず、裏付けのない情報や矛盾した内容を生成する点においては依然として課題があります。たとえ

                              RAGの性能を改善するための8つの戦略 | Fintan
                            • LLM時代におけるAI-OCR機能の開発戦略 / layerx-bakuraku-ocr-llm-lt-2024

                              2024年1月24日 【オフライン限定開催】注目AIテックカンパニー4社が集うLT新年会〜LLM活用のリアルを語る〜(https://lapras.connpass.com/event/305577/) における発表資料です。

                                LLM時代におけるAI-OCR機能の開発戦略 / layerx-bakuraku-ocr-llm-lt-2024
                              • GPT-4Vのモデルを利用してOCRできるか試してみた - Taste of Tech Topics

                                こんにちは、安部です。 気温の上下に翻弄されて最近風邪をひいてしまいましたが、皆さま元気にお過ごしでしょうか。 今回は、GPT-4Vのモデルを利用して、OCRができるか試していきます。 GPT-4Vによって、「ChatGPTに目ができた」などと騒がれましたが、文字認識はどれくらいできるのでしょうか? 得意分野ではなさそうですが、GPTも進化が目覚ましいので分かりませんね。 検証では、日本語(漢字/ひらがな/カタカナ)・英語の2言語で精度など比較していきます。 また、手書き・活字での違いも見ていきましょう。 一番簡単に試せるChatGPT(Web版)でOCRをさせようとするとエラーになることが多かったので、 ここではAPIを使っていくこととします。 APIを呼び出すプログラム 以下のコードを使い、gpt-4-vision-previewというモデルを呼び出しています。 画像は個人のgithu

                                  GPT-4Vのモデルを利用してOCRできるか試してみた - Taste of Tech Topics
                                • メモの作成やタスク管理、共同作業を効率化!Evernoteから乗り換えるべきメモアプリ8選 | ライフハッカー・ジャパン

                                  4TBが9千円台だって。バッファローの静音HDDは在庫があるうちに回収しておこう【Amazonセール】

                                    メモの作成やタスク管理、共同作業を効率化!Evernoteから乗り換えるべきメモアプリ8選 | ライフハッカー・ジャパン
                                  • Macで毎分スクリーンショットを撮って手元に貯めておくスクリプト - hitode909の日記

                                    書いてたテキストエリアがどっかいく、みたいなことがたびたびあって、スクショを定期的に取っていればこんなことにならないのに…と思っていた。 先日、Redash用に、がんばって書いたSQLがどっかいってしまい、ものすごく悲しい、という出来事があったのであ、あまりに悲しさに、重い腰を上げてスクリプトを書いた。 きのうがんばって書いたRedashクエリを保存せずに消してしまった悲しみから、Macの画面のスクリーンショットを撮り続けるスクリプトを書いて、xbar経由で毎分実行してキャプチャし続けている。Macに入ってるOCR機能も呼び出して検索できるようにしたい https://t.co/ibVVCLZszg— 趣味はマリンスポーツです (@hitode909) 2023年11月30日 やっていること 画面全体のスクショを撮って、デスクトップ内のフォルダに置いていく 複数ディスプレイを使ってる場合も

                                      Macで毎分スクリーンショットを撮って手元に貯めておくスクリプト - hitode909の日記
                                    • AIの民主化が進む時代におけるバクラクのAI-OCR機能の開発戦略 #LayerXテックアドカレ - LayerX エンジニアブログ

                                      LayerX バクラク事業部 機械学習チームの機械学習エンジニア兼マネージャーの松村(@yu-ya4)です。半年間に結婚祝いでいただいたたくさんのお酒が順調に減ってきているのですが、サントリーウイスキー角瓶 4Lペットだけはなくなる気配がありません。 この記事はLayerXテックアドカレ2023の16日目の記事のはずです。 前回はosukeさんの『Azure AI SearchのSemantic Ranker』という記事でした。 次回はminako-phさんによるタメになる記事、『Notionでスプリントのあれこれをダッシュボードで可視化する 』が公開予定ですされました。 昨今のAIの進化には目を見張るものがあります。先日のOpenAI DevDayやMicrosoft Igniteでも様々な衝撃的な発表がなされました。今週は違う意味で衝撃的なニュースが多かったですが。 そのような時代です

                                        AIの民主化が進む時代におけるバクラクのAI-OCR機能の開発戦略 #LayerXテックアドカレ - LayerX エンジニアブログ
                                      • OpenAIのGPT-4 Turbo with visionを日本語OCRとして使ってみる

                                        先日のOpenAI DevDayで、GPT-4 Turbo with visionというものが発表されました。Chat Completions APIで画像ファイルをインプットとして渡して、画像解析をしてくれるAPIです。 私は以前、「Azure Computer Vision APIの日本語OCR機能を使ってみる」や「Google Cloud Vision APIの日本語OCR機能を使ってみる」で、各クラウドの画像認識APIの日本語OCR機能を検証するエントリーを書きました。OpenAIも画像認識APIが使えるようになったので、まったく同じ検証方法で評価してみました。 GPT-4 Turbo with vision OCR機能の利用 OpenAIのAPI Keyを準備します。API Keyを取得されていない方は、「OpenAI API Key取得」で検索してください。 今回の検証コードは

                                          OpenAIのGPT-4 Turbo with visionを日本語OCRとして使ってみる
                                        • iOSで文字認識(Text Recognition)

                                          iOS 13以降で、待望だった「文字認識」機能が使えるようになりました。カメラなどで撮影した画像内にある文字を読み取る [1] ことができます。 iOS 9からあった「文字検出」との違い 文字認識は、Visionフレームワークの一機能として追加されました。 一方、Core ImageのCIDetectorというクラスでは、CIDetectorTypeTextというタイプを指定でき、テキストを検出することができます。 このCIDetectorTypeTextやCIFeatureTypeTextはiOS 9からあるものです。 しかしこちらは文字の「領域」を検出する機能です。何が書いてあるか、までは認識できませんでした。 そこで今まではTesseract[2]というオープンソースのOCRエンジンや、SwiftOCR[3]という(おそらく個人がメンテしている)OSSしか選択肢がなかったのですが、つ

                                            iOSで文字認識(Text Recognition)
                                          • 請求書OCR自動化: Document AI + ChatGPT API で非構造化データを JSON で出力させる - GMOインターネットグループ グループ研究開発本部

                                            2023.10.05 請求書OCR自動化: Document AI + ChatGPT API で非構造化データを JSON で出力させる はじめに こんにちは。グループ研究開発本部 次世代システム研究室のT.D.Qです。 2023年10月よりインボイス制度が開始されます。この制度に対応するため、請求書のOCR自動化はますます重要となっています。今回は、ChatGPTとDocumentAIの力を結集し、インボイス制度への対応を加速する請求書OCR自動化の方法について探ってみたいと思います。 1.やりたいこと 目的: 非構造化データを OCR で取得して、指定の JSON 形式で出力させたい 使用する技術: OpenAIのChatGPT及びGoogleのDocumentAI 実現手段: DocumentAIで請求書(PDF形式)を読み取り ChatGPTでDocumentAIのレスポンスから

                                              請求書OCR自動化: Document AI + ChatGPT API で非構造化データを JSON で出力させる - GMOインターネットグループ グループ研究開発本部
                                            • 〜OCR戦記〜適格事業者登録番号との戦い🔥🔥🔥 - LayerX エンジニアブログ

                                              この記事はLayerXテックアドカレ2023の5日目の記事です。 昨日はmakogaさんがEngineering Career Ladderを作るときに気をつけたこと 其の一を書いてくれました。 次回はyuya-takeyamaさんがMicrosoft Graph APIについて書いてくれます!乞うご期待! こんにちは、機械学習を通じて誰かをラクにしたい yakipuです。 今回は、10月から始まったインボイス制度に伴う適格請求書発行事業者登録番号(以下「登録番号」と表記します)のOCR読み取りの戦いについて記したいと思います。 インボイス制度は、売手が買手に対して正確な税率や消費税額を示す適格請求書(インボイス)を交付することで、買手が仕入税額控除の適用を受けるために必要な制度です。売手側は登録事業者として登録番号などが記載されたインボイスを交付し、買手側はインボイスを保存する必要があり

                                                〜OCR戦記〜適格事業者登録番号との戦い🔥🔥🔥 - LayerX エンジニアブログ
                                              • 無償デスクトップ自動化ツール「Power Automate Desktop」でOCR処理を自動化する

                                                CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

                                                  無償デスクトップ自動化ツール「Power Automate Desktop」でOCR処理を自動化する
                                                • 無償デスクトップ自動化ツール「Power Automate Desktop」でOCR処理を自動化する

                                                  はじめに 日々の業務作業で、画面や画像を見てその内容によって、その後の作業の流れや結果を変更する場面があります。そういった業務作業をPower Automate for desktopで自動化する際に、OCRのアクションを利用できます。 今回は、文字列が含まれた画像ファイルが複数入ったフォルダーを用意して、その中の各画像の文字列を抽出するサンプルフローを作成します。 [注意] アクションには、MicrosoftコグニティブのOCRの機能もありますが今回は使用しません。Azureアカウントなどは不要です。 「ファイル選択ダイアログ」アクションの後に「OCRを使ってテキストを抽出」アクションを使用するとデッドロックしてフリーズしてしまう問題があるようですので、ご注意ください。 フォルダー/素材の準備 まずはOCR読み込みのもととなる画像ファイルと、サンプル実行に必要なフォルダーを準備します。

                                                    無償デスクトップ自動化ツール「Power Automate Desktop」でOCR処理を自動化する
                                                  • Googleドキュメントを使って、2ステップで画像から文字起こしする方法【今日のワークハック】 | ライフハッカー・ジャパン

                                                    「これ、マストだわ」モニター購入して気づいた、あったほうがいい周辺機器4選 #Amazon新生活セール

                                                      Googleドキュメントを使って、2ステップで画像から文字起こしする方法【今日のワークハック】 | ライフハッカー・ジャパン
                                                    • 【Excel】PDF上の表は手入力しなくても簡単に取り込める! 紙のスキャンデータでも大丈夫【いまさら聞けないExcelの使い方講座】

                                                        【Excel】PDF上の表は手入力しなくても簡単に取り込める! 紙のスキャンデータでも大丈夫【いまさら聞けないExcelの使い方講座】
                                                      • GoogleがLLMで「非構造化文書」高精度テキスト抽出するOCR『LMDX』発表 | AIDB

                                                        ★AIDB会員限定Discordを開設いたしました! 会員登録/ログインの上、マイページをご覧ください。 Googleは、非構造化文書(例えばレシートなど)から高精度にテキストを抽出するOCR(Optical Character Recognition)技術『LMDX(Language Model-based Document Information Extraction and Localization)』を発表しました。この技術は、特にGoogleの大規模な言語モデル「Bard」と、Google DriveやGmailなどのサービスとの連携をさらに強化する可能性もあります。 参照論文情報 タイトル:LMDX: Language Model-based Document Information Extraction and Localization 著者:Vincent Perot, K

                                                          GoogleがLLMで「非構造化文書」高精度テキスト抽出するOCR『LMDX』発表 | AIDB
                                                        • 「PowerToys」のOCR機能が表(テーブル)の読み取りに対応 ~v0.74がリリース/Microsoftがパワーユーザー向けに提供している無償ツール集

                                                            「PowerToys」のOCR機能が表(テーブル)の読み取りに対応 ~v0.74がリリース/Microsoftがパワーユーザー向けに提供している無償ツール集
                                                          • GPT-4V(ision) System Cardをざっくり訳した - Qiita

                                                            はじめに OpenAIが3月に発表していたものの実装していなかった、画像および音声を取り扱うことのできるマルチモーダルモデル「GPT4-V」のdeployが発表されました。本当に全部この会社がやればいいんじゃないか? ChatGPTのPlus/Enterpriseユーザーに2週間かけて提供するそうです。最近ChatGPTのほうの処理能力が落ちつつあってGPT-4のAPIばっかり使ってるんですが、ChatGPT Plusは解約できそうにないですね。 GPT4-Vを中心としたV&LのLLMはDocumentUnderstandingの文脈での活用が期待されており、先日Googleを中心としたグループもLMDX: Language Model-based Document Information Extraction and Localizationという論文を発表していました。Geminiなん

                                                              GPT-4V(ision) System Cardをざっくり訳した - Qiita
                                                            • OpenAI、ChatGPTが画像を分析する『GPT-4V(ビジョン)』を発表。安全性、嗜好性、福祉機能を強化 | AIDB

                                                              関連研究 ChatGPTの”ふるまいの変化”を定量的に分析した結果 OpenAI、大規模言語モデルの数学能力を大きく向上させることに成功 GPT-4を使用した知的労働者のパフォーマンスは軒並み向上し、もとの成績が良くないほど顕著。※注意点あり 従来の課題 GPT-4Vは、従来のGPT-4が抱えていたいくつかの課題を解決する形で登場しました。 テキスト中心の処理能力 従来のGPT-4は、テキストデータの処理能力に特化しており、テキストベースの質問応答、文章生成、自然言語理解など、多くの用途で非常に有用でした。 しかし、裏を返せば画像や音声など他のメディア形式に対する対応が不足していました。テキストと画像が組み合わさったマルチモーダルなデータに対する処理能力が限定的でした。 画像入力とプライバシー GPT-4の画像データに対する安全な処理能力には限界がありました。例えばプライバシー保護の観点が

                                                                OpenAI、ChatGPTが画像を分析する『GPT-4V(ビジョン)』を発表。安全性、嗜好性、福祉機能を強化 | AIDB
                                                              • バクラクのAI-OCR機能を支えるアノテーションの仕組み

                                                                2021年のプロダクトリリースから約2年半、導入者数は6000社を突破しデータ数も急速に増える中、AI-OCR機能の精度を担保をするために様々な取り組みをしてきました。今回はデータのアノテーションという観点でリリース前から現在までの取り組みの変遷を紹介します。

                                                                  バクラクのAI-OCR機能を支えるアノテーションの仕組み
                                                                • 【2024年版】無料オープンソースのOCRソフトウェア10選を徹底比較!(PDFや画像からテキスト情報を抽出)

                                                                  ブログ通信・システム【2024年版】無料オープンソースのOCRソフトウェア10選を徹底比較!(PDFや画像からテキスト情報を抽出) こんにちは。マニュアル作成・ナレッジ共有ツール「NotePM」ブログ編集局です。 企業内ではテキストデータのみならず、さまざまなバイナリデータがやり取りされます。良くあるのはPDFの帳票です。そうしたデータの中から必要な数字、テキストを抽出する際に便利なのがOCRです。 OCRを使うことで、PDFや画像からテキストが抽出できます。システム自動化を考える際に役立つので、覚えておきましょう。 macOCR macOS向けのコマンドで、任意の範囲を指定してテキストデータを抽出します。抽出されたテキストは標準出力の他、クリップボードにもコピーされます。 範囲の選択時にはマウスを利用するので、見た目にもわかりやすいですし、画像の一部からテキストを抜き出すのにも利用できま

                                                                    【2024年版】無料オープンソースのOCRソフトウェア10選を徹底比較!(PDFや画像からテキスト情報を抽出)
                                                                  • PDF内の画像からOCR機能でテキストを生成する方法

                                                                    領収書などをPDFファイルで受け取った際、社内システムに入力したり、集計したりするため、PDF内の金額などの文字列をコピーすることも多いのではないだろうか。ただ、PDFファイルによっては、文字列がコピーできず、PDFを見ながら仕方なく手動で入力していることもあると思う。手動で入力すると、手間がかかるうえに、間違えも発生しやすい。 また、こうしたPDFファイルは、Tech TIPS「PDFファイルをWord/Excelファイルに変換して編集する方法」でファイルの変換を試しても、変換できないことが多い。 こうした文字列がコピーできないPDFは、PDFの中身が画像になっていることが多いので、OCR(光学的文字認識)機能を使って画像から文字を読み取らせるとよい。その方法を幾つか紹介しよう。 OneNoteを使ってPDFから文字列を抽出する

                                                                      PDF内の画像からOCR機能でテキストを生成する方法
                                                                    • 論文PDFを数式込みで全文読み取るモデル 米Metaが「Nougat」開発 スキャンした古書の画像もOK

                                                                      このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 米Meta AIに所属する研究者らが発表した論文「Nougat: Neural Optical Understanding for Academic Documents」は、論文を記録したPDF内のテキストや数式を正確に読み取るモデルを提案した研究報告である。研究論文を機械が読めるテキストに変換することで、知識全体がより探しやすく、多くの人々がアクセスできるようになる。モデルのコードなどは全て公開されている。

                                                                        論文PDFを数式込みで全文読み取るモデル 米Metaが「Nougat」開発 スキャンした古書の画像もOK
                                                                      • Android の新機能と最新ロゴのご紹介

                                                                        本日は、 Android 端末の新機能やGoogle アプリのアップデートにより、毎日の外出先でのタスク管理がどのように簡単になるかをご紹介します。 AI があなたをサポートGoogle アシスタントによる新しい スナップショット 機能は、AI 技術を活用し、高精度の天気予報アラートや旅行情報、今後の予定のリマインダーなど、役立つ情報を必要な時にすぐ見れるようホーム画面に表示します。 また、このたび視覚に障がいをお持ちの方を対象とした Android アプリの Lookout が、日本語でもご利用いただけるようになりました。Lookout は、Android 端末のカメラと 最先端の AI 技術を使用して、周囲の物体や画像、テキストを認識し、音声でリアルタイムに伝えてくれるアプリです。 現在のバージョンでは以下の 3 つのモードを、日本語の他、英語、韓国語、中国語を含む合計 34 の言語で

                                                                          Android の新機能と最新ロゴのご紹介
                                                                        • 数式や文章がぐにゃぐにゃに曲がった論文PDFでもくっきり認識する画期的なOCR『Nougat』 | AIDB

                                                                          科学的知識は主に書籍や科学誌に保存されていますが、PDF形式が一般的です。しかし、この形式は特に数学的表現においてセマンティック情報の損失を引き起こします。この問題に対処するために、Meta AIの研究チームは『Nougat(Neural Optical Understanding for Academic Documents)』という新しいOCR(光学式文字認識)技術を開発しました。 Nougatは、数式や文章が複雑に配置された画像であっても、それをマークアップ言語に高品質で変換する能力を持っています。この技術は、新しい論文だけでなく、電子データが存在しない古い書類などの解析にも非常に有用です。 参照論文情報 タイトル:Nougat: Neural Optical Understanding for Academic Documents 著者:Lukas Blecher, Guillem

                                                                            数式や文章がぐにゃぐにゃに曲がった論文PDFでもくっきり認識する画期的なOCR『Nougat』 | AIDB
                                                                          • 日本語対応オープンソースOCRの比較

                                                                            結果 処理時間 Tesseract(0.85s) > PaddleOCR(1.52s) > EasyOCR(3.90s) 精度(主観あり。。。) PaddleOCR > EasyOCR > Tesseract 処理時間 Tesseract(7.42s) > PaddleOCR(9.60s) > EasyOCR(51.34s) 精度(主観あり。。。) PaddleOCR > EasyOCR > Tesseract 参考 - Google Cloud Vision ポイ捨て禁止! NO LITTER 清潔できれいな港区を 港区 MINATO CITY マル 得 松のや サービス券 コロッケ 1個 無料! 有効期限:2023年4月30日15時まで ※メインメニュー1食につき綴りの1枚がご利用頂けます。 ※ご希望のサービス品を切取り、店舗で従業員へ直接 お渡し下さい。 ※配布時のご利用は頂けません

                                                                              日本語対応オープンソースOCRの比較
                                                                            • Document AIを巡る技術とLayerXにおける可能性 - LayerX エンジニアブログ

                                                                              初めまして。機械学習エンジニアの島越@nt_4o54です。現在はMLチームで日々、バクラクシリーズで用いられているAI-OCR機能の改善や新規機能の開発などを行なっています。 7月はLayerXエンジニアブログを活発にしよう月間ということで、自分からは表題にもある通り、「Document AI」と呼ばれる技術についての紹介と、またLayerXにおいてどういう応用先があるのかというお話をさせていただこうと思います。 ※ 同名のDocument AIというGCPのサービスがありますが、今回は一般的なDocument AIの話になります。 Document AIとは Document AIに用いられる技術 Optical Character Recognition (OCR) Document Classification Layout Analysis Document Parsing Tab

                                                                                Document AIを巡る技術とLayerXにおける可能性 - LayerX エンジニアブログ
                                                                              • Google BardでOCR文字認識してみた【画像認識】 - Qiita

                                                                                まず、英語版のバードに行きます。 画像をアップロードしてほしい情報を入力すると教えていただけます。 生年月日について聞いてみました "平成元年3月31日生"と正しく認識できてます フォーマットも指定可能です 有効期限も聞きました "2025年3月31日まで有効"と正しく認識できてます 4桁の番号を教えて 何キロカロリーありますか? まとめ 言われたことしかできない人は、仕事がAIに取られるかもしれません。 信じるか信じないかはあなた次第です 引用 Register as a new user and use Qiita more conveniently You get articles that match your needsYou can efficiently read back useful informationYou can use dark themeWhat you ca

                                                                                  Google BardでOCR文字認識してみた【画像認識】 - Qiita
                                                                                • ChatGPT APIのFunction callingを使って、請求書の構造化データを抽出する | gihyo.jp

                                                                                  いまからわかる!ChatGPT活用プログラミング ChatGPT APIのFunction callingを使って⁠⁠、請求書の構造化データを抽出する 先月、OpenAIからFunction calling(関数呼び出し)機能がリリースされました。これが何なのか、何のために使うべきなのか、ちょっと見ただけでは分かりづらいと思います。 今回は請求書から情報抽出をするというよくありがちなケースを題材に、Function callingの利便性を示してみます。 Function callingとは OpenAIが2023年6月13日にリリースしたChat APIの追加機能です。主にできることとして以下の3つが挙げられています。 外部ツールを呼び出して質問に答えるチャットボットを作成する 自然言語を内部APIの呼び出しやSQLに変換する テキストから構造化データを抽出する たとえば天気予報と血液型

                                                                                    ChatGPT APIのFunction callingを使って、請求書の構造化データを抽出する | gihyo.jp