並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 118件

新着順 人気順

tesseractの検索結果1 - 40 件 / 118件

  • スマホにカメラついてるんだからOCRできるでしょという気持ち - Progate Tech Blog

    どうも、 株式会社Progate で SoftwareEngineer チームのマネージャーをしています @satetsu888 です。本記事は Progate AdventCalendar 2020 10日目です。 普段仕事ではエンジニア組織のことやプロダクトの技術戦略的なことを考えたり、ミーティングしたり採用活動したりタスクをお願いして回ったりなどを担当していますが、今日はそういうのとはなんの関係もないただの日常の話を書こうと思います。 ことの始まり 我が家では子どもの朝ごはんとして週に2,3回くらいの頻度でポケモンパンを買っています。 先日(2020/09/18 ~ 11/24) ポケモンパンについてるポイントを5点集めるとポケモンシールホルダーの抽選に1回応募できるキャンペーンがありました。(キャンペーン自体はすでに終了しています) いつも通りのペースでパンを買ってると何回か挑戦で

      スマホにカメラついてるんだからOCRできるでしょという気持ち - Progate Tech Blog
    • 【Python】Kindleの洋書1冊を1分で日本語PDFに変換するコードを書いた話 - Qiita

      動機 外資系のAmazonが展開している電子書籍Kindleでは比較的洋書の取り扱いが多いです。 Kindle Unlimitedに登録されている書籍も多く、Springerなんかも含まれているので活用しない手はありません。 そこでkindle-translatorをつくりました。 https://github.com/1plus1is3/kindle-translator これで一冊50万字あるKindleの洋書を1分で日本語PDFに変換できます。 キーボードの矢印キーでページ送りができるならKindleに限らずあらゆる電子書籍リーダおよびPDFビューワで使え、DeepLが対応している言語であれば英語以外の言語でも翻訳できます(仏→日とか)。 未経験からPythonエンジニアになって3ヶ月(うち1ヶ月は研修)が経ち、色々作れるようになった時点でつくったツールなので、改良すべき点もまだまだ

        【Python】Kindleの洋書1冊を1分で日本語PDFに変換するコードを書いた話 - Qiita
      • 画像ファイルやデータベースの文字列を「grep」のように検索できる「ripgrep-all」

        Linuxのコマンドラインで文字列を検索する際に必要不可欠なコマンドといえば「grep」です。しかし、grepは動画ファイルやPDFファイルの文字列を検索できないのが弱点。そんなgrepの弱点を克服し、動画ファイルのメタデータやデータベースのレコード、画像ファイル内の文字列まで検索可能なコマンドが「ripgrep-all(rga)」です。 GitHub - phiresky/ripgrep-all: rga: ripgrep, but also search in PDFs, E-Books, Office documents, zip, tar.gz, etc. https://github.com/phiresky/ripgrep-all rgaはLinuxに限らずWindowsやmacOSでも利用することが可能。今回はUbuntu 20.04でrgaを利用してみます。以下のコマンドを

          画像ファイルやデータベースの文字列を「grep」のように検索できる「ripgrep-all」
        • 日本語OCRはなぜ難しい? NAVERのエンジニアが語る、テキスト検出における課題と解決策

          2019年11月20、21日の2日間、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2019」が開催されました。1日目は「Engineering」をテーマに、LINEの技術の深堀りを、2日目は「Production」をテーマに、Web開発技術やUI/UX、プロジェクトマネジメントなど、より実践的な内容についてたくさんのプレゼンテーションが行われました。「NAVER ClovaのOCR(光学的文字認識) 」に登壇したのはNAVER OCR Team AI ResearcherのHwalsuk Lee氏。深層学習を用いたOCR技術の仕組みについて語りました。講演資料はこちら LINEのOCR技術の仕組み Hwalsuk Lee氏:みなさま、こんにちは。Hwalsuk Leeと申します。NAVER Clova OCR Teamから参りました。今

            日本語OCRはなぜ難しい? NAVERのエンジニアが語る、テキスト検出における課題と解決策
          • Microsoft Power Automate DesktopでRPAを実現してみる 🌴 officeの杜 🥥

            自分自身の個人的意見としては、エンドユーザコンピューティングは大いに結構だと思ってるけれど、一方で日本でジリジリと熱さが消えつつある国内の有象無象のRPAについては滅んだほうが良いとも思ってる。理由は後述するとして、本日良いニュースが発表されました。Power Automate Desktopについて追加費用無し無償で利用可能になるとのこと。これは既にあるMicrosoft365のEnterpriseプランなどに標準で利用できてるPower Automateのデスクトップ版のようで、Windows10に標準でついてくるようになるとのこと。 ということで、現時点のMicrosoft365で使えてるPower Automate Desktopを使ってみて、どんな感じなのか?またリリース後にその違いなどをここに記述していこうかなと思っています。また、Seleniumベースのウェブ自動化についても

              Microsoft Power Automate DesktopでRPAを実現してみる 🌴 officeの杜 🥥
            • 簡単に利用できる PDF 文字認識 OCR 比較まとめ ~ AI OCR の頭抜けた実力 - GMOインターネットグループ グループ研究開発本部

              D.M.です。今回は RPA にて PDF を OCR で読み取る検証をしたお話です。 TL;DR ・実用性は AI OCR しか勝たん。 ・AI OCR は Google vs Microsoft の構図。 両者精度高。 ・Google も Microsoft も API に無料枠があり Python などのプログラムで連携できる。 ・Microsoft は有料の RPA 連携機能が超絶楽勝なのでコードを書かない前提ならこっちも選択肢。非エンジニアでも楽々自動化できる。 ※関連記事 AI OCR でクレカ読み取りをやっています。 スマホNativeアプリでクレジットカード番号の読み取り機能の技術検証結果まとめ https://recruit.gmo.jp/engineer/jisedai/blog/technical_review_ocr_solutions_on_auto_detect

                簡単に利用できる PDF 文字認識 OCR 比較まとめ ~ AI OCR の頭抜けた実力 - GMOインターネットグループ グループ研究開発本部
              • 数式や文章がぐにゃぐにゃに曲がった論文PDFでもくっきり認識する画期的なOCR『Nougat』 | AIDB

                科学的知識は主に書籍や科学誌に保存されていますが、PDF形式が一般的です。しかし、この形式は特に数学的表現においてセマンティック情報の損失を引き起こします。この問題に対処するために、Meta AIの研究チームは『Nougat(Neural Optical Understanding for Academic Documents)』という新しいOCR(光学式文字認識)技術を開発しました。 Nougatは、数式や文章が複雑に配置された画像であっても、それをマークアップ言語に高品質で変換する能力を持っています。この技術は、新しい論文だけでなく、電子データが存在しない古い書類などの解析にも非常に有用です。 参照論文情報 タイトル:Nougat: Neural Optical Understanding for Academic Documents 著者:Lukas Blecher, Guillem

                  数式や文章がぐにゃぐにゃに曲がった論文PDFでもくっきり認識する画期的なOCR『Nougat』 | AIDB
                • OCR前処理としてのOpenCV超解像 - OPTiM TECH BLOG

                  R&D チームの徳田(@dakuton)です。 最近は画像とテキストの狭間にいます。 今回記事のまとめ 簡単にまとめると以下のとおりです。 いくつかの超解像(高解像度化)モデルがOpenCV extra modules(opencv_contrib)インストール + コード数行記述で導入可能 超解像に限らず、文字が一定サイズ以上になるような前処理 -> OCR解析 を実施すると、OCR精度改善につながることがある 超解像による見た目の滑らかさに比例して、OCR精度改善につながるわけではない 低計算コストな画像拡大から超解像に変更する恩恵は発生しにくい テスト条件を変えた場合、違った結果になる可能性あり(用いるOCRエンジン、画像の劣化条件、OpenCV未提供の後発モデル利用など) 実験内容 利用するOCRエンジンの実行条件は変えずに、前処理部分のみ変更した場合のOCR精度・速度変化を調べま

                    OCR前処理としてのOpenCV超解像 - OPTiM TECH BLOG
                  • 【レポート】コンテナだけどサーバーレス! AWS Lambda の最新機能をご紹介 #AWSSummit | DevelopersIO

                    CX事業本部@大阪の岩田です。5月31日までアーカイブが視聴可能なAWS Summitですが、Developer Zoneという開発者向けの特設サイトが存在することをご存知でしょうか?公式サイトでは以下のように案内されています。 より多くの技術情報に触れたいとお考えの開発者の方向けに、エキスパートによるテクニカルトーク、ライブ解説付きのデモ、AWS Robot Delivery Challenge, AWS DeepRacer リーグなど、多彩なコンテンツを備えた特設サイト「Developer Zone」をご用意しました。 少しカジュアルな雰囲気の中、よりディープに AWS サービスを活用した開発のノウハウを知ることができます。テクニカルトーク、ライブ解説付きのデモでは、参加するお客様からのご質問にもその場でお答えしますので、ぜひご参加ください。 この記事はDeveloper Zoneのセ

                      【レポート】コンテナだけどサーバーレス! AWS Lambda の最新機能をご紹介 #AWSSummit | DevelopersIO
                    • 無料&ブラウザ上でPDF・JPEG・PNG・GIFファイルからOCRによるテキスト抽出ができる「OCR PDFs and images directly in your browser」

                      PNG・JPEG・GIFといった画像ファイルやPDFファイルから、TesseractによるOCR(光学文字認識)でテキストを抽出できる「OCR PDFs and images directly in your browser」をエンジニアのサイモン・ウィルソン氏が公開しました。OCR PDFs and images directly in your browserはすべての処理をブラウザ上で実行するため、ファイルをどこかのサーバーにアップロードすることがないというのが大きな特徴です。 OCR PDFs and images directly in your browser https://tools.simonwillison.net/ocr Running OCR against PDFs and images directly in your browser https://simon

                        無料&ブラウザ上でPDF・JPEG・PNG・GIFファイルからOCRによるテキスト抽出ができる「OCR PDFs and images directly in your browser」
                      • [簡単にできる!] Power Automate for desktop(RPA)で PDF請求書をまとめてエクセルに転記する。 - Qiita

                        [簡単にできる!] Power Automate for desktop(RPA)で PDF請求書をまとめてエクセルに転記する。PDFOCRPowerPlatformPowerAutomateDesktop 今回は、オフィスの業務課題を想定して、Power Automate for desktop(RPA)で、月末営業から届く大量の請求書(PDF)の内容をOCRを使って文字認識させて、エクセルに転機して売上一覧を作成することを自動化します。 この自動化は、PDFから取得する文字の位置が違うとデータが取れませんので、レイアウトが基本同じであることが条件です。よくあるのは、合計金額を表示する位置が、見積もりの項目数により位置が変わる場合などは取得が難しいです。 Power Automate for desktopはWindows10や11に無償で提供されていますが、時間で定期的に起動したり、何

                          [簡単にできる!] Power Automate for desktop(RPA)で PDF請求書をまとめてエクセルに転記する。 - Qiita
                        • goによるOCRエンジン実行のまとめ - freee Developers Hub

                          会計フリー周りのエンジニアをしているよーだ(@rtryoda)です。この記事は freee Developers Advent Calendar 2019 の11日目です。最近各ベンダーやOSSのOCRエンジンをgoで触る機会があったので、実行方法と結果をまとめました。 OCRとは OCRとは光学的文字認識(Optical Character Recognition)のことで、画像などに記されている文字を読み取りテキストデータに変換することです。例えば以下のような画像に対してOCRを実行すると"あいうえお 12345"と認識されることを期待します。 ※各OCRの実行にはこちらの画像を使用します。 今回試すOCRエンジン一覧 OCRエンジン 日本語対応 クライアントライブラリ(go) Google Cloud Vision API ○ googleapis/google-cloud-go A

                            goによるOCRエンジン実行のまとめ - freee Developers Hub
                          • ロシア大使「NATOは戦車供与でロシアに敗北を押し付けようとしている」海外の反応 : 暇は無味無臭の劇薬

                            Comment by UnlikelyRabbit4648 ウクライナへの戦車供与後、NATOが「我々に敗北を押し付けようとしている」とロシア激怒。 <記事訳> アメリカ合衆国とドイツによるウクライナへの戦車供与はロシアの侵略に対する新たな致命傷になる可能性があり、駐米ロシア大使は怒りを示した。 ロシア大使Anatoly Antonovはワシントンとベルリンが「あからさまな挑発」を行っていると批判し、「ワシントンが意図して我々に戦略的敗北を押し付けようとしていることは明白だ」と述べました。 また「もしアメリカ合衆国が戦車供与を決定した場合、それが『防御兵器』であると支援を正当化することは全く不可能であり、これはロシア連邦に対して更にあからさまな挑発をすることになる」と述べました。 Russia fumes NATO 'trying to inflict defeat on us' afte

                              ロシア大使「NATOは戦車供与でロシアに敗北を押し付けようとしている」海外の反応 : 暇は無味無臭の劇薬
                            • ChatGPT時代に必要かも!? Pythonで実行するファイルパース(PDF編) | DevelopersIO

                              こんちには。 データアナリティクス事業本部 インテグレーション部 機械学習チームの中村です。 今回は話題のChatGPTにコンテキストを与える際に必要となるファイルパース処理について見ていきたいと思います。 本記事ではPDFに焦点を絞ってみていきます。既存のライブラリ内の実装も確認していきます。 先行事例の実装 先行事例の実装として、よく話題となる以下のライブラリを見ていきます。 (LlamaIndexとLlamaHubはほぼ同じですが、parserとしては片方にしかないものもあるため) LlamaIndex https://github.com/jerryjliu/llama_index https://gpt-index.readthedocs.io/en/latest/index.html LlamaHub https://github.com/emptycrown/llama-hu

                                ChatGPT時代に必要かも!? Pythonで実行するファイルパース(PDF編) | DevelopersIO
                              • 第577回 Tesseract OCRで文字認識をする | gihyo.jp

                                今回はオープンソースでマルチプラットフォームのOCRエンジンであるTesseract OCRを使用し、読み取り精度を確認してみます。 UbuntuでOCR? 「日本語でOCR」と聞くと、プロプライエタリの牙城というか、高価なソフトを購入しないと実用に耐えないというイメージがあるかもしれません。あるいはないかもしれませんが、いずれにせよ日本語の文字は難しいのでOCRで高い精度を出すのはなかなか難しそうに思えます。 少なくとも筆者はそう考えていたので、OCRで高精度の結果を出すのは困難、ましてやオープンソースで……と考えていました。そんなところに、Tesseract OCRのバージョン4.0以降では日本語でもかなりの高精度で認識するという話を小耳に挟みました。実際に試してみると想定していた以上の結果だったので、ここで紹介することにします。 Tesseract OCRとgImageReader

                                  第577回 Tesseract OCRで文字認識をする | gihyo.jp
                                • 映画「アベンジャーズ」で使われる英単語を分析しました~ディズニーで英語学習~ - 塾の先生が英語で子育て

                                  ディズニー映画は英語学習に最適です。 世界中の人に分かりやすいように作られています。 大人にも子どもにも、非ネイティブにとっても分かりやすい英語が使われています。 先日id:Sinraptorさんからコメントを頂きました。 アナ雪2を見る前に知っておきたいアナ雪1の頻出英単語~ディズニーで英語学習~ - 塾の先生が英語で子育て! ディズニー以外の映画だとどのくらい使われてるの?アベンジャーズもスターウォーズもディズニー映画だけど、どうなの?/SW4~6は字幕で何度も見たので何を言ってるのか記憶してしまいました。英語は分かりませんw 2019/11/26 10:37 ディズニー以外の映画だとどのくらい使われてるの?アベンジャーズもスターウォーズもディズニー映画だけど、どうなの?/SW4~6は字幕で何度も見たので何を言ってるのか記憶してしまいました。英語は分かりませんw - Sinraptor

                                    映画「アベンジャーズ」で使われる英単語を分析しました~ディズニーで英語学習~ - 塾の先生が英語で子育て
                                  • OCR PDFs and images directly in your browser

                                    This tool runs entirely in your browser. No files are uploaded to a server. It uses Tesseract.js for OCR and PDF.js to convert PDFs into images. Language: Drag and drop a PDF, JPG, PNG, or GIF file here or click to select a file

                                    • ラズパイとAI-OCRで生産日報を電子化する(後編)

                                      今回は、前回に引き続き、小型ボードコンピュータの「Raspberry Pi(ラズベリーパイ、略してラズパイ)」と、機械学習などのAI(人工知能)技術を活用したOCR(光学的文字認識)である「AI-OCR」を組み合わせた事例として「生産日報の電子化」をどのように実現するかについて具体的に解説します。 ⇒連載「ラズパイで製造業のお手軽IoT活用」バックナンバー 生産日報の電子化は、以下の手順で進めます。 手書きで日報を記入する 手書き日報をラズパイで読み取り、テキストデータに変換する テキストデータに変換した日報データを現場画面に表示して内容の確認をする。誤認識している部分は手で修正する 修正した箇所を機械学習して認識率を向上させる 前回は1.と2.について説明しました。今回は3.と4.について解説します。 3.テキストデータに変換した日報データを現場画面に表示して内容の確認をする OCRは1

                                        ラズパイとAI-OCRで生産日報を電子化する(後編)
                                      • PythonでPDFからテキストを読み取る方法について - ガンマソフト

                                        PDFのページ抜粋、結合、重ね合わせのようなPDFのページ操作ならば、PythonでPyPDF2を利用すれば簡単にプログラミングできます。例えば、フォルダ内のPDFを1つにまとめるプログラムなどがすぐに作れます。 しかし、PDFの中身のテキストをプログラムで読み取るのは大抵一筋縄ではいきません。日本語や帳票であればもっと難易度が上がります。 この方法ならどんなPDFでも大丈夫という決定版はありません。目的や原稿のPDFの状態により、適した方法を選択する必要があります。今回はその候補となる方法を紹介します。 本記事の目次 PyPDF2 pdfminer.six Apache Tika Tesseract OCR 最後に PyPDF2 PyPDF2 でもテキストを読み取れます。PyPDF2は以下のようにpipでインストールできます。 pip install PyPDF2 以下のようにextra

                                          PythonでPDFからテキストを読み取る方法について - ガンマソフト
                                        • iOSで文字認識(Text Recognition)

                                          iOS 13以降で、待望だった「文字認識」機能が使えるようになりました。カメラなどで撮影した画像内にある文字を読み取る [1] ことができます。 iOS 9からあった「文字検出」との違い 文字認識は、Visionフレームワークの一機能として追加されました。 一方、Core ImageのCIDetectorというクラスでは、CIDetectorTypeTextというタイプを指定でき、テキストを検出することができます。 このCIDetectorTypeTextやCIFeatureTypeTextはiOS 9からあるものです。 しかしこちらは文字の「領域」を検出する機能です。何が書いてあるか、までは認識できませんでした。 そこで今まではTesseract[2]というオープンソースのOCRエンジンや、SwiftOCR[3]という(おそらく個人がメンテしている)OSSしか選択肢がなかったのですが、つ

                                            iOSで文字認識(Text Recognition)
                                          • Open Interpreterで開かれた未来像 RPAツールをAIで作る

                                            Open Interpreterで開かれた未来像 RPAツールをAIで作る 2023.09.12 Updated by Ryo Shimizu on September 12, 2023, 11:25 am JST OpenInterpreter(オープンインタープリター)が話題だ。 これはChatGPTの「Code Interpreter」をローカルで動かすというもの。 しかも、GPT-3/GPT-4のAPI以外にも、Llama2やFalconなどのローカル動作のLLMのエンジンにも容易に切り替えることができる。 筆者も早速試してみたが、これが非常に面白い。ChatGPT出現時くらいのインパクトがある。 筆者は最近、平日はほぼ毎日「教養としてのAI講座 / デイリーAIニュース」という有料番組を配信している。 この中で先週とりあげたのがOpen Interpreterだったのだが、この反

                                              Open Interpreterで開かれた未来像 RPAツールをAIで作る
                                            • 寿司打の限界を目指して ~WebGLのOCR~

                                              この記事は闇の魔術に対する防衛術 Advent Calendar 20192 日目の記事です。 ある日、会社で寿司打というタイピングの速度や正確さを競うゲームが流行った。 みんなやってるので私も挑戦してみたところ、結果は惨敗。全エンジニアの中でもっともスコアが低かった。もともとタイピングが早くも正確でもないことを自覚していたつもりだったが、現実を突きつけられ大人しく家に返って枕を濡らそうと思った。が、あまりの悔しさにまみれ「JSer ならタイピング速度ではなく JS で勝負すればいいんだ」とダークサイドに堕ち闇の力に手を染めてしまった。 本記事はムキになって寿司打(WebGL 版)のスコアを稼ぐ自動化 JavaScript の話。 なお動作確認には Ubuntu 19.04、Google Chrome 80.0.3955.4 を使用した。 寿司打 WebGL 版 http://typing

                                                寿司打の限界を目指して ~WebGLのOCR~
                                              • API Diffsから見るiOS 13の新機能 #WWDC19 - Qiita

                                                本日からはじまったWWDC 2019、SwiftUIをはじめ実にワクワクする新機能が盛りだくさんでした。iOS 13のドキュメントが公開されたので、明日からのセッションでどのへんを勉強するかの予習をかねて、気になった新APIをピックアップしておきます。 Vision 人間検出 VNDetectHumanRectanglesRequest 人間を矩形で検出。 ↓はOpenCVを使った結果ですが、こういうのです。 ARKitのpeople segmentationがインパクトありすぎて「矩形で検出」というのは印象薄いですが、「こういうのもあったな」と頭の片隅に置いておくといつか用途があるかもしれません。 文字認識 VNRecognizeTextRequest 文字認識。従来から備えていた文字領域検出ではなく、文字認識、いわゆるOCR的なやつです。 今まで無料で使えるやつだとtesseractと

                                                  API Diffsから見るiOS 13の新機能 #WWDC19 - Qiita
                                                • How to OCR with Tesseract in Python with Pytesseract and OpenCV?

                                                  In this blog post, we will try to explain the technology behind the widely used Tesseract Engine, which was upgraded with the latest knowledge researched in optical character recognition. This article will also serve as a how-to guide/ tutorial on how to implement PDF OCR in python using the Tesseract engine. We will be walking through the following modules: Tesseract OCR FeaturesPreprocessing for

                                                    How to OCR with Tesseract in Python with Pytesseract and OpenCV?
                                                  • PythonとOCRエンジンで画像から文字を認識する - Qiita

                                                    目的 anacondaの仮想環境内でtesseractとPyOCRを使い、画像から文字を認識できるようにします。 今回は画像の文字を認識し、ターミナルへ出力できるところまでの行います。 こんな感じ↓ 環境 python 3.6 tesseract 4.1.1 PyOCR 0.8 手順 ツールのインストール anacondaの仮想環境に下記2つをインストールします。 ・文字認識のためのOCRエンジンであるTesseract OCRをインストール https://anaconda.org/conda-forge/tesseract

                                                      PythonとOCRエンジンで画像から文字を認識する - Qiita
                                                    • GitHub - deepdoctection/deepdoctection: A Repo For Document AI

                                                      deepdoctection is a Python library that orchestrates document extraction and document layout analysis tasks using deep learning models. It does not implement models but enables you to build pipelines using highly acknowledged libraries for object detection, OCR and selected NLP tasks and provides an integrated framework for fine-tuning, evaluating and running models. For more specific text process

                                                        GitHub - deepdoctection/deepdoctection: A Repo For Document AI
                                                      • 無料でKindleを読み上げるソリューション作ってたら、Audibleならぬオレディブルが出来てしまったが一向にかまわんッ - Qiita

                                                        無料でKindleを読み上げるソリューション作ってたら、Audibleならぬオレディブルが出来てしまったが一向にかまわんッ自然言語処理DeepLearningKindleTextToSpeechOCR はじめに 三体Ⅲが発売されましたが、皆さんもう読みましたか? 僕は発売日当日にKindleで購入したものの、全然読めていません。 このままだと永遠に読み終わらない危機感を感じまして、 読む時間がないならせめて「ながら聴き」したいと思いました。 しかしAudibleはまだ販売されておらず、 販売されたとしても上下合わせてで9,000円とかなり高額です。 また、スマホの設定でも読み上げることは可能ですが、 スマホが使いづらくなるので不採用です。 そこで、お金をかけずにPC上でKindleを読み上げる方法を実現したので紹介します。 特記 途中でKindleのスクリーンショットを行いますが、 スクリ

                                                          無料でKindleを読み上げるソリューション作ってたら、Audibleならぬオレディブルが出来てしまったが一向にかまわんッ - Qiita
                                                        • PythonとTesseract OCRで文字認識 - Qiita

                                                          概要 Pythonの勉強をしている時に良い題材がないかを調べている際、文字認識について興味があったので一緒に使って勉強しようと思いました。 オープンソースで使用可能なOCRはTesseract OCRが優秀だということでこちらを使ってみたいと思います。 Tesseract OCRのインストール 今回はTesseract OCR4.0以降を使用します。 ダウンロード 公式ページ https://github.com/tesseract-ocr/tesseract windowsの場合 自力でコンパイルしても良いが、Windows用インストーラが用意されているのでそちらを実行してインストールを行う。 wikiの「Windows」項目内の「Tesseract at UB Mannheim」をクリック 遷移先のページの32bitもしくは64bitのどちらかをダウンロード。 古いバージョンが欲しい場

                                                            PythonとTesseract OCRで文字認識 - Qiita
                                                          • [Capture2Textより優れる] ゲーム画面翻訳支援ツール PCOT紹介 [ゲーム内ポップアップも翻訳可能] | Hello, My Friends

                                                            御存知の方もいらっしゃるかもしれませんが、筆者は過去にゲーム画面を翻訳する 「GameScreenTranslator」やCapture2Textを優秀な翻訳エンジンであるDeepLと 連携可能にする「OCR2DeepL」などを制作してきました しかし今後はそのようなツールやCapture2Textでさえも不要になるかしれません ぬるっぽさん制作による「PCOT」は英語ゲームを翻訳するのに優れた機能が詰まっており これ1つで英語のゲームも楽しめるようになると思います 今回は紹介と言うことでどんなことが出来るのかと簡単な使い方について説明していきます ■PCOTができること ・ゲーム内ポップアップも翻訳できる! マウスオーバーした時にのみ表示されるゲーム内ポップアップを翻訳できます Capture2Textでも裏ワザ的な方法で一応可能な場合がありましたがこちらを使った方が確実です ・文字認識

                                                              [Capture2Textより優れる] ゲーム画面翻訳支援ツール PCOT紹介 [ゲーム内ポップアップも翻訳可能] | Hello, My Friends
                                                            • Python+Tesseractによる画像処理でOCRを試してみた! – 株式会社ライトコード

                                                              Tesseract とは? Tesseract は、オープンソースの OCR エンジンです。 「OCR」とは、画像ファイル中の文字を、テキストファイルとして読み込む技術のことです。 Tesseract は、コマンドラインのインターフェースを実装しているため、パソコンへインストールするだけで、OCR ができます。 Tesseract と Python で画像処理するメリットは?Tesseract を Python と組み合わせて利用すれば、画像を前処理してから Tesseract へ渡すことができます。 これにより、OCR の精度が向上し、Tesseract が読み取った文字列を任意の形に処理できます。 例えば、紙に印刷された文書も、Tesseract を利用すれば、テキストデータとして保管できるのです。 さて、今回は、Tesseractを使って、画像処理でOCRを試してみたいと思います!

                                                                Python+Tesseractによる画像処理でOCRを試してみた! – 株式会社ライトコード
                                                              • PythonでOCRを実行する方法 - ガンマソフト

                                                                PyOCRのインストール TesseractをインストールしておけばコマンドからOCRを実行できる状態になりますが、Pythonのライブラリから操作するとさらに使いやすくなります。 ここでは、PyPIで公開されている 「PyOCR」というライブラリを利用します。インストールは以下のようにpipで簡単にインストールできます。 > py -m pip install pyocr # または環境に応じて以下のコマンドを用いる > python -m pip install pyocr > python3 -m pip install pyocr PyOCRをインストールすると画像処理を行える「Pillow」というライブラリも一緒にインストールされます。 OCRを行うサンプル画像 Tesseractの確認テストでは背景がないシンプルな画像を使いましたが、ここでは背景に模様がある画像を用います。OC

                                                                  PythonでOCRを実行する方法 - ガンマソフト
                                                                • Tesseractocr-for-mac/chop.plo At Master Angushardie

                                                                  Visiteurs depuis le 26/01/2019 : 5360 Connectés : 1 Record de connectés : 11 Walter Drake apple master peeler/corer/slicer peels, cores and slices in one easy motion. Apple peeler can pare, core and slice all at once.'Then I hope your master gets the parts soon. In the meantime, I'll make sure the girls are on our guard.' Obi-Wan nodded. 'You do that. Angus Hardie: Thank you for your review. I'm t

                                                                    Tesseractocr-for-mac/chop.plo At Master Angushardie
                                                                  • Tesseract OCR をWindowsにインストールする方法 - ガンマソフト

                                                                    ブログ Tesseract OCR をWindowsにインストールする方法 [PR] 2019/10/28 2020/1/7 | OCR 業務効率化 OCRをPythonで操作できれば大量の紙資料の読み取りも自動化できます。特に郵便番号や請求書番号など定型書類の番号を読み取る作業は代表的な活用例です。 普段のオフィスワークではOCRソフトウェアを用いるのが一般的です。しかし、こららのソフトウェアはPythonから操作できません。そこで、OCRエンジンのみを利用してPythonから操作します。 代表的なOCRエンジンにGoogleがオープンソースで開発している「Tesseract 」があります。 今回はPythonでOCRを操作するための準備として、このTesseractをWindowsにインストールする手順を説明します。 本記事の目次 Tesseractのダウンロード Tesseractの

                                                                      Tesseract OCR をWindowsにインストールする方法 - ガンマソフト
                                                                    • バクラクのデータセットを用いたLayoutLMv3による事前学習 - LayerX エンジニアブログ

                                                                      機械学習エンジニアの吉田です。本記事では、LayoutLMv3*1というモデルをバクラクで取り扱っている帳票で事前学習を行い、それをファインチューニングして項目推定タスクに取り組んでいる話をご紹介します。 背景 LayerXで提供しているバクラクでは帳票をアップロードするだけで支払金額や支払期日などを自動で読み取り補完してくれるOCR機能があります。このOCR機能には大きく2つの処理があります。 帳票に書かれている文字列を認識し検出すること 検出された文字列から支払金額や支払期日などの項目を推定すること 2つ目の項目推定において現在はRoBERTa*2というモデルを使っています。RoBERTaでも精度高く推定することができるのですが、複雑なレイアウトの場合に誤って推定してしまうケースがどうしても発生してしまいます。RoBERTaはOCRで検出したテキストだけを使ったモデルであるためこのよう

                                                                        バクラクのデータセットを用いたLayoutLMv3による事前学習 - LayerX エンジニアブログ
                                                                      • Python と Tesseract OCR を使って文字認識をしてみよう! - GIS奮闘記

                                                                        本日は Python と Tesseract OCR を使って文字認識をしてみようと思います。みなさんは OCR と聞いてピンときますか?実は私たちの周りは OCR を使用したテクノロジーで溢れかえっています。 OCR とは? OCR(Optical Character Recognition/Reader、オーシーアール、光学的文字認識)とは、手書きや印刷された文字を、イメージスキャナやデジタルカメラによって読みとり、コンピュータが利用できるデジタルの文字コードに変換する技術のことです。この技術を利用することによって、例えば、紙に書かれている情報を毎回パソコンで手入力しなければいけない、ということはよくあるかと思います。OCR を使うことによってこの作業を自動化することができるようになります。 最近はフリーの OCR エンジン が普及していており、プログラミング で OCR を扱うことが

                                                                          Python と Tesseract OCR を使って文字認識をしてみよう! - GIS奮闘記
                                                                        • Screen Translator - k本的に無料ソフト・フリーソフト

                                                                          画面内に映った文字列を抽出&コピー可能にし、必要であれば自動翻訳もしてくれる OCR ツール。 マウスドラッグで囲んだ領域内にあるテキストを抽出し、任意の言語に自動で翻訳できるようにしてくれます。 抽出結果のテキスト(翻訳テキストも含む)をホットキーでコピーする機能や、複数の領域を一度に OCR する機能、Hunspell によるスペルチェック機能 なども付いています。 「Screen Translator」は、翻訳機能付きの OCR ツールです。 マウスドラッグで囲んだ矩形領域内にあるテキストを抽出し、必要に応じて任意の言語に自動翻訳もしてくれる... という OCR &翻訳ツールです。 (翻訳機能はオフにすることもできる) OCR エンジンは Google の “ Tesseract ” を、翻訳エンジンは Google / DeepL / Bing / Baidu / Yandex

                                                                            Screen Translator - k本的に無料ソフト・フリーソフト
                                                                          • 【JavaScript】ブラウザだけでカメラ撮影した文字を読み取る(OCR)

                                                                            さてさて、このところLaravelの新バージョンがリリースされたこともあってほぼLaravel記事ばかりでしたが、やはり開発者として「気になること」もたまにはやってみたいということで、今回は「ある驚く機能」をブラウザで実装してみたいと思います。 その機能とは・・・・・ OCR(画像から文字を読み取る) 機能です。 実は、OCRは次の記事で紹介をしたことがあります。 📝 無料でできる!PHPで画像からテキストを読み取る方法 しかし、これはPHPからコマンドを実行する方法なので、サーバーが必須でした。 しかし、この間すごいパッケージを発見してしまったんです。 その名も、「tesseract.js」です。 なんと、このパッケージは純粋にブラウザのJavaScriptだけでOCRを実現するというスグレモノなんです。 そこで❗ 開発者として、どうしてもやってみたくなったので、今回は需要は度外視して

                                                                              【JavaScript】ブラウザだけでカメラ撮影した文字を読み取る(OCR)
                                                                            • API Diffsから見るiOS 13の新機能 - Vision #WWDC19 - その後のその後

                                                                              iOSエンジニア諸氏のツイートを見ているとSwiftUIが圧倒的インパクトっぽい今回のWWDCですが、そのへんは識者の方々にお任せして、「その他フレームワーク」で気になった新APIを見ていきたいと思います。 まずはVision。 Visionもかなりアツい。 - VNRecognizeTextRequest(今までの文字領域検出じゃなくて文字認識、いわゆるOCR!) - VNDetectHumanRectanglesRequest - VNAnimalDetector(今のところイヌネコw)#iOS13 #WWDC19— Shuichi Tsutsumi (@shu223) 2019年6月3日 "Analyzing Image Similarity with Feature Print"っていうサンプルによると、画像の類似度の計算もできるようになったっぽい— Shuichi Tsutsum

                                                                                API Diffsから見るiOS 13の新機能 - Vision #WWDC19 - その後のその後
                                                                              • Unix ASCII games

                                                                                Unix ASCII games View the Project on GitHub ligurio/awesome-ttygames Unix ASCII games Feel free to submit pull requests to add new games and improve information about those already in the database. How to contribute Check games.yaml out. All information is inside, and you should more or less understand what’s going on by reading it. Sorting is alphabetical. Simplest way to contribute: edit games.y

                                                                                • 第705回 Radeon Software for Linuxを使用する[2022年版] | gihyo.jp

                                                                                  今回はAMDがリリースしているUbuntu用Radeonドライバーの使用方法を紹介します。第471回の更新になります。 Radeon用ドライバーについて AMDはNVIDIAと違いドライバーをオープンソースで開発しています。アップストリームのカーネルやMESAで開発しているため、新しいUbuntuでは新しいGPUが使用可能となります。 それだけでなく、AMDもRadeonのドライバー配布ページでUbuntu用(だけではありませんが)ドライバーである「Radeon Software for Linux」を配布しています。第471回によると、2016年からドライバーとプロプライエタリなVulkan実行環境を含んで配布されていたようです。 それからしばらく経ち、2021年11月にリリースされた21.40.1で大きな変更がありました。 これまでは関連するパッケージを含んだ状態で配布しており、ローカ

                                                                                    第705回 Radeon Software for Linuxを使用する[2022年版] | gihyo.jp