並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 314件

新着順 人気順

OCRの検索結果1 - 40 件 / 314件

  • スマホにカメラついてるんだからOCRできるでしょという気持ち - Progate Tech Blog

    どうも、 株式会社Progate で SoftwareEngineer チームのマネージャーをしています @satetsu888 です。本記事は Progate AdventCalendar 2020 10日目です。 普段仕事ではエンジニア組織のことやプロダクトの技術戦略的なことを考えたり、ミーティングしたり採用活動したりタスクをお願いして回ったりなどを担当していますが、今日はそういうのとはなんの関係もないただの日常の話を書こうと思います。 ことの始まり 我が家では子どもの朝ごはんとして週に2,3回くらいの頻度でポケモンパンを買っています。 先日(2020/09/18 ~ 11/24) ポケモンパンについてるポイントを5点集めるとポケモンシールホルダーの抽選に1回応募できるキャンペーンがありました。(キャンペーン自体はすでに終了しています) いつも通りのペースでパンを買ってると何回か挑戦で

      スマホにカメラついてるんだからOCRできるでしょという気持ち - Progate Tech Blog
    • OCR処理プログラム及び学習用データセットの公開について | NDLラボ

      2022年04月25日 NDLラボのGitHubから、次の2件を公開しました。ライセンスや詳細については、各リポジトリのREADMEをご参照ください。 NDLOCR 国立国会図書館(以下、「当館」とします。)が令和3年度に株式会社モルフォAIソリューションズに委託して実施したOCR処理プログラムの研究開発事業の成果である、日本語のOCR処理プログラムです。 このプログラムは、国立国会図書館がCC BY 4.0ライセンスで公開するものです。なお、既存のライブラリ等を利用している部分については寛容型オープンライセンスのものを採用しているため、商用非商用を問わず自由な改変、利用が可能です。 機能ごとに7つのリポジトリに分かれていますが、下記リポジトリの手順に従うことで、Dockerコンテナとして構築・利用することができます。 リポジトリ : https://github.com/ndl-lab/

      • macOS のデフォルト状態でコマンドラインからOCR処理を行う - TeX Alchemist Online

        macOS 12 Monterey では,OSビルトインでのOCR機能が搭載されました。Preview.app で,画像やスキャンPDF(中身がスキャン画像のPDF)に対して,ただマウスでドラッグするだけで,中身の文字を認識して選択し,コピーできるようになっています。さらに,macOS 13 Ventura では,それが日本語にも対応しました。 たとえば,(今や入手困難となってしまった)The TeXbook のアスキーによる日本語版をスキャンしたものを Preview.app で開くと,何もしなくても,文字選択できます。 これをコピーして他のエディタにペーストすると, TEXの名称で気をつけなければならないことがほかにもある。Eの文字が不揃いになっていることだ。Eの文字を少し下げてあるのは、TeXが組版のためのシステムであることを印象づけるためであり、またほかのシステムの名称と区別するた

          macOS のデフォルト状態でコマンドラインからOCR処理を行う - TeX Alchemist Online
        • 若者のスクショ共有文化はもう戻せないのでカジュアルOCRを推進すべき - 太陽がまぶしかったから

          若者のスクショ文化 若者のスクショ癖を腐すの嫌なんだけど、1万回注意してもアシスタント(25歳)が参考資料などをスクショで送って来るので1万1回目のキレをかましてしまった😢地図でもサイトでもスクショで送ってくる😭情報追えねぇからURL貼れっつってもURL写ってる状態のスクショ送ってくる😭若者のコピペ離れ😭つら— $tina$ (@tinasuke) 2020年6月22日 若者がスクショでシェアしがちという話をよく聞く。テキスト形式でないとURLや再利用ができないといった弊害があるからやるべきではないという話になりがちだけど、特にスマートフォンは文章を範囲選択しづらいし、フォントスタイルやイメージなども保存しておこうと思えば、スクリーンショットのが楽だ。 自分自身もスマートフォンにおいてはスクリーンショット画像をそのまま Evernote などに保存する事が多い。それでもあまり困らな

            若者のスクショ共有文化はもう戻せないのでカジュアルOCRを推進すべき - 太陽がまぶしかったから
          • 古文書を解読できるスマホアプリ 凸版印刷が開発 くずし字対応AI-OCRを活用

            凸版印刷ではこの課題を解決するため、2015年から国文学研究資料館と共同研究を開始。古文書対応のAI-OCRの開発に取り組んできた。その中で「手元の古文書を手軽に読みたい」という一般利用者向けのサービスに対する多数の要望があり、今回のアプリ開発に至ったとしている。 凸版印刷は今後、2025年度までにAPI提供や関連事業を含め、一般利用者や教育機関、博物館・資料館、地方自治体などのサービス提供を拡大し、約3億円の売り上げを目指す。 関連記事 ライトを当てると文字や絵が現れるホログラム 凸版が開発 スマホライトで真贋判定 強い光(点光源)を当てると、立体的な画像が現れる新たなホログラム「イルミグラム」を凸版が開発。スマートフォンのライトなどで誰でも簡単・正確に真贋判定できる。 メタバースでのなりすましを防ぐ 3Dアバターの本人証明ができるセキュリティ基盤 凸版印刷が開発 凸版印刷が、メタバース

              古文書を解読できるスマホアプリ 凸版印刷が開発 くずし字対応AI-OCRを活用
            • OCR屋のAI inside、ストック型ビジネスどころか逆に大量解約(9284件中7636件)の憂き目に遭い売上の半分弱を失う : 市況かぶ全力2階建

              日刊SPA!に登場の医学生投資家、儲け自慢に熱を入れるあまり「11歳から親の口座で投資を始めた」と借名取引をうっかり告白

                OCR屋のAI inside、ストック型ビジネスどころか逆に大量解約(9284件中7636件)の憂き目に遭い売上の半分弱を失う : 市況かぶ全力2階建
              • PythonとWinRT OCRで文字認識 - Qiita

                import cv2 img = cv2.imread('test.jpg') (await winocr.recognize_cv2(img, 'ja')).text pip install jupyterlab jupyter_http_over_ws jupyter serverextension enable --py jupyter_http_over_ws jupyter notebook --NotebookApp.allow_origin='https://colab.research.google.com' --ip=0.0.0.0 --port=8888 --NotebookApp.port_retries=0

                  PythonとWinRT OCRで文字認識 - Qiita
                • Tesseract.js | Pure Javascript OCR for 100 Languages!

                  Tesseract.js is a pure Javascript port of the popular Tesseract OCR engine. This library supports more than 100 languages, automatic text orientation and script detection, a simple interface for reading paragraph, word, and character bounding boxes. Tesseract.js can run either in a browser and on a server with NodeJS. Check out the Example code and API docs on GitHub.

                  • 日本語OCRはなぜ難しい? NAVERのエンジニアが語る、テキスト検出における課題と解決策

                    2019年11月20、21日の2日間、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2019」が開催されました。1日目は「Engineering」をテーマに、LINEの技術の深堀りを、2日目は「Production」をテーマに、Web開発技術やUI/UX、プロジェクトマネジメントなど、より実践的な内容についてたくさんのプレゼンテーションが行われました。「NAVER ClovaのOCR(光学的文字認識) 」に登壇したのはNAVER OCR Team AI ResearcherのHwalsuk Lee氏。深層学習を用いたOCR技術の仕組みについて語りました。講演資料はこちら LINEのOCR技術の仕組み Hwalsuk Lee氏:みなさま、こんにちは。Hwalsuk Leeと申します。NAVER Clova OCR Teamから参りました。今

                      日本語OCRはなぜ難しい? NAVERのエンジニアが語る、テキスト検出における課題と解決策
                    • 高精度で話題の機械翻訳サービス「DeepL」を使ってゲーム内の文章をその場で翻訳。日本語未対応ゲームの強い味方「OCR2DeepL」が配信中

                      高精度で話題の機械翻訳サービス「DeepL」を使ってゲーム内の文章をその場で翻訳。日本語未対応ゲームの強い味方「OCR2DeepL」が配信中 2020年3月、機械翻訳サービス「DeepL」が日本語に対応し、これまでスタンダードとされてきた「Google翻訳」以上の翻訳精度だとして大きな話題となった。DeepLにはデスクトップアプリ版も存在しており、そのアプリ版を使ってゲームの字幕の翻訳を補助する便利なソフトウェア「OCR2DeepL」が公開されている。 制作したのはWiNCHaN氏。「OCR2DeepL」は「OCR」(光学文字認識)ソフトとDeepLアプリを仲介し、コピーした文字列をDeepLに送る。簡単に言えば、画面に映った文字をそのままDeepLで翻訳できるという優れものだ。プレイヤーはゲームプレイ中に気になる文章があれば、マウスでその字幕が映っている範囲を選択するだけでよい。 OCR

                        高精度で話題の機械翻訳サービス「DeepL」を使ってゲーム内の文章をその場で翻訳。日本語未対応ゲームの強い味方「OCR2DeepL」が配信中
                      • 知らなくて損してた!OCRがGoogleドライブで手軽にできる方法!

                        令和の時代になっても、手渡しで配られる小学校のプリント、届くFAXはWordで書いたものをわざわざ印刷したもの、メールに添付された資料は印刷したエクセルをPDF化したもの…もううんざりですよね。 テキストのデータでぽんともらえれば早く済む仕事も、画像データで来てしまうともう一度パソコンに打ち直す必要があります。普段パソコンで仕事をしている人なら、このような事態に何度か直面したことがあるでしょう。 もちろん、「テキストデータで送って!」と言えれば、何の問題もありません。しかし相手が上司やお客さんだとなかなか言えませんし、勇気を出して伝えても、「テキストデータ?きょーゆーふぉるだ?よくわかんないけど、データは送ったよ☆」となることが多く、この悩みは尽きそうにありません。 そんなときは、画像データをテキストデータに変換できる「OCR」がおすすめです!OCRソフトには色々あり、一昔前は有償のものが

                          知らなくて損してた!OCRがGoogleドライブで手軽にできる方法!
                        • 紙の書類を高精度にテキストデータ化できる無料Webサービス『Free Online OCR』【今日のライフハックツール】 | ライフハッカー・ジャパン

                          三井住友カード ゴールド(NL)のデメリットは?メリットない・いらないは勘違い【年会費無料になる100万円修行のコツ】

                            紙の書類を高精度にテキストデータ化できる無料Webサービス『Free Online OCR』【今日のライフハックツール】 | ライフハッカー・ジャパン
                          • 深層学習時代の文字認識とその周辺 / OCR and related technologies in the Deep Learning era

                            ■イベント 
:【SenseTime Japan × Sansan】画像処理勉強会 https://sansan.connpass.com/event/230636/ ■登壇概要 タイトル:深層学習時代の文字認識とその周辺 発表者: 
技術本部 DSOC R&D研究員  宮本 優一 ▼Twitter https://twitter.com/SansanRandD

                              深層学習時代の文字認識とその周辺 / OCR and related technologies in the Deep Learning era
                            • 簡単に利用できる PDF 文字認識 OCR 比較まとめ ~ AI OCR の頭抜けた実力 - GMOインターネットグループ グループ研究開発本部

                              D.M.です。今回は RPA にて PDF を OCR で読み取る検証をしたお話です。 TL;DR ・実用性は AI OCR しか勝たん。 ・AI OCR は Google vs Microsoft の構図。 両者精度高。 ・Google も Microsoft も API に無料枠があり Python などのプログラムで連携できる。 ・Microsoft は有料の RPA 連携機能が超絶楽勝なのでコードを書かない前提ならこっちも選択肢。非エンジニアでも楽々自動化できる。 ※関連記事 AI OCR でクレカ読み取りをやっています。 スマホNativeアプリでクレジットカード番号の読み取り機能の技術検証結果まとめ https://recruit.gmo.jp/engineer/jisedai/blog/technical_review_ocr_solutions_on_auto_detect

                                簡単に利用できる PDF 文字認識 OCR 比較まとめ ~ AI OCR の頭抜けた実力 - GMOインターネットグループ グループ研究開発本部
                              • 古文書などの「くずし字」解読が簡単にできる一般向けAI-OCRアプリ、凸版印刷が開発。2023年提供予定

                                  古文書などの「くずし字」解読が簡単にできる一般向けAI-OCRアプリ、凸版印刷が開発。2023年提供予定 
                                • [スタパ齋藤のApple野郎] iPhoneがOCRスキャナーになる! 2月に爆誕した神アプリで紙の文字をテキスト化!!!

                                    [スタパ齋藤のApple野郎] iPhoneがOCRスキャナーになる! 2月に爆誕した神アプリで紙の文字をテキスト化!!!
                                  • 数式や文章がぐにゃぐにゃに曲がった論文PDFでもくっきり認識する画期的なOCR『Nougat』 | AIDB

                                    科学的知識は主に書籍や科学誌に保存されていますが、PDF形式が一般的です。しかし、この形式は特に数学的表現においてセマンティック情報の損失を引き起こします。この問題に対処するために、Meta AIの研究チームは『Nougat(Neural Optical Understanding for Academic Documents)』という新しいOCR(光学式文字認識)技術を開発しました。 Nougatは、数式や文章が複雑に配置された画像であっても、それをマークアップ言語に高品質で変換する能力を持っています。この技術は、新しい論文だけでなく、電子データが存在しない古い書類などの解析にも非常に有用です。 参照論文情報 タイトル:Nougat: Neural Optical Understanding for Academic Documents 著者:Lukas Blecher, Guillem

                                      数式や文章がぐにゃぐにゃに曲がった論文PDFでもくっきり認識する画期的なOCR『Nougat』 | AIDB
                                    • 凸版印刷、明治期から昭和初期の手書き文字を解読するAI-OCRを日本で初めて開発

                                      2022/11/11 凸版印刷、明治期から昭和初期の手書き文字を解読する AI-OCRを日本で初めて開発

                                        凸版印刷、明治期から昭和初期の手書き文字を解読するAI-OCRを日本で初めて開発
                                      • Windows 10上で無料利用できるAI-OCR 認識精度は95% 認識枚数は制限なし | Ledge.ai

                                        サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

                                          Windows 10上で無料利用できるAI-OCR 認識精度は95% 認識枚数は制限なし | Ledge.ai
                                        • 手書き文字を認識できるAIを無償公開 自社サービスでAI OCRが利用可能に | Ledge.ai

                                          サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

                                            手書き文字を認識できるAIを無償公開 自社サービスでAI OCRが利用可能に | Ledge.ai
                                          • GitHub - JaidedAI/EasyOCR: Ready-to-use OCR with 80+ supported languages and all popular writing scripts including Latin, Chinese, Arabic, Devanagari, Cyrillic and etc.

                                            4 September 2023 - Version 1.7.1 Fix several compatibilities 25 May 2023 - Version 1.7.0 Add Apple Silicon support (thanks@rayeesoft and @ArtemBernatskyy, see PR) Fix several compatibilities 15 September 2022 - Version 1.6.2 Add CPU support for DBnet DBnet will only be compiled when users initialize DBnet detector. 1 September 2022 - Version 1.6.1 Fix DBnet path bug for Windows Add new built-in mo

                                              GitHub - JaidedAI/EasyOCR: Ready-to-use OCR with 80+ supported languages and all popular writing scripts including Latin, Chinese, Arabic, Devanagari, Cyrillic and etc.
                                            • 〜OCR戦記〜適格事業者登録番号との戦い🔥🔥🔥 - LayerX エンジニアブログ

                                              この記事はLayerXテックアドカレ2023の5日目の記事です。 昨日はmakogaさんがEngineering Career Ladderを作るときに気をつけたこと 其の一を書いてくれました。 次回はyuya-takeyamaさんがMicrosoft Graph APIについて書いてくれます!乞うご期待! こんにちは、機械学習を通じて誰かをラクにしたい yakipuです。 今回は、10月から始まったインボイス制度に伴う適格請求書発行事業者登録番号(以下「登録番号」と表記します)のOCR読み取りの戦いについて記したいと思います。 インボイス制度は、売手が買手に対して正確な税率や消費税額を示す適格請求書(インボイス)を交付することで、買手が仕入税額控除の適用を受けるために必要な制度です。売手側は登録事業者として登録番号などが記載されたインボイスを交付し、買手側はインボイスを保存する必要があり

                                                〜OCR戦記〜適格事業者登録番号との戦い🔥🔥🔥 - LayerX エンジニアブログ
                                              • OCR機能や記号入力補助ツールを強化した「PowerToys 0.66.0」がリリース/自己完結型「.NET 7」アプリとなりランタイム管理も簡素化、リソース消費も削減

                                                  OCR機能や記号入力補助ツールを強化した「PowerToys 0.66.0」がリリース/自己完結型「.NET 7」アプリとなりランタイム管理も簡素化、リソース消費も削減
                                                • 画像の中の文字を認識してくれるオープンソースのOCR「PaddleOCR」レビュー

                                                  画像に含まれる文字をテキストデータ化する光学文字認識(OCR)は、請求書やレシート、名刺などの印刷物をデジタル化する手法として広く使われています。そんなOCRをディープラーニングフレームワークで実現したのが、オープンソースのOCRシステム「PP-OCRv2」のデモ版となる「PaddleOCR」です。 PaddleOCR - a Hugging Face Space by akhaliq https://huggingface.co/spaces/akhaliq/PaddleOCR GitHub - PaddlePaddle/PaddleOCR: Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recog

                                                    画像の中の文字を認識してくれるオープンソースのOCR「PaddleOCR」レビュー
                                                  • 画像からテキストを抽出 ~「PowerToys」に簡易OCR・物差しなど3つの新ツール/「PowerToys 0.62.0」が公開

                                                      画像からテキストを抽出 ~「PowerToys」に簡易OCR・物差しなど3つの新ツール/「PowerToys 0.62.0」が公開
                                                    • OCR前処理としてのOpenCV超解像 - OPTiM TECH BLOG

                                                      R&D チームの徳田(@dakuton)です。 最近は画像とテキストの狭間にいます。 今回記事のまとめ 簡単にまとめると以下のとおりです。 いくつかの超解像(高解像度化)モデルがOpenCV extra modules(opencv_contrib)インストール + コード数行記述で導入可能 超解像に限らず、文字が一定サイズ以上になるような前処理 -> OCR解析 を実施すると、OCR精度改善につながることがある 超解像による見た目の滑らかさに比例して、OCR精度改善につながるわけではない 低計算コストな画像拡大から超解像に変更する恩恵は発生しにくい テスト条件を変えた場合、違った結果になる可能性あり(用いるOCRエンジン、画像の劣化条件、OpenCV未提供の後発モデル利用など) 実験内容 利用するOCRエンジンの実行条件は変えずに、前処理部分のみ変更した場合のOCR精度・速度変化を調べま

                                                        OCR前処理としてのOpenCV超解像 - OPTiM TECH BLOG
                                                      • 明治期の本もテキスト化、国立国会図書館が特注OCRに込めた狙い

                                                        「(古い資料の)本文検索ができるようになれば、新たな本の価値を届けられる」。国立国会図書館次世代システム開発研究室の徳原直子室長は力を込める。 国立国会図書館(NDL)は2022年4月25日、新たに開発した「NDLOCR」をオープンソースとして公開した。NDLOCRは、書籍や雑誌などの画像データから本文のテキストデータを作成できるOCR(光学的文字認識)処理プログラム。明治~昭和期の独特なレイアウトにも対応しているのが特徴だ。古い資料でも本文検索ができるようになる。 NDLが蔵書のデジタル化に乗り出したのは2000年代に遡る。資料をスキャンし、主に「JPEG 2000」のフォーマットで保存、提供してきた。NDLが手掛けるオンラインサービス「国立国会図書館デジタルコレクション」から利用可能だ。 デジタル化を進める最大の目的は資料の保存にある。時がたつほど紙は劣化していくからだ。 ただし、ND

                                                          明治期の本もテキスト化、国立国会図書館が特注OCRに込めた狙い
                                                        • 無償デスクトップ自動化ツール「Power Automate Desktop」でOCR処理を自動化する

                                                          はじめに 日々の業務作業で、画面や画像を見てその内容によって、その後の作業の流れや結果を変更する場面があります。そういった業務作業をPower Automate for desktopで自動化する際に、OCRのアクションを利用できます。 今回は、文字列が含まれた画像ファイルが複数入ったフォルダーを用意して、その中の各画像の文字列を抽出するサンプルフローを作成します。 [注意] アクションには、MicrosoftコグニティブのOCRの機能もありますが今回は使用しません。Azureアカウントなどは不要です。 「ファイル選択ダイアログ」アクションの後に「OCRを使ってテキストを抽出」アクションを使用するとデッドロックしてフリーズしてしまう問題があるようですので、ご注意ください。 フォルダー/素材の準備 まずはOCR読み込みのもととなる画像ファイルと、サンプル実行に必要なフォルダーを準備します。

                                                            無償デスクトップ自動化ツール「Power Automate Desktop」でOCR処理を自動化する
                                                          • AIによる「超」軽量なOCR(文字認識)システムが登場【GitHub】 | AIDB

                                                            光学式文字認識(OCR)システムは、文書の電子化・工場での文字自動検出・オンライン教育・地図作成など幅広く使用されています。 中国の巨大テック企業BaiduのYuning Duらは今回新たに、超軽量のOCRシステムである「PP-OCR」を提案しています。

                                                              AIによる「超」軽量なOCR(文字認識)システムが登場【GitHub】 | AIDB
                                                            • Google Keep の OCR機能が超便利*画像の文字を一瞬でテキストに変えてくれる機能 - ひとりごとブログ

                                                              こんにちは、ふなさんです。 普段、勉強やブログの内容をまとめるためにGoogle keepを使っているのですが、OCR機能があることを今更ですが知りました。 OCR機能とは、簡単に言うと画像の中の文字データを読み取ってテキスト化するものです。 私は勉強するときに手書きメモを取ることがありますが、後からまとめるときに手で入力するのは時間がかかります。 OCR機能があると、一瞬で文字データに変えてくれるので、手入力する手間が省けてとても便利です✨ chrome.google.com ①Google Keep でOCR機能を使う手順 Google Keep でOCR機能を使うための手順は以下の通りです。 PC版 ①Google Keep のメモに画像を追加する ②メモの「その他のアクション」をクリック ③「画像のテキストを抽出」をクリック スマホ版 ①Google Keep のメモに画像を追加す

                                                                Google Keep の OCR機能が超便利*画像の文字を一瞬でテキストに変えてくれる機能 - ひとりごとブログ
                                                              • Python&Plotlyを使って、OCR結果を画像上でインタラクティブに可視化する

                                                                概要 OCRを使った文字読み取りの開発をしていると、読み取られたテキストと画像と見比べて結果の確認をすることがよくあります。読み取られたこの文字は画像のどこから出てきたのかとか、単語の区切りが不自然なときになぜそうなったのかとかといった確認の際には、テキストとその座標から画像中の該当箇所を見つける必要があり、人間が目視で行うにはなかなか大変な作業です。物体認識などのタスクでは、画像上に四角形のバウンディングボックスを物体名のラベルとともに描写して可視化していますが、OCRの読み取りの場合は文字が画像上で密に配置されていたりと、画像上に直接描写するには情報量が過多になってしまいます。なるべくインタラクティブに操作出来る形で情報を表示し、必要な部分だけを確認できるようにしたい場合が多いです。 この記事では、OCR読み取りの結果を画像上に描写して、インタラクティブに結果を確認する方法を紹介します

                                                                  Python&Plotlyを使って、OCR結果を画像上でインタラクティブに可視化する
                                                                • AIの民主化が進む時代におけるバクラクのAI-OCR機能の開発戦略 #LayerXテックアドカレ - LayerX エンジニアブログ

                                                                  LayerX バクラク事業部 機械学習チームの機械学習エンジニア兼マネージャーの松村(@yu-ya4)です。半年間に結婚祝いでいただいたたくさんのお酒が順調に減ってきているのですが、サントリーウイスキー角瓶 4Lペットだけはなくなる気配がありません。 この記事はLayerXテックアドカレ2023の16日目の記事のはずです。 前回はosukeさんの『Azure AI SearchのSemantic Ranker』という記事でした。 次回はminako-phさんによるタメになる記事、『Notionでスプリントのあれこれをダッシュボードで可視化する 』が公開予定ですされました。 昨今のAIの進化には目を見張るものがあります。先日のOpenAI DevDayやMicrosoft Igniteでも様々な衝撃的な発表がなされました。今週は違う意味で衝撃的なニュースが多かったですが。 そのような時代です

                                                                    AIの民主化が進む時代におけるバクラクのAI-OCR機能の開発戦略 #LayerXテックアドカレ - LayerX エンジニアブログ
                                                                  • SARS本の概要をOCRでおこしてみた。|たまやん|note

                                                                    21世紀のはじめに世界を震撼させたSARS、その記録が2007年に出版、邦訳されている。「SARS いかに世界的流行を止められたか」は非売品の書籍であり、当時WHO西太平洋地域事務局長の任にあり、SARS対策の陣頭指揮にあたられた尾身茂先生が「概要」というタイトルで序文を書かれた事を知る人は少ないと思う。 自分も久しぶりにこの書を手にして、あらためて序文を読んでみた。COVID-19禍の最中の今、まさに進行しているかのような錯覚を憶える。 是非多くの方に読んでいただきたい。 ざっとチェックはしたがOCRで文字起こししたため、変換ミスなどあるかもしれない。 ------------------------------------ 概要 OVERVIEW SARSは世界を震撼させた。21世紀最初の新興感染症であり、感染性の高いその病気は、見方によってはさほど多くの死者を出さなかった。しかし我々

                                                                      SARS本の概要をOCRでおこしてみた。|たまやん|note
                                                                    • 無料&ブラウザ上でPDF・JPEG・PNG・GIFファイルからOCRによるテキスト抽出ができる「OCR PDFs and images directly in your browser」

                                                                      PNG・JPEG・GIFといった画像ファイルやPDFファイルから、TesseractによるOCR(光学文字認識)でテキストを抽出できる「OCR PDFs and images directly in your browser」をエンジニアのサイモン・ウィルソン氏が公開しました。OCR PDFs and images directly in your browserはすべての処理をブラウザ上で実行するため、ファイルをどこかのサーバーにアップロードすることがないというのが大きな特徴です。 OCR PDFs and images directly in your browser https://tools.simonwillison.net/ocr Running OCR against PDFs and images directly in your browser https://simon

                                                                        無料&ブラウザ上でPDF・JPEG・PNG・GIFファイルからOCRによるテキスト抽出ができる「OCR PDFs and images directly in your browser」
                                                                      • Google BardでOCR文字認識してみた【画像認識】 - Qiita

                                                                        まず、英語版のバードに行きます。 画像をアップロードしてほしい情報を入力すると教えていただけます。 生年月日について聞いてみました "平成元年3月31日生"と正しく認識できてます フォーマットも指定可能です 有効期限も聞きました "2025年3月31日まで有効"と正しく認識できてます 4桁の番号を教えて 何キロカロリーありますか? まとめ 言われたことしかできない人は、仕事がAIに取られるかもしれません。 信じるか信じないかはあなた次第です 引用 Register as a new user and use Qiita more conveniently You get articles that match your needsYou can efficiently read back useful informationYou can use dark themeWhat you ca

                                                                          Google BardでOCR文字認識してみた【画像認識】 - Qiita
                                                                        • 無償デスクトップ自動化ツール「Power Automate Desktop」でOCR処理を自動化する

                                                                          CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

                                                                            無償デスクトップ自動化ツール「Power Automate Desktop」でOCR処理を自動化する
                                                                          • GPT-4Vのモデルを利用してOCRできるか試してみた - Taste of Tech Topics

                                                                            こんにちは、安部です。 気温の上下に翻弄されて最近風邪をひいてしまいましたが、皆さま元気にお過ごしでしょうか。 今回は、GPT-4Vのモデルを利用して、OCRができるか試していきます。 GPT-4Vによって、「ChatGPTに目ができた」などと騒がれましたが、文字認識はどれくらいできるのでしょうか? 得意分野ではなさそうですが、GPTも進化が目覚ましいので分かりませんね。 検証では、日本語(漢字/ひらがな/カタカナ)・英語の2言語で精度など比較していきます。 また、手書き・活字での違いも見ていきましょう。 一番簡単に試せるChatGPT(Web版)でOCRをさせようとするとエラーになることが多かったので、 ここではAPIを使っていくこととします。 APIを呼び出すプログラム 以下のコードを使い、gpt-4-vision-previewというモデルを呼び出しています。 画像は個人のgithu

                                                                              GPT-4Vのモデルを利用してOCRできるか試してみた - Taste of Tech Topics
                                                                            • 精度の高い日本語OCRを実現する技術 LINE BRAIN OCRのパイプラインを解説

                                                                              日本語におけるOCR Hwalsuk Lee氏:ここまでテキスト検出のお話をしてまいりました。これからは日本語におけるテキスト認識についてお話ししようと思います。 先ほど言いましたように、日本語というのはテキスト認識において、英語に比べると何百倍ものたくさんの文字を扱う必要があります。 そのため、たくさんのテキスト認識の論文を検証いたしました。 Scene Text Recognition(STR)とは何でしょうか? STRというのは、文字列を画像パッチ入力から認識するタスクです。 この場合は「UNITED」という文字列を認識するということになります。 STRについてはこれまでいろいろな研究がされてきました。ですが我々がその評価内容を見たとき、たくさんの問題を発見しました。STR手法の比較においてどんな問題があるのでしょうか。 こちらは先行研究の手法のリストです。このリストをご覧いただくと

                                                                                精度の高い日本語OCRを実現する技術 LINE BRAIN OCRのパイプラインを解説
                                                                              • GitHub - kha-white/manga-ocr: Optical character recognition for Japanese text, with the main focus being Japanese manga

                                                                                Optical character recognition for Japanese text, with the main focus being Japanese manga. It uses a custom end-to-end model built with Transformers' Vision Encoder Decoder framework. Manga OCR can be used as a general purpose printed Japanese OCR, but its main goal was to provide a high quality text recognition, robust against various scenarios specific to manga: both vertical and horizontal text

                                                                                  GitHub - kha-white/manga-ocr: Optical character recognition for Japanese text, with the main focus being Japanese manga
                                                                                • 自社OCRエンジン「NineOCR」の学習効率化のため SageMaker Training を導入した話 - Sansan Tech Blog

                                                                                  はじめに NineOCR とは NineOCR が抱える課題 Amazon SageMaker Training とは SageMaker Training の始め方 事前準備 AWS が提供しているコンテナイメージを拡張する方法 独自のコンテナイメージに SageMaker Training Toolkit をインストールする方法 スクラッチでコンテナイメージを作成する方法 まとめ 学習ジョブの実行 学習結果の確認 終わりに はじめに こんにちは、研究開発部の石井です。 本エントリーでは、弊社の OCR エンジン「NineOCR」の開発フローに SageMaker Training を導入した話を紹介します。 NineOCR とは NineOCR は Sansan が独自に開発した名刺特化の OCR エンジンです。 名刺をデータ化するフローの中で実際に活用されており、タスクの高速化・高精

                                                                                    自社OCRエンジン「NineOCR」の学習効率化のため SageMaker Training を導入した話 - Sansan Tech Blog