並び順

ブックマーク数

期間指定

  • から
  • まで

121 - 160 件 / 427件

新着順 人気順

OCRの検索結果121 - 160 件 / 427件

  • Google ドライブの OCR 機能を使い、画像や PDF 内の文字列を抽出する方法 - k本的に無料ソフト・フリーソフト

    このページでは、Google ドライブの OCR 機能を使い、画像や PDF 内の文字列を抽出する方法を紹介します。 PDF や写真のファイルをテキストに変換する - Google ドライブ ヘルプ 無料で使える OCR ソフト Google ドライブには、画像や PDF をテキストに変換する機能が付いています。 この機能を使うと、画像内に写っている文字列や、PDF 内の文字列を Google ドキュメントに抽出することができ、そのままコピーしたり編集したりすることが可能となります。 使用にあたり Google アカウントが必要になるものの、無料で使うことができ、操作も OCR 処理を行いたいファイルを、Google ドライブにアップロード アップロードしたファイルを、Google ドキュメントで開く だけなので超簡単。 画像や PDF 内のテキストを抜き出したい時にはもちろん、画像内に写

      Google ドライブの OCR 機能を使い、画像や PDF 内の文字列を抽出する方法 - k本的に無料ソフト・フリーソフト
    • より便利になったWindows 10・11用「PowerToys」- 阿久津良和のWindows Weekly Report

      レポート より便利になったWindows 10・11用「PowerToys」- 阿久津良和のWindows Weekly Report 常に、WindowsとPowerToysは共に歩んできた。PowerToysはWindows単体では足りない機能を補うため、Microsoft自身が開発・利用していたツール群。その歴史はWindows 95の時代までさかのぼる。「PowerToys for Windows 95」は15種のツールを備えていたが、中でも人気だったのがTweakUIだ。 本来はレジストリエントリーの編集を必要とするカスタマイズをGUIから操作できるため、TweakUIは個人でWindows 95 PCを使用するユーザーに欠かせないものだった。当時のユーザーにとっては、キーボードの再割り当てなどを行う「Windows 95 Kernel Toys」も懐かしいだろう。なお、Wind

        より便利になったWindows 10・11用「PowerToys」- 阿久津良和のWindows Weekly Report
      • Microsoft Azure、「Computer Vision API」のOCR機能が日本語に対応、パブリックプレビューとして

        マイクロソフトは、Microsoft Azureの機械学習を用いた画像処理「Computer Vision API」の光学式文字認識(OCR)機能が日本語に対応したことを発表しました。 Computer VisionのOCR機能は、JPEG、PNG、BMP、TIFFなどの画像フォーマットもしくはPDFによるドキュメントファイルを入力することで、その内容からテキスト、手書きのテキスト(英語のみ)、数字、通貨記号などを読み取り、抽出することができます。 ファイルサイズは50MB未満(Freeレベルの場合は4MB)、寸法は50x50ピクセル以上 1万x1万ピクセル以下である必要があり、 PDFファイルとTIFFファイルの場合は最大2000ページ(Freeレベルの場合は最初の2ページのみ)が処理されます。 日本語への対応は最新の「Read 3.2」バージョンでパブリックプレビューとなりました。これ

          Microsoft Azure、「Computer Vision API」のOCR機能が日本語に対応、パブリックプレビューとして
        • OCR PDFs and images directly in your browser

          This tool runs entirely in your browser. No files are uploaded to a server. It uses Tesseract.js for OCR and PDF.js to convert PDFs into images. Language: Drag and drop a PDF, JPG, PNG, or GIF file here or click to select a file

          • GitHub - ndl-lab/ndlocr_cli: NDLOCRアプリケーションのリポジトリ(ソースコードを含む)

            You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

              GitHub - ndl-lab/ndlocr_cli: NDLOCRアプリケーションのリポジトリ(ソースコードを含む)
            • spaCy(+GiNZA)でPDFテキスト抽出の改行位置をいい感じにする - OPTiM TECH BLOG

              R&D チームの徳田(@dakuton)です。 過去何回か、Tech Blog記事にてPDFやOCR、自然言語処理に関する手法を紹介してきましたが、今回もそちらに関連する内容です。 過去記事 tech-blog.optim.co.jp tech-blog.optim.co.jp tech-blog.optim.co.jp やりたいこと PDFからテキストを抽出する際に含まれる、中途半端な位置にある改行を除去することが目的です。 シンプルな方法としては、句点(。)の位置をもとに改行する方法ですが、今回はspaCy(とGiNZA)を併用した場合にどうなるかを試してみることにします。 テストデータ 今回は、下記記事のPDFを使用しました。 財務省「ファイナンス」令和3年2月号 の「ポストコロナ時代を形作る、コロナ禍で生まれるDX(デジタルトランスフォーメーション)」 1 メディア掲載情報: 財務

                spaCy(+GiNZA)でPDFテキスト抽出の改行位置をいい感じにする - OPTiM TECH BLOG
              • Windowsでもついに画像内のテキストコピーが可能に! | ライフハッカー・ジャパン

                サンディスクのmicroSDカード 512GBが40%OFF。写真や動画のデータ置き場はこれで良くない?【Amazonセール】

                  Windowsでもついに画像内のテキストコピーが可能に! | ライフハッカー・ジャパン
                • Windows版「OneNote」アプリに文字起こし機能 ~複数話者を識別、ペン入力と同期再生も/まずは「Office Insider」で。段階的に提供範囲を拡大

                    Windows版「OneNote」アプリに文字起こし機能 ~複数話者を識別、ペン入力と同期再生も/まずは「Office Insider」で。段階的に提供範囲を拡大
                  • Googleドキュメントを使って、2ステップで画像から文字起こしする方法【今日のワークハック】 | ライフハッカー・ジャパン

                    「これ、マストだわ」モニター購入して気づいた、あったほうがいい周辺機器4選 #Amazon新生活セール

                      Googleドキュメントを使って、2ステップで画像から文字起こしする方法【今日のワークハック】 | ライフハッカー・ジャパン
                    • 画面上の文字列をOCRで読み取り翻訳できる翻訳支援ツール「PCOT」

                      日本語表示に非対応のゲームをプレイするとき、簡単なコマンド名や英単語であればなんとなくニュアンスをつかんだり、辞書を使って調べたりすることができますが、長いフレーズや文章単位になってくるとなかなか大変です。「PCOT」は、ゲーム画面をOCR(光学文字認識)で読み取ってくれるので、コピペできない文章でも翻訳してくれます。 ヌルポインターストライク http://www.gc-net.jp/s_54/ 「PCOT」は「ProcessConnectOcrTranslator」の略だとのこと。公式サイトの「『PCOT』のダウンロードはこちら →」の右にある「DL」をクリック。 OneDriveのページが開き、「PCOT.ZIP」が選択された状態になっていて、ちょっと待つとファイル保存ダイアログが開くので、「ファイルを保存する」にチェックを入れて「OK」をクリック。自動でダウンロードされない場合はP

                        画面上の文字列をOCRで読み取り翻訳できる翻訳支援ツール「PCOT」
                      • 論文PDFを数式込みで全文読み取るモデル 米Metaが「Nougat」開発 スキャンした古書の画像もOK

                        このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 米Meta AIに所属する研究者らが発表した論文「Nougat: Neural Optical Understanding for Academic Documents」は、論文を記録したPDF内のテキストや数式を正確に読み取るモデルを提案した研究報告である。研究論文を機械が読めるテキストに変換することで、知識全体がより探しやすく、多くの人々がアクセスできるようになる。モデルのコードなどは全て公開されている。

                          論文PDFを数式込みで全文読み取るモデル 米Metaが「Nougat」開発 スキャンした古書の画像もOK
                        • ラズパイとAI-OCRで生産日報を電子化する(後編)

                          今回は、前回に引き続き、小型ボードコンピュータの「Raspberry Pi(ラズベリーパイ、略してラズパイ)」と、機械学習などのAI(人工知能)技術を活用したOCR(光学的文字認識)である「AI-OCR」を組み合わせた事例として「生産日報の電子化」をどのように実現するかについて具体的に解説します。 ⇒連載「ラズパイで製造業のお手軽IoT活用」バックナンバー 生産日報の電子化は、以下の手順で進めます。 手書きで日報を記入する 手書き日報をラズパイで読み取り、テキストデータに変換する テキストデータに変換した日報データを現場画面に表示して内容の確認をする。誤認識している部分は手で修正する 修正した箇所を機械学習して認識率を向上させる 前回は1.と2.について説明しました。今回は3.と4.について解説します。 3.テキストデータに変換した日報データを現場画面に表示して内容の確認をする OCRは1

                            ラズパイとAI-OCRで生産日報を電子化する(後編)
                          • PowerToys、画像から文字を抽出できる機能を開発中

                              PowerToys、画像から文字を抽出できる機能を開発中
                            • 画像の中の文字を見つけるのって今どんな感じなの?まとめてみたんご - Qiita

                              AdventCalender論文2日目担当のCurryです! 今回は画像の中の文字を見つける技術の昔と最新をまとめました。 意外と文字検出の論文紹介ってないんじゃね!?っていう 画像は参照サイト(各章の先頭のURL)、論文中から引っ張ってきてます 文字検出 画像の中の文字を見つけるのは 文字検出 と呼ばれます。英語では Text Detection とか Text Localization という。 つまりこんなタスク。オレンジ線が文字を囲めてるので、検出ができたと判断できる。 入力画像 出力 文字検出の難しさは、以下のようによく言われる。(いわゆる論文のイントロの謳い文句) 1. 文字の多様性 2. 文字の色 3. 文字のコントラストや背景との混同 4. 文字の大きさが違う 5. 文字の方向(いわゆるアルファベットが斜めになっていたり) ちなみに、、、 文字認識 は文字を判別することなの

                                画像の中の文字を見つけるのって今どんな感じなの?まとめてみたんご - Qiita
                              • 【Excel】PDF上の表は手入力しなくても簡単に取り込める! 紙のスキャンデータでも大丈夫【いまさら聞けないExcelの使い方講座】

                                  【Excel】PDF上の表は手入力しなくても簡単に取り込める! 紙のスキャンデータでも大丈夫【いまさら聞けないExcelの使い方講座】
                                • KuroNetくずし字認識サービス | ROIS-DS人文学オープンデータ共同利用センター

                                  本サービスは無料ですが、利用状況の把握と過度な利用の防止のために、ログインを必須としています。ログインサービスの実装には、Google社のFirebase認証を活用しており、Google、Facebook、Twitterのアカウントと連携するか、電子メールアドレスを入力することで、ログインが可能となります。 「KuroNetくずし認識ビューア」と「ダッシュボード」は、両方とも同じアカウントでログインする必要がありますのでご注意下さい。ログイン機能は、いずれの場合も画面の右上にあります。なお、アカウント連携はログイン機能の実現のみに利用し、取得した情報はそれ以外の目的には活用いたしません。 「KuroNetくずし認識ビューア」に、認識したい本のIIIFマニフェストをドラッグ&ドロップしてください(注意:IIIFの利用)。そして、ページ移動やサムネイル表示などを用いて、認識したい画像を表示して

                                    KuroNetくずし字認識サービス | ROIS-DS人文学オープンデータ共同利用センター
                                  • iOSで文字認識(Text Recognition)

                                    iOS 13以降で、待望だった「文字認識」機能が使えるようになりました。カメラなどで撮影した画像内にある文字を読み取る [1] ことができます。 iOS 9からあった「文字検出」との違い 文字認識は、Visionフレームワークの一機能として追加されました。 一方、Core ImageのCIDetectorというクラスでは、CIDetectorTypeTextというタイプを指定でき、テキストを検出することができます。 このCIDetectorTypeTextやCIFeatureTypeTextはiOS 9からあるものです。 しかしこちらは文字の「領域」を検出する機能です。何が書いてあるか、までは認識できませんでした。 そこで今まではTesseract[2]というオープンソースのOCRエンジンや、SwiftOCR[3]という(おそらく個人がメンテしている)OSSしか選択肢がなかったのですが、つ

                                      iOSで文字認識(Text Recognition)
                                    • 読み取り精度100%が不可能と認め、失敗に備えユーザー体験を磨き込む話 - LayerX エンジニアブログ

                                      どうも!バクラクでOCRの開発を担当する高際 @shun_tak です! バクラクでは「圧倒的に使いやすいプロダクトを届け、ワクワクする働き方を。」というプロダクトビジョンを掲げて開発しています。 バクラクビジョン note.com そんなバクラクでは文書のデータ化を支援するため、文書の読み取り機能=OCR機能を提供しています。これにより、多様なレイアウト・大量の文書も瞬時にデータ化することができます。 以下、瞬時に読み取られる様子 youtu.be OCRで読み取ってデータ入力されるだけでも使いやすいプロダクトになっているかなと思いますが、この記事ではさらに一歩踏み込んで、「圧倒的に」使いやすくするための工夫の一端をお見せしたいと思います。 前提:請求書OCRで解きたい問題 請求書OCRは、経理に届く支払請求書を読み取ってデータ化します。データ化したい項目は、「いつまでに、だれに、いくら

                                        読み取り精度100%が不可能と認め、失敗に備えユーザー体験を磨き込む話 - LayerX エンジニアブログ
                                      • AI-OCRで国立国会図書館の資料をテキスト化 約1300万文字のデータセットから開発 その舞台裏に迫る

                                        明治期以降の書籍や雑誌といった「近代活字資料」のテキストデータを生成するために、AIを活用したOCR(光学的文字認識)を新たに開発する――こんな取り組みを国立国会図書館(NDL)が発表した。OCRはデジタル画像を解析し、画像内の文字をテキストデータに変換する技術だ。近代活字資料は書体が現代とは異なるうえ、旧字旧仮名遣いが中心なのでテキストデータ化は容易ではない。 国立国会図書館からの委託を受けてこの試みに挑戦したのが、AIを使った画像処理技術を開発しているモルフォAIソリューションズ(千代田区)だ。「かなり大変な開発作業になると感じました。しかしAIなら可能かもしれない、実現できれば国立国会図書館ユーザーの利便性を高められると確信していました」――こんな声がAI-OCR開発に携わったメンバーの口から出た。 そこで開発の舞台裏について、モルフォAIソリューションズのエンジニアたちを取材した。

                                          AI-OCRで国立国会図書館の資料をテキスト化 約1300万文字のデータセットから開発 その舞台裏に迫る
                                        • 機械学習でハタラクをバクラクにするために LayerX に入社しました #LayerX|yu-ya4

                                          こんにちは、2022年9月1日に LayerX にフルタイムの機械学習エンジニアとして入社した松村 優也(@yu__ya4)と申します。バクラク事業部の AI-OCRチームに所属しています。チーム名の通り、請求書や領収書といった帳票の画像データを読み取り、人間が手入力せずとも必要な項目を自動で抽出してデータ化する OCR 機能の開発をメインのミッションに持つチームです。 この note では、私がなぜ LayerX に機械学習エンジニアとして入社したのかを、転職のご報告に代えてお伝えします。めちゃくちゃ仲間を探していますので、少しでも気になった方は Meety や Twitter のDM からご連絡ください! 略歴 - LayerXに入社するまでまず簡単に、LayerX に入社するまでの私について紹介します。より詳しい経歴やこれまでのアウトプットは以下の Wantedly のプロフィールを

                                            機械学習でハタラクをバクラクにするために LayerX に入社しました #LayerX|yu-ya4
                                          • GitHub - schappim/macOCR: Get any text on your screen into your clipboard.

                                            You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                              GitHub - schappim/macOCR: Get any text on your screen into your clipboard.
                                            • 10万円給付の申請書をOCR対応に 異例の様式変更 - 日本経済新聞

                                              新型コロナウイルス感染防止への対策として住民1人当たり一律10万円を給付する「特別定額給付金」の郵送による申請書について、総務省は光学式文字読み取り装置(OCR)を利用しやすい様式に変更する。27日までに自治体に通知した。国が示した実務様式が関係者による提案で変更されるのは珍しい。総務省が20日に公表した給付金を申請する方法は2つだ。郵送される世帯全員の氏名が印字された申請書を送り返す方式か、

                                                10万円給付の申請書をOCR対応に 異例の様式変更 - 日本経済新聞
                                              • LayerXにおける機械学習を活用した請求書OCR機能に関する取り組み / deim2023-layerx-ai-ocr

                                                2023年3月7日 DEIM2023 (https://event.dbsj.org/deim2023/) における技術報告の資料です。 題目:『 LayerXにおける機械学習を活用した請求書OCR機能に関する取り組み』 日程:3/7(火)13:30-15:40(4a-8: 画像認識2) 発表者:松村 優也、吉田 陽祐 プログラムリンク:https://deim-management-system.github.io/deim2023_program/index.html#4a-8 LayerX は「働く」に関わる様々な業務プロセスが紙とハンコを中心としたアナログで非効率なものとなっているという課題を、テクノロジーをもとに解決するために複数のプロダクトを開発・運営している。その中のひとつ「バクラク請求書」では、アップロードされた請求書ファイルから自動で必要な情報を抽出しデータ化するOCR機

                                                  LayerXにおける機械学習を活用した請求書OCR機能に関する取り組み / deim2023-layerx-ai-ocr
                                                • macOS 12 MontereyやiOS 15のSafari 15ではWebサイトやツイートに挿入されている画像内のテキストも「Live Text」で抽出可能に。

                                                  macOS 12 MontereyやiOS 15のSafari 15ではWebサイトやツイートに挿入されている画像内のテキストも「Live Text」で抽出可能になるそうです。詳細は以下から。 Appleは現地時間2021年06月07日に完全オンラインで開催したWWDC21の基調講演の中で、macOS 12 MontereyやiOS/iPadOS 15の新機能として「Live Text」という写真内にあるテキストを検出し、編集可能なテキストとしてコピー&ペーストできる機能を発表しました。 Live Text in photos Live Text intelligently unlocks rich and useful information in images, so you can make a call, send an email, or look up directions w

                                                    macOS 12 MontereyやiOS 15のSafari 15ではWebサイトやツイートに挿入されている画像内のテキストも「Live Text」で抽出可能に。
                                                  • 凸版印刷、くずし字解読支援システム「ふみのはゼミ」を開発

                                                    凸版印刷、くずし字解読支援システム「ふみのはゼミ」を開発高精度のくずし字AI-OCRを搭載し、古文書・古典籍をオンライン上で簡単に解読できるシステム。共同作業をサポートし、コロナ禍における学習や研究、イベントなどに活用可能 凸版印刷株式会社(本社:東京都千代田区、代表取締役社長:麿 秀晴、以下 凸版印刷)は、高精度のくずし字AI-OCRを搭載し、古文書・古典籍をオンライン上で簡単に解読できるシステム「ふみのはゼミ」を開発しました。 授業やイベントでの活用を想定したグループワーク支援機能により、歴史的資料のデジタルアーカイブ化を推進するとともに、コロナ禍における学習・研究の拡大に貢献します。 「ふみのはゼミ」を活用した共同解読作業のイメージ 本サービスは、凸版印刷が2015年から研究・実証試験を行ってきたくずし字OCRをさらに発展させ、凸版印刷総合研究所が開発したAI-OCRの導入による文字

                                                      凸版印刷、くずし字解読支援システム「ふみのはゼミ」を開発
                                                    • LINEでOCRできるって知ってた?

                                                      情報管理LOGの@yoshinonです。 ここ最近では、日本語OCRが割と簡単にできるようになってきましたよね。 しかし、皆さんが日々使っているLINEでOCRできるようになったというのを知っている人は、まだ少ないのではないでしょうか? というわけで今回は、LINEでもOCRできるようになったことについてレポートします。 実は、あまり知られていないような気がするのですが、LINEのトーク画面にアップした画像をテキスト化することができるようになりました。 では、やってみます。 トーク画面で画像をアップしましょう。 ※他の人が、アップした画像でも可能です。 それをタップすると、このようになりますね? 右上の「T」とみたいなアイコンをタップ。 そうすると、このように文字の部分が認識されているのが分かります。 上の方に「日本語を検出」とあるのでタップすると、5カ国語から選べます。 テキストを抽出し

                                                        LINEでOCRできるって知ってた?
                                                      • 2019 Examples to Compare OCR Services: Amazon Textract/Rekognition vs Google Vision vs Microsoft Cognitive Services

                                                        Mission: Expression » 2019 Examples to Compare OCR Services: Amazon Textract/Rekognition vs Google Vision vs Microsoft Cognitive Services 2019 Examples to Compare OCR Services: Amazon Textract/Rekognition vs Google Vision vs Microsoft Cognitive Services linkIntroductionWe're building a note app that will surface images+documents in full-text search, so it needs to do OCR as well as possible. Prefe

                                                          2019 Examples to Compare OCR Services: Amazon Textract/Rekognition vs Google Vision vs Microsoft Cognitive Services
                                                        • 寿司打の限界を目指して ~WebGLのOCR~

                                                          この記事は闇の魔術に対する防衛術 Advent Calendar 20192 日目の記事です。 ある日、会社で寿司打というタイピングの速度や正確さを競うゲームが流行った。 みんなやってるので私も挑戦してみたところ、結果は惨敗。全エンジニアの中でもっともスコアが低かった。もともとタイピングが早くも正確でもないことを自覚していたつもりだったが、現実を突きつけられ大人しく家に返って枕を濡らそうと思った。が、あまりの悔しさにまみれ「JSer ならタイピング速度ではなく JS で勝負すればいいんだ」とダークサイドに堕ち闇の力に手を染めてしまった。 本記事はムキになって寿司打(WebGL 版)のスコアを稼ぐ自動化 JavaScript の話。 なお動作確認には Ubuntu 19.04、Google Chrome 80.0.3955.4 を使用した。 寿司打 WebGL 版 http://typing

                                                            寿司打の限界を目指して ~WebGLのOCR~
                                                          • バクラクのAI-OCRを支える精度モニタリング -モニタリングドリブンの改善-

                                                            MLOps LT大会 2023/7月 登壇資料 https://mlops.connpass.com/event/286716/ バクラクのAI-OCRを支える精度モニタリングについて紹介します。OCR技術は、ビジネスプロセスを効率化する上で必要不可欠な技術の一つですが、その精度を維持するためには、常にモニタリングが必要です。バクラクのMLチームでは、AI-OCRの精度モニタリングに重点的に取り組んでおりその内容を紹介します。

                                                              バクラクのAI-OCRを支える精度モニタリング -モニタリングドリブンの改善-
                                                            • 読み取りの精度の先の体験を追求するバクラクのAI-OCR - LayerX エンジニアブログ

                                                              こんにちは、全ての経済活動をデジタル化したいTomoakiです。 推しのコンビニスイーツはセブンイレブンの草もちです。 今回は読み取りの精度の先の体験を追求するバクラクのAI-OCR機能について紹介します。 TL;DR バクラクでは国税関係書類に対してOCRを実行し、書類の内容の入力作業の負担を減らしている お客様の業務をラクにするには、帳票に記載されている値をそのままサジェストするのでは不十分 バクラクのAI-OCR機能では、読み取った帳票に記載の値を活用しつつ、お客様の業務に寄り添った形に変換してサジェストすることで、なめらかなプロダクト体験を提供している バクラクのOCR 会社の営みにはファイルが溢れています。 取引先から届く請求書、会食で利用したレストランの領収書、業務委託メンバーに毎月渡す支払通知書など、会社規模によっては毎月何十万、何百万という枚数の書類が扱われています。そして

                                                                読み取りの精度の先の体験を追求するバクラクのAI-OCR - LayerX エンジニアブログ
                                                              • GitHub - Filimoa/open-parse: Improved file parsing for LLM’s

                                                                You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                  GitHub - Filimoa/open-parse: Improved file parsing for LLM’s
                                                                • 深層学習を活用した高品質3Dスキャン代行サービス PFN 3D Scan を企業向けに提供開始 - 株式会社Preferred Networks

                                                                  従来技術で困難だった透明・黒色・金属製の物体も見た目を忠実に再現 Eコマース、ゲーム・映像制作、メタバース、文化財の保存等で利用可能 株式会社Preferred Networks(本社:東京都千代田区、代表取締役 最高経営責任者:西川徹、プリファードネットワークス、以下、PFN)は、様々な物品を高品質な3Dモデル*としてデジタル化する3Dスキャン代行サービス PFN 3D Scan(ピーエフエヌ・スリーディースキャン、公式サイト: https://pfn3d.com)を本日、日本国内の企業向けに提供開始しました。PFN 3D Scanは深層学習を利用したPFN独自の技術を用いることで、従来の3Dスキャン技術が苦手としていた透明・黒色・金属を含めた多様な材質の物品のメッシュ・テクスチャ・マテリアル(形状・色・質感)を忠実に再現することが可能です。提供する3Dモデルは、Eコマース、ゲーム・映像

                                                                    深層学習を活用した高品質3Dスキャン代行サービス PFN 3D Scan を企業向けに提供開始 - 株式会社Preferred Networks
                                                                  • iOS 15.4/iPadOS 15.4ではメモアプリが「Text from Camera」に対応し、英語などのテキストをカメラから瞬時に入力することが可能に。

                                                                    iOS 15.4/iPadOS 15.4ではメモアプリが「Text from Camera」に対応し、カメラで英語などのテキストを瞬時にスキャンできるようになっています。詳細は以下から。 Appleは2021年09月にリリースしたiOS 15/iPadOS 15で、写真内にある文章を検出し、編集可能なテキストとしてコピー&ペーストできる「テキスト認識表示 (Live Text)」機能を実装し、このテキスト認識表示機能を応用した「カメラでテキスト認識表示 (Text from Camera)」も一部の言語で利用できるようになっていますが、iOS 15.4/iPadOS 15.4のメモアプリでは、このカメラでテキスト認識表示がサポートされています。

                                                                      iOS 15.4/iPadOS 15.4ではメモアプリが「Text from Camera」に対応し、英語などのテキストをカメラから瞬時に入力することが可能に。
                                                                    • GitHub - clovaai/donut: Official Implementation of OCR-free Document Understanding Transformer (Donut) and Synthetic Document Generator (SynthDoG), ECCV 2022

                                                                      You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                        GitHub - clovaai/donut: Official Implementation of OCR-free Document Understanding Transformer (Donut) and Synthetic Document Generator (SynthDoG), ECCV 2022
                                                                      • 「文字をきれいに読み取る」だけじゃないOCR――freeeに学ぶAI開発で本質的価値を提供する方法 | Ledge.ai

                                                                        会計サービスをはじめ、バックオフィス向けクラウドソフトを提供するfreee。単純作業を効率化し、ユーザーが本質的な仕事に集中できる環境を提供するために、AI技術を駆使したさまざまな取り組みがなされている。 「ユーザーにとって本質的に価値があること(同社では「マジ価値」と呼ばれる)を届けきる」をコミットメントとして掲げる同社の、AI技術を使ったアプローチ方法を連載形式でお届けする。 第2回のテーマはOCR。紙の領収書や、請求書とにらめっこし、その扱いにうんざりしている経営者は少なくないだろう。 これら紙の文書をよりスムースに扱うため、freeeのサービスに実装されている独自のOCR機能を、同社機械学習エンジニアの田中浩之氏に紹介していただく。 はじめにfreeeでは「スモールビジネスを、世界の主役に。」をミッションに掲げ、「アイデアやパッションやスキルがあればだれでも、ビジネスを強くスマート

                                                                          「文字をきれいに読み取る」だけじゃないOCR――freeeに学ぶAI開発で本質的価値を提供する方法 | Ledge.ai
                                                                        • Google Cloud PlatformのCompute Engineを用いたNDLOCRアプリの実行 - デジタルアーカイブシステムの技術ブログ

                                                                          概要 VMインスタンスの作成 VMインスタンス内での操作 Nvidia driverのインストール dockerコンテナの起動 推論の実行 まとめ 追記 2022.04.28 概要 NDLが公開したNDLOCRアプリケーションについて、GCP(Google Cloud Platform)の仮想マシンを用いて実行してみましたので、その備忘録です。本アプリケーションの詳細については、以下のリポジトリをご確認ください。 https://github.com/ndl-lab/ndlocr_cli VMインスタンスの作成 GCPのCompute Engineにアクセスして、画面上部の「インスタンスを作成」ボタンをクリックします。 「マシンの構成」の「マシンファミリー」について、「GPU」を選択します。そして「GPUのタイプ」において、今回は最も安価な「NVIDIA T4」を選択します。「GPUの数」

                                                                            Google Cloud PlatformのCompute Engineを用いたNDLOCRアプリの実行 - デジタルアーカイブシステムの技術ブログ
                                                                          • 明治から昭和初期の文書を解読するサービス、凸版印刷が提供へ くずし字対応AI-OCRで

                                                                            凸版印刷は11月11日、明治期から昭和初期(以下、近代)の手書き文字に対応したAI-OCRを開発したと発表した。同社提供の江戸時代のくずし字を対象にした古文書解読サービス「ふみのは」のAI-OCRを近代の多様な筆跡の手書き文字にまで対応範囲を拡張させたもの。11月から実証実験を行い、2023年4月から正式サービスを開始する予定。 凸版印刷によると、近代の手書き文字は、書き手によるくずし方のバラつきが大きいという。原因は筆記用具の多様化や片仮名語の混在、旧字旧仮名遣い表記などがあるためで、解読は非常に困難としている。今回開発したAI-OCRではこれに対応するため、さまざまなパターンの文字をAIに学習させ、文字の解読精度を向上させた。

                                                                              明治から昭和初期の文書を解読するサービス、凸版印刷が提供へ くずし字対応AI-OCRで
                                                                            • AIで“くずし字”を解読するスマホアプリが無料公開 コンペ1位の認識モデル採用

                                                                              人文学オープンデータ共同利用センター(CODH)は8月30日、古文書に書かれた「くずし字」をAIで解読するスマートフォン(iOS/Android)向け無料アプリ「みを」を公開した。元のくずし字と変換後の文字を比較でき、古文書に慣れてない人の理解を手助けするという。 変換したい資料の写真や、ネットからダウンロードした画像などをアプリで読み込むと、くずし字を変換して元の文章の上に表示する。同じ文字を強調表示する機能や変換後の文章をメモ帳などにコピー&ペーストできる機能などを備える。 AIの学習には、国文学研究資料館の日本古典籍くずし字データセットを基に、CODHが開発したくずし字認識モデル「KuroNet」(クロネット)と、機械学習の精度を競い合うプラットフォーム「Kaggle」(カグル)のくずし字認識コンペティションで1位になったtascj氏の認識モデルを活用している。くずし字は江戸時代のデ

                                                                                AIで“くずし字”を解読するスマホアプリが無料公開 コンペ1位の認識モデル採用
                                                                              • How to OCR with Tesseract in Python with Pytesseract and OpenCV?

                                                                                In this blog post, we will try to explain the technology behind the widely used Tesseract Engine, which was upgraded with the latest knowledge researched in optical character recognition. This article will also serve as a how-to guide/ tutorial on how to implement PDF OCR in python using the Tesseract engine. We will be walking through the following modules: Tesseract OCR FeaturesPreprocessing for

                                                                                  How to OCR with Tesseract in Python with Pytesseract and OpenCV?
                                                                                • GitHub - ttv20/gDriveOCR: OCR by Google Drive API

                                                                                  You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                                    GitHub - ttv20/gDriveOCR: OCR by Google Drive API