Ajax を 使った手書き文字認識です。下のキャンバスにマウスで文字を描いてみてください。 デモ
Ajax を 使った手書き文字認識です。下のキャンバスにマウスで文字を描いてみてください。 デモ
昨日ツイッターのフォロワーさんがTLで「人を殴ったらかなり痛いくらいの紙書類の束渡されて、一晩で再編集とか死ぬる」とおっしゃってまして、まだまだ紙ベースの業務進行ってありますしPCに取り込んで効率的にさばくにはどうしたらいいだろうなーと思いまして。 調べてみたところ、GoogleDriveでもテキストスキャンした画像ファイルをOCR変換する機能があるらしくちょっとサンプル作って試して見ましたので本日はそのレビューを。 【追記】縦書き版の検証記事も書いときました。あわせて参考にどうぞ。 GoogleDriveOCR、縦書きだったらどうなのよ? Google Drive OCRの使い方GoogleDrive利用するにはとりあえずGoogleアカウント必要なのでない方はまずそちらのご用意を。GoogleDriveの導入については過去に サービス開始したオンラインストレージ『Google Driv
電子情報通信学会「パターン認識・メディア理解研究会」(2016年2月14日@九州工業大学,福岡県飯塚市)でのプレゼン資料です. 対応する原稿は以下です. 電子情報通信学会技術研究報告, PRMU2015-133 http://www.ieice.org/ken/paper/20160221UbGo/ 以下はアブストラクトです.=========================== 印刷数字,手書き数字,多フォント数字を対象として,畳み込みニューラルネッ トワーク(CNN) による認識実験を試みた.いずれのタスクにも大規模な データセットを用いた.得られた認識率は,印刷数字について99.99%,手書き数字について99.89%,そして多フォント数字について96.4%であった. さらに印刷数字と手書き数字の混合認識という,予想される困難性からか従来あまり試みられなかった課題についても,CNNの利
「戸田覚の1万円研究所」では実売価格1万円以下の周辺機器やサプライ品などを自腹で購入し、独自の目線で検証していく。第65回は手書きのメモをそのままデジタルデータにできるデジタルペン。価格と使い勝手の良さで戸田氏もおすすめだ。 専用紙不要で手書き文字をデジタルデータとして取り込めるデジタルペン。A4サイズ50ページ分以上を保存できる。取り込んだデータは付属のOCRソフトでリッチテキストにも変換でき、そのままメール送信することも可能だ。カラーバリエーションは3種類。収納キャリーケース付き。製品情報はこちら 当研究所始まって以来、最もエキサイティングな商品をご紹介しよう。 手書きのメモをパソコンに取り込めるデジタルペン「MVPen」が1万円以下で買えるようになったのだ! そもそもこの製品は夏頃に登場していたのだが、実売価格が当研究所の予算に合わなかった。それが、ここへきて1万円以下で買えるケース
import cv2 img = cv2.imread('test.jpg') (await winocr.recognize_cv2(img, 'ja')).text pip install jupyterlab jupyter_http_over_ws jupyter serverextension enable --py jupyter_http_over_ws jupyter notebook --NotebookApp.allow_origin='https://colab.research.google.com' --ip=0.0.0.0 --port=8888 --NotebookApp.port_retries=0
Zinnia: 機械学習ベースのポータブルなオンライン手書き文字認識エンジン [日本語][英語] Zinniaは機械学習アルゴリズム SVM を用いたポータブルで汎用的な オンライン手書き文字認識エンジンです。Zinniaは組み込みの容易さと汎用性を高めるために、 文字のレンダリング機能は持っていません。Zinniaは文字のストローク情報を座標の連続として受け取り、 確からしい順にスコア付きでN文字の認識結果を返すだけに機能を限定しています。 また、認識エンジンは完全に機械学習ベースであるために、文字のみならずユーザの任意のマウス・ペンストロークに対して任意の文字列をマッピングするような認識エンジンを小コスト作成することができます。 主な特徴 機械学習アルゴリズムSVMによる高い認識精度 ポータブルでコンパクトな設計 -- POSIX/Windows (C++ STLのみに依存) リエント
今回は、画像の中に書かれている文字(テキスト)を抽出するプログラムを作ってみましょう。スマートフォンやデジカメで手軽に写真を撮れるようになった昨今では、撮影・スキャンした手書きメモや文字データなどをテキストに変換したい場面が多いのではないでしょうか。 画像の文字認識をするプログラム自体を一から作るのは大変です。Microsoftが提供する「MODI」のOCR機能を利用すれば、JavaScriptから手軽に文字認識を実行できます。今回は、MODIのセットアップと簡単なプログラムを紹介します。 OCRとその活用方法 写真の中にある文字や、スマートフォンなどの手書き機能で書いたメモは、あくまで画像です。人間の目では読むことができても、そのままではコンピューターが認識することはできません。もちろん、検索してもその中の文字を探すことはできません。 そこで、OCRの出番です。OCR(Optical C
日本語文字認識 - beta >> English page Since: Oct. 1, 2008 Updated: Jan 13, 2010 このサーバは OCRopusと NHocrを使って 文書画像中の日本語文字を認識します。 文字の周囲にゴミや罫線があると認識に失敗します。 横書きの印刷文字のみに対応しています。 認識精度はまだ低いので、ご了承ください。 機密・秘密の画像は絶対に送信しないでください。 (BMP, JPEG, PBM/PGM/PPM, およびそれらのgzipで圧縮されたファイルが読めます。) server spec | other OCR servers Powered by WeOCR, OCRopus, and NHocr. 日本語文字行認識 - beta このサーバは NHocrを使って 文字行画像中の日本語文字を認識します。 一行だけの文字列のイメージを
tomoe-0.6.0をリリースしました。 tomoe-0.5.xからの変更点: 簡体字中国語辞書の追加 (Red Hatの技術者の方々の成果です。ありがとうございました) 日本語辞書の拡張(JIX 0208 第2水準のサポート) ロケールに基づいてデフォルト辞書を自動選択 ただし、現在のところjaとzh_CNのみで、それ以外のロケールで使用すると辞書が有効にならず、またオンデマンドでの辞書の変更も実装されていません。起動時にロケールをセットするようにして下さい。 $ LANG=ja uim-tomoe-gtk $ LANG=ja scim-tomoe libtomoe-gtk を tomoe-gtk に名称変更 tomoe_gtk_init() と tomoe_gtk_quit() を追加 互換性確保のためにtomoe_gtk_window_new()で自動的にtomoe_gtk_i
D.M.です。今回は RPA にて PDF を OCR で読み取る検証をしたお話です。 TL;DR ・実用性は AI OCR しか勝たん。 ・AI OCR は Google vs Microsoft の構図。 両者精度高。 ・Google も Microsoft も API に無料枠があり Python などのプログラムで連携できる。 ・Microsoft は有料の RPA 連携機能が超絶楽勝なのでコードを書かない前提ならこっちも選択肢。非エンジニアでも楽々自動化できる。 ※関連記事 AI OCR でクレカ読み取りをやっています。 スマホNativeアプリでクレジットカード番号の読み取り機能の技術検証結果まとめ https://recruit.gmo.jp/engineer/jisedai/blog/technical_review_ocr_solutions_on_auto_detect
AIベンチャーが実現した“99.2%”手書き文字認識ソフトの重要性──日本企業がAIを導入できない理由とは(1/2 ページ) 99.22%という、高い手書き文字認識精度をAIで実現した日本のベンチャー企業Cogent Labs。AI導入を検討する企業にとっての手書き文字認識の重要性を語る。 「Tegaki」という日本語の手書き文字認識(OCR)サービスがある。そのソフトはディープラーニングなど機械学習のアルゴリズムを用い、認識精度は99.22%という精度で、平仮名、片仮名、漢字、数字、アルファベット、記号を認識できる。申し込み用紙やアンケート用紙など、複雑な形式の紙からでも正確に手書き文字を読み取れるという。8月23日に企業向け提供を始め、有料ながら個人も使えるように調整中だ。 例として、公式サイトには江戸川乱歩『青銅の魔人』を複数人で手書きしたものをTegakiで認識したサンプルが公開さ
手書き文字の認識が違った意味でよく見える! 今回ご紹介するのは、ニューラルネットワークを活用し二次元平面上に描かれた模様から、数字として認識される様子を可視化した、面白いデモンストレーションです。 私は残念ながらこの手の学がまったく無く、正確に解説することが難しいのですが、Convolutional Neural Network というものを使って文字を認識するような、特殊なアルゴリズムを可視化しているのだと思います。 階層構造になった状態に、どのようなつながりがあるのかを可視化するのには三次元表現がうってつけですね。 数字を描いてみるだけでも楽しめる 先に触れたとおり、私はこういった学問の知識がないのでものすごく初歩的なことや、間違ったことを書いているかもしれません。その点はご了承ください。 今回のデモを見ると、文字認識のためのニューラルネットワークが、どのように機能しているのか、その一
こんにちは!freee で モバイルアプリ 開発を担当している RyoAbe です。 freee Developers Advent Calendar の10日目として、Google Cloud Vision API の導入 〜 OCR 機能の検証の結果についてまとめた記事になります。 Google Cloud Vision API とは? Google Cloud Vision API とは GCP が提供するサービスの一つで、機械学習により画像から分析情報を抽出する以下のような機能を提供します。 乗り物や動物など、画像に写っているさまざまなカテゴリの物体(「ヨット」や「ライオン」、「エッフェル塔」など)を検出 アダルト コンテンツから暴力的なコンテンツまで、さまざまなタイプの不適切なコンテンツを検出 著名人やロゴ、ニュース イベントなどの時事的なエンティティを検出 光学式文字認識(OC
オンラインの翻訳サービスは、外国語の文章・Webサイトをカット&ペーストするだけで、瞬時に日本語へと変換できる便利なサービスです。 しかしながら、新聞・カタログ・説明書などの印刷物は、手で入力したりスキャナーで読込む手間が面倒です。 この『Babelshot 』は、そのような外国語で書かれた印刷物をiPhoneのカメラで撮影すると、文字を認識して翻訳までしてくれるという便利なアプリです カメラから読込んだ文章の翻訳にはGoogle Translateが使われ、サポートされている40以上の言語間で翻訳をすることができます。 おそらくアプリの名称『Babelshot 』は、現在数多くの言語が存在する原因とされる「バベルの塔(Tower of Babel)」の物語と、カメラの撮影(shot)のからの造語ではないでしょうか。 デフォルトでは、「Source Language(翻訳前の言語)」と「T
素人でもディープラーニングが使えるようになる講座がある。そんな案内がNVIDIAから届いた。 ディープラーニングといえば、2016年に囲碁でイ・セドルに勝利した「Alpha Go」や、自動車の自動運転技術に採用されているアルゴリズムだ。 一般的に、ディープラーニングを自分でいじってみようと思うとPythonなどプログラミング言語の理解や、GPUの用意などハードウェア的な面である程度のハードルがある。 そういったハードルの高さから「ディープラーニングってよく聞くけれどどんなものなのだろう」と興味を持っても、説明を読む程度で実際に使用するところまでたどり着かない人も多いだろう。 かく言う私も、プログラミングはJavaの経験が少々あるもののPythonは触ったことがなく、ディープラーニングについては概念図を見てなんとなく理解した気になっていた程度だった。 そんな中届いた「NVIDIA Deep
「JavaScriptで自動文字認識」プログラムについての解説の前編では、JavaScriptを使って、画像に書かれている文字をテキストで抽出するプログラムを作りました。 前編で簡単なテストプログラムを作るところまで進めましたが、今回は、複数の画像から連続で文字認識をして、テキストファイルに保存するプログラムを作ってみましょう。Webサイトのスクリーンキャプチャーや、スキャンした画像などをテキストとして保存するのに便利なプログラムです。 MicrosoftのOCRライブラリー「MODI」について 今回解説するプログラムは、Windows専用です。JavaScriptから手軽に画像文字認識を行うために、Microsoftが提供する「MODI」のOCR機能を利用します。このライブラリーのために、無料でダウンロード可能な「SharePoint Designer 2007」をインストールする必要が
このエントリはAWS Lambda Advent Calendar 2014 - Qiitaの(本当は9日目の)記事です。 (ちょっとAWS Lambdaのアカウント取得に手間取ってしまって遅刻してしまいました。。すいません。。) AWS Lambda とは AWS LambdaはAmazonが作った新サービスであり、S3の変更やDynamoDBの変更をフックしてNode.jsの関数を実行するという仕組みになっています。これを使うと、例えばデータが変更された後にPush Notificationを出したり、S3にアップロードされた画像のサムネイル画像を作成したりといったことが可能になります。 今回はこのAWS Lambdaを使ってS3でPUTされた画像から文字認識をしてみようという試みです。文字認識した結果をDynamoDBとかに置いて検索に利用すれば、画像内に書かれた文字で検索できるよう
Microsoft Office をインストールすると、実は OCR ソフトがついてきます。C# からの利用も簡単です。下記のコードを、Visual C# Express 2005 または 2008 で作成し、参照設定に、 Microsoft Office Document Imaging 11.0 Type Library (MDIVWCTL.DLL) を追加してビルドしてください。 [:ボックス1:] ソースコードのダウンロード (Visual C# Express 2008 用) v1.0 (2008/07/21) using System; using System.Text; /// /// OCR with MicrosoftR Office By Martin Welker (CodeProject) /// に基づく Office 2003 に依存したOCR処理。 ///
当連載では、漢字改良に挑んだひとりの人生をその著書を通じて書いてきたが、今回は文字自体に焦点をあてる。とりあげるのは前回に引き続きビットマップフォントだ。 前回の記事で明らかになったのは、次のような結論だ。 ビットマップフォントは何かを差し引くではなく、線を重ね合わせ、シェアすることでドットに複数の役割をもたせる。極限まで省略されているようで、実は何も省略していない。 世の中に明朝体と呼ばれる書体が複数ある。同じようにビットマップフォントもさまざまな企業からリリースされている。8ドットや9ドットのビットマップはギリギリまで削減されているように見えた。しかし、このギリギリのなかに取りうる選択肢がフォントの数だけ存在するのだろうか?それとも概ね同じ形に収斂されてゆくのだろうか? 収斂されてゆくのであれば、それが(9ドットの)究極の到達点であり興味深い。また大きな違いが生じるのであれば、簡略化の
Windows MobileやZaurusなどのPDAで良く見かけるのが手書き文字認識エンジンだ。バーチャルキーボードやPDAの小さなキーボードで入力するよりも素早く入力ができるのが便利だ。 モデルの認識中 OCRも同様だが、入力された内容を読み取ってデジタルなデータに変換するというのは難しい技術だ。だがその部分だけオープンソース化すれば、みんなが手軽に利用できるようになる。 今回紹介するオープンソース・ソフトウェアはZinnia、手書き文字認識エンジンだ。 Zinniaはエンジンのみの提供で、認識の基準になるモデルなどは提供されていない。そしてそのエンジンは機械学習機能(アルゴリズムはSVM)が実装されており、利用していくうちに精度を高めることができる。 Python用テストスクリプト APIを公開しており、それを使うことでC/C++/Perl/Ruby/Pythonなどでもエンジンを利
OpenCV3.0系から文字認識モジュールが搭載されるようなので使ってみる.現状の3.0 alphaや3.0 betaでは,文字認識モジュールはメインレポジトリに組み込まれておらず開発用レポジトリのopencv_contribの方に入っているようで,opencv_contribと一緒にOpenCVをビルドする必要がある. OpenCVの文字認識モジュール OpenCVのドキュメントによると,以下の2種類の文字認識方法があるらしい. オープンソースのOCRライブラリtesseract-ocrを呼び出す方法 隠れマルコフモデルによる認識方法 今回は,1の方法について試してみる. 文字認識モジュールの準備 tesseract-ocrのダウンロード https://code.google.com/p/tesseract-ocr/downloads/listからVC++からtesseract-ocr
まず、英語版のバードに行きます。 画像をアップロードしてほしい情報を入力すると教えていただけます。 生年月日について聞いてみました "平成元年3月31日生"と正しく認識できてます フォーマットも指定可能です 有効期限も聞きました "2025年3月31日まで有効"と正しく認識できてます 4桁の番号を教えて 何キロカロリーありますか? まとめ 言われたことしかできない人は、仕事がAIに取られるかもしれません。 信じるか信じないかはあなた次第です 引用 Register as a new user and use Qiita more conveniently You get articles that match your needsYou can efficiently read back useful informationYou can use dark themeWhat you ca
オンライン手書き文字認識エンジンZinniaを公開しました。 http://zinnia.sourceforge.net/index-ja.html Zinniaは機械学習アルゴリズム SVM を用いたポータブルで汎用的な オンライン手書き文字認識エンジンです。Zinniaは組み込みの容易さと汎用性を高めるために、 文字のレンダリング機能は持っていません。Zinniaは文字のストローク情報を座標の連続として受け取り、 確からしい順にスコア付きでN文字の認識結果を返すだけに機能を限定しています。 また、認識エンジンは完全に機械学習ベースであるために、文字のみならずユーザの任意のマウス・ペンストロークに対して任意の文字列をマッピングするような認識エンジンを小コスト作成することができます。 2年前に、Ajax手書き文字認識と言うものを作ったのですが、その認識エンジンをスクラッチからポータブルでつ
ポータブルスキャナを使ってリアルタイムで光学文字認識 (OCR) を行っている動画 光学文字認識(こうがくもじにんしき、英: Optical character recognition)は、活字、手書きテキストの画像を文字コードの列に変換するソフトウェアである。画像はイメージスキャナーや写真で取り込まれた文書、風景写真(風景内の看板の文字など)、画像内の字幕(テレビ放送画像内など)が使われる[1]。一般にOCRと略記される。 パスポート、請求書、銀行取引明細書、レシート、名刺、メール、データや文書の印刷物など、紙に記載されたデータをデータ入力する手法として広く使われ、紙に印刷された文書をデジタイズし、よりコンパクトな形で記録するのに必要とされる。さらに、文字コードに変換することでコグニティブコンピューティング、機械翻訳や音声合成の入力にも使えるようになり、テキストマイニングも可能となる。研
※適用バージョン:Windows 10 version 1507(build 10240)以降 はじめに OCR機能を組み込めたら、どんなアプリが作れるでしょう? 名刺や葉書からデータを取り込む住所録アプリ レシートや領収書などからデータを取り込む家計簿アプリ 印刷された書類などをテキストデータ化するアプリ 商品名を読み取って通販サイトを検索するアプリ 電柱などの住所表示を読み取って現在地を検索するアプリ いろんなアプリのアイデアが浮かんでくることでしょう。でも、市販されている日本語OCRライブラリは、けっこうなお値段がするので、個人開発者のレベルではちょっと使いにくいのです。そのようなライブラリは、辞書を使って読み取り精度を高めていたり、帳票の罫線を認識して誤認識を減らす工夫がしてあったりと、魅力的ではあるのですが。あるいは、最近になってメジャーどころも参入してきたOCRのWebサービス
iPad版で人気を博していた、文字認識機能付き手書きメモ帳7notesのiPhone版が完成しました。その名も、7notes mini (J) for iPhone。 iPad版とは異なり、かなりシンプルで、気軽に使えるアプリに仕上っています。パッと起動してさっと使うという、iPhoneらしい使いこなしが可能です。とてもいいです。一方で、「デジタルキャビネット」による文書管理や、「カラム」を利用した柔軟なノートの作成はできません。これらの機能が好きだった方は、アプリの購入はじっくり検討下さい。 何よりも、やはり文字認識機能がすばらしいですね。手書き文字を変換してくれる「交ぜ書き」はとても便利です。手書き文字をそのまま入力する「書き流し入力」、および「キーボード入力」もできます。 それでは早速ご紹介していきます。
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。ヤフーで画像処理エンジニアをしている吉橋です。この記事ではヤフーのさまざまなサービスで使われている独自の画像文字認識(OCR)技術と、特に最近のPayPayフリマ「本棚一括持ち物追加機能」での活用事例をご紹介します。 画像文字認識とは 皆さん、ウェブサイトを見ていて「このキーワード気になるな……よしコピーしてヤフーで検索してみよう! と思ったらこれ画像じゃん、コピーできないよ……」なんて困ったことはありませんか? ウェブで私たちが目にする情報は“テキスト”と“画像”の2種類が主なものです。 テキスト: 文字列としての情報を保持したデータであり、コピーやウェブ検索に利用したり解析したり、容易に活用できます。 画像データ:
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く