タイトル「tesseract」を検索 - はてなブックマーク

1 - 40 件 / 128件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

tesseractの検索結果1 - 40 件 / 128件

62言語超対応のOCR「tesseract.js」がJavaScriptに移植、機械学習にも対応【@maskin】 | TechWave（テックウェーブ）
- 220 users
- techwave.jp
- 学び
- 2016/10/13
1990年代初頭から記者としてまた起業家として30年以上にわたりIT業界のハードウェアからソフトウェアの事業創出に関わる。シリコンバレーやEU等でのスタートアップを経験。日本ではネットエイジ等に所属、大手企業の新規事業創出に協力。ブログやSNS、LINEなどの誕生から普及成長までを最前線で見てきた生き字引として注目される。通信キャリアのニュースポータルの創業デスクとして数億PV事業に。世界最大IT系メディア（スペイン）の元日本編集長を経て現在に至る。北米を中心に全世界でJavaScriptへの対応熱止まらない。今回も知る人ぞ知るオープンソースの文字認識エンジン「Tesseract-OCR」が、JavaScriptに移植され話題になっている。以下は「tesseract.jp」のデモ画像。ウェブ上で画像の取得から一連の文字認識のプロセスが確認できる。「Tesseract-OCR」は、も
- OCR
- javascript
- 機械学習
- あとで読む
- cloud
- Tesseract
- webサービス
- com
- it
- js
tesseract-ocr - Google Code
- 191 users
- github.com/tesseract-ocr
- テクノロジー
- 2007/04/12
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- OCR
- tesseract
- google
- 文字認識
- opensource
- library
- software
- Linux
- programming
- ライブラリ
Tesseract.js | Pure Javascript OCR for 100 Languages!
- 145 users
- tesseract.projectnaptha.com
- テクノロジー
- 2019/05/27
Tesseract.js is a pure Javascript port of the popular Tesseract OCR engine. This library supports more than 100 languages, automatic text orientation and script detection, a simple interface for reading paragraph, word, and character bounding boxes. Tesseract.js can run either in a browser and on a server with NodeJS. Check out the Example code and API docs on GitHub.
- ocr
- javascript
- tesseract
- あとで読む
- github
- nodejs
- js
- library
iOSで日本語OCR！ビルド編〜iOS SDK 6.1 + tesseract-ocr 3.02〜 | DevelopersIO
- 88 users
- dev.classmethod.jp
- テクノロジー
- 2013/05/13
最近iOSでOCR（Optical Character Recognition：工学文字認識）をしたいとの声をよく耳にするので調査してみました。オープンソースのOCRエンジン「tesseract-ocr」オープンソースで日本語に対応したOCRエンジンを探してみると、tesseract-ocrなるものを見つけました。このtesseract-ocrですが、Google先生が開発を支援していると噂のオープンソースのOCRエンジンで、C++で書かれています。また、英語、日本語だけでなく多数の言語にも対応しています。ライセンスはApache License 2.0です。ちなみに読み方は「テッサラクトOCR」だそうです。 tesseract-ocrではiOSで簡単に利用できる形式では配布しておりませんが、C++で書かれているので当然Objective-Cでも使うことが出来ます。iOSでtesser
- OCR
- iOS
- tesseract
- SDK
- C++
- library
- iPhone
tesseract.jsがスマホ上で動くOCRアプリケーションを作る - Qiita
- 81 users
- qiita.com/quiye
- テクノロジー
- 2018/08/13
初投稿です。目標スマホのブラウザとカメラで動く日本語OCRアプリケーションを作る。経緯会社で社内便（複数）の郵送を頼まれる事がある。その際、宛名読む→宛名から郵便受け番号への変換→宛名の郵便受けまで行って投函→宛名読む→...を繰り返す必要があり効率化したい。 ↓ 配達の前にPCで宛名を一括で打ち込み、郵便受けの番号リストを作成すれば良いがタイピングが面倒。スマホのカメラで動くOCRなら便利そうだが、Google Cloud Vision APIの社内利用はセキュリティの問題もあって（多分）無理。 ↓ tesseract.jsなら入力情報を外部に送信しなくて良いので安全なのでは！？ AndroidとかiOSのアプリは作れないけどhtmlなら何とかなりそう！？ ↓ 今ここ ↓ 社員情報のAPIを使用した最短ルートの提案など... 作成物作成物のデモ処理速度の関係でiPhone
- OCR
- あとで読む
- tesseract
- javascript
- Canvas
- js
- api
- カメラ
- ios
GitHub - naptha/tesseract.js: Pure Javascript OCR for more than 100 Languages 📖🎉🖥
- 62 users
- github.com/naptha
- テクノロジー
- 2016/10/13
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- OCR
- javascript
- library
- _コード
- js
- github
- nodejs
- repos
- Computer Vision
- あとで読む
Google，HPの開発したオープンソースOCRエンジン「Tesseract」を公開
- 59 users
- xtech.nikkei.com
- 暮らし
- 2006/09/06
米Googleは，オープンソース・コミュニティSourceForge.netで文字認識（OCR）エンジン「Tesseract」を公開した。Google最上級技術リード（Uber Tech Lead）のLuc Vincent氏が米国時間8月，公式ブログGoogle Code Blogへの投稿で明らかにしたもの。SourceForge.netのWebサイトから無償でダウンロードできる。 Tesseractは，米Hewlett-Packard（HP）が1985～1995年にかけて開発していたOCRエンジン。ネバダ州立大学ラスベガス校（UNLV）が1995年に開催したOCRソフトウエアの精度を評価するコンテストで，トップ3の成績を記録したという。しかしHPがOCR事業からの撤退を決めたことから，「Tesseractはほこりをかぶっていた」（Google）。その後「HPの関係者がTesseract
- OCR
- google
- オープンソース
- oss
- LEAD
- Tesseract
- HP
- opensource
- SourceForge
- エンジン
Tesseract ocr
- 58 users
- www.slideshare.net/takmin
- テクノロジー
- 2011/08/17
Takuya MinagawaTechnical Solution Architect at Vision&IT Lab Co., Ltd.
- ocr
- tesseract
- c++
- development
- google
- 画像
opencvで文字認識その１　Tesseractラッパ - whoopsidaisies's diary
- 49 users
- whoopsidaisies.hatenablog.com
- テクノロジー
- 2014/11/11
OpenCV3.0系から文字認識モジュールが搭載されるようなので使ってみる．現状の3.0 alphaや3.0 betaでは，文字認識モジュールはメインレポジトリに組み込まれておらず開発用レポジトリのopencv_contribの方に入っているようで，opencv_contribと一緒にOpenCVをビルドする必要がある． OpenCVの文字認識モジュール OpenCVのドキュメントによると，以下の２種類の文字認識方法があるらしい．オープンソースのOCRライブラリtesseract-ocrを呼び出す方法隠れマルコフモデルによる認識方法今回は，1の方法について試してみる．文字認識モジュールの準備 tesseract-ocrのダウンロード https://code.google.com/p/tesseract-ocr/downloads/listからVC++からtesseract-ocr
- OpenCV
- OCR
- 文字認識
- C++
- IT
- あとで読む
Tesseract-OCRの学習 - はだしの元さん
- 48 users
- hadashi-gensan.hatenablog.com
- テクノロジー
- 2014/02/26
2014-01-15 Tesseract-OCRの学習 Tesseract-OCRはHPが開発し現在はGoogleが公開しているオープンソースのOCRエンジンです。オープンソースのOCRエンジン Tesseract-OCRでTesseeract-OCRで日本語の読み込みまでは説明しました。今回はTesseract-OCRで機械学習を行い精度を向上させるための方法を説明します。僕は基本的に以下の公式のチュートリアルを読みながらやって行きました。Tesseract Training Wiki https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3大まかにやることは３つあります。 boxファイルの作成　 trファイルの作成トレーニングデータの作成 boxファイルの作成まず学習したい画像ファイルを用意します。今回
- ocr
- Tesseract
- Tesseract-OCR
- 画像認識
- 機械学習
- tutorial
- library
- iOS
- linux
- オープンソース
Tesseract.js | Pure Javascript OCR for 100 Languages!
- 43 users
- tesseract.projectnaptha.com
- テクノロジー
- 2016/10/13
Tesseract.js is a pure Javascript port of the popular Tesseract OCR engine. This library supports more than 100 languages, automatic text orientation and script detection, a simple interface for reading paragraph, word, and character bounding boxes. Tesseract.js can run either in a browser and on a server with NodeJS. Check out the Example code and API docs on GitHub.
- ocr
- javascript
- library
- api
- Article
- あとで読む
TESSERACT
- 38 users
- d.hatena.ne.jp/taniwaki
- おもしろ
- 2006/04/27
- movie
- タランティーノ
- 映画
- まとめ
- cinema
- 資料
GitHub - tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository)
- 37 users
- github.com/tesseract-ocr
- テクノロジー
- 2015/07/16
This package contains an OCR engine - libtesseract and a command line program - tesseract. Tesseract 4 adds a new neural net (LSTM) based OCR engine which is focused on line recognition, but also still supports the legacy Tesseract OCR engine of Tesseract 3 which works by recognizing character patterns. Compatibility with Tesseract 3 is enabled by using the Legacy OCR Engine mode (--oem 0). It als
- OCR
- machinelearning
- iOS
- python
第577回　Tesseract OCRで文字認識をする | gihyo.jp
- 35 users
- gihyo.jp
- テクノロジー
- 2019/07/10
今回はオープンソースでマルチプラットフォームのOCRエンジンであるTesseract OCRを使用し、読み取り精度を確認してみます。 UbuntuでOCR？「日本語でOCR」と聞くと、プロプライエタリの牙城というか、高価なソフトを購入しないと実用に耐えないというイメージがあるかもしれません。あるいはないかもしれませんが、いずれにせよ日本語の文字は難しいのでOCRで高い精度を出すのはなかなか難しそうに思えます。少なくとも筆者はそう考えていたので、OCRで高精度の結果を出すのは困難、ましてやオープンソースで……と考えていました。そんなところに、Tesseract OCRのバージョン4.0以降では日本語でもかなりの高精度で認識するという話を小耳に挟みました。実際に試してみると想定していた以上の結果だったので、ここで紹介することにします。 Tesseract OCRとgImageReader
- OCR
- tesseract
- Ubuntu
- あとで読む
- clip
- techfeed
- ツール
- software
MOONGIFT: » Googleが手がけるOCR「Tesseract OCR」:オープンソースを毎日紹介
- 31 users
- www.moongift.jp
- 暮らし
- 2007/06/21
新しいサービス（といっても大層なものではない）を作ろうと思った時に、画像の中の文字列を読み取る仕組みが必要な事に気づいた。いわゆるOCRだ。オープンソースのOCRはごく僅かだが存在する。今回はその中の有力なものを紹介しよう。今回紹介するオープンソース・ソフトウェアはTesseract OCR、Googleが手がけるOCRエンジンだ。 Tesseract OCRは元々、HPが開発していたもので、それをGoogleが開発を引き継ぐ形でオープンソース化されたソフトウェアだ。英語圏のソフトウェアなので日本語の読み込みには対応していないが、性能自体は高い評価を受けている。実際試してみた限りでは、変換率50%を越えているだろう。一段の文章であれば問題なく変換できるが、多段組になっている文章やグレースケール等はうまく解析することはできない。 GoogleはGoogle Book Searchなどで
- ocr
- google
- opensource
- オープンソース
- 参考
- software
- 資料
iOSで日本語OCR！サンプルアプリ構築編〜iOS SDK 6.1 + tesseract-ocr 3.02〜 | DevelopersIO
- 30 users
- dev.classmethod.jp
- テクノロジー
- 2013/05/13
tesseract-ocrのインポートプロジェクトを作成したら早速前回作成したライブラリをインポートします。プロジェクトにインポートするのはtesseract-iOS6.1-buildディレクトリにあるdependenciesディレクトリです。プロジェクトナビゲータの適当な場所で「右クリック＞Add Files to "TesseractOCRSample"...」を実行し、tesseract-iOS6.1-build/dependenciesディレクトリを選択してください。 tesseract Objective-Cラッパー「tesseract-ios」のインポート tesseract-ocrはC++で書かれているため、そのまま使うとビューコントローラなどのソースコードでObjective-CとC++が混在してしまい面倒です。 tesseract-iosはtesseract-ocrを使
- OCR
- ios
- objective-c
- tesseract
- iOS6
- library
- iphone
- あとで読む
Tesseract OCR
- 27 users
- sourceforge.net
- テクノロジー
- 2006/09/01
Project Insight offers powerful tools for project managers and teams in order to deliver optimal performance and ensure success. An enterprise project and portfolio management software, Project Insight offers personalized dashboards, intelligent scheduling, resource management, collaboration, time and expense tracking, project and portfolio tracking, workflow, and reporting features to help teams
- OCR
- Tesseract
- 文字認識
- オープンソース
- Google
- opensource
- software
- linux
- ツール
Tesseract OCRをGUIから手軽に利用。画像やPDFをOCR処理する·gImageReader MOONGIFT
- 23 users
- www.moongift.jp
- 暮らし
- 2011/06/22
gImageReaderはTesseract OCRのWindows/Linux用GUIフロントエンド。PDFや画像をOCR処理する。 gImageReaderはWindows/Linux用のオープンソース・ソフトウェア。リアルとデジタルを繋ぐ技術は常に人気が高い。地図、写真、位置情報、交通機関の情報などリアルに関係するものはみんなが必要としている。疎sの一つ、リアルの情報を取り込む技術として知られるのがOCRだ。 PDFや画像を開く名刺の読み取りを行うソフトウェアは何年経っても人気がある。スマートフォンが登場してさらに人気が高まっている。オープンソースのOCRであるTesseract OCRをGUIで扱うのがgImageReaderだ。 gImageReaderはPDFや画像ファイルを読み込んで、指定された言語に基準としてOCR処理を行うTesseract OCRフロントエンドだ。Te
［東京モーターショー2007］4輪の目玉がGT-Rなら2輪はTesseract
- 20 users
- www.gizmodo.jp
- 世の中
- 2007/10/25
って、これも4輪か。ヤマハのブースには先日紹介した｢Tesseract｣が置いてありました。周りを回りながら見てみるとセンの細さを感じたものの、本当に公道を走るモデルになったら…と期待が止まりません。実写版｢パトレイバー｣が作られるのなら、SSSの人たちにはコイツに乗ってもらいたいなあ。さらに詳細写真は、以下にて。今日から数日間に分けて少しずつ、第40回という節目を迎えた東京モーターショーの話題を紹介していきます。楽しみにしていてくださいね。ちなみに一般公開の期間は、10月27日（土）～11月11日（日）です。プレスリリース［YAMAHA, 東京モーターショー2007 公式HP］ ●｢東京モーターショー2007｣の記事一覧はコチラ（武者良太）【関連記事】スーパーヒーロー用っぽいバイク｢Yamaha Tesseract｣【関連記事】 YAMAHAと日産を合体させた水上チョッ
javascript製のOCRライブラリ「tesseract.js」を試してみた
- 19 users
- co.bsnws.net
- テクノロジー
- 2016/10/18
Tesseract.jsはOCRとしては驚異的で、日本語を含む62言語に対応しています。っということで、どれぐらいの精度があるのか試してみました！ Tesseract.jsはnpmパッケージからインストールする方法と、ブラウザ上からはCDNも利用出来ます。 (ブラウザから使う場合はCDNを使うほうが手軽そうです) # npm npm install tesseract.js --save  <script src='https://cdn.rawgit.com/naptha/tesseract.js/1.0.7/dist/tesseract.js'></script> 下のスニペットがTesseract.jsの基本的な使い方です。recognize関数の第一引数に読み込む画像、第二引数で言語を指定します。 ( * その他にもオプションが用意
- ocr
- javascript
- library
HPが開発したOCRエンジン「Tesseract」、グーグルの支援で公開に
- 19 users
- japan.cnet.com
- 暮らし
- 2006/09/06
Googleのエンジニアらが、かつてHewlett-Packard（HP）が開発した光学式文字認識（OCR）エンジンをよみがえらせた。 Googleは、HP Labsによって20年も前に開発され、1995年にお蔵入りとなった「Tesseract」のバグを修正し、数カ月前にオープンソースコミュニティに公開していたことを発表した。 Googleは、一般の人が作った面白いビデオから学術論文に至るまで、これまでデジタル化されてこなかった世界中のあらゆる情報をインデックス化し、体系立てて整理しようと取り組んできた。Tesseractのプロジェクトも、Googleの目指すこうしたゴールと合致する。Tesseractのようなオープンソース技術を使えば、エンジニアや公共機関などが、これまで紙で保存されてきたたくさんの情報をデジタル化していくことができる。 Googleはこの2年間、ネバダ州立大学ラスベガス
- OCR
- Google
- hp
- オープンソース
- CNET
- OSS
ようやくビルド成功！(続・AndroidでTesseract） - udon's blog
- 19 users
- datsuns.hatenablog.com
- テクノロジー
- 2012/05/28
先日のエントリの続きみたいなもので。。。 datsuns's blog ようやくビルドが行けましたよっと。。といっても、 Making an OCR Android App using Tesseract - Gautam Gupta's Blog | Gautam Gupta's Blog このサイトを見つけてそのとおりにやっただけ。。。一応確認込めて上のサイトの和訳意訳でも。 - This post tells you how you can easily make an Android application to extract the text from the image being captured by the camera of your Android phone! We’ll be using a fork of Tesseract Android Tools b
- tesseract
- ocr
- Android
- NDK
tesseract-orc で自作プログラムに画像の文字を読ませてみた - Kikuchy's Second Memory
- 16 users
- kikuchy.hatenablog.com
- テクノロジー
- 2013/10/08
作っているプログラムで画像の文字を読み込む必要が出て来たので、手軽にできる方法を探してみました。画像から文字を読むとなると、 OCR (Optical Character Reader) のライブラリを使うのが手っ取り早そうです。 OCR ライブラリの導入から、実際にライブラリを使ったプログラムを動かすところまでやってみました。今回使う OCR の要件今回は以下の条件の画像を読みたいので、この性能を満たしてくれる OCR があればバッチリ、ということになります。画像には文字のみが書かれている文字は単色、背景はほぼ単色文字種は、数字とコロンのみの 11 種文字は特定のフォントを使ってコンピューターで書かれたもので、印刷物でも手書きでもない要するにこんな画像です。見覚えがある？　さあ、何の事やら。 OCR の選定調べてみた所以下の二種類が有名なようです。 tesseract
Tesseract-OCR 3.04 を試してみる - 今日も微速転進
- 16 users
- a244.hateblo.jp
- テクノロジー
- 2015/08/31
久しぶりに技術系の話題を。オープンソースのOCRエンジン、Tesseract-OCRの新バージョンがリリースされているので試してみました。比較対象は3.02.02。既存環境を破壊したくないので、対照実験になっていませんが勘弁してやってください。開発元のwebサイトですが、GoogleCode から GitHubに移転しています。 tesseract-ocr · GitHub 準備など比較条件環境構築 Yosemite Arch Linux 認識対象データ注意点評価結果 (a) 3.02.02 (b) 3.02.02 + 日本語向け設定 (c) 3.04 (d) 3.04 + 日本語向け設定 (e) 3.04 + 最新言語辞書その他まとめ参考URLなど準備など比較条件手元の旧版（3.02.02）と簡単に認識結果を比較してみたいと思います。 ver. 3.02.02
- OCR
- tesseract
- Google
tesseract-ocr を使って画像内の文字をテキスト出力してみる - PSI Labs
- 15 users
- www.psi-net.co.jp
- テクノロジー
- 2013/04/12
こんにちは、tomita です。さて、免許証の写真から住所や名前などのテキストを抽出できるスマホアプリがあるそうです。 OCRの技術を使ったものだと思うのですが、ちょっと調べたところ、tesseract-ocr というオープンソースの OCR エンジンがあったので、少し触ってみました。環境は CentOS 6.3 です。前準備以下のライブラリを yum install しておきます。 yum install autoconf automake libtool yum install libpng-devel libjpeg-devel libtiff-devel zlib-devel Leptonica という画像解析ライブラリも必要なので、ソースインストールしておきます。 cd /usr/local/src/ wget http://leptonica.googlecode.co
- ocr
- 画像認識
- pocket2twitter
- CentOS
- ライブラリ
- 機械学習
- tutorial
- Tech
How to OCR with Tesseract in Python with Pytesseract and OpenCV?
- 14 users
- nanonets.com
- テクノロジー
- 2019/12/21
In this blog post, we will try to explain the technology behind the widely used Tesseract Engine, which was upgraded with the latest knowledge researched in optical character recognition. This article will also serve as a how-to guide/ tutorial on how to implement PDF OCR in python using the Tesseract engine. We will be walking through the following modules: Tesseract OCR FeaturesPreprocessing for
Tesseract OCRに触ってみた　（2011/07/19 JapanCV発表資料） - takminの書きっぱなし備忘録 @はてなブログ
- 12 users
- takmin.hatenablog.com
- 暮らし
- 2011/07/21
2011年7月19日に金沢で関東、関西、名古屋CV勉強会合同の勉強会がMIRU2011の前日に金沢で開催されました。懇親会も含め大いに盛り上がりました。 http://partake.in/events/9245c242-5fe0-4508-a4fe-a0d202adee93 http://togetter.com/li/163539 取り急ぎ、自分の発表資料だけアップしておきます。 Tesseract ocrView more presentations from takmin. @ttttamaki先生をはじめ、各勉強会の幹事の皆様、発表者、参加者の皆様、大変ありがとうございました。
- CV
Tesseract-OCRの導入(その1)インストールから動作確認まで – 株式会社インデペンデンスシステムズ横浜
- 12 users
- independence-sys.net
- テクノロジー
- 2015/02/03
株式会社インデペンデンスシステムズ横浜システム開発エンジニアの西田五郎が運営しております。Raspberry Pi や Arduino その他新規開発案件のご依頼をお待ちしております。 Tesseract-OCRは元々の開発がHPで現在はGoogleで公開されているオープンソースのOCRエンジンです。このTesseract-OCRを導入して使ってみました。今回はまずはインストールから英数字と簡単な日本語での動作確認です。ここでの動作環境はWindows8.1です。インストール 2019/07/20 追記です。この記事を書いてから随分と経過しました。完全に情報が古くなっています。Tesseract-OCRのサイトは以下です。 https://github.com/tesseract-ocr/tesseract/wiki 今現在では、Windows版のインストーラは以下からダウンロード出
- OCR
- Tesseract-OCR
- Tesseract
- linux
- 機械学習
- tutorial
オープンソースのOCRエンジン　Tesseract-OCR - はだしの元さん
- 12 users
- hadashi-gensan.hatenablog.com
- 暮らし
- 2014/06/04
2013-10-14 オープンソースのOCRエンジン　Tesseract-OCR Tesseract-OCR(テッセラクトOCR)はGoogleが提供しているOCRエンジンです。このTesseract-OCRはオープンソースであることもさることながら、機械学習によりさまざまな言語に対応したり、精度を上げることができることも魅力の一つです。今回はそのTesseract-OCRをUbuntuにインストールするところから、実際に文字を読み取るまでを紹介したいと思います。また公式のドキュメントの他に以下のサイトを参考にさせていただきました。日々是酩酊 http://badly-drunk.blogspot.jp/2011/10/tesseractocr.html公式：tesseract-ocr https://code.google.com/p/tesseract-ocr/ インストー
- ocr
- opensource
- tutorial
- Google
C#で文字認識（tesseract-ocrのラッパを使う方法） - whoopsidaisies's diary
- 12 users
- whoopsidaisies.hatenablog.com
- エンタメ
- 2014/01/14
tesseract-ocr tesseract-ocrはオープンソースのOCR（光学文字認識）エンジン．60以上の言語に対応しており，日本語の文字認識も可能． A .Net wrapper for tesseract-ocr tesseract-ocrはapiが用意されているが，そのC#ラッパー「A .Net wrapper for tesseract-ocr」を使う．インストールはNuGetから行える．プロジェクトの右クリックメニューから「Nugetパッケージの管理」をクリックし，出てきたダイアログで「ocr」で検索すれば「A .Net wrapper for tesseract-ocr」が出てくるのでインストールする．言語データのダウンロード tesseract-ocrでは言語ごとに学習済みのデータファイルが用意されており，それを読み込む必要がある．以下のページからダウンロード可能
- OCR
- c#
- .net
tesstrain.sh で Tesseract-OCR の言語データをカスタマイズする - Qiita
- 12 users
- qiita.com/atuyosi
- テクノロジー
- 2016/07/01
やりたいことオープンソースのOCRエンジン、Tesseract-OCR の日本語用言の言語データ（tessdata/jpn.traineddata）をカスタマイズする。 GitHubのWikiによると、必要な作業をコマンドでやる方法（Manual method）と、tesstrain.sh というシェルスクリプトを使う方法（Automated method）1が記載されている。というか前者を自動化したのが後者。公式Wikiを読めといえばそれまでですが、せっかくなのでまとめておきます。 TrainingTesseract · tesseract-ocr/tesseract Wiki · GitHub tesstrain.sh · tesseract-ocr/tesseract Wiki · GitHub 具体的には、未対応フォントを学習させる（実在する書体が前提2）未収録文字に対応させ
- OCR
- 学習
- Ubuntu
- 日本語
テキスト認識エンジン「Tesseract」をJavaScriptに移植した「Tesseract.js」 | OSDN Magazine
- 12 users
- mag.osdn.jp
- テクノロジー
- 2016/10/26
マサチューセッツ工科大学（MIT）がオープンソースのOCR（光学式文字読み取り）エンジン「Tesseract」のJavaScript実装「Tesseract.js」を公開した。 Tesseract.jsは、米HPが開発しその後Googleによってオープンソース化されたOCRエンジンであるTesseractをJavaScriptに移植したもの。Emscriptenコンパイラを利用してC++で書かれたTesseractのライブラリをクロスコンパイルし、自動ダウンロードシステムと言語ファイルを加えた。日本語、英語、スペイン語、中国語、韓国語を含む60以上の言語をサポートする。テキストの向きとスクリプトの検出を自動で行うことができ、シンプルなインターフェイスを利用して文章を読むことができるという。テキスト認識のオフロードができるため画像処理アプリケーションのコストを下げ、利便性を改善できるとして
- javascript
- OCR
- C++
- com
- apache
Python3系でtesseractを使ってOCRをやってみる - しゃちの備忘録
- 10 users
- teru0rc4.hatenablog.com
- テクノロジー
- 2018/05/09
前回の続きです．今回はPythonでtesseractを使い，OCRをしてみるところまで挑みたいと思います． OCR(工学文字認識)そのものについては前回書いたので省略します． teru0rc4.hatenablog.com tesseract tesseractのインストール tesseractとはGoogleで開発されているOCRエンジンです． homebrewを使いインストールします(homebrewについては過去に記事書いているのでご参照下さい) $ brew install tesseract みょろみょろログが出て，インストール完了です．実は最初の状態だと英数字にしか対応していません. ので，次節にて日本語対応させたいと思います．その前に，現在のtesseractのバージョンと，対応言語の確認をして起きたいと思います．バージョンの確認は $ tesseract -v か
- OCR
- python
PythonとTesseract OCRで文字認識 - Qiita
- 10 users
- qiita.com/henjiganai
- テクノロジー
- 2019/07/12
概要 Pythonの勉強をしている時に良い題材がないかを調べている際、文字認識について興味があったので一緒に使って勉強しようと思いました。オープンソースで使用可能なOCRはTesseract OCRが優秀だということでこちらを使ってみたいと思います。 Tesseract OCRのインストール今回はTesseract OCR4.0以降を使用します。ダウンロード公式ページ https://github.com/tesseract-ocr/tesseract windowsの場合自力でコンパイルしても良いが、Windows用インストーラが用意されているのでそちらを実行してインストールを行う。 wikiの「Windows」項目内の「Tesseract at UB Mannheim」をクリック遷移先のページの32bitもしくは64bitのどちらかをダウンロード。古いバージョンが欲しい場
- OCR
- 機械学習
- Python
Tessnet2 a .NET 2.0 Open Source OCR assembly using Tesseract engine
- 10 users
- www.pixel-technology.com
- テクノロジー
- 2010/02/04
Tessnet2 a .NET 2.0 Open Source OCR assembly using Tesseract engine Keywords: Open source, OCR, Tesseract, .NET, DOTNET, C#, VB.NET, C++/CLI Current version : 2.04.0, 02SEP09 (see version history) The big picture Tesseract is a C++ open source OCR engine. Tessnet2 is .NET assembly that expose very simple methods to do OCR. Tessnet2 is multi threaded. It uses the engine the same way Tesseract.exe
- OCR
- C#
- API
tesseract-ocr
- 10 users
- github.com/tesseract-ocr
- テクノロジー
- 2015/08/07
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- ocr
- google
- github
Python から OCRソフト Tesseract を利用する - (主に)プログラミングのメモ
- 10 users
- yoshihikomuto.hatenablog.jp
- テクノロジー
- 2011/09/22
Python から Tesseract を利用するための python モジュールが以下のサイトにおいて公開されている。 python wrapper class for tesseract OCR (Linux & Mac & Cygwin) http://code.google.com/p/python-tesseract/ プログラム例はこんなに短い！ # -*- coding: utf-8 -*- #from __future__ import print_function import tesseract api = tesseract.TessBaseAPI() api.SetOutputName("outputName"); api.Init(".","eng",tesseract.OEM_DEFAULT) api.SetPageSegMode(tesseract.PSM_A
- tesseract
- ocr
- python
- google
Python＋Tesseractによる画像処理でOCRを試してみた！ – 株式会社ライトコード
- 9 users
- rightcode.co.jp
- テクノロジー
- 2020/10/03
Tesseract とは？ Tesseract は、オープンソースの OCR エンジンです。「OCR」とは、画像ファイル中の文字を、テキストファイルとして読み込む技術のことです。 Tesseract は、コマンドラインのインターフェースを実装しているため、パソコンへインストールするだけで、OCR ができます。 Tesseract と Python で画像処理するメリットは？Tesseract を Python と組み合わせて利用すれば、画像を前処理してから Tesseract へ渡すことができます。これにより、OCR の精度が向上し、Tesseract が読み取った文字列を任意の形に処理できます。例えば、紙に印刷された文書も、Tesseract を利用すれば、テキストデータとして保管できるのです。さて、今回は、Tesseractを使って、画像処理でOCRを試してみたいと思います！
- Python
- 画像
Tesseract 4.0で日本語の認識をチューニングしよう - Qiita
- 9 users
- qiita.com/masaoki
- テクノロジー
- 2019/01/25
はじめにオープンソースのOCRとして手軽に試せるTesseractは、4.0になって認識制度が大幅に向上しているといいます。しかし、どうしても認識してくれない文字があります。一番困ったのが、会計の負数を意味する△マーク。AになったりΛになったり、とにかく△を知らない。そんなわけで、知らない文字を知っている状態にするには、独自の学習をさせてやることが必要です。 tesstrain.sh で Tesseract-OCR の言語データをカスタマイズするを参考にさせてもらいました。必要なファイルを取得まずはTesseract本体と、言語データのlangdataプロジェクトを取得。 $ git clone git://github.com/tesseract-ocr/tesseract.git $ git clone git://github.com/tesseract-ocr/langda
- Article
Avalon、4,500万円の超弩級フロア型スピーカー「Tesseract」
- 9 users
- av.watch.impress.co.jp
- テクノロジー
- 2014/10/10