[B! OCR][google] gntのブックマーク

https://docs.google.com/presentation/d/1LHplQ8nqNJNxaqY7DL4eM329jZKfO-E15XHoadYeLfE/mobilepresent?slide=id.g240ca7fffa_0_15369

gnt 2017/08/05

グーグル先生が日本語OCRも支配したのか…

google
ocr

リンク

米グーグル「書籍全文検索」日本の絶版本も対象になる可能性

米グーグル社が進めている書籍検索サービスが、波紋を広げている。「絶版だが著作権はある」という書籍のデジタル化をめぐる訴訟が「和解」という形で決着しそうで、この影響が日本の本にも及ぶというのだ。米国内に条件を満たした日本の絶版本があれば、すべて内容が世界中に公開されることになる。日本の業界からの反発は必至だが、専門家からは「利益が適切に配分されるのであれば、拒否すべきではない。紙で『死蔵』するよりはましだ」と、著作権側の立ち位置の見直しを迫る声もあがっている。「絶版になったが著作権は存在している」書籍のデジタル化が進む米グーグルは2004年、書籍の全文検索が可能になるサービス「グーグル・ブック・サーチ」を立ち上げ、現在は書籍100万冊以上の内容がウェブ上で検索できる。当然、この仕組みに、著作権者側は反発。米作家協会や米出版協会(AAP)が05年9月から10月にかけて、著作権侵害を訴え、グ

gnt 2009/02/24

日本語のOCR精度の低さはものすごいディスアドバンテージになると思う。正直、webがもう一度ブレイクスルーするにはソレしかない気が。

リンク

『Googleの明治の活字　OCR化の次なる　一手（まったくの推測です。）』

Googleが、明治の活字に挑戦している。現在の状況をみるとかなり苦戦しているようだ。ところで、学問のすすめ　は、どこにある？どうりで、検索できないわけだ。ほんとうは、學問すゝめ: 自第一篇至第十七篇というらしい。一瞬、慶応義塾大学が、とんでもないミスをしたと喜んだ、私が馬鹿だった。明治に出版された表紙をみると、読めない。うーん。 Googleが正しいようだ。ちなみに、青空文庫では、さて、Googleは、明治の活字をどのように攻略するのか。福翁自傳で考えてみよう。すでに、デジタルデータがある。すくなくとも、青空文庫にはある。これを、ルビなどのない、OCRに対応するデータに加工して、 Googleが読んだOCRデータと付き合わせる。すると、OCR読み取りパターンとテキストと対応することになるので、そのまま、OCRの認識を強制的に修正、活字パターンと一致させる。

gnt 2008/01/25

OCR
Google

リンク

検索されたくない出版社社長、GoogleのPCを盗む

Engadgetの記事によると、「Macmillan Publishersのボス」がブックエキスポの会場でGoogleのノートPCを盗み、あとから「盗られる側の気持ちが分かってもらえたかな」とのセリフとともに返却に現れたという。「ノートPCのどこにも「盗まないでください」と書いてなかった」とも。さて、企業の「ボス」にしても驚くばかりの無知を明らかにした行動だ。 Google Book Searchは1800万冊の本のスキャンを計画したことを思い出してほしい。そのうち16%はパブリックドメインにあり、9%は著作権が存在しかつ今も刷られている。すなわち、Googleがスキャンするうちの残りの75%はすでに絶版となり、しかし著作権保護は続いている(と推測される)書籍だ。(この問題については30分ほどのプレゼンテーションを公開している)。最初の9%については、各出版社とGoogleのあいだで契

gnt 2007/06/19

リンク

Google書籍検索構想に独最大級の図書館が参画

米Googleの書籍本文検索プロジェクト「Google Books Library Project」に，ドイツのバイエルン州立図書館（Bayerische Staatsbibliothek）が参加する。Googleが推進するGoogle Book Searchの欧州/中東/アフリカ部門を指揮するJens Redmer氏が米国時間3月6日に，同社のブログ(Inside Google Book Search)で明らかにした。バイエルン州立図書館は同プロジェクトに参加している非英語圏の図書館で最大規模であり，著作権切れの100万冊以上の書籍を同プロジェクトに提供する。その結果，グリム兄弟やゲーテなどのドイツ語による古典作品が，書籍検索サイト「Google Book Search」（ベータ版）で検索/閲覧可能となる。同図書館が提供する書籍には，ドイツ語だけでなく，フランス語/スペイン語/ラテン語