タグ

scanに関するmyrmecoleonのブックマーク (250)

  • ProQuest CSA、19世紀からの英国下院文書のデジタル化を完了

    ProQuest CSA社は、英国下院文書の20世紀後半分をデジタル化し契約機関への提供を開始したと発表しています。 今回デジタル化されたのは、1979〜2004年分で、これにより1801年から現在までの200年間の英国下院文書は全てデジタル化が完了したということになります。文書の点数で約19万点、950万ページにのぼるそうです。 20th Century House of Commons Parliamentary Papers from ProQuest CSA now complete http://www.proquest.co.uk/pressroom/pressrelease/07/20070522.shtml

    ProQuest CSA、19世紀からの英国下院文書のデジタル化を完了
  • Expired

    Expired:掲載期限切れです この記事は,Associated Press との契約の掲載期限(30日間)を過ぎましたのでサーバから削除しました。 このページは20秒後にNews トップページに自動的に切り替わります。

  • What is reCAPTCHA?

    Digitizing Books One Word at a Time reCAPTCHA is a free CAPTCHA service that helps to digitize books. A CAPTCHA is a program that can tell whether its user is a human or a computer. You've probably seen them — colorful images with distorted text at the bottom of Web registration forms. CAPTCHAs are used by many websites to prevent abuse from "bots," or automated programs usually written to genera

    myrmecoleon
    myrmecoleon 2007/05/27
    ハマるな,これ。
  • reCAPTCHA - ものがたり(旧)

    うちの、じゃなかった、GoogleのインターンBenが(というかCMUが)、何か楽しい物を公開している。 http://recaptcha.net/ CAPTCHAでわれわれ人類がキーボードを叩く10秒程度の作業も、スキャンした古い書籍類をデジタル化する時間にしたら、1日に約160,000時間もの作業量になる! というわけで、これでCAPTCHAの代わりにしてくれたら、その完全な代替とは言わないまでも、それに近いものになってくれるんじゃないか、という発想で作られたサービスがこのreCAPTCHAだ。 reCAPTCHAを出すと、入力テキストが2つ出てくる。このうち、「正解」をもっているのは1つだけだ。もう1つは、OCRでスキャンした時に判別できなかったテキストだ。reCAPTCHAは、1つの(正解のある)単語を正しく入力したユーザーエージェントは、もう1つの単語についても正しく入力した人間

    reCAPTCHA - ものがたり(旧)
  • カーネギーメロン大学,画像認証を書籍デジタル化に活用するサービス「reCAPTCHA」

    カーネギーメロン大学は米国時間5月24日,CAPTCHAと呼ばれる画像認証技術を書籍のデジタル化に活用するオンライン・サービス「reCAPTCHA」を発表した。同サービスでは,CAPTCHAによるユーザー認証を行う際,通常の認証用画像と一緒に,書籍デジタル化で歪んだ文字スキャン画像も表示し,両画像に対応する文字を入力してもらうことで認証と書籍デジタル化を同時に処理する。 CAPTCHAは,ユーザー認証などで必要なパスワード文字列を歪ませるなど,故意に読みにくくした画像として画面に表示し,入力された文字列と元の文字列を比較する。これにより,実際に人間が手作業で入力しているかどうかを判断でき,プログラムなどを使った不正アクセスやスパム・コメント投稿などを防ぐ。 reCAPTCHAでは,通常のCAPTCHAによる認証時に,デジタル化できなかった不鮮明な文字画像を表示し,適切な文字を入力してもらう

    カーネギーメロン大学,画像認証を書籍デジタル化に活用するサービス「reCAPTCHA」
    myrmecoleon
    myrmecoleon 2007/05/26
    「認証時に,デジタル化できなかった不鮮明な文字画像を表示し,適切な文字を入力してもらう」うわあ,この発想はなかった。
  • Googleによるミシガン大図書館蔵書デジタル化、週3万冊ペースで進捗中

    Googleによる図書館蔵書デジタル化プロジェクトGoogle Book Search Library Project”の参加館の一つ、ミシガン大学における同プロジェクトの進捗状況について、Detroit News紙が報じています。最近では3万冊のスキャニングができた週もあり、同大学の700万冊の蔵書のデジタル化は、このペースで行けばあと5年で終わる見通しとのことです。 Google’s scan of U-M library progresses … quietly – detnews.com http://www.detnews.com/apps/pbcs.dll/article?AID=/20070413/BIZ04/704130354/1001/BIZ April 17, 2007付けLISNewsの記事 http://college.lisnews.org/academic/0

    Googleによるミシガン大図書館蔵書デジタル化、週3万冊ペースで進捗中
  • 出発しまーす - bookscanner記

    突然ですが、新天地へ向け、出発でーす。というわけで、bookscanner記は、終了でーす。 みなさん、これまでいろいろとありがとう。またいつか、どこかで、別な「マニアック(ニッチ)な」もんを書きはじめるかもしんないので、発見したら、お付き合いしてね。トピックは違えど、書きっぷりは一緒にすんよ。 というわけで、最後に何を言いたいのかっていうと、ありきたりなんだけど、 コロンブスのアメリカ発見について、そもそも彼の偉大な点はどこにあるか・・・ それは西回りのルートでインドへ旅行するのに、地球が球形であることを利用しようというアイディアではなかった・・・このアイディアはすでにほかの人々によって考えられたものであった・・・ 彼の探検の慎重な準備、船の専門的な装備などということでもなかった。それらのことは、ほかの人でもやろうとすればやれたに違いない。 そうではなくて、この発見的航海で最も困難であっ

    出発しまーす - bookscanner記
    myrmecoleon
    myrmecoleon 2007/04/12
    お疲れさまでしたー。またどこかで
  • PC

    パソコンの断・捨・離 いいことずくめのアプリ断捨離、不要なサブスクや悪意あるアプリも排除 2024.03.15

    PC
    myrmecoleon
    myrmecoleon 2007/04/10
    近代デジタルライブラリー等。電子化はデジカメで一点ずつ撮影。まあそりゃそうだ。
  • LCとInternet Archiveはオープンソースでデジタル保存システムを構築

    米国議会図書館(LC)とInternet Archiveが資料のデジタル化・保存に、Linuxベースのオープンソースソフトウェアを用いていることの紹介記事が、Linux情報サイト・Linux.comに掲載されています。 Linux to help the Library of Congress save American history – Linux.com http://enterprise.linux.com/article.pl?sid=07/03/26/1157212 March 29, 2007付けLISNewsの記事 http://geek.lisnews.org/geek/07/03/29/1219241.shtml

    LCとInternet Archiveはオープンソースでデジタル保存システムを構築
  • ライトノベル全文検索エンジン「Nagato Book Search」開発計画について - fuzzy Weblog@hatena (更新終了)

    fuzzy2.com(ファジー・ツー・ドット・コム)は1日、ライトノベル全文検索エンジン「Nagato Book Search」の開発計画を発表いたします。「涼宮ハルヒの憂」や「灼眼のシャナ」、「ゼロの使い魔」など現在人気のライトノベルの全文検索サービスを提供するもので、「喜緑さんが登場するのはどのの何ページだったかな?」とか「密室殺人をネタにした作品はどれだけあったかな?」といったライトノベルに関する小さな疑問を解決することを狙ったサービスです。 fuzzy2.com(ファジー・ツー・ドット・コム)では、2006年よりlab.fuzzy2.com(ファジー・ツー・ドット・コム・ラボ、内容は一般非公開)にて「長門有希の100冊」のスキャン&OCR技術技術評価試験を進めていましたが、第一次拡張計画としてスキャン対象の書籍を500タイトル級に追加します(対象書籍はこの後も追加予定です)。

    myrmecoleon
    myrmecoleon 2007/04/02
    うを,リンクたどったら。こんなの公開してたのかw/で嘘なのか本気なのか/やっぱネタね http://d.hatena.ne.jp/fuzzy2/20070402/p2
  • 1億円あったら、何できる? - bookscanner記

    (ちなみに、日は4月1日だけど、アメリカはまだ3月31日なんで、下記内容は、ウソじゃな〜い。) 「あるわけないけど1億円あったらどうする?」(http://www.1oku-life.com/)ってなサイトがある。ちなみに、アメリカで90万ドル(約1億円)を銀行預金したら、毎年45,000ドル(500万円くらい)の利子がくっついてくんので、家族4人、豪遊できる(かも)。 そんなことはさておき、の電子化の話をしましょ。しかも、1億円プロジェクトのこと。 Google Book Searchは秘密ばっかでつまんない。なーにも教えてくんない。ケチ。 逆に、Internet Archive系列のOpen Content Allianceは、なーんでも話をしちゃう。太っ腹。(でも、あんまし誰も詮索しない。派手さにかける。) 関係者の人が、ぺらぺら、ぺらぺら、あっちこっちでしゃべってんのに、誰も詮

    1億円あったら、何できる? - bookscanner記
    myrmecoleon
    myrmecoleon 2007/04/02
    「間接的な費用をどこまで盛り込むのか、ってことで、いくらにでもできちゃう」ブックスキャンの現場について
  • 『Googleの本気さに脱帽。 (これは、Google 讃歌である。)』

    Google が、縦書き図書を最初に見た時、これが、なのかと、びっくりしたに違いない。 英語で培ってきた、技術を、根から覆されたに違いない。 中国書や韓国書のほとんどが、横書きであったのに、日の図書の縦書きの多さに唖然としたに違いない。 日というのは、なんと、へんてこな国だと思ったことだろう。 2006年12月までに、Google ブック検索をスタートさせるというアナウンスは、実現できなかった。 あのGoogleでさえも。 あまりの日語の不思議さに、なんと手を炊いたことだろう。 単にすべてのプログラム概念を、左から右に、横から縦にするだけで、単純に解決する というわけにはいかないのは、当然だろう。 自動ページ捲り装置を、右開き、左開きの両方をきっと、開発するように、メーカーにいったかもしれない。 (もしかすると、すでに開発済みかも知れない。) 和書のブック検索を実現するために

    『Googleの本気さに脱帽。 (これは、Google 讃歌である。)』
    myrmecoleon
    myrmecoleon 2007/03/21
    だから,別にブックスキャンマシンはGoogleが開発したわけじゃ。。。(自社開発かもしらんが他社のが早い)/別に右めくりを左めくりに改造せんでも,全部スキャンした後に逆順で認識させれば済むんじゃね?
  • Amazonで「本が本を読む」様子でもみましょ - bookscanner記

    前に、の電子化の「あっち側」ってことで、電子化した画像(+OCRデータ)使って、何やりたいのか、ってのを少し考えた。 http://d.hatena.ne.jp/bookscanner/20060814 一方、「こっち側」の話は、要はインターフェースの問題だよね。見やすいよーに、ってこと。でも、何度か言ってるけど、こんなのおもろくもなんともない。所詮、「みにくい」んだよね。どーんなにがんばったって。 だから、やっぱおもろいのは、「あっち側」。 そんで「あっち側」で、アメリカ(あたり)の優秀(かもしんない)頭脳がたーくさん集まって、血眼になって、何をゴソゴソやってんのか、っちゅうと、 「あるに違うを読ませて、自分の中の文章がどこに出てくんのか、自分の中の文章がどっから来たのかってのを探してる」わけ。そんなことして、何になんのか、ってのは、また近い将来詳しく見ていきたいけど、とりあえず、

    Amazonで「本が本を読む」様子でもみましょ - bookscanner記
    myrmecoleon
    myrmecoleon 2007/03/20
    おお。全文検索で自動的に引用・被引用を分析してるのか。すごいな/Amazonの説明を読むと,マジで文中のテキストをマッチングさせてるんね。これはいい,というかマジで日本語版が欲しい。
  • 一体Googleはいくら使ったの? - bookscanner記

    さて、昨日に引き続き、ニューヨークタイムズの記事をみましょ。昨日とセットで見てね。 http://www.nytimes.com/2007/03/10/business/yourmoney/11archive.html?ex=1331355600&en=ac8d2f50c8dfc12d&ei=5124&partner=permalink&exprod=permalink この記事によると、 In its quest to scan every one of the tens of millions of books ever published, Google has already digitized one million volumes. Google refuses to say how much it has spent on the venture so far, but ou

    一体Googleはいくら使ったの? - bookscanner記
    myrmecoleon
    myrmecoleon 2007/03/13
    「「Googleはコストの話を完全シャットアウトしてんので、一体いくらでやってんのか、なんて分かりゃしないよ」ほー,5ドル説まで出てきたのか。
  • スキャン終了まであと1800年 - bookscanner記

    (必読)ニューヨークタイムズっていう有名な新聞に、『History, Digitized (and Abridged)』ってなタイトルの記事がでてたよ。http://www.nytimes.com/2007/03/10/business/yourmoney/11archive.html?ex=1331355600&en=ac8d2f50c8dfc12d&ei=5124&partner=permalink&exprod=permalink 今日は、その中から一つ。(明日も、もう一つ。(時差の関係上、あさってになっちゃったけど)) この図をみよー。クリックすれば、元のおおきなやつ見れるよ。 右上の方を見ると、Mission Impossibleってコーナーがあるでしょ。 そこによると、米国公文書館(The National Archive)には、90億点の「TEXT RECORDS(書類みたい

    スキャン終了まであと1800年 - bookscanner記
    myrmecoleon
    myrmecoleon 2007/03/12
    おー,わかりやすい。
  • みんなでスキャン① - bookscanner記

    世の中、「ネット+分散」がはやり。当然、スキャン作業もみんなでやろうと思うわけ。たとえ世界中に1億冊のがあろうが、1億人が1冊づつスキャンすれば、すぐ終わる(はずなんだけど)。 はるか昔に、http://d.hatena.ne.jp/bookscanner/20060819で、校正作業をみんなでやりましょ、っていう「Distributed Proofreaders」なる団体を紹介したよね。そっちの方は、(Googleスピードで考えると、とんでもなくおそーいペースだけど、ふつーの電子化プロジェクトとして考えると)比較的順調に進んでんだと思う。 ところが、 「みんなでスキャン」計画ってのは、あんましうまくいかん。なんでうまくいかんのかっていうと、「」っていう物理的なモンが関わってるからだよね。まぁ、そーなんだけど、たとえうまくいかんでも、試みることはすばらしい!というわけで、2回にわけて、

    みんなでスキャン① - bookscanner記
    myrmecoleon
    myrmecoleon 2007/03/07
    「2冊スキャンしてくれんなら、送料だけで、スキャナあげちゃいます」面白いけど,やっぱりどこにデータが流れてるかわからんてのが怖いな。
  • Expired

    Expired:掲載期限切れです この記事は,Associated Press との契約の掲載期限(30日間)を過ぎましたのでサーバから削除しました。 このページは20秒後にNews トップページに自動的に切り替わります。

    myrmecoleon
    myrmecoleon 2007/03/07
    「自分ではコンテンツを作り出しておらず、他人のコンテンツからしか利益を上げていない企業」プログラムをコンテンツとみなさないなら,MSは何を作った?/とりあえず召喚状に応じてから言おうよソレ。
  • 「うわづら文庫」と「青空文庫」 - bookscanner記

    前に、スキャンされたデータは、画像派/文字派/しかたなく画像派に分かれる、って話をした。 http://d.hatena.ne.jp/bookscanner/20070222/p1 http://d.hatena.ne.jp/bookscanner/20070223/p1 (ご人はどー思ってんのか知んないけど)日の代表的「しかたなく画像派」は、 岡島昭浩さんの運営する「うわづら文庫」かな。 主人の岡島さん曰く(http://www.let.osaka-u.ac.jp/~okajima/uwazura.html)、うわづら文庫 (別名「責空文庫」)というのは、 青空文庫への敬意を表した命名です。青空文庫がテキストファイルを提供し、さまざまな環境で読めるのに対し、この「うわづら文庫」はテキストではなく画像で、すなわち上面だけのものだ、という意味です。(別名の「責空文庫」(せめぞらぶんこ)と

    「うわづら文庫」と「青空文庫」 - bookscanner記
    myrmecoleon
    myrmecoleon 2007/03/05
    「「しかたなく画像派」と文字派は、これからも仲良しなんだろーと思うよ」
  • 3Dスキャナと3Dプリンタでメイドさん | スラド

    TechOn! の記事によると、「中村超硬(大阪府堺市)は,非接触3次元測定器や3次元プリンタなどのデジタル技術を駆使して作成したメイドのフィギュアを,ナノテク関連展示会「nano tech2007」で展示した」そうだ。 ぶっちゃけフィギュアとしてのデキはかなり微妙ですが、それよりもアレげだと思ったは展示の動機です。「展示会に出展するからには,多くの人にブースに立ち寄ってもらいたい。そこで考えたのがメイドの制服だった。メイド喫茶は日文化として,今や海外にも広く知られるようになった。このため,海外からの来場者には,目にとまりやすい」って、アンタ… 皆さんは3Dスキャナや3Dプリンタが使えたらどんなものを作りたいですか?

  • 規模のはなし - bookscanner記

    *1 電子化プロジェクトの規模に関して、3つくらいの分け方があるよ。 並 (普通、何もつけず、"Digitization") 大 ("Large Scale Digitization") 特大 ("Mass Digitization") おおざっぱに考えれば、 並:100冊くらい 大:10,000冊くらい 特大:1,000,000冊くらい ってな感じなので、適当に分類しといてね。*2 そんで、規模に関して、勘違いされがちなのが、コストのこと。かなりおおざっぱに理解すっため、かなり極端な話をすっと、「プロジェクトの規模に関係なく、総予算は変わらん」わけ。 つまり、 並:100万ドルくらい 大:100万ドルくらい 特大:100万ドルくらい となる。 なんでかっていうと、「並プロジェクトでは、たった100冊しかスキャンできないんだから、スキャン対象は、厳選に厳選を重ねた挙句、さらに厳選をして、

    規模のはなし - bookscanner記
    myrmecoleon
    myrmecoleon 2007/02/26
    並はそれこそ10冊くらいからある気がするのですが。以前その手の仕事したときは,さすがに100万ドルはかからなかったな。