タグ

scanと電子化に関するmyrmecoleonのブックマーク (13)

  •  本を読むと眠くなる理由 - bookscanner記

    井野口さんが、10月2日の記に対してコメントしてくれて、こういう質問をしてくれた。 最近のスキャニング(+OCR)では、画像中の位置情報までメタデータとしてデータ化してしまう、ということは結構普通に行われていることなのでしょうか。 これに応えることは、とても重要だと思う。なぜなら、「この記が一番言いたいこと」に関係してるから。 いつものごとく、「この記が一番言いたいこと」は、「の電子化は、人間が読むためじゃないよ」ってこと。 そうすると、普通に考えれば、OCRで単に文字データ化されれば、それで十分だよね。 言い換えると、 この画像(20KB、http://www.hti.umich.edu/cache/a/b/u/abu9581.0001.001/00000149.tifs.gif)に対しては、 PROBLEMS. 145 By express^^ algebraically, the

     本を読むと眠くなる理由 - bookscanner記
    myrmecoleon
    myrmecoleon 2006/10/06
    「プロジェクトの予算とやる気と想像力によりますよ」たいがい予算がないです。
  • bookscanner記 -  Googleが目指すは、「ページの切り売り」なんてショボいもんじゃない

    もう1年も前になるけど、Amazonが「ページの切り売りを始めますよ」って発表した。この記事のTBとかを見れば、当時の反応が分かる。 いまや、時代は、ページ単位でもない。 どんな単位なのかってことは、こちらをみてね。 さらに、 Gregory Craneさんは、前にも紹介した論文で、 As digital libraries mature and become better able to extract information (e.g., personal and place names), each word and automatically identifiable chunk of words becomes a discrete object. In a sample 300 volume, 55 million word collection of nineteenth-c

    bookscanner記 -  Googleが目指すは、「ページの切り売り」なんてショボいもんじゃない
    myrmecoleon
    myrmecoleon 2006/10/05
    本気で用例集なんてあっさり作れるなこりゃ。/単語からの自動タグ付けにも限界があると思うが。とりあえずは誤表記を受け止められる仕組みからか
  •  喉から手を出してまで、UCが欲しがった”Coordinates"とは? - bookscanner記

    前回、UCグーグル契約書の4.7にある Image Coordinates will only be provided (i) so long as University complies with the volume commitments set forth in Section 2.2 という部分を見たCoyleさんが、「もしUCが毎日3,000冊を提供するんだったら、GoogleはImage Coordinatesをあげる、って書いてあるけど、そもそもこの二つが比べられるなんて、おもろくない?」と言ってたことを紹介した。そして、この小さな歪みから、UCとグーグルが、それぞれ喉から手が出ちゃったくらい欲しがった("really, really, really wanted ")ものを、Coyleさんは予想した。 そんで、このCoyleさんの言ってることを正しく理解するためには、Im

     喉から手を出してまで、UCが欲しがった”Coordinates"とは? - bookscanner記
    myrmecoleon
    myrmecoleon 2006/10/04
    なるほど,位置情報などの詳細まで含めたテキスト情報か。確かにこれは欲しい。/Google Mapsの衛星画像に対する地図データみたいなものですよね。これがマッチングできるかどうかで可能なサービスが大きく違う。
  • 未来生活デザイナー美崎薫さんの途方もない実験2:「もっぱら見る」ツール - 記憶の彼方へ

    bookscannerさんがさり気なく投じた画像検索に関する深い疑問について、考えていた。 残されたのは、「アイデアがあふれるように浮かんでくる」ようにするために、あとは「もっぱら見る」ツールを提供してもらわないといけない。美崎さんは、100万枚の画像を見るためにPicasaは役に立たんと言って、自分で作っちゃったから。でも、当に100万枚も見るのかな? 美崎薫さんは「2009年に来る3年後の未来は日々体験ずみ」なんだって 画像データの量が膨大になると、例えば100万枚とか、それを「検索」することは非常に難しくなる。結局「タグ」をつけるしか方法はないと考えられているが、美崎さんによれば、独力でやるには4年かかるという。 筆者自身は、現在データベースの整備中なので、100万枚から検索することについて報告はできないが、いくつかタグづけしてみた試算によれば、100万枚にタグづけするに要する期間

    未来生活デザイナー美崎薫さんの途方もない実験2:「もっぱら見る」ツール - 記憶の彼方へ
    myrmecoleon
    myrmecoleon 2006/10/01
    見ること自体が一つのスキャンであるという話。Googleのタグ付けゲームとか画像の類似検索とかは一応出てるけど,確かに課題が。/美崎さんここにも。あちこちで議論がされてるなあ,誰か全部まとめてくれ(死
  •  美崎さんがやってきた! - bookscanner記

    昨日、私が寝ている間に、美崎さんが来て、コメントをくれた。 その後、fuzzy2さんとちょっとした理由から、コメント欄で話し合ってる。 他の人が見逃したら、もったいないので、引用しておく。 fuzzy2さん発言:http://d.hatena.ne.jp/fuzzy2/20060927/p2 (SmartWriteは、)昔HyperCardというソフトがありまして、ほぼその目的を包含するのではないでしょうか。HyperCardの再発明のような気がします。 手書きをタイピングに置き換えるとブログやWikiがメジャーなシステムでは後継的な役割として使われているように思いますが、HyperCardと比べると不便な点が多々あります。 OneNoteはまだ評価してないからわかりません。 美崎さん発言:http://d.hatena.ne.jp/bookscanner/20060926/p1#c115

     美崎さんがやってきた! - bookscanner記
    myrmecoleon
    myrmecoleon 2006/09/29
    「Google/Amazon.comがスキャンを終えたあとに生まれたかったですよ」時代を魁で自宅の資料を電子化しまくってた美崎さん登場。ここはいろんな人が集まるなあw wktk
  • Google Libraryにスペインの大学図書館が参加、多言語化へ第一歩

    Windows SQL Server 2005サポート終了の4月12日が迫る、報告済み脆弱性の深刻度も高く、早急な移行を

  • Google Book Search プロジェクトに新メンバーが加わる(スペイン)

    スペインのマドリード・コンプルテンセ大学がGoogle Book Search プロジェクトに参加するとのことです。スペイン語圏では初めて、ヨーロッパではオックスフォード大学図書館に引き続き2館目となるそうです。 Madrid’s Complutense University opens its library to the world (Google Book Searchの公式ブログ) http://booksearch.blogspot.com/2006/09/madrids-complutense-university-opens.html Proyecto de digitalización Biblioteca Complutense-Google http://www.ucm.es/BUCM/biblioteca/11979.php

    Google Book Search プロジェクトに新メンバーが加わる(スペイン)
    myrmecoleon
    myrmecoleon 2006/09/27
    Google Book Search にスペインのマドリード・コンプルテンセ大学図書館が参加。ヨーロッパではオックスフォードに続き2館目。
  •  美崎薫さんと言えば、BTRONなんだそうだが... - bookscanner記

    美崎薫さんと言えば、巷では、BTRONというもので有名なんだそうだが、知らんかった。 そもそもBTRONというものを知らんかった。 私はてっきり、美崎さんと言えば、「記憶する住宅プロジェクト」の人なのだと、ず〜っと思ってた。少なくとも今年の初めくらいまでは。今は、「あ、美崎さんね、BTRONの人でしょ?」って言える。でも、いまだにBTRONについては、あまり知らず。 それはさておき、このヘンテコなプロジェクトを知った2003年っていうのは、私が勝手に「大量スキャンプロジェクト元年」って呼んでる年。なんでかって言うと、 2003年を振り返ってみると、 2003年3月3日、日がひな祭りで浮かれている中、米国の自動ブックスキャナ会社であるKirtas Technologies社が、突然、「来月、自動ブックスキャナを展示会に出すよ」って発表した。実際に展示会に出したんだけど、日人はあまり知らな

     美崎薫さんと言えば、BTRONなんだそうだが... - bookscanner記
    myrmecoleon
    myrmecoleon 2006/09/26
    美崎さんのやってるのは一種のライフログですね。自分史の発展版。自分の生活の中で生じた情報のすべてを記録する。/コメント欄がたいそう興味深い。
  • グーグルが本の電子化で狙う「うまみ」の正体は - 記憶の彼方へ

    以前取り上げたことがあるbookscannerさんによる米国を中心とした「の電子化」をめぐる状況分析報告のなかで、ずっと引っかかりつづけていることがある。 2006-08-14の電子化の「あちら側」 2006-08-28やっぱり、「アナロジー(類推)で考えてはいけない」のかも 2006-09-16「誰が読むんだ?」ってものを、Googleだけはコツコツ読んでる の電子化によってGoogleが目指している当の目的は何かということである。bookscannerさんが再三丁寧に論じてきたように、少なくともそれは従来の図書館にかわるようなネット上の図書館という意味での電子図書館ではない。つまり「人が読むためではない」。bookscannerさんはとりあえずGoogleのやろうとしていることを「を読む」作戦と命名した。では一体何のために、膨大な数のをどんどんスキャンしているのか。Go

    グーグルが本の電子化で狙う「うまみ」の正体は - 記憶の彼方へ
    myrmecoleon
    myrmecoleon 2006/09/24
    世界政府,ってそういうノリとも違う気がするんだが。自分は網羅的なコーパスのようなものを連想してたな。時代時代にどの語彙がどのように語られたかの一覧とか。機械的に辞書の用例集が作れる。応用例はたくさん
  •  自動ブックスキャナの導入は、スキャン作業の省力化が主な目的ではない - bookscanner記

    「自動ブックスキャナを使うと、スキャン作業が省力化できる」ってのが通念だけど、スキャン作業における省力化なんて、たかが知れてる。正確に言うなら、「自動ブックスキャナを使うと、スキャン後のOCR作業が大幅に省力化できる」ってこと。 大辞林 第二版 (三省堂)によると、省力化とは 機械の導入や作業の合理化などで、手間や労働力を省くようにすること となってる。 その意味で、「自動ブックスキャナを使うと、スキャン作業が省力化できる」というのは、あながち間違ってはない。ある程度の効果がある。 だけど、その「スキャン作業の省力化」効果だけでは、自動マシンと手動マシンの価格差は説明しきれない。 普通、いろいろ計算した挙句、「自動マシンは割高だね」って話になる。 実際に何度もそういう感想を聞いてきた。 でも、大事なことを見落としてるよ。 自動ブックスキャナは、大量スキャンプロジェクトで使われるもの。 そし

     自動ブックスキャナの導入は、スキャン作業の省力化が主な目的ではない - bookscanner記
    myrmecoleon
    myrmecoleon 2006/09/13
    機械化にはたいがい均質化の要件が含まれると思う。どちらかというと スキャン→OCR→保管・転送 が一律に行えるのがよい。/ふと,図書館電子化工場という妄想をいだいてしまった。ベルトコンベアで運ばれてく本
  • Internet Archive、1日200冊、年間予算2億円 - bookscanner記

    Internet Archiveでどんな作業が行われているのか、を紹介する。(詳細を知りたい人は、こちらを。) 昨日、オークランドに10台のマシンを並べて、スキャン作業をしていることを書いた。 各マシンは、1時間あたり500ページのスキャンをする。 オペレータは2交代制で、1日の時間は14時間。(一人8時間勤務で、途中休憩1時間だと思う。) 1台あたり、1日7,000ページをスキャンすることになる。 10台あるので、1日70,000ページ。 だいたい、こういう場合、1冊は350ページくらいと想定するのが相場なので、1日200冊が電子化されていく。 まぁ、だいたい年間に300日くらいあるので、1年で60,000冊。 彼らの予算は、1冊あたり35ドルくらいなので、年間210万ドル。日円で約2億円かな。 前に、某S大学が800万冊の蔵書を全てスキャンする予算として、270億円くらいだと言ってい

    Internet Archive、1日200冊、年間予算2億円 - bookscanner記
  • bookscannerの日記 1冊40分

    Internet Archiveの作業は、予定では1日200冊なのに、実際は1ヶ月400冊というペースでしか進んでいないことを紹介した。 今日は、なんでそんなに遅いのか、もう少し詳しく見てみる。 1ヶ月だと、だいたい稼動日として20日ある。すると、1ヶ月400冊というのは、1日あたり20冊。前にも書いたが、マシンは10台あるので、1台あたり1日2冊。しかも2シフトであることを考えると、早番の人は7時間かけて1冊、遅番の人も7時間かけて1冊、って計算になる。 当にこんなことをしているのか、詳しく調べてみた。 幸い、Internet Archiveは、何でも情報公開するオープンな会社。調べようと思えば、何でも分かる(気がする)。 この、ページ数としては400ページだが、約40分でスキャン作業を終えている。 なんでこんなことが分かるかというと、 まずこのページに行って、 画面左側にある「Al

    bookscannerの日記 1冊40分
    myrmecoleon
    myrmecoleon 2006/08/14
    Internet Archive の本のスキャン作業についての検証。
  • 2006-08-09

    梅田さんと話をして、米国では電子化が着々と進んでいるのに、日ではあまり知られていないことに気づいた。だから、日向けに、米国の電子化状況をお知らせしようと思う。ただ、ブログというのは初めてなので、いろんな機能について、試しながら。実は、まだ、トラックバックというものが何なのか、いまいち理解できていない。 初めてなので、挨拶代わりに、私のお気に入りのスキャナについて、ご紹介。 その名も、Scantastic 3000b! 詳しくは、こちらを。 おそらく何の解説も、英文を読む必要もなく、写真をみれば一目瞭然。 日のマイクロフィルム業者を訪問すると、結構、みんな自作マシンを持っている。企業秘密だから、誰も公開しようとしないけど、すごくおもしろい。どこかの会場に一同に集めて、展示会でもやればいいのに。私が愛視聴しているカナダの番組でやってくれないかな。ちなみにこの番組はthatswhyさんによ

    2006-08-09
  • 1