タグ

電子化とgoogleに関するmyrmecoleonのブックマーク (22)

  • カリフォルニア大学図書館、3つの蔵書大規模デジタル化プロジェクトと交わした契約書を公開

    Google Book Search、Microsoft Live Book Search、Open Content Allianceと、3つの図書館蔵書大規模デジタル化プロジェクトに参加しているカリフォルニア大学図書館が、大規模デジタル化プロジェクトに関するウェブページを立ち上げました。FAQ、各々のプロジェクトと交わした契約書などが公開されています。 UC Libraries Mass Digitization Projects http://www.cdlib.org/inside/projects/massdig/ April 15th, 2008付けDigitalKoansの記事 http://digital-scholarship.org/digitalkoans/2008/04/15/california-digital-library-puts-up-mass-digiti

    カリフォルニア大学図書館、3つの蔵書大規模デジタル化プロジェクトと交わした契約書を公開
  •  本を読むと眠くなる理由 - bookscanner記

    井野口さんが、10月2日の記に対してコメントしてくれて、こういう質問をしてくれた。 最近のスキャニング(+OCR)では、画像中の位置情報までメタデータとしてデータ化してしまう、ということは結構普通に行われていることなのでしょうか。 これに応えることは、とても重要だと思う。なぜなら、「この記が一番言いたいこと」に関係してるから。 いつものごとく、「この記が一番言いたいこと」は、「の電子化は、人間が読むためじゃないよ」ってこと。 そうすると、普通に考えれば、OCRで単に文字データ化されれば、それで十分だよね。 言い換えると、 この画像(20KB、http://www.hti.umich.edu/cache/a/b/u/abu9581.0001.001/00000149.tifs.gif)に対しては、 PROBLEMS. 145 By express^^ algebraically, the

     本を読むと眠くなる理由 - bookscanner記
    myrmecoleon
    myrmecoleon 2006/10/06
    「プロジェクトの予算とやる気と想像力によりますよ」たいがい予算がないです。
  • bookscanner記 -  Googleが目指すは、「ページの切り売り」なんてショボいもんじゃない

    もう1年も前になるけど、Amazonが「ページの切り売りを始めますよ」って発表した。この記事のTBとかを見れば、当時の反応が分かる。 いまや、時代は、ページ単位でもない。 どんな単位なのかってことは、こちらをみてね。 さらに、 Gregory Craneさんは、前にも紹介した論文で、 As digital libraries mature and become better able to extract information (e.g., personal and place names), each word and automatically identifiable chunk of words becomes a discrete object. In a sample 300 volume, 55 million word collection of nineteenth-c

    bookscanner記 -  Googleが目指すは、「ページの切り売り」なんてショボいもんじゃない
    myrmecoleon
    myrmecoleon 2006/10/05
    本気で用例集なんてあっさり作れるなこりゃ。/単語からの自動タグ付けにも限界があると思うが。とりあえずは誤表記を受け止められる仕組みからか
  •  喉から手を出してまで、UCが欲しがった”Coordinates"とは? - bookscanner記

    前回、UCグーグル契約書の4.7にある Image Coordinates will only be provided (i) so long as University complies with the volume commitments set forth in Section 2.2 という部分を見たCoyleさんが、「もしUCが毎日3,000冊を提供するんだったら、GoogleはImage Coordinatesをあげる、って書いてあるけど、そもそもこの二つが比べられるなんて、おもろくない?」と言ってたことを紹介した。そして、この小さな歪みから、UCとグーグルが、それぞれ喉から手が出ちゃったくらい欲しがった("really, really, really wanted ")ものを、Coyleさんは予想した。 そんで、このCoyleさんの言ってることを正しく理解するためには、Im

     喉から手を出してまで、UCが欲しがった”Coordinates"とは? - bookscanner記
    myrmecoleon
    myrmecoleon 2006/10/04
    なるほど,位置情報などの詳細まで含めたテキスト情報か。確かにこれは欲しい。/Google Mapsの衛星画像に対する地図データみたいなものですよね。これがマッチングできるかどうかで可能なサービスが大きく違う。
  • 未来生活デザイナー美崎薫さんの途方もない実験 - 記憶の彼方へ

    bookscannerさんのお陰で知った、未来生活デザイナー美崎薫さんの途方もない体験的実験に一瞬言葉を失った。の電子化によるグーグルの狙いは何かという問いをめぐる、bookscannerさんとのやりとりのなかで、私にとっては未知の方向から出現した美崎薫さんによるMYCOMジャーナル特集「『記憶する住宅』そして未来へ - 記憶を発想に高めるコンピュータ環境を作る」をしっかりと読み直した。前のエントリー「グーグルの盲点」と「グーグルの盲点2」を書いた時点では、先入観からか、ちゃんと読まずに、飛ばし読みで、誤解し、その結果bookscannerさんの考察を理解し損ない、失礼なことを書いてしまった。重ねてお侘びします。bookscannerさんにちゃんと応答するためにも、これは美崎さんの実験の意義をきちんと理解しておく必要があると思い直した。一見遠回りに思える道が、じつは近道だったりする。 上

    未来生活デザイナー美崎薫さんの途方もない実験 - 記憶の彼方へ
  •  美崎さんがやってきた! - bookscanner記

    昨日、私が寝ている間に、美崎さんが来て、コメントをくれた。 その後、fuzzy2さんとちょっとした理由から、コメント欄で話し合ってる。 他の人が見逃したら、もったいないので、引用しておく。 fuzzy2さん発言:http://d.hatena.ne.jp/fuzzy2/20060927/p2 (SmartWriteは、)昔HyperCardというソフトがありまして、ほぼその目的を包含するのではないでしょうか。HyperCardの再発明のような気がします。 手書きをタイピングに置き換えるとブログやWikiがメジャーなシステムでは後継的な役割として使われているように思いますが、HyperCardと比べると不便な点が多々あります。 OneNoteはまだ評価してないからわかりません。 美崎さん発言:http://d.hatena.ne.jp/bookscanner/20060926/p1#c115

     美崎さんがやってきた! - bookscanner記
    myrmecoleon
    myrmecoleon 2006/09/29
    「Google/Amazon.comがスキャンを終えたあとに生まれたかったですよ」時代を魁で自宅の資料を電子化しまくってた美崎さん登場。ここはいろんな人が集まるなあw wktk
  • Google Libraryにスペインの大学図書館が参加、多言語化へ第一歩

    Windows SQL Server 2005サポート終了の4月12日が迫る、報告済み脆弱性の深刻度も高く、早急な移行を

  • Google Book Search プロジェクトに新メンバーが加わる(スペイン)

    スペインのマドリード・コンプルテンセ大学がGoogle Book Search プロジェクトに参加するとのことです。スペイン語圏では初めて、ヨーロッパではオックスフォード大学図書館に引き続き2館目となるそうです。 Madrid’s Complutense University opens its library to the world (Google Book Searchの公式ブログ) http://booksearch.blogspot.com/2006/09/madrids-complutense-university-opens.html Proyecto de digitalización Biblioteca Complutense-Google http://www.ucm.es/BUCM/biblioteca/11979.php

    Google Book Search プロジェクトに新メンバーが加わる(スペイン)
    myrmecoleon
    myrmecoleon 2006/09/27
    Google Book Search にスペインのマドリード・コンプルテンセ大学図書館が参加。ヨーロッパではオックスフォードに続き2館目。
  •  『グーグルが本の電子化で狙う「うまみ」の正体は』に応える① - bookscanner記

    三上さんが、『グーグルの電子化で狙う「うまみ」の正体は』というエントリーで、この記で書いていることについて、かなり真剣に分析してくれた。正直言って、とってもうれしい。 だから、三上さんの書いた内容について、こっちも真剣に応える。 三上さんは、 の電子化によってGoogleが目指している当の目的は何か と自問する。 なんでかっていうと、 bookscannerさんは知ってて敢えて書かないような気もする (しかも)bookscannerさんが紹介するGregory CraneやKevin Kellyの意見に、その答えはない (さらに)人間を介在させないサイクルの実現例も、その種のサイクルによってGoogleが狙っている獲物は何なのかの答えにはなっていない (はたまた)「単にへのインデックスを作ってるんだよ。」と言われるその「インデックス」が何のためのものなのかは不明である というわけ

     『グーグルが本の電子化で狙う「うまみ」の正体は』に応える① - bookscanner記
    myrmecoleon
    myrmecoleon 2006/09/25
    自分は実はGoogleこそが「図書館という思想」の体現者だと思ってたり。だってランガナタンの5原則のまんまじゃない,あそこ。/そう考えれば,本を自分らの得意分野に引き込むのはまるで不思議な話じゃない
  • グーグルが本の電子化で狙う「うまみ」の正体は - 記憶の彼方へ

    以前取り上げたことがあるbookscannerさんによる米国を中心とした「の電子化」をめぐる状況分析報告のなかで、ずっと引っかかりつづけていることがある。 2006-08-14の電子化の「あちら側」 2006-08-28やっぱり、「アナロジー(類推)で考えてはいけない」のかも 2006-09-16「誰が読むんだ?」ってものを、Googleだけはコツコツ読んでる の電子化によってGoogleが目指している当の目的は何かということである。bookscannerさんが再三丁寧に論じてきたように、少なくともそれは従来の図書館にかわるようなネット上の図書館という意味での電子図書館ではない。つまり「人が読むためではない」。bookscannerさんはとりあえずGoogleのやろうとしていることを「を読む」作戦と命名した。では一体何のために、膨大な数のをどんどんスキャンしているのか。Go

    グーグルが本の電子化で狙う「うまみ」の正体は - 記憶の彼方へ
    myrmecoleon
    myrmecoleon 2006/09/24
    世界政府,ってそういうノリとも違う気がするんだが。自分は網羅的なコーパスのようなものを連想してたな。時代時代にどの語彙がどのように語られたかの一覧とか。機械的に辞書の用例集が作れる。応用例はたくさん
  • Google,HPの開発したオープンソースOCRエンジン「Tesseract」を公開

    Googleは,オープンソース・コミュニティSourceForge.netで文字認識(OCR)エンジン「Tesseract」を公開した。Google最上級技術リード(Uber Tech Lead)のLuc Vincent氏が米国時間8月,公式ブログGoogle Code Blogへの投稿で明らかにしたもの。SourceForge.netのWebサイトから無償でダウンロードできる。 Tesseractは,米Hewlett-Packard(HP)が1985~1995年にかけて開発していたOCRエンジン。ネバダ州立大学ラスベガス校(UNLV)が1995年に開催したOCRソフトウエアの精度を評価するコンテストで,トップ3の成績を記録したという。しかしHPがOCR事業からの撤退を決めたことから,「Tesseractはほこりをかぶっていた」(Google)。 その後「HPの関係者がTesseract

    Google,HPの開発したオープンソースOCRエンジン「Tesseract」を公開
    myrmecoleon
    myrmecoleon 2006/09/06
    素晴らしい。さっさと日本語も対応させて欲しいなー
  • はてなブログ | 無料ブログを作成しよう

    木場公園の隣に咲く河津桜|春の訪れを感じる 春の陽気を感じながら、カメラを片手にゆったり散歩。 木場公園の隣に咲く“河津桜”は、見頃を過ぎても美しかった。 木場公園の隣に咲く河津桜 多くの観光客が訪れているのは、海外でも桜の開花情報がシェアされているからだろう。 後ろのマンションが日らしさを引き…

    はてなブログ | 無料ブログを作成しよう
    myrmecoleon
    myrmecoleon 2006/09/06
    「Googleは明確な目的があって公開してる。僕はオモコイから公開している。国会図書館はなんとなく公開している。」<国会図書館もなんとなく公開してるわけじゃないと思うんだが。技術は未熟ですけどね
  •  Googleの1500万冊のうち、450万冊はダブり - bookscanner記

    9月2日に、kikoriさんから、 (仮に)国会図書館に800万冊、ICU図書館に65万冊のがあっても、865万種類のがあるわけじゃなくてある程度というか何万冊もダブりがあるわけですよね?となると、無駄なダブりを防ぐ為に情報交換が必要なんじゃないかと思うのですが、その辺は何か話し合いがあるのでしょうか? というコメントをもらった。 だから、ちょっとの間、「ダブり」について考える。 昨日は、リストアップされたを集めて、出荷するまでを見た。そのつながりで考えれば、今日は、「リスト作り」の部分を見てみることになる。 「ダブり」と言えば、この論文。 もう1年も前のものだけど、「世の中には、こんなことまで調べてる人がいるんだ〜」と感動する一品。 まず、この調査は、 The analysis that follows is based on a copy of WorldCat dating f

     Googleの1500万冊のうち、450万冊はダブり - bookscanner記
    myrmecoleon
    myrmecoleon 2006/09/06
    Google 5 の所蔵 1,800万冊中750万冊はダブり。Googleの電子化計画中の1500万冊にユニークな図書がほとんど含まれるとしても,450万冊は確実にダブってる,という試算。/3分の1か,想像よりは少ないな
  •  本の電子化に何年かかる? - bookscanner記

    米国で進行中の「の電子化」が、日で少しでも理解されたら良いな、と思って書いてるんだけど、この日記だけだとやっぱ限界がある。あとは、みんなが酒飲んでるときに話題にしてくれるのを待ってる。(かなり他力願だけど。) そんときの小ネタをたまに紹介していこうと思う。 まずは、「の電子化に何年かかる?」ということ。 これには簡単な計算方法があるので、紹介する。 例えば、 日国会図書館は800万冊くらい持ってるので、1600年かかる。 国際基督教大学図書館だと、65万冊くらいだから、130年かかる。 こんな感じで、1万冊で2年かかると考えれば良い。 ぜひ、あなたの最寄の図書館の蔵書数を確認して、換算してみてほしい。 でも、実際問題として、100年も、1000年も待てないわけだから、こっから逆算を開始する。 まず、「1万冊で2年」というのは、1日8時間作業を前提にしている。だから、24時間ず〜

     本の電子化に何年かかる? - bookscanner記
    myrmecoleon
    myrmecoleon 2006/09/02
    NACSIS-CATとかで管理すれば,すでに電子化済みかそうでないかは簡単にわかる。NIIで音頭とってくれないだろうか。/黒澤先生……「図書を傷めずにスキャニング」する機械はGoogleの発明じゃありません!
  • 2つの大学の契約条件の違いは?‐Google Book Search の契約書を比較する

    先日、カリフォルニア大学からGoogle Book Searchに関する契約書が公開されましたが、同じくGoogle Book Searchに参加しているミシガン大学でも、Googleとの間で交わした契約書が公開されています。これら両大学とGoogleとの契約を比較したブログがあります。 それによるとスキャン品質について、ミシガン大の契約では、あらかじめ合意した水準を満たしていないと、大学側は新たなスキャンニング資料の提供を拒める内容になっているのに対し、カリフォルニア大の契約では、Google側が品質の決定権を持つ、とのみ記載されている(ただし、別の条項でスキャン品質を「他の大学側と合意した内容を同様に適用する」と記されています)そうです。 また検索やハイライト表示ができるように加工したスキャン画像である”Image Coordinates”を、カリフォルニア大学は提供され、代わりに 1

    2つの大学の契約条件の違いは?‐Google Book Search の契約書を比較する
  • Google、古典作品をPDFでダウンロード公開

    Googleは8月30日、書籍検索サービスのGoogle Book Searchで著作権切れの古典作品をダウンロード公開した。パブリックドメインに置かれている有名な古典から隠れた名作まで、PDF形式でダウンロードして読むことができる。 作品の公開に協力したのはカリフォルニア大学、ハーバード大学、ミシガン大学、ニューヨーク市立図書館、オックスフォード大学、スタンフォード大学。イソップ寓話、「ハムレット」、「神曲 地獄編」といった作品がPDFで公開されている。 ダウンロード可能な著作権切れ作品は、books.google.comで「Full view books」のラジオボタンをチェックして検索する。Googleは著作権が保持され公開を認めていない作品の全文提供は行わないと言明している。 Googleはこれを手始めに全世界で書籍のデジタル化を進めていくと述べている。 関連記事 「このはあの

    Google、古典作品をPDFでダウンロード公開
    myrmecoleon
    myrmecoleon 2006/08/31
    “「Full view books」のラジオボタンをチェックして検索する”/徒然草なら近代デジタルライブラリーにありますよ。
  • IT news, careers, business technology, reviews

    Generative AI will drive a foundational shift for companies — IDC

    IT news, careers, business technology, reviews
    myrmecoleon
    myrmecoleon 2006/08/31
    Google,ついに図書のPDFダウンロードに対応。もちろん著作権切れオンリー。
  • bookscannerの日記 -  グーグルは3,000冊/日だって

    こういう事件が勃発すると、日記計画が大混乱。 でも、重要だから、急遽、しばらくはこちらに話題を変更するだろう。(当は、「そろそろスキャナのことを書き始めよう」と思ってたのにな。) どんな事件かというと、「UCがグーグルとの契約内容を公開した」ということ。 こちらの記事の最後の方で、こんなこと書かれていた。 Mr. Greenstein said that the University of California was digitizing at full capacity with the Open Content Alliance, and would continue to do so. But one has to look at the Google deal from the university's point of view, he said. With the Open

    bookscannerの日記 -  グーグルは3,000冊/日だって
    myrmecoleon
    myrmecoleon 2006/08/30
    とすると年間100万冊ってところか。うちで何年もかけて遡及入力してる図書が,Googleなら数ヶ月で全文電子化可能かと思うと発狂しそうになりますねー
  • bookscannerの日記 -  3,000冊/日って、毎日引越ししてるようなもんだよ

    日の要約: 1日3,000冊で、10日分が滞留するので、平均30,000冊が棚に。しかも毎日3,000冊の出し入れ、運搬。まるで、毎日引越ししてるようなもんだよ。 グーグルUC契約書の内容は、こちらを見ると、おおよそのことが日語で書かれている。 ここではいつも通り、他のブログで読めるような内容については触れないで、違うところを見る。 おそらく、「3,000冊/日ってどうやってスキャンするんだ?」って感じで、みんながスキャナについて、詮索するんじゃないかな、って思う。でも、並列処理することを考えれば、たいていのスキャナで可能。たとえば、インターネットアーカイブは、現在10台のマシンで200冊/日と言ってる。(参照)UCのGreensteinさんも3,500冊/月(≒170冊/日)だったと証言しているんだから、まぁ、そんなもんなのだろう。そしたら、3,000冊/日を実現するには、150台

    bookscannerの日記 -  3,000冊/日って、毎日引越ししてるようなもんだよ
    myrmecoleon
    myrmecoleon 2006/08/30
    そのロジスティクスで,無駄につまれたうちの図書館の200箱くらいの廃棄本ダンボールをどうにかして下さい。
  • IT news, careers, business technology, reviews

    Generative AI will drive a foundational shift for companies — IDC

    IT news, careers, business technology, reviews