サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
ブックレビュー
digitalnagasaki.hatenablog.com
この数年、お手伝いをしていたお仕事の一つに、『十番虫合絵巻』(ホノルル美術館所蔵)のデジタル化、という仕事がありました。 このコンテンツについてはまったくの素人で、正確な説明はこちらのページをご覧いただきたいのですが、簡単に述べますと、 時は江戸時代、天明2年(1782)8月。隅田川のほとりのお寺、木母寺(もくぼじ)。 元々、当時は、和歌を詠みあって対戦する「歌合」というゲームが流行っていた。 一方で、秋の夕方、鈴虫・松虫などの声を愛でるために御座(ござ)や酒を携えて名所を訪れる「虫聴」も流行っていた。 和歌だけで対戦するのでは飽き足らなくなり、生きた松虫・鈴虫を組込んだジオラマ(州浜、と呼ばれるそうです)も作って展示して、それをテーマにした和歌を詠むことにした/詠もうとする和歌にあわせたジオラマを作って展示することにした 対戦で詠む和歌の元ネタは主に平安時代の作品(=当時から見ても古いも
3/15(金)、一橋講堂(千代田区一ツ橋)にて、DHの国際シンポジウム「ビッグデータ時代の文学研究と研究基盤」が開催されます。そこで基調講演をしてくださるTed Underwood先生は、ビッグデータ時代の文学研究に正面から取り組む英文学者として活躍しておられ、2019年、その成果として「Distant Horizons: Digital Evidence and Literary Change」をシカゴ大学出版局から刊行されました。この本の序文は、大変興味深いものであり、膨大なデジタルテキストをにどのように取り組めばよいのか、そして、それによって、人がただ読むだけではうまく見えてこなかった文学の様々な側面、特に文学史やジャンルがどのようにして見えるようになるのか、ということについて、ラディカルな議論と一つの解決の方向性を提示しておられます。本の全体としてはその具体的な方法も示されています
いわゆる「デジタルアーカイブ」があちこちで構築されるようになってずいぶん経ちます。ジャパンサーチが登場したことで、とりあえず構築した後にメタデータを提供すれば、利用者に発見してもらえる可能性も高まってきました。これからますますデジタルアーカイブは増えていくことだろうと期待するところです。 そのようななかで、日頃色々な方々からこの種の事柄についてのご相談をいただき、仕事を増やし過ぎてお返事もなかなかできない状況なので申し訳ないと思っているのですが、ここしばらく、多くの相談に共通することがあるように思って来ましたので、少しその点についてまとめて当方の考え、というか、やっているとそうならざるを得ない…ということについて少し述べておきたいと思います。テーマは、表題のとおり、「「デジタルアーカイブ」構築のロジと専門知識」です。 よりよいデジタルアーカイブを構築したいと思うと、詳しい目録情報が欲しいと
ABBY FineReader 15で複数PDFにまとめてOCRをかける方法です。「一つずつファイルを開いてOCRをかける」手間を省くことができます。超快適です。 なお、ABBY FineReader は最新版ではありません。最新版を持っていないので、最新版でこれができるかどうかはわかりませんのでご注意ください。(最新版でできた、という人がいたら教えてください。 まず、ABBY FIneReader 15 OCRエディタを開いてください。それから、メニューバーから「ツール」⇒「自動化ツール」を選んでください。 そうすると、自動化ツールの「タスク設定」ダイアログが表示されます。 ここで「新規」を選択すると、新しい自動化処理の作成ができるようになります。 今回やりたいことは、OCRに関わる一連の操作です。そこで、それらを一通り設定していくのですが、特に重要なのは、 「OCR対象のPDFが入った
このところ、少しずつ時間をみつけて改良を続けている、「大正新脩大蔵経と他の木版・写本を簡単に比較できる仕組み」ですが、表示を高速化できるように色々工夫を行いまして、割とお待たせせずに表示できるようになりつつあります。 それから、「木版大蔵経の版まるごと」の比較だけでなく、個々の経典の写本や版本でも対比できるように、全体的に枠組みを拡張しました。まずはお試し版ということで、短いけど有名なテキスト『般若波羅蜜多心経』で、フランス国立図書館に所蔵されている敦煌写本ペリオコレクションから2つの写本を組込んでみました。以下の画像で、左上の「大蔵経一覧」のところを選ぶとそれぞれの版と大正新脩大蔵経が表示できるようになっています。 https://sate.dhii.jp/VIEW/ZJK/TID/T0251_.08.0848c04 これらのテキストでは、黄色いマーカーがついていますが、そのうちで、「@
表題の通りのことを実現できましたので、とりあえずこちらにてご報告です。 やや説明が難しいのですが、何ができるように/便利になったのかというと、 「SAT大蔵経DBのテキストをクリックするだけでそれに対応する宮内庁宋版一切經の行や東京大学嘉興蔵の行がそれぞれ拡大表示される」機能が追加された、というものです。(最近はシステムを他の人に作っていただくこともありますが、今回は表示システムの部分は全部自分で作っています) SAT大蔵経DBはこちらです。 そして、この位置合わせを行うにあたって、NDL古典籍OCRで生成したテキストデータが非常に役立った、ということなのです。 例として、以下のURLで表示可能な経典を用いてみます。 21dzk.l.u-tokyo.ac.jp 先に具体的な使い方をご説明しますと、今回、下記のところに新たにチェックボックスが2つ追加されました。 たとえば、上記のように「宮内
デジタルアーカイブのためのプログラミングレッスン、ということで、国立国会図書館のNDLデジタルコレクションを対象として、主にIIIFのデータを扱うことを目指した基礎的なプログラミングレッスンの教材を作成中です。ようやく第7回を追加しました。ここまでの繰り返しになって恐縮ですが… バリバリの研究にすぐに役立つ手法ではないのですが、むしろ、色々さらっと調べてヒントを得たいとか、研究支援的な仕事などには応用できることがあるのではないかと思います。 また、これですべてできるようになるというわけではありませんが、入口として試してみていただいて、そこからプログラミングの基本に立ち返っていただいたり、モチベーションを高めたりするきっかけにしていただけますと幸いです。 「こういうことに役立った」というようなことがありましたら、ぜひお知らせいただけますと幸いです。 なお、以下のリンクはGoogle Cola
デジタルデータはなくなってしまいやすい…という話を時々耳にします。実のところ、紙媒体と同じくらいの手間をかけてよいのであればデジタルデータの持続可能性は十分に高いと思うのですが、そうだとしても、よりよくきちんと長期保存するためには何らかのルールを作っておいた方が安全です。というのは、なくならないけど読めなくなった、とか、読めるけど誰がいつ作ったものかはよくわからない、膨大過ぎてもう何がなんだかわからない…等々、保存しておくだけでは済まない落とし穴が色々あるからです。これも紙媒体と共通する事項が多いので、紙媒体でどうしてきたかということを確認しながら考えるのはとても重要なのですが、やはりデジタルに固有の課題もありますので、紙媒体での事情を踏まえつつデジタル媒体の特性もきちんと押さえた保存のための手続きのようなものがあるとありがたいところです。 そのような課題については、すでにOAIS参照モデ
デジタルアーカイブのためのプログラミングレッスン、第六回まで作成しました。ですので、改めて第一回から並べておきます。 NDLサーチのAPIを用いて、IIIF Manifestを操作してサムネイル画像を作成する、というところまでに必要な機能をプログラミング言語Pythonで一通り勉強するものです。 バリバリの研究にすぐに役立つ手法ではないのですが、むしろ、色々さらっと調べてヒントを得たいとか、研究支援的な仕事などには応用できることがあるのではないかと思います。 また、これですべてできるようになるというわけではありませんが、入口として試してみていただいて、そこからプログラミングの基本に立ち返っていただいたり、モチベーションを高めたりするきっかけにしていただけますと幸いです。 「こういうことに役立った」というようなことがありましたら、ぜひお知らせいただけますと幸いです。 なお、以下のリンクはGo
このたび、一般財団法人人文情報学研究所より、「蔵書印ツールコレクション」が公開されました。 https://seal.dhii.jp/ 構築の経緯など、詳しくは「蔵書印ツールコレクションについて https://seal.dhii.jp/about/」をご覧ください。 このツールコレクションの目玉は、18万字の篆字画像を用いたディープラーニングによる篆字画像検索です。篆書で読めない蔵書印を、1文字でも2文字でも、画像で文字検索することで文字単位での確認を支援するものです。文字が確認できたら、そこから今度は蔵書印データベース検索にジャンプすることで、蔵書印そのものの検索もできるようになっています。すでに蔵書印データベースに登録されているものであれば、そこで同じ蔵書印を見つけることができるかもしれません。この使い方に関しては解説動画もありますので、そちらもご覧になるとよいかと思います。 このツ
デジタルアーカイブのためのプログラミングレッスン、というのを少し作成してみています。今のところ、第一回~第四回ができております。 デジタルアーカイブに興味を持ったり、関わったりしているものの、内容面だけでなく技術面からも本格的に取り組もうと思って普通に一からプログラミングを勉強しようとすると、何に役立つのかのイメージを持ちにくくてなかなか気が進まない、という経験をお持ちの方は少なくないと思います。 そんな弱まりがちな気持ちをブーストするために、あるいは、かつてやめてしまったことに再挑戦するために、ちょっと直接的に役立ちそうなプログラミングのレッスンと課題を、まさに実践経験の場からご用意いたしました。第四回までいくと、任意のNDLコンテンツをMiradorやIIIF Curation viewerで直接開くリンクを作成できるようになります。 これですべてできるようになるというわけではありませ
人文学+デジタルな取り組みを気楽に話すオンラインミーティング、DHフェス2023が発表者・参加者募集中です! sites.google.com かっちりした話でなくても、むしろ、研究のアイデアや相談事などの持ち込みを歓迎しているようです。 「デジタルでこういうことをやってみたいけどどうしたらいいのかよくわからない」というようなことでも 持ち込んでいただければ面白い展開があるかもしれません。会場は、バーチャルコミュニケーションツールoViceを用いる予定です。 ぜひご参加ください。 ちなみに、去年は以下のように開催されました。 digitalnagasaki.hatenablog.com
2月の18日(土)と21日(火)、連続講演会「TEI (Text Encoding Initiative) × Library が拓くデジタル人文学と図書館の未来」が開催されます。 ケンブリッジ大学の、デジタル図書館の責任者であるHuw Jones氏と中東専門部門長のYasmin Faghihi氏をお招きしての講演会です。これがなぜ、「書誌情報作成/図書館情報学/デジタル・ヒューマニティーズに関心がある方々におすすめ」なのか、少しご説明をさせていただきます。 ケンブリッジ大学デジタル図書館では、古典籍・貴重書用のデジタル図書館システムにおいて、詳細な書誌情報を記述・表示できる仕組みを提供しています。この記述ルールとして、人文学のための研究データ構築のガイドラインである TEI (Text Encoding Initiative) ガイドラインを採用しているということが、まずデジタル・ヒュー
プログラミング言語Pythonは、自然言語処理のライブラリが充実しているので、自分のメインの言語ではなかったのですが、10年くらい前に、授業で教えられるくらいの勉強をして、授業で教えたりしていました。その後、ディープラーニングへの入口として注目されるようになったので、このところは、人に教えるとき、特に若者に教えるときはPythonが基本です。インタラクティブなものを作りたいという人にだけはJavascriptをやりますが、やはり今は猫も杓子もPythonを使えるようになっているのがよいのではないかと思っております。 というわけで、漱石書簡の3つのTEI/XMLファイルに含まれる座標情報をPythonで地図上にプロットできるようになるチュートリアルをGoogle Colabに作ってみました。ご興味がおありの方はぜひ以下のURLにアクセスしてみてください。 colab.research.goo
本日は、英語コーパス学会のワークショップで、「はじめてのXML」のお話をさせていただきました。コンセプトとしては、「とりあえずXMLはどういう風に良いものなのかを見ていただき、自分でやってみたい人はあとで録画をみていただく」ということで、パワポスライドとGoogle Colabを準備してちゃかちゃかお話をしました。このようなコンセプトにしたのは、コーパス研究者でタグを邪魔だという人を結構拝見したことがあったということと、ごく最近にも以下のようなお話もありましたので、使い方以前に、「タグがついていると何がうれしいのか」をもう少し明白に共有した方がよいのではないか、ということがありました。 「タグ付きのコーパスデータは、正規表現を書けない言語系・教育系の人にとって使いにくいのでは?」とカキーン会議で話題になり、プレーンテキストのバージョンも作ることに。 当該コーパスのタグ仕様は、既存のコーパス
いま、日本近世研究、とくに文学研究のあたりがすごいことになっています。膨大な国費が投入されて数十万点の日本の歴史的典籍がデジタル化・公開されてしまっていますが、大半は江戸時代の版本のようですね。そして、さらに、そこに書かれたくずし字にOCRをかけたテキストが無料で公開されようとしており、一方で、グーグルが雇用している研究者が、フリーソフトでくずし字OCRソフトやアプリを開発・公開してくれています。さらに、お金があれば、凸版印刷もくずし字のテキスト化をしてくれるそうです。こういった流れを受けて、12月にはイギリスでもThe Digital Turn in Early Modern Japanese Studiesというシンポジウムが開催されるそうです。 実際のところ、そんなこと頼んでないのに…と思っておられる研究者の方々も多いのではないかと思います。が、他の周辺分野からみると、うらやましいと
先週は、イギリスのニューカッスル大学にてTEIカンファレンスが開催されていました。TEI (Text Encoding Initiative)というのは、人文学のためのテキストデータを構築するために1987年から策定され続けている国際的なデファクト標準のガイドラインであり、それを策定する団体のことでもあります。前者をTEIガイドライン、後者をTEI協会(Consortium)と言います。 このTEIガイドラインの詳細については、最近、日本語の解説書『人文学のためのテキストデータ構築入門』(文学通信)が出まして、アマゾンのKindleでも読めますので、よかったらぜひご覧ください。お金を出すのは大変だけどなんとかして読みたいという場合は、公開前提のレビューを執筆してもよいのであれば、「『人文学のためのテキストデータ構築入門』刊行記念レビューキャンペーン」から申込んでいただければ無料で読むことも
すでにあちこちで告知をしておりますが、『人文学のためのテキストデータ構築入門』 https://www.amazon.co.jp/dp/B0B81SHFBH/ 刊行を記念して、この本を踏まえたTEI入門セミナーを開催します。 このイベントは、参加費無料・要申込みです。 今回は、『人文学の…データ構築入門』の第一部、第二部のうち、TEIガイドラインに関する部分を中心にしてセミナーを実施します。Transkribusの話はしませんので、あらかじめご了承ください。 予定している内容は大体以下の通りです。 10:00-11:30 人文学のためのテキストデータ構築とTEIガイドライン 12:30-14:30 TEIガイドライン実践演習 14:45-16:15 続: TEIガイドライン実践演習 16:30-17:15 Susan Schreibman先生によるVersioning Machineに関す
京都大学高等教育研究開発推進センターが9月末に廃止されることに伴い、「京都大学オープンコースウェア(OCW)」が閉鎖されるというニュースに接した。実際のところ、これがその後どうなるのかはわからないが、現在知らされている範囲では、とにかくなくなってしまうようだ。 基本的に、Webコンテンツの持続可能性について、私は、「とにかく再利用可能なライセンスをつけておけば存続できる」という点を大切にしているのだが、それは必ずしもうまくいかない面がある。貴重資料の画像で、それにメタデータを付与して一緒に流通させ、ハッシュでデータの改ざん可能性を管理したりすれば、さらに、そもそもIPFSでなんとかすれば、と考えたりしつつ色々なことを試しているのだが、しかし、オープンコースウェアの場合、またちょっと話が変わってくる。オープンコースウェアは基本的になまものの教育コンテンツを志向するものであり、それ単体で価値を
https://bungaku-report.com/blog/2022/07/tei1.html 初めての日本語によるTEIガイドラインの入門書が刊行されました。『人文学のためのテキストデータ構築入門』[1]というタイトルで、株式会社文学通信によるものです。TEI ガイドラインは、人文学のためのテキストデータ構築におけるデファクト標準として国際的に普及しており、とくに欧米先進国ではこれに準拠したテキストデータの膨大な蓄積があるが、日本語文化圏においては諸般の事情により普及が進んでいなかったものです。日本語文化圏でも、TEI ガイドラインに取り組むにあたっては Web に様々な情報が各所に蓄積されて点在しており、検索すれば必要な情報は大体集まる形になっていました。とはいえ、Web の海に浮かぶそれらは、論文であったり、Web コラボレーションシステムに組み込まれたサイトであったり、英語で書
正規表現検索といえば、テキスト検索に凝ってる人なら知っているけど、そうでもない人は「何それ?」という感じだと思います。 人文系とか質的研究で電子テキストも扱うことがある社会科学系の人は、絶対に知っていた方がよい技術です、が、そう言われても、「何ができるか」わからないとやる気は全然出てこないと思います。ここで 良いあんばいのツールとして登場したのがNDL Ngram viewerの正規表現検索機能です。 lab.ndl.go.jp 正規表現の「.」を試してみる たとえば、「..新聞」で検索すると、「○○新聞」という検索をしてくれます。 そうすると、以下のように、○○新聞で、数十万冊の明治大正期の資料をざくっと数えてきてくれて、 さらに、新聞ごとにカウントしてグラフにしてくれます。 「正規表現」での検索というのは、「○○新聞」で検索してくれるところまでで、 そのあと分類してカウントしてくれるの
欧州では European Union’s Horizon 2020 project の下、研究インフラの構築が盛んに行われています。 European Research Infrastructure Consortium (ERIC) を中心として進められているようで、 基本的には理工系の話なのですが、欧州では人文・社会科学にもそれなりに力が入っているようです。 たとえば、社会科学ではCESSDAやESS (European Social Survey)、 人文学ではCLARINやDARIAHが割と有名です。 しかしながら、研究に関わる資料やデータ・ツールなどをあちらこちらのサイトに見に行くのは なかなか大変です。当然、横断検索サイトを作りたいという話がでてきそうです。日本では 全分野の横断サイトとしてCiNii Research、人文・社会科学に特化したより詳細な横断検索サイト として
いわゆる10兆円ファンドの運用主体としてますます注目を浴びる科学技術振興機構(JST)が、最近、プレプリントサーバの運用を開始したそうです。その名もJxiv。すでに海外にいくつか著名なプレプリントサーバがあり、国内でも筑波大学が筑波大学ゲートウェイというプレプリントサービスを含む包括的なサービスを開始していることもあり、どういったところで個性や存在意義を打ち出していくのか、気になるところです。とりあえず「誰でも投稿できる」「日本語論文でも大丈夫」「人文系でも大丈夫」というのが特徴になるような印象を持ちました。(間違っていたら申し訳ありません) プレプリントサーバは、サイエンスの崇高な理念を体現する存在であり、オープン性を踏まえた知識循環の基盤となるものと認識していたところであり、また、それゆえに、そのラディカルなオープン性に親和性が高くない分野やワークフローなどにはちょっと縁遠いものかもし
標題の件につき、少し頭を整理するためにメモを残しておく。多分これが本来的なブログの使い方なのではないかと思うので、情報収集したい人にはあまり有益ではないかもしれず申し訳ないがご容赦いただきたい。 テキストデータベースを作る、という取組みは、テキスト研究をしているとどうしても関心を持たざるを得ない。もちろん、 テキストとして書かれたものだけを対象としたところで人間文化の何が明らかにできるのだろうか、という立場もあるとは 思うのだが、テキストほどに高度に集約的で持続性も高い情報伝達手段はなかなかないので、一定の有用性は認めてよいのでは ないかと思っている。 一方で、テキストは、Unicodeなどの文字コードに準拠して並べていけば割と高度な処理が比較的容易に可能となるので、 テキストデータベースをどういう風に作っていくかということは結構重要なのである。 もちろん、Unicodeなどが出てくる以前
今度の土曜日、1/22に、日本学術会議の公開シンポジウム「総合知創出に向けた人文・社会科学のデジタル研究基盤構築の現在」が開催されます。 日本学術会議には「分野別委員会」があり、それぞれの委員会が分科会を設置して特定のテーマについて議論します。多くの分科会は 1つの分野別委員会の下で活動をしますが、今期は、心理学・教育学委員会、言語・文学委員会、哲学委員会、社会学委員会、史学委員会、地域研究委員会、情報学委員会の 7つの委員会が合同で「デジタル時代における新しい人文・社会科学に関する分科会」を設置して、デジタル・ヒューマニティーズやデジタル技術を用いた社会科学の現状と課題についての議論を行っています。その活動の一環として開催されるのが、1/22の公開シンポジウムということになります。 プログラムは以下のようになっており、人文・社会科学、なかでも、これまであまり採り上げられてこなかった質的研
さて、前回記事に引き続き、 Vue.jsで簡単地図マッピングです。 マーカーの地図上での表示 今度は、マーカーを表示してみましょう。 すでにここまでインストールしたモジュールでマーカーの表示はできますので、あとは タグやスクリプトを書いていけば…というところなのですが、一つ注意点があります。 どうやらこのLeafletには少しバグがあるらしくて、マーカーの画像がうまく表示されません。 そこで、 my-app-test/src/main.js というファイルに、以下のものを追記します。 import L from 'leaflet'; delete L.Icon.Default.prototype._getIconUrl; L.Icon.Default.mergeOptions({ iconRetinaUrl: require('leaflet/dist/images/marker-icon
前回はTEIファイルから地図マッピングをする話でしたが、今回は少し違う角度から取り組んでみます。 最近、JDCatデータのお試し検索サイトというものを作ってみました。 人文社会科学の研究データを総欄できるサイトとして最近運用が始まった JDCatというサイトがありますが、 こちらで集約して検索できるようにしているメタデータはCC0で公開されていますので、 せっかくのCC0を活かして教材作り等に使えないかということで試しに作ってみたのが 上記のお試し検索サイトです。ちなみにソースコードはこちらですが、 ファセット検索の部分がお手製コードなので非常に微妙ですのであまり じっくりみないでください…。通常はここは、ElasticsearchとかApache Solr等で 検索して戻ってきたファセットのデータを使うところを、検索自体を Javascriptの中でやってしまっているので、ファセットの処
先日、文部科学省から、増上寺三大蔵がユネスコ「世界の記憶」における国際登録の登録申請案件に推薦されることになったとのお知らせがありました。 文部科学省のサイトによれば、ユネスコの「世界の記憶」は、以下のようなもののようです。 世界的に重要な記録物への認識を高め、保存やアクセスを促進することを目的に、ユネスコが1992年に開始した事業の総称。本事業を代表するものとして、人類史において特に重要な記録物を国際的に登録する制度が1995年より実施されている。 そして、この「世界の記憶」の現在の登録状況は、 現時点で429件が国際登録、56件が地域登録されている。日本からは国際登録に7件、地域登録に1件が登録されている。 とのことです。 ここで話題にしている増上寺三大蔵は、この文科省のサイトでは以下のように説明されています。 17 世紀初頭に徳川家康が日本全国から収集し、浄土宗の大本山である増上寺に
最近、サンスクリット写本のデータベースを作りました。といっても、文字起こししたテキストデータベースではなくて、 デジタル画像のデータベースです。世間ではむしろ「デジタルアーカイブ」と言った方が通りがいいでしょうか。 一人で作ったわけではなくて、メタデータを作ってくださった人と、デジタル画像を撮影してくださった企業、 撮影された画像を検品してくださった人、撮影等の費用を捻出するために助成金を取ってくださった人、 その助成金を出してくださった組織、といった色々なステイクホルダーがあり、また、そういったデジタルに 関することとは別に、この資料を集めてくださった人たち、大事に整理・所蔵してきた図書館の方々、という、 現物に関するステイクホルダーの方々もおられます。 私の役割は、そういった方々の間を回って話をしたり色々作っていただいたりしながら、 現物のサンスクリット写本の「デジタル代理物」としての
次のページ
このページを最初にブックマークしてみませんか?
『digitalnagasakiのブログ』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く