digitalnagasakiのブログ[B!]新着記事・評価

デジタルアーカイブのためのプログラミングレッスン：第7回を追加しました。 - digitalnagasakiのブログ

3 users

digitalnagasaki.hatenablog.com

デジタルアーカイブのためのプログラミングレッスン、ということで、国立国会図書館のNDLデジタルコレクションを対象として、主にIIIFのデータを扱うことを目指した基礎的なプログラミングレッスンの教材を作成中です。ようやく第7回を追加しました。ここまでの繰り返しになって恐縮ですが… バリバリの研究にすぐに役立つ手法ではないのですが、むしろ、色々さらっと調べてヒントを得たいとか、研究支援的な仕事などには応用できることがあるのではないかと思います。また、これですべてできるようになるというわけではありませんが、入口として試してみていただいて、そこからプログラミングの基本に立ち返っていただいたり、モチベーションを高めたりするきっかけにしていただけますと幸いです。「こういうことに役立った」というようなことがありましたら、ぜひお知らせいただけますと幸いです。なお、以下のリンクはGoogle Cola

テクノロジー
2023/04/10 20:39

デジタルアーカイブのためのプログラミングレッスン第一回～第六回 - digitalnagasakiのブログ

2 users

digitalnagasaki.hatenablog.com

デジタルアーカイブのためのプログラミングレッスン、第六回まで作成しました。ですので、改めて第一回から並べておきます。 NDLサーチのAPIを用いて、IIIF Manifestを操作してサムネイル画像を作成する、というところまでに必要な機能をプログラミング言語Pythonで一通り勉強するものです。バリバリの研究にすぐに役立つ手法ではないのですが、むしろ、色々さらっと調べてヒントを得たいとか、研究支援的な仕事などには応用できることがあるのではないかと思います。また、これですべてできるようになるというわけではありませんが、入口として試してみていただいて、そこからプログラミングの基本に立ち返っていただいたり、モチベーションを高めたりするきっかけにしていただけますと幸いです。「こういうことに役立った」というようなことがありましたら、ぜひお知らせいただけますと幸いです。なお、以下のリンクはGo

テクノロジー
2023/03/20 05:00

python

AIの助けを借りて蔵書印を解読／蔵書印ツールコレクションの公開 - digitalnagasakiのブログ

29 users

digitalnagasaki.hatenablog.com

このたび、一般財団法人人文情報学研究所より、「蔵書印ツールコレクション」が公開されました。 https://seal.dhii.jp/ 構築の経緯など、詳しくは「蔵書印ツールコレクションについて https://seal.dhii.jp/about/」をご覧ください。このツールコレクションの目玉は、18万字の篆字画像を用いたディープラーニングによる篆字画像検索です。篆書で読めない蔵書印を、1文字でも2文字でも、画像で文字検索することで文字単位での確認を支援するものです。文字が確認できたら、そこから今度は蔵書印データベース検索にジャンプすることで、蔵書印そのものの検索もできるようになっています。すでに蔵書印データベースに登録されているものであれば、そこで同じ蔵書印を見つけることができるかもしれません。この使い方に関しては解説動画もありますので、そちらもご覧になるとよいかと思います。このツ

テクノロジー
2023/03/10 14:43

TEI/XML利活用の基礎：PythonでTEI/XMLファイルの地理情報を地図上にプロットする - digitalnagasakiのブログ

25 users

digitalnagasaki.hatenablog.com

プログラミング言語Pythonは、自然言語処理のライブラリが充実しているので、自分のメインの言語ではなかったのですが、10年くらい前に、授業で教えられるくらいの勉強をして、授業で教えたりしていました。その後、ディープラーニングへの入口として注目されるようになったので、このところは、人に教えるとき、特に若者に教えるときはPythonが基本です。インタラクティブなものを作りたいという人にだけはJavascriptをやりますが、やはり今は猫も杓子もPythonを使えるようになっているのがよいのではないかと思っております。というわけで、漱石書簡の3つのTEI/XMLファイルに含まれる座標情報をPythonで地図上にプロットできるようになるチュートリアルをGoogle Colabに作ってみました。ご興味がおありの方はぜひ以下のURLにアクセスしてみてください。 colab.research.goo

テクノロジー
2022/11/04 16:19

くずし字OCR等の動向を踏まえて、研究者の方々に期待すること - digitalnagasakiのブログ

40 users

digitalnagasaki.hatenablog.com

いま、日本近世研究、とくに文学研究のあたりがすごいことになっています。膨大な国費が投入されて数十万点の日本の歴史的典籍がデジタル化・公開されてしまっていますが、大半は江戸時代の版本のようですね。そして、さらに、そこに書かれたくずし字にOCRをかけたテキストが無料で公開されようとしており、一方で、グーグルが雇用している研究者が、フリーソフトでくずし字OCRソフトやアプリを開発・公開してくれています。さらに、お金があれば、凸版印刷もくずし字のテキスト化をしてくれるそうです。こういった流れを受けて、12月にはイギリスでもThe Digital Turn in Early Modern Japanese Studiesというシンポジウムが開催されるそうです。実際のところ、そんなこと頼んでないのに…と思っておられる研究者の方々も多いのではないかと思います。が、他の周辺分野からみると、うらやましいと

テクノロジー
2022/10/28 11:11

京大OCW閉鎖の件に寄せて：これからの可能性だったものの一つ - digitalnagasakiのブログ

193 users

digitalnagasaki.hatenablog.com

京都大学高等教育研究開発推進センターが9月末に廃止されることに伴い、「京都大学オープンコースウェア（OCW）」が閉鎖されるというニュースに接した。実際のところ、これがその後どうなるのかはわからないが、現在知らされている範囲では、とにかくなくなってしまうようだ。基本的に、Webコンテンツの持続可能性について、私は、「とにかく再利用可能なライセンスをつけておけば存続できる」という点を大切にしているのだが、それは必ずしもうまくいかない面がある。貴重資料の画像で、それにメタデータを付与して一緒に流通させ、ハッシュでデータの改ざん可能性を管理したりすれば、さらに、そもそもIPFSでなんとかすれば、と考えたりしつつ色々なことを試しているのだが、しかし、オープンコースウェアの場合、またちょっと話が変わってくる。オープンコースウェアは基本的になまものの教育コンテンツを志向するものであり、それ単体で価値を

テクノロジー
2022/08/09 07:23

NDL Ngram viewerの正規表現検索が面白い - digitalnagasakiのブログ

18 users

digitalnagasaki.hatenablog.com

正規表現検索といえば、テキスト検索に凝ってる人なら知っているけど、そうでもない人は「何それ？」という感じだと思います。人文系とか質的研究で電子テキストも扱うことがある社会科学系の人は、絶対に知っていた方がよい技術です、が、そう言われても、「何ができるか」わからないとやる気は全然出てこないと思います。ここで良いあんばいのツールとして登場したのがNDL Ngram viewerの正規表現検索機能です。 lab.ndl.go.jp 正規表現の「.」を試してみるたとえば、「..新聞」で検索すると、「○○新聞」という検索をしてくれます。そうすると、以下のように、○○新聞で、数十万冊の明治大正期の資料をざくっと数えてきてくれて、さらに、新聞ごとにカウントしてグラフにしてくれます。「正規表現」での検索というのは、「○○新聞」で検索してくれるところまでで、そのあと分類してカウントしてくれるの

テクノロジー
2022/06/05 19:35

SSH Open Marketplace：欧州の人文・社会科学分野の研究資源カタログはクラウドソーシングのようでした - digitalnagasakiのブログ

1 user

digitalnagasaki.hatenablog.com

欧州では European Union’s Horizon 2020 project の下、研究インフラの構築が盛んに行われています。 European Research Infrastructure Consortium (ERIC) を中心として進められているようで、基本的には理工系の話なのですが、欧州では人文・社会科学にもそれなりに力が入っているようです。たとえば、社会科学ではCESSDAやESS (European Social Survey)、人文学ではCLARINやDARIAHが割と有名です。しかしながら、研究に関わる資料やデータ・ツールなどをあちらこちらのサイトに見に行くのはなかなか大変です。当然、横断検索サイトを作りたいという話がでてきそうです。日本では全分野の横断サイトとしてCiNii Research、人文・社会科学に特化したより詳細な横断検索サイトとして

テクノロジー
2022/06/02 07:41

【頭の整理】日本での「テキストデータベース」作りの最初のあたり - digitalnagasakiのブログ

5 users

digitalnagasaki.hatenablog.com

標題の件につき、少し頭を整理するためにメモを残しておく。多分これが本来的なブログの使い方なのではないかと思うので、情報収集したい人にはあまり有益ではないかもしれず申し訳ないがご容赦いただきたい。テキストデータベースを作る、という取組みは、テキスト研究をしているとどうしても関心を持たざるを得ない。もちろん、テキストとして書かれたものだけを対象としたところで人間文化の何が明らかにできるのだろうか、という立場もあるとは思うのだが、テキストほどに高度に集約的で持続性も高い情報伝達手段はなかなかないので、一定の有用性は認めてよいのではないかと思っている。一方で、テキストは、Unicodeなどの文字コードに準拠して並べていけば割と高度な処理が比較的容易に可能となるので、テキストデータベースをどういう風に作っていくかということは結構重要なのである。もちろん、Unicodeなどが出てくる以前

テクノロジー
2022/02/21 16:49

Vue.jsで簡単地図マッピング - その2 マーカー表示編 - digitalnagasakiのブログ

1 user

digitalnagasaki.hatenablog.com

さて、前回記事に引き続き、 Vue.jsで簡単地図マッピングです。マーカーの地図上での表示今度は、マーカーを表示してみましょう。すでにここまでインストールしたモジュールでマーカーの表示はできますので、あとはタグやスクリプトを書いていけば…というところなのですが、一つ注意点があります。どうやらこのLeafletには少しバグがあるらしくて、マーカーの画像がうまく表示されません。そこで、 my-app-test/src/main.js というファイルに、以下のものを追記します。 import L from 'leaflet'; delete L.Icon.Default.prototype._getIconUrl; L.Icon.Default.mergeOptions({ iconRetinaUrl: require('leaflet/dist/images/marker-icon

テクノロジー
2022/01/18 04:46

Vue.jsで簡単地図マッピング - その1 準備編（2021/12/13追記） - digitalnagasakiのブログ

1 user

digitalnagasaki.hatenablog.com

前回はTEIファイルから地図マッピングをする話でしたが、今回は少し違う角度から取り組んでみます。最近、JDCatデータのお試し検索サイトというものを作ってみました。人文社会科学の研究データを総欄できるサイトとして最近運用が始まった JDCatというサイトがありますが、こちらで集約して検索できるようにしているメタデータはCC0で公開されていますので、せっかくのCC0を活かして教材作り等に使えないかということで試しに作ってみたのが上記のお試し検索サイトです。ちなみにソースコードはこちらですが、ファセット検索の部分がお手製コードなので非常に微妙ですのであまりじっくりみないでください…。通常はここは、ElasticsearchとかApache Solr等で検索して戻ってきたファセットのデータを使うところを、検索自体を Javascriptの中でやってしまっているので、ファセットの処

テクノロジー
2022/01/18 04:46

サンスクリット写本データベースを作った話 - digitalnagasakiのブログ

4 users

digitalnagasaki.hatenablog.com

最近、サンスクリット写本のデータベースを作りました。といっても、文字起こししたテキストデータベースではなくて、デジタル画像のデータベースです。世間ではむしろ「デジタルアーカイブ」と言った方が通りがいいでしょうか。一人で作ったわけではなくて、メタデータを作ってくださった人と、デジタル画像を撮影してくださった企業、撮影された画像を検品してくださった人、撮影等の費用を捻出するために助成金を取ってくださった人、その助成金を出してくださった組織、といった色々なステイクホルダーがあり、また、そういったデジタルに関することとは別に、この資料を集めてくださった人たち、大事に整理・所蔵してきた図書館の方々、という、現物に関するステイクホルダーの方々もおられます。私の役割は、そういった方々の間を回って話をしたり色々作っていただいたりしながら、現物のサンスクリット写本の「デジタル代理物」としての

テクノロジー
2021/10/05 18:27

PC

はてなブックマーク

はてなブックマーク