タグ

ブックマーク / sw1227.hatenablog.com (1)

  • MNIST互換の日本語くずし字データセットでCNNやt-SNEを試す - sw1227’s diary

    1. くずし字データセットとは 2. ダウンロード 3. データを眺める 4. t-SNEによる次元削減 5. CNN(by Keras)による識別 6. まとめ・今後のこと 1. くずし字データセットとは 以前から公開されていた日古典籍データセットでは、デジタル化されたくずし字の画像をダウンロードすることが可能でした。 人文学オープンデータ共同利用センターのニュース(2018/12/08)によると、この日古典籍くずし字データセットを元に、MNISTデータセット互換のくずし字データセット「KMNIST」が公開されたそうです。詳細はGitHubや以下のリンクを参照していただければ良いのですが、おなじみのMNISTデータセットと同様、10クラスに分類できる28x28のグレースケール画像が70,000枚(訓練用60,000・テスト用10,000)提供されています。また、Kuzushiji-4

    MNIST互換の日本語くずし字データセットでCNNやt-SNEを試す - sw1227’s diary
    sh19910711
    sh19910711 2024/04/22
    "KMNIST: くずし字データセット + おなじみのMNISTデータセットと同様、10クラスに分類できる28x28のグレースケール画像が70,000枚 / CNN: くずし字が結構ぐちゃぐちゃに見える割にはよく識別できている" 2018
  • 1