並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 3 件 / 3件

新着順 人気順

オープンデータの検索結果1 - 3 件 / 3件

  • 日本のアニメなどから収集したデータセット「Sakuga-42M」 国際研究チームが公開 「学術研究でのみ使用可能」【更新済み】

    このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高いAI分野の科学論文を山下氏がピックアップし、解説する。 X: @shiropen2 【更新履歴:2024年5月24日 午後1時50分更新 同時刻時点で論文は取り下げられ、GitHubのリポジトリ非公開となったことを確認しました。 カナダのアルバータ大学や中国の四川音楽学院に所属する研究者らが発表した論文「Sakuga-42M Dataset: Scaling Up Cartoon Research」は、AIモデルのトレーニング用に作成したアニメ動画データセットを提案した研究報告である。 Sakuga-42Mは、GitHubにおいてリポジトリが公開されており、学術研究の目的でのみ使用可能。また、データセット内の画像やビデオの著

      日本のアニメなどから収集したデータセット「Sakuga-42M」 国際研究チームが公開 「学術研究でのみ使用可能」【更新済み】
    • FineWeb: decanting the web for the finest text data at scale - a Hugging Face Space by HuggingFaceFW

      Discover amazing ML apps made by the community

        FineWeb: decanting the web for the finest text data at scale - a Hugging Face Space by HuggingFaceFW
      • AnswerCarefully Dataset – RIKEN-AIP, LIAT

        新着情報 AnswerCarefully Dataset バージョン1.0を公開 (2024/4/30) 概要 日本語LLM 出力の安全性・適切性に特化したインストラクション・データAnswerCarefully(AC)データセットVersion 1 を公開します。このデータセットは、英語の要注意回答を集めたDo-Not-Answer データセット の包括的なカテゴリ分類に基づき、人手で質問・回答ともに日本語サンプルを集めたオリジナルのデータセットです。 データセットの特徴 5つのリスクタイプ(大分類)、12の有害カテゴリ(中分類)、61のサブカテゴリ(小分類)をカバーしています。Version 1は各サブカテゴリにつき10から20のサンプルを含む計945件からなっています。 このうち各サブカテゴリから3件ずつ、計183件をテストデータ、残り762件をを開発データとして2つのファイルに分け

        1