並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 8 件 / 8件

新着順 人気順

Datasetの検索結果1 - 8 件 / 8件

  • デジタル庁のデータ分析基盤「sukuna」|デジタル庁

    はじめまして。デジタル庁ファクト&データユニット所属、データエンジニアの長谷川です。 本記事ではデジタル庁内でデータ活用を推進するための組織と分析基盤についてご紹介します。 これまでのデジタル庁noteと比べると、技術寄りの話題が多い記事となりますが、庁内のデータ活用に興味のある方はぜひご覧ください。 デジタル庁のデータ活用組織「ファクト&データユニット」ファクト&データユニットとはデジタル庁の特徴の一つに、デジタル分野において各種の専門性をもつ「民間専門人材」が多く所属していることが挙げられます。 民間の専門人材は、デザイン、プロダクトマネジメント、エンジニアリングなど、領域ごとに「ユニット」と呼ばれる組織を構成しており(参考:デジタル庁 - 組織情報)、必要に応じてさまざまなプロジェクトにアサインされて業務を遂行する、人材プールのような役割を果たしています。 ファクト&データユニットも

      デジタル庁のデータ分析基盤「sukuna」|デジタル庁
    • GitHub - japan-opendata/awesome-japan-opendata: Awesome Japan Open Data - 日本のオープンデータ情報一覧・まとめ

      You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

        GitHub - japan-opendata/awesome-japan-opendata: Awesome Japan Open Data - 日本のオープンデータ情報一覧・まとめ
      • Metaの大規模言語モデル「LLaMA」のトレーニングにも使用されたAIの学習用データセット「Books3」が削除される

        デンマークの著作権侵害対策グループ「Rights Alliance」が、約20万冊にも上る書籍のデータセット「Books3」を削除するよう、ホストする「The Eye」に対して要請し、データセットの削除が行われました。Books3はMetaの開発する大規模言語モデル「LLaMA」のトレーニングにも使用されたデータセットです。 Anti-Piracy Group Takes Prominent AI Training Dataset ''Books3' Offline * TorrentFreak https://torrentfreak.com/anti-piracy-group-takes-prominent-ai-training-dataset-books3-offline-230816/ Revealed: The Authors Whose Pirated Books Are P

          Metaの大規模言語モデル「LLaMA」のトレーニングにも使用されたAIの学習用データセット「Books3」が削除される
        • 自由に使える医療データセットまとめ |

          今回はAIが使える、もしくは今後AIを使ってみたいという医療関係者のために、自由に使える医療用データセットをまとめました。

            自由に使える医療データセットまとめ |
          • Welcome

            The openVertebrate project, oVert for short, is a new initiative to provide free, digital 3D vertebrate anatomy models and data to researchers, educators, students and the public. X-ray CT allows researchers to visualize and quantify hard-to-measure characteristics. This image shows high and low density areas of the skull of an Angolan burrowing pig-nosed frog. Florida Museum of Natural History im

              Welcome
            • OpenCALM-7BをLoRAでinstruction tuningするための実装解説 / QLoRAの実装も紹介 - Qiita

              はじめに ※本記事で「現時点」という言葉は2023/6/1を指すこととします。 先日(2023年5月17日)、サイバーエージェントが日本語に特化したLLM(Large Language Model)をhuggingface上に公開されました。 現時点で日本語に特化したLLMで最大級のパラメータを持つモデル 商用利用可能 という点が非常に魅力的であり、すでにたくさんの方がこのOpenCALM-7Bを動かしたり、チューニングしたりされてるように、自分も勉強がてらこのLLMのチューニングに挑戦してみました。 とはいえ、パラメータ数が68億と巨大ですし、単純な全パラメータのファインチューニングは、私の手元の環境では現実的ではなく、何かしら軽量化したりDeepSpeedなどのライブラリで効率よく処理する必要がありそうです。 今回はLoRA(Low Rank Adaptation)と呼ばれる低リソース

                OpenCALM-7BをLoRAでinstruction tuningするための実装解説 / QLoRAの実装も紹介 - Qiita
              • ウェブから能動学習の観点で 有益なデータを取得する

                Active Learning from the Web (WWW 2023) https://arxiv.org/abs/2210.08205 の紹介スライドです。 GitHub: https://github.com/joisino/seafaring 人工知能学会全国大会 (JSAI 2023) の発表で使用したスライドです。 https://confit.atlas.jp/guide/event/jsai2023/subject/4L3-GS-4-01/tables

                  ウェブから能動学習の観点で 有益なデータを取得する
                • The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only

                  Large language models are commonly trained on a mixture of filtered web data and curated high-quality corpora, such as social media conversations, books, or technical papers. This curation process is believed to be necessary to produce performant models with broad zero-shot generalization abilities. However, as larger models requiring pretraining on trillions of tokens are considered, it is unclea

                  1