Datasetの人気記事 8件 - はてなブックマーク

1 - 8 件 / 8件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

Datasetの検索結果1 - 8 件 / 8件

デジタル庁のデータ分析基盤「sukuna」｜デジタル庁
- 625 users
- digital-gov.note.jp
- テクノロジー
- 2023/06/27
はじめまして。デジタル庁ファクト＆データユニット所属、データエンジニアの長谷川です。本記事ではデジタル庁内でデータ活用を推進するための組織と分析基盤についてご紹介します。これまでのデジタル庁noteと比べると、技術寄りの話題が多い記事となりますが、庁内のデータ活用に興味のある方はぜひご覧ください。デジタル庁のデータ活用組織「ファクト＆データユニット」ファクト＆データユニットとはデジタル庁の特徴の一つに、デジタル分野において各種の専門性をもつ「民間専門人材」が多く所属していることが挙げられます。民間の専門人材は、デザイン、プロダクトマネジメント、エンジニアリングなど、領域ごとに「ユニット」と呼ばれる組織を構成しており（参考：デジタル庁 - 組織情報）、必要に応じてさまざまなプロジェクトにアサインされて業務を遂行する、人材プールのような役割を果たしています。ファクト＆データユニットも
- データ
- あとで読む
- 統計
- GCP
- data
- 分析
- 行政
- cloud
- データ分析
- bigquery
GitHub - japan-opendata/awesome-japan-opendata: Awesome Japan Open Data - 日本のオープンデータ情報一覧・まとめ
- 59 users
- github.com/japan-opendata
- テクノロジー
- 2024/02/27
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- github
- 情報
- オープンデータ
- 資料
- あとで読む
- 日本
- API
Metaの大規模言語モデル「LLaMA」のトレーニングにも使用されたAIの学習用データセット「Books3」が削除される
- 31 users
- gigazine.net
- テクノロジー
- 2023/08/21
デンマークの著作権侵害対策グループ「Rights Alliance」が、約20万冊にも上る書籍のデータセット「Books3」を削除するよう、ホストする「The Eye」に対して要請し、データセットの削除が行われました。Books3はMetaの開発する大規模言語モデル「LLaMA」のトレーニングにも使用されたデータセットです。 Anti-Piracy Group Takes Prominent AI Training Dataset ''Books3' Offline * TorrentFreak https://torrentfreak.com/anti-piracy-group-takes-prominent-ai-training-dataset-books3-offline-230816/ Revealed: The Authors Whose Pirated Books Are P
- meta
- AI
- 人工知能
- Copyright
- 著作権
- book
自由に使える医療データセットまとめ |
- 27 users
- medtech-today.com
- 世の中
- 2023/06/05
今回はAIが使える、もしくは今後AIを使ってみたいという医療関係者のために、自由に使える医療用データセットをまとめました。
- dataset
- AI
- data
- medical
- 医療
- あとで読む
Welcome
- 21 users
- www.floridamuseum.ufl.edu
- 学び
- 2024/03/13
The openVertebrate project, oVert for short, is a new initiative to provide free, digital 3D vertebrate anatomy models and data to researchers, educators, students and the public. X-ray CT allows researchers to visualize and quantify hard-to-measure characteristics. This image shows high and low density areas of the skull of an Angolan burrowing pig-nosed frog. Florida Museum of Natural History im
- database
- データ
- dataset
- アイデア
- 生物
- 科学
OpenCALM-7BをLoRAでinstruction tuningするための実装解説 / QLoRAの実装も紹介 - Qiita
- 10 users
- qiita.com/m__k
- テクノロジー
- 2023/06/10
はじめに ※本記事で「現時点」という言葉は2023/6/1を指すこととします。先日（2023年5月17日）、サイバーエージェントが日本語に特化したLLM（Large Language Model）をhuggingface上に公開されました。現時点で日本語に特化したLLMで最大級のパラメータを持つモデル商用利用可能という点が非常に魅力的であり、すでにたくさんの方がこのOpenCALM-7Bを動かしたり、チューニングしたりされてるように、自分も勉強がてらこのLLMのチューニングに挑戦してみました。とはいえ、パラメータ数が68億と巨大ですし、単純な全パラメータのファインチューニングは、私の手元の環境では現実的ではなく、何かしら軽量化したりDeepSpeedなどのライブラリで効率よく処理する必要がありそうです。今回はLoRA（Low Rank Adaptation）と呼ばれる低リソース
- ChatGPT
- 日本語
ウェブから能動学習の観点で有益なデータを取得する
- 5 users
- speakerdeck.com/joisino
- テクノロジー
- 2023/06/09
Active Learning from the Web (WWW 2023) https://arxiv.org/abs/2210.08205 の紹介スライドです。 GitHub: https://github.com/joisino/seafaring 人工知能学会全国大会 (JSAI 2023) の発表で使用したスライドです。 https://confit.atlas.jp/guide/event/jsai2023/subject/4L3-GS-4-01/tables
- dataset
- あとで読む
The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only
- 3 users
- arxiv.org
- テクノロジー
- 2023/06/06
Large language models are commonly trained on a mixture of filtered web data and curated high-quality corpora, such as social media conversations, books, or technical papers. This curation process is believed to be necessary to produce performant models with broad zero-shot generalization abilities. However, as larger models requiring pretraining on trillions of tokens are considered, it is unclea
- 機械学習
- dataset