並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 219件

新着順 人気順

オープンデータの検索結果1 - 40 件 / 219件

  • 研究情報のオープン化を目指すバルセロナ宣言が発出される:cOAlition Sはこれに歓迎を表明

    2024年4月16日、研究を実施・助成・評価する機関や研究情報のインフラを提供する機関の関係者らのグループによって、研究情報のオープン化を目指すバルセロナ宣言(“Barcelona Declaration on Open Research Information”)が発出されました。 書誌データや助成情報といった研究に関するメタデータのオープン化を標準とすることや、それを可能にするサービスやシステムをサポートすることなど四つの原則を掲げています。支援機関としてはCrossref、DataCite、学術文献データベースOpenAlexを運営する非営利団体OurResearchなどが名を連ねています。 この宣言に対しては、研究助成機関のコンソーシアムであるcOAlition S が同日に歓迎を表明しています。表明では、cOAlition Sが長年に渡ってメタデータのオープン化を掲げていたことに

      研究情報のオープン化を目指すバルセロナ宣言が発出される:cOAlition Sはこれに歓迎を表明
    • Welcome

      The openVertebrate project, oVert for short, is a new initiative to provide free, digital 3D vertebrate anatomy models and data to researchers, educators, students and the public. X-ray CT allows researchers to visualize and quantify hard-to-measure characteristics. This image shows high and low density areas of the skull of an Angolan burrowing pig-nosed frog. Florida Museum of Natural History im

        Welcome
      • GitHub - japan-opendata/awesome-japan-opendata: Awesome Japan Open Data - 日本のオープンデータ情報一覧・まとめ

        You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

          GitHub - japan-opendata/awesome-japan-opendata: Awesome Japan Open Data - 日本のオープンデータ情報一覧・まとめ
        • ウェザーニュースの花粉データでPythonアプリを作りたい(その1) - 43号線を西へ東へ

          昨年は花粉の当たり年だったようで、初めて花粉症になりました。ヒノキの頃だったと記憶していますが、かなり辛かった記憶があります。花粉症の方はこの辛さを長年経験されていたのですね。頭が下がります。 さて、ウエザーニュースには全国各地の花粉飛散データのダウンロードが行えます。常識の範囲内なら無料で使えるようなので、ログ作りのためにPythonでデータを取り込むコードを作りたいと思います。 本記事は準備編になります。 情報収集 先ほど思い立ったところなので、本日は情報収集をして、まとめておきたいと思います。 公式のリンク先 ポールンロボによる観測・解析:花粉飛散数データの無料ダウンロード CSV形式とAPIの2パターン選べます。 APIの型 そもそもAPIとは何なのでしょうか? API (Application Programming Interface)とは、簡単に言うと「サービスが持つ便利な機

            ウェザーニュースの花粉データでPythonアプリを作りたい(その1) - 43号線を西へ東へ
          • 自民党裏金リスト

            ver.1.2 なかなか忘れられがちな過去の不祥事。思い出せるように一覧にまとめました。選挙の時などお役立ていただければ幸いです。 選挙区別一覧はこちらから

            • 「オープンデータ基本指針」(改正案)に係る意見募集について|e-Govパブリック・コメント

              パブリックコメントの「「オープンデータ基本指針」(改正案)に係る意見募集について」に関する意見募集の実施についての詳細です。

              • litagin/moe-speech · Datasets at Hugging Face

                Not-For-All-Audiences This repository has been marked as containing sensitive content and may contain potentially harmful and sensitive information. View content

                  litagin/moe-speech · Datasets at Hugging Face
                • LLM開発のためのデータエンジニアリング - Qiita

                  LLM開発のためのデータエンジニアリング MLOps Advent Calendar 2023の24日目です。 Stability AIでデータ系のソフトウェアエンジニアをやっているcvuskです。主な仕事は日本語LLMのためのデータ開発です。Stability AIでは日本語LLMも各種開発しています。LLMの学習というと大量のGPUを用意して巨大なデータでモデルを学習する、というキラキラしたイメージ(?)が強いかもしれませんが、データが重要かつ苦労が耐えない課題であることは他の機械学習やディープラーニングモデルと違いありません。日本語のテキストデータは英語ほど入手しやすいわけではないのと同時に、データエンジニアリングや品質面でもいろいろと大変なことが多々あります。今回はLLMのためのテキストデータの用途やエンジニアリングについて整理します。 LLMの学習 LLMの学習は大きく分けて事前

                    LLM開発のためのデータエンジニアリング - Qiita
                  • 画像生成AI「Stable Diffusion」などに使われた50億枚超の画像セット「LAION-5B」に1008枚の児童ポルノ画像が入っていることが判明し削除へ

                    スタンフォード大学インターネット天文台(SIO)の調査により、画像生成AI「Stable Diffusion」などのトレーニングに利用されているオープンデータセットの「LAION-5B」に、児童性的虐待画像(CSAM)が含まれていることが明らかになりました。CSAMの疑いのある画像は3226枚で、そのうち1008枚が外部機関の検証によりCSAMであると確認されました。 Investigation Finds AI Image Generation Models Trained on Child Abuse | FSI https://cyber.fsi.stanford.edu/io/news/investigation-finds-ai-image-generation-models-trained-child-abuse Largest Dataset Powering AI Imag

                      画像生成AI「Stable Diffusion」などに使われた50億枚超の画像セット「LAION-5B」に1008枚の児童ポルノ画像が入っていることが判明し削除へ
                    • 生成AIの学習データに児童虐待画像 米大学研究者が指摘 - 日本経済新聞

                      米スタンフォード大の研究者は20日、画像生成AI(人工知能)の学習用データセット「LAION(ライオン)5B」が1000件以上の児童の性的虐待画像を含んでいたと発表した。多くの画像生成AIが同データを使って学習しており、不適切な画像を生成する恐れがあると警告している。ライオン5Bはインターネット上の50億枚以上の画像のURL(アドレス)を集約したデータセットだ。報告書を発表したスタンフォード大

                        生成AIの学習データに児童虐待画像 米大学研究者が指摘 - 日本経済新聞
                      • A Review of Public Japanese Training Sets

                        You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                          A Review of Public Japanese Training Sets
                        • 神戸市がやってくれました! 全国規模の人口移動・就業状況の「ダッシュボード」、全国の誰にでも無料公開。Tableau使いの市職員が作成、オープンデータの可視化・活用方法として提案【地図と位置情報】

                            神戸市がやってくれました! 全国規模の人口移動・就業状況の「ダッシュボード」、全国の誰にでも無料公開。Tableau使いの市職員が作成、オープンデータの可視化・活用方法として提案【地図と位置情報】
                          • OpenAI Data Partnerships

                            Working together to create open-source and private datasets for AI training. We are introducing OpenAI Data Partnerships, where we’ll work together with organizations to produce public and private datasets for training AI models. Modern AI technology learns skills and aspects of our world — of people, our motivations, interactions, and the way we communicate — by making sense of the data on which

                              OpenAI Data Partnerships
                            • OpenAI、トレーニング用の安全で広範なデータセット構築目指す「Data Partnerships」立ち上げ

                              米OpenAIは11月9日(現地時間)、AIモデルをトレーニングするためのパブリックおよびプライベートのデータセットを構築するためにサードパーティと協力するパートナーシップ「OpenAI Data Partnerships」の立ち上げを発表した。 同社は公式ブログで、このパートナーシップの目的は「より多くの組織がAIの将来の舵取りを支援できるようにし」「より有用なモデルから恩恵を受けられるようにすること」と語った。 「最終的に全人類にとって安全で有益なAGIを実現するには、AIモデルがすべてのテーマ、業界、文化、言語を深く理解」する必要があり、そのために可能な限り広範なトレーニングデータセットが必要だとしている。 データには、画像、音声、動画などを含める予定で、多様な言語、トピック、形式での長文のテキストや会話など、「人間の意図を表現する」データも含める計画。 パートナーシップ参加組織と協

                                OpenAI、トレーニング用の安全で広範なデータセット構築目指す「Data Partnerships」立ち上げ
                              • 過去の法令を全文検索できるデータベースを公開 ~法制度の移り変わりを調査する出発点に~

                                国立大学法人東海国立大学機構 名古屋大学大学院法学研究科の佐野 智也 講師、増田 知子 特任教授、同大学院情報学研究科の外山 勝彦 教授、同大学数理・データ科学教育研究センターの駒水 孝裕 准教授らの研究グループは、明治 19年から平成 29年(1886~2017)までに公布された法律と勅令を全文検索できるデータベースを作成・公開しました。このデータベースは、日本政府の、現在有効な法令データを提供する「e-Gov法令検索」では検索できない過去の法令データを提供するものであり、「e-Gov法令検索」を補完する意味を持ちます。 これまで多くの法学研究において法令や判例情報の調査収集にデータベースを利用する際は、個別の事件処理等を意識した限定的利用が主でした。それを越えて、大規模データを使って政策や法令を俯瞰し、経時的に解析しようという研究は、国内的にも国際的にもほとんど例がありません。 今回の

                                  過去の法令を全文検索できるデータベースを公開 ~法制度の移り変わりを調査する出発点に~
                                • https://open_contents_datasets.gitlab.io/project_home/

                                  • MetaのAIのトレーニングに使われた書籍データセット「Books3」には村上春樹やスティーブン・キングの著作も含まれている

                                    Metaが開発する大規模言語モデル「LLaMA」などのトレーニングに使用された書籍データセット「Books3」は、知的財産権や著作権に対する侵害の疑いが指摘されています。そんなBooks3に含まれる書籍の内訳やBooks3が抱える問題点について、テクノロジー系ライターのアレックス・リーズナー氏が解説しています。 Erotica, Atwood, and 'For Dummies': The Books Behind Meta’s Generative AI - The Atlantic https://www.theatlantic.com/technology/archive/2023/09/books3-ai-training-meta-copyright-infringement-lawsuit/675411/ These 183,000 Books Are Fueling the

                                      MetaのAIのトレーニングに使われた書籍データセット「Books3」には村上春樹やスティーブン・キングの著作も含まれている
                                    • 日本語指示データ・日本語擬似レビューの公開 - Megagon Labs | リクルート AI研究機関

                                      このたび以下の2種類のデータを公開しましたので,簡単にご紹介いたします. 日本語指示データ 大規模言語モデル(LLM)の開発に必要なものの1つは高品質なデータです. 英語では様々なデータが公開されていますが,日本語ではまだ少ないのが現状です. そこで,LLM研究の一助となるよう,小規模ではありますが,人力で作成した日本語指示データmegagonlabs/instruction_jaを公開いたします. このデータは以下の特徴をもちます. オープンソースライセンス 社会や料理など様々な話題を含む対話 自然な日本語表現からなる対話 この1と2を満たすデータとしてAnthropicが英語の指示データを公開しています.そしてそれを元に機械翻訳した日本語の指示データが,有志によって公開されています.今回それをもとに,3を満たすために人手による補足や日本語表現の変更といった改変を行いました. (改変の結

                                      • 米Google、自然言語でAndroidデバイスを操作するための学習データセット公開

                                        このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 米Google Researchと米Google DeepMindに所属する研究者らが発表した論文「Android in the Wild: A Large-Scale Dataset for Android Device Control」は、Androidデバイスを自然言語で操作するための大規模な学習データセットを提案した研究報告である。このデータセットには、画面やアクションを含むデバイスのインタラクションの人間によるデモンストレーションと、それに対応する自然言語の指示が含まれている。データセットはこちらから入手できる。 自然言語コマンド

                                          米Google、自然言語でAndroidデバイスを操作するための学習データセット公開
                                        • 東京都の補助金、1兆円が「どこにいくら渡されたか見えない」|SlowNews | スローニュース

                                          スローニュースでは、プロジェクト「オープンデータウオッチ」を始めます。国や自治体がオープンにしているデータをもとに、税金の使われ方や事業が適正に行われているのかなどをチェックしていきますよ。まず最初に取り上げるのは、東京都の補助金です。 東京都の補助金は年間1兆8000億円の巨額東京都がいろんなところに渡している「補助金」って年間1兆8000億円(令和4年度予算ベース)にも上る巨額だとご存じでした?もちろん、私たちの税金が原資です。都民じゃないから関係ない?いやいや、これ国の予算が東京都を通して払われているものもかなり含まれているので、元をたどれば全国の人が関係してますよ。他人事じゃないんです。 東京都の「補助金サーチ」よりだからこそ、使い道をはっきりさせてほしいんですよね。ところが、全然わからないんです。これ、東京都にふつうに聞くと、「支出先は公開しています」って答えるんですよね。でも、

                                            東京都の補助金、1兆円が「どこにいくら渡されたか見えない」|SlowNews | スローニュース
                                          • Amazon、Meta、Microsoft、TomTomらが保有するデータを統合して地図データを整備――「Overture Maps」とは何か?【地図と位置情報】

                                              Amazon、Meta、Microsoft、TomTomらが保有するデータを統合して地図データを整備――「Overture Maps」とは何か?【地図と位置情報】
                                            • 経団連:データ利活用・連携による新たな価値創造に向けて (2023-05-16)

                                              トップ Policy(提言・報告書) 科学技術、情報通信、知財政策 データ利活用・連携による新たな価値創造に向けて Policy(提言・報告書) 科学技術、情報通信、知財政策 データ利活用・連携による新たな価値創造に向けて ― 日本型協創DXのリスタート ― (PDF形式/本文の目次は以下のとおり) Ⅰ.はじめに ― なぜデータ利活用・連携か ― Ⅱ.目指す未来像と方策 未来像の再確認 実現に向けた方策 経済界の役割 Ⅲ.現状の整理 データの種類と連携の類型 わが国企業によるデータ利活用・連携の進捗 (1) データ利活用の進捗 (2) データ連携の進捗 Ⅳ.具体的課題と解決策 目的・利益を共有できない:連携しているが効果が出ない、実証止まりで社会実装につながらない等 (1) 追求する価値の明確化とビジネスモデルの構築 各主体の理解不足:連携する意思がない、協力してもらえない等 (1) 社会

                                                経団連:データ利活用・連携による新たな価値創造に向けて (2023-05-16)
                                              • 画像生成AI「Stable Diffusion」が使う無料のデータセット「LAION」の構築を率いているのは1人の高校教師だった

                                                画像生成AI「Stable Diffusion」が使用していることでも知られている、ジェネレーティブAIの学習用データセットを構築する非営利団体が「LAION」です。このLAIONのリーダーを務めるのが、ドイツのハンブルグ市で高校教師として働くクリストフ・シューマン氏です。 A High School Teacher’s Free Image Database Powers AI Unicorns - Bloomberg https://www.bloomberg.com/news/features/2023-04-24/a-high-school-teacher-s-free-image-database-powers-ai-unicorns クリストフ・シューマン氏はウィーン大学でコンピューター科学と物理学を学びながら、ワークショップで6年間にわたって演技を学び、卒業後はハンブルク市で

                                                  画像生成AI「Stable Diffusion」が使う無料のデータセット「LAION」の構築を率いているのは1人の高校教師だった
                                                • 対話型AIの学習に使われているGoogleのデータセット「C4」には4chanや白人至上主義者のサイトなど問題のあるコンテンツが大量に混入している

                                                  Metaが2023年2月に公開した大規模言語モデル「LLaMA」を始めとするAIのトレーニングには、Googleが作成した巨大データセット「Colossal Clean Crawled Corpus(C4)」が使用されています。C4は名前の通り「クリーン」なデータで構成されているはずですが、海外メディア・The Washington PostとAI研究者の分析により、このC4に有害なコンテンツが大量に紛れ込んでいることが発覚しました。 See the websites that make AI bots like ChatGPT sound so smart - Washington Post https://www.washingtonpost.com/technology/interactive/2023/ai-chatbot-learning/ OpenAIのChatGPTを皮切りに

                                                    対話型AIの学習に使われているGoogleのデータセット「C4」には4chanや白人至上主義者のサイトなど問題のあるコンテンツが大量に混入している
                                                  • スマホゲーム公式が3Dモデル無償配布、利用規約なくユーザー困惑 「勝利の女神:NIKKE」の施策が話題

                                                    スマホゲーム公式が3Dモデル無償配布、利用規約なくユーザー困惑 「勝利の女神:NIKKE」の施策が話題 中国Tencent Gamesは4月13日、同社のゲーム部門「Level Infinite」が提供するスマートフォンゲーム「勝利の女神:NIKKE」(ニケ)の公式3Dモデルを配布した。日本向けを含む公式サイトでゲームキャラ5人のMMDモデルを公開している。ただし利用規約やガイドラインの類が存在せず、SNS上ではどう使っていいか困惑する声が見られる。 勝利の女神:NIKKEは2022年11月にリリース。iOS/Android/Windows向けのシューティングゲームで、日本や韓国向けに提供している。女性型の人造人間・改造人間「ニケ」を従えて敵と戦うという内容だ。戦うキャラクターの後ろ姿を見ながらプレイする独特のUIがリリース前から注目を集めており、事前登録者数は世界で250万以上という。

                                                      スマホゲーム公式が3Dモデル無償配布、利用規約なくユーザー困惑 「勝利の女神:NIKKE」の施策が話題
                                                    • LLM のデータセットまとめ|npaka

                                                      LLMのデータセットをまとめました。 1. 事前学習データセット1-1. Text・Wikipedia (ja) ・fujiki/wiki40b_ja ・shisa-pretrain-en-ja-v1 (ja) ・augmxnt/shisa-pretrain-en-ja-v1 ・Wikipedia (en) ・Wiki Demo (en) ・RefinedWeb (en) ・RedPajama V2 (en) ・Pile (en) ・SkyPile (zh) ・The Stack 2 (en) ・The Stack (en) ・StarCoder (en) 1-2. Code・The Stack 2 (en) ・The Stack (en) ・StarCoder (en) 2. SFTデータセット2-1. Instruction・ichikara-instruction (ja) ・ich

                                                        LLM のデータセットまとめ|npaka
                                                      • 行政のオープンデータを集約した「e-Govデータポータル」公開

                                                          行政のオープンデータを集約した「e-Govデータポータル」公開
                                                        • 繧ェ繝シ繝励Φ繝翫ぎ繧オ繧ュ

                                                          逧�縺輔∪縺ァ閾ェ逕ア縺ォ豢サ逕ィ縺励※縺�縺溘□縺阪◆縺�縲ゅ→縺�縺�諤昴>縺九i 髟キ蟠守恁縺御サ翫∪縺ァ縺ョ讌ュ蜍吶〒蜿門セ励@縺滓�先棡蜩√r 繧ッ繝ェ繧ィ繧、繝�繧」繝悶�サ繧ウ繝「繝ウ繧コ繝サ繝ゥ繧、繧サ繝ウ繧ケ縺ョ 繧ェ繝シ繝励Φ繝�繝シ繧ソ縺ォ縺励∪縺励◆縲� 蝟カ蛻ゥ繝サ髱槫霧蛻ゥ蝠上o縺壹#蛻ゥ逕ィ蜿ッ閭ス縺ァ縺吶��

                                                          • 国土交通省が日本全国の3D都市モデルのアセットをUnity Asset Storeで配信。価格は無料

                                                            国土交通省が日本全国の3D都市モデルのアセットをUnity Asset Storeで配信。価格は無料 編集部:杉浦 諒 ユニティ・テクノロジーズ・ジャパンは本日(2023年2月28日),同社が展開するアセット販売ページ“Unity Asset Store”で,国土交通省とシナスタジアによる「PLATEAU SDK for Unity」が出品されたことを明らかにした。価格は無料。 「PLATEAU SDK for Unity」は,国土交通省が主導する日本全国の3D都市モデルの整備およびオープンデータ化を目指すプロジェクト“PLATEAU”のもと,シナスタジアが開発したオープンソースのツールキットだ。 配信されたアセットには,家屋やビルなどの建築物だけでなく,都市計画区域などの都市計画決定情報,土地の用途を示す土地利用,都市のインフラを示す道路や橋梁などのデータも含まれる。これらのデータは,U

                                                              国土交通省が日本全国の3D都市モデルのアセットをUnity Asset Storeで配信。価格は無料
                                                            • マップル、全国の「登記所備付地図データ」を可視化するビューア公開。法務省のデータを使いやすく 地図XMLフォーマットからベクトルタイルデータへ変換

                                                                マップル、全国の「登記所備付地図データ」を可視化するビューア公開。法務省のデータを使いやすく 地図XMLフォーマットからベクトルタイルデータへ変換
                                                              • 法務局の地図データをネットで無料公開へ…不動産取引で使用、これまでは有償(読売新聞オンライン) - Yahoo!ニュース

                                                                斎藤法相は20日の記者会見で、全国の法務局にある地図データを23日からネット上で無料公開すると発表した。国や自治体が調査した正確なデータの一般利用を促進し、民間事業者のコスト削減やスマート農業への利用などにつなげたい考えだ。 日本郵政、デジタル地図事業に参入へ…変化を随時反映する「生きた地図」作り 各法務局の地図は、土地の位置や区画が記されており、不動産取引の際に使われている。これまでは法務局やネット上で有償で限られた区域の地図を一つ一つ取得する必要があった。

                                                                  法務局の地図データをネットで無料公開へ…不動産取引で使用、これまでは有償(読売新聞オンライン) - Yahoo!ニュース
                                                                • 超高精度な国産音声認識AI「ReazonSpeech」が無償公開されたので文字起こし機能を使ってみた

                                                                  東京に拠点を置くテクノロジー企業「レアゾン・ホールディングス」が、1万9000時間に及ぶ国内最大級の日本語音声コーパス「ReazonSpeech」を無償公開しました。同時に、OpenAIが開発した超高性能音声認識AI「Whisper」に匹敵する性能をアピールする文字起こしサービスも公開されていたので、実際に使ってみました。 超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開 - Reazon Human Interaction Lab https://research.reazon.jp/news/reazonspeech.html ReazonSpeech - Reazon Human Interaction Lab https://research.reazon.jp/projects/ReazonSpeech/ レアゾン・ホールディングスは「R

                                                                    超高精度な国産音声認識AI「ReazonSpeech」が無償公開されたので文字起こし機能を使ってみた
                                                                  • 超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開

                                                                    株式会社レアゾン・ホールディングス(本社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 2023年1月18日 株式会社レアゾン・ホールディングス(本社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 ※音声コーパス: 音声データとテキストデータを発話単位で対応付けて集めたもの。音声認識モデルを作成する材料として使用され、その規模と品質が音声認識の精度を大きく左右する。 ※2「ReazonSpeech」を用いた文字起こしサービスをプロジェクトwebサイトにて実際に試すことができます。 プロジェクトwebサイト:https://

                                                                      超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開
                                                                    • Amazon.co.jp: 記者のためのオープンデータ活用ハンドブック: 熊田安伸: 本

                                                                        Amazon.co.jp: 記者のためのオープンデータ活用ハンドブック: 熊田安伸: 本
                                                                      • 画像生成AI「Stable Diffusion」などの開発に大きな貢献を果たした超巨大データセット「LAION-5B」とは?

                                                                        AIを構築する上ではアルゴリズムだけでなく訓練用のデータセットも重要であり、データセットの質によってAIの精度も大きく左右されます。高精度な画像生成AIとして話題のStable Diffusionでは、「LAION-5B」という50億以上もの画像とテキストのペアを含むデータセットを用いています。 LAION-5B: A NEW ERA OF OPEN LARGE-SCALE MULTI-MODAL DATASETS | LAION https://laion.ai/blog/laion-5b/ 大規模な機械学習モデルやデータセット、関連コードなどの一般公開を掲げる「Large-scale Artificial Intelligence Open Network(LAION)」というドイツの非営利団体は、2022年3月に超巨大なデータセットである「LAION-5B」をリリースしました。LAI

                                                                          画像生成AI「Stable Diffusion」などの開発に大きな貢献を果たした超巨大データセット「LAION-5B」とは?
                                                                        • Amazonのデータセットで始める商品検索

                                                                          この記事は 情報検索・検索技術 Advent Calendar 2022 の7日目の記事です。 はじめに 今年の夏、Amazonが多言語 (英語、スペイン語、そして日本語) のラベル付きの商品検索のデータセットを公開しました。 論文: https://arxiv.org/abs/2206.06588 リポジトリ: https://github.com/amazon-science/esci-data 情報検索において商品検索は、ウェブ検索を作りたいという企業より商品検索を作りたい企業の方が多いという意味で、ポピュラーなトピックだと思います。ところが公開データで実験を行おうとするとドメインが違うウェブ検索のデータセットか、ラベルのない商品カタログか、ラベルはあるけど小規模なデータセットかという限られた選択肢しかなく、仕方がないので非公開の独自データセットを作って実験を行うという状況でした。

                                                                            Amazonのデータセットで始める商品検索
                                                                          • DFFT|デジタル庁

                                                                            DFFTとはDFFT(Data Free Flow with Trust:信頼性のある自由なデータ流通)とは、「プライバシーやセキュリティ、知的財産権に関する信頼を確保しながら、ビジネスや社会課題の解決に有益なデータが国境を意識することなく自由に行き来する、国際的に自由なデータ流通の促進を目指す」というコンセプトです。DFFTは、2019年1月にスイス・ジュネーブで開催された世界経済フォーラム年次総会(ダボス会議)にて、安倍総理(当時)が提唱し、2019年6月のG20大阪サミットにおいて各国首脳からの支持を得て、首脳宣言に盛り込まれました。 安倍総理大臣による世界経済フォーラム年次総会演説(外務省) 最近の取組G7 産業・技術・デジタル大臣会合の開催結果 2024年3月14日及び15日に、イタリア・ヴェローナ及びトレントにおいて、G7産業・技術・デジタル大臣会合が開催され、河野デジタル大臣

                                                                              DFFT|デジタル庁
                                                                            • Wikipediaの記事をすべてダウンロードしていつでもオフラインで閲覧&検索する方法

                                                                              日本語の記事だけでも130万件以上、全言語を総合計すると5870万件以上にもなるオンライン百科事典「Wikipedia」の記事をすべてダウンロードし、オフラインで手軽に閲覧・検索する方法をブロガーのポール・ウィリアム氏が解説しました。 How To Download All of Wikipedia onto a USB Flash Drive in 2022 https://planetofthepaul.com/wikipedia-download-usb-flash/ Wikipediaはさまざまな原則の下で記事のダウンロードを許可しており、Wikipediaはダウンロードに際してはデータベースのダンプ方式を用いるよう呼びかけています。 Wikipediaの全記事のファイルサイズは英語版で95GB、日本語版でも20GBはあるため、これより大きなサイズのドライブを用意しておきます。US

                                                                                Wikipediaの記事をすべてダウンロードしていつでもオフラインで閲覧&検索する方法
                                                                              • 情報学研究データリポジトリ メルカリデータセット

                                                                                株式会社メルカリが国立情報学研究所を通じて研究者に提供しているデータセットです。 2023/09/01 更新 データ概要 フリマ商品データ 株式会社メルカリが運営する,スマートフォン向けフリマアプリ「メルカリ」へ登録されたデータで,個人を特定する情報や非公開情報は含まれません。 具体的なデータの内容は以下の通りです。 アプリ上に公開されている商品データ(出品状態,商品名,商品の説明,販売価格,カテゴリ,商品の状態,サイズ,ブランド,送料の負担,発送の方法,発送元の地域,発送にかかる日数,いいね!の数,コメントの数,出品日時,更新日時) 各商品ページにて公開されているコメントデータ 各商品ページにて公開されている画像データ(対象全商品のサムネイル画像/一週間分のオリジナル画像) 提供中のデータは2020年1月~12月の1年間に出品された商品が対象です。(データは随時更新される予定です) 商品

                                                                                • 第6回「東京都における都市のデジタルツイン社会実装に向けた検討会」 杉本臨時委員提出資料

                                                                                  "I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)

                                                                                    第6回「東京都における都市のデジタルツイン社会実装に向けた検討会」 杉本臨時委員提出資料