並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 219件

新着順 人気順

オープンデータの検索結果41 - 80 件 / 219件

  • TechCrunch

    Welcome, folks, to Week in Review (WiR), TechCrunch’s weekly news recap. The weather’s getting hotter — but not quite as hot as the generative AI space, which saw a slew of new model

      TechCrunch
    • 過去の法令を全文検索できるデータベースを公開 ~法制度の移り変わりを調査する出発点に~

      国立大学法人東海国立大学機構 名古屋大学大学院法学研究科の佐野 智也 講師、増田 知子 特任教授、同大学院情報学研究科の外山 勝彦 教授、同大学数理・データ科学教育研究センターの駒水 孝裕 准教授らの研究グループは、明治 19年から平成 29年(1886~2017)までに公布された法律と勅令を全文検索できるデータベースを作成・公開しました。このデータベースは、日本政府の、現在有効な法令データを提供する「e-Gov法令検索」では検索できない過去の法令データを提供するものであり、「e-Gov法令検索」を補完する意味を持ちます。 これまで多くの法学研究において法令や判例情報の調査収集にデータベースを利用する際は、個別の事件処理等を意識した限定的利用が主でした。それを越えて、大規模データを使って政策や法令を俯瞰し、経時的に解析しようという研究は、国内的にも国際的にもほとんど例がありません。 今回の

        過去の法令を全文検索できるデータベースを公開 ~法制度の移り変わりを調査する出発点に~
      • Wikipediaを用いた日本語の固有表現抽出データセットの公開

        ML事業部の近江崇宏です。 ストックマークではプロダクトで様々な自然言語処理の技術を用いていますが、その中のコア技術の一つに固有表現抽出があります。固有表現抽出はテキストの中から固有表現(固有名詞)を抽出する技術で、例えば「Astrategy」というプロダクトでは、固有表現抽出を用いてニュース記事の中から企業名を抽出しています。(企業名抽出については過去のブログ記事を参考にしてください。) 一般に、固有表現抽出を行うためには、大量のテキストに固有表現をアノテーションした学習データをもとに機械学習モデルの学習を行います。今回、ストックマークは固有表現抽出のための日本語の学習データセットを公開いたします!ご自由にお使いいただければと思います! レポジトリ:https://github.com/stockmarkteam/ner-wikipedia-dataset 固有表現をハイライトしたサンプ

          Wikipediaを用いた日本語の固有表現抽出データセットの公開
        • PyTorch/TensorFlow/Keras/scikit-learnライブラリ内蔵のデータセット一覧

          PyTorch/TensorFlow/Keras/scikit-learnライブラリ内蔵のデータセット一覧:AI・機械学習のデータセット辞典 機械学習やディープラーニング用の主要ライブラリが提供する「画像/音声/テキストなどのデータセット」の名前とリンクを表にまとめ、典型的な使い方を簡単に紹介する。 連載目次 本連載「AI・機械学習のデータセット辞典」では、ここまで主に、scikit-learnやKeras/TensorFlow(tf.keras)、TensorFlow Datasets、PyTorchといった主要なPythonライブラリに共通的に含まれる代表的なデータセットを紹介し、各ライブラリでの典型的な実装コード例を示してきた。しかし、これらの全ライブラリに共通的に含まれているデータセットはまれで非常に少ない。よってこれからは、個々のライブラリに1つしか含まれていないようなこまごまと

            PyTorch/TensorFlow/Keras/scikit-learnライブラリ内蔵のデータセット一覧
          • ボカロ界の革命――無償のAI歌声合成ソフトが一般公開 誰でもアイドル声優の歌声が作れるように

            「ボカロ界の革命だ」――AIを活用して歌声を合成するフリーウェア「NEUTRINO」が2月22日に登場し、ニコニコ動画やTwitterで話題になっている。楽譜データを入力すれば、音程や声質などを操作しなくても人間のような自然な歌声を合成できる。 これまでも研究者や専門の開発者によって日本マイクロソフトの「りんな」や、ヤマハが技術協力した「AI美空ひばり」など、AIを活用した歌声合成技術で作られた楽曲が公開されてきたが、NEUTRINOの登場で誰でも“AIシンガー”に触れられるようになった。 NEUTRINOはSHACHIさんが開発した歌声合成ソフト。ニューラルネットワークを活用して事前に実在する声優や歌手の歌い方を学習したAIが、入力された楽譜から本人らしい発声のタイミングや声の高さ、声質などを推定。自動でビブラートや“しゃくり上げ”といった歌唱表現を再現し、人間らしい歌声を合成する。高性

              ボカロ界の革命――無償のAI歌声合成ソフトが一般公開 誰でもアイドル声優の歌声が作れるように
            • 実在しない顔の画像3000点を無償配布、AI学習用データセットに 法人向け・商用利用可

              AI活用のコンサルティング事業を手掛けるAPTO(東京都渋谷区)とエイアイ・フィールド(東京都品川区)は10月5日、AIの学習データとして利用できる、実在しない男女の顔写真3000枚の無償配布を始めた。法人を対象に11月30日までの期間限定で提供し、商用利用も認める。「AI市場の加速に貢献できれば」(2社)という。 エイアイ・フィールドが自社の技術で自動生成した、実在しない10代~90代の男女の画像を提供。APTOが作成した年齢・性別などのアノテーション(画像を説明するテキスト情報)も付属する。申し込みは専用サイトで受け付ける。 もともとはエイアイ・フィールドが自社サービスで活用するために作成した画像だったが、6月に用途を研究目的に限った上で1000点を無料配布したところ、利用者からの反響があったことから、データを2000点追加し、商用利用を認めた上で再配布することを決めたという。 関連記

                実在しない顔の画像3000点を無償配布、AI学習用データセットに 法人向け・商用利用可
              • 機械学習/データサイエンスに活用できる「政府系」オープンデータセット3選

                日本の政府系のオープンデータで一番有名なのが「e-Stat」である。統計学やデータサイエンスに携わるもの/学ぶものであれば、名前は聞いたことがあるだろう。かつては各省庁がバラバラに管理&公開していた公的データを、一カ所に集めて誰でも簡単に利用できるようにしたサイトである(2008年から運用が開始され、2018年にリニューアルされた)。 統計分野は多岐にわたり、「国土・気象」「人口・世帯」「労働・賃金」「農林水産業」「鉱工業」「商業・サービス業」「企業・家計・経済」「住宅・土地・建設」「エネルギー・水」「運輸・観光」「情報通信・科学技術」「教育・文化・スポーツ・生活」「行財政」「司法・安全・環境」「社会保障・衛生」「国際」「その他」という17分野が提供されている。データセットは、条件指定によるフィルタリングやグラフ化が行える。例えば人口ピラミッドのグラフも簡単に作成できる。 また、もちろん無

                  機械学習/データサイエンスに活用できる「政府系」オープンデータセット3選
                • 国交省、全国56都市の3D都市モデル公開。仮想空間で都市をそのまま再現可能

                    国交省、全国56都市の3D都市モデル公開。仮想空間で都市をそのまま再現可能
                  • COVID-19 一般公開データセットプログラム: より優れた成果を目指して自由にアクセス可能なデータを提供 | Google Cloud 公式ブログ

                    ※この投稿は米国時間 2020 年 3 月 31 日に、Google Cloud blog に投稿されたものの抄訳です。 データは常に、公衆衛生上の緊急事態に対する調査や研究、取り組みにおいて重要な役割を果たしますが、世界的な危機の発生時にこそ、その真価が発揮されるといえるのではないでしょうか。研究プロセスにとって、データセットへのアクセスやそのデータをクラウド規模で分析できるツールは、切り離すことのできない重要なものですが、とりわけ COVID-19(新型コロナウイルス感染症)への対応にあたっては、その必要性がグローバル規模で高まっています。 Google Cloud では、研究者、データ サイエンティスト、アナリストが COVID-19 に対抗するための取り組みを支援するために、Johns Hopkins Center for Systems Science and Engineeri

                      COVID-19 一般公開データセットプログラム: より優れた成果を目指して自由にアクセス可能なデータを提供 | Google Cloud 公式ブログ
                    • Papers with Code - Machine Learning Datasets

                      CIFAR-10 (Canadian Institute for Advanced Research, 10 classes) The CIFAR-10 dataset (Canadian Institute for Advanced Research, 10 classes) is a subset of the Tiny Images dataset and consists of 60000 32x32 color images. The images are labelled with one of 10 mutually exclusive classes: airplane, automobile (but not truck or pickup truck), bird, cat, deer, dog, frog, horse, ship, and truck (but no

                        Papers with Code - Machine Learning Datasets
                      • 行政のオープンデータを集約した「e-Govデータポータル」公開

                          行政のオープンデータを集約した「e-Govデータポータル」公開
                        • 自宅学習におすすめ!11日でマスター衛星データの学び方ガイド2020 | 宙畑

                          衛星データ、どこかで勉強したいと思っているけれど、結局始められてないなぁというそこのあなた!この機会に宙畑と一緒に衛星データを学びましょう 宙畑では、日々衛星データに関する情報をお届けしています。 本記事では、今までご紹介をした内容を整理し、どのように衛星データを学んで行くのが良いのか、お伝えしたいと思います! 今、衛星データ学習がおすすめな2つの理由 そもそも、なぜ今、衛星データを学ぶことがおすすめなのか、その理由は2つあります。 衛星データ市場は今後伸びていく市場 Credit : EuroConsult Source : http://www.euroconsult-ec.com/research/satellite-value-chain-2018-extract.pdf 実際に世界全体で使われている衛星データ(画像を含む)とデータを利用したサービスの市場規模は、衛星データそのもの

                            自宅学習におすすめ!11日でマスター衛星データの学び方ガイド2020 | 宙畑
                          • VS COVID-19 #民間支援情報ナビ

                            ※ 各社/団体のプライバシーポリシーをお読みの上、サービス利用をご判断ください。特に個人でご利用される場合、ご家族でよくご相談した上でのご判断をお願いします。 ※ 政府の公開する企業等による支援情報のオープンデータに加え、提供されているサービスを公開資料を基に整理したものであり、支援サービスをすべて網羅しているわけではありません。また、空欄は公開情報に明確に情報が記載されていないため空欄にしており、その内容がないというわけではありません。またサービスの問い合わせ等は直接支援企業にお問い合わせ下さい。推奨ブラウザは、Chrome/Safariの最新版です。ブラウザによっては、動作しないことがあります。(経産省 ニュースリリース、総務省 広報・報道)

                              VS COVID-19 #民間支援情報ナビ
                            • 高い、使いにくい、読みにくい──音声合成研究者を悩ませるハードルを解決する“台本”、明治大学らが発表

                              スマートフォンやスマートスピーカー、銀行ATM、券売機など、あらゆる場面で合成音声が使われるようになって久しい。近年では特に機械学習技術を活用した音声合成システムの製品化やサービス化が進んでいる。 音声合成の研究開発や製品化を行う際には、学習素材として大量の音声が必要だ。しかし学習に適した上質な音声ファイルはネット上にもあまりない。いまだに素材を集めにくい状態にある。 これまでは研究開発用の素材を得るため「音素バランス文」と呼ばれる台本を用意し、それをアナウンサーや声優などに読み上げてもらい、まとまったデータを取得していた。 「しかし、これまでの音素バランス文には『使用料』『ライセンス』『台本の読みにくさ』3つのハードルがありました」 そう話すのは明治大学で音声合成の研究をしている小口純矢さんだ。音声合成ソフトの販売を手掛けるSSS(仙台市)と小口さんが所属する明治大学、九州工業大学は6月

                                高い、使いにくい、読みにくい──音声合成研究者を悩ませるハードルを解決する“台本”、明治大学らが発表
                              • G空間情報センター

                                © 2016 - 2022 Association for Promotion of Infrastructure Geospatial Information Distribution. All Rights Reserved.

                                • GovRep|政府報告書の検索サイト

                                  政府の各府省庁が、コンサルティング会社やシンクタンクなどに委託して作成した委託調査報告書や審議会のとりまとめ報告書、その他ガイドラインなどを一括して検索することが可能です。各府省庁の政策動向を調べたり、特定分野を詳しく知りたいときにご利用ください。

                                    GovRep|政府報告書の検索サイト
                                  • GitHub - japan-opendata/awesome-japan-opendata: Awesome Japan Open Data - 日本のオープンデータ情報一覧・まとめ

                                    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                      GitHub - japan-opendata/awesome-japan-opendata: Awesome Japan Open Data - 日本のオープンデータ情報一覧・まとめ
                                    • 萌えキャラを腐らせたくない 「東北ずん子」運営会社がAI向け学習データを無料公開、その狙いは

                                      東北地方を応援する萌えキャラの運営会社が、キャラの声を生かしたAI研究向け学習データを無料で公開している。直接的な収益にもならず、研究者に使ってもらえるとも限らないのに、なぜそのような取り組みを行っているのか。データを公開した萌えキャラ運営会社SSS(仙台市)の小田恭央CEOに話を聞いた。 萌えキャラ「東北ずん子」の運営会社 SSSは東北応援キャラ「東北ずん子」を運営する企業で、グッズの製作や地域振興イベントなど、ライセンスビジネスを展開している。ヤマハの歌声合成ソフト「VOCALOID」用音源の販売などは行っているが、AIの技術開発を行っているテクノロジー企業というわけではない。「AI向けの学習データを無料公開」といわれると少し唐突にも聞こえる。 同社は2019年11月、研究者向けに「東北きりたん歌唱データベース(DB)」を無料公開した。東北ずん子の関連キャラ「東北きりたん」の歌声を約1

                                        萌えキャラを腐らせたくない 「東北ずん子」運営会社がAI向け学習データを無料公開、その狙いは
                                      • PLATEAUから街の構造を見る - estie inside blog

                                        はじめに こんにちは。estieでデータサイエンスをしている齊藤です。これはestie夏のブログ祭り8日目の記事です。 8/10はヤドンの日なので、ヤドン好きな私が記事を書いています。 ヤドンと私 PLATEAUとは PLATEAUとは、国交省のオープンデータプロジェクトです。雑に説明すると、「日本中の都市をまるごと3Dデータとして整備・公開・活用しよう!」というプロジェクトです。 基本的にはビルや道路の3Dデータなので、UnityやVRに持っていって遊ぶような使い方がまず想定され、実際にさまざまな活用がされています。 3D都市モデル PLATEAU LT 01 - connpass 3D都市モデル PLATEAU LT 02 - connpass 一方で私はestieでビルの賃料を予測したり、補正したりする業務に携わってきました。そのため、ビルの属性(竣工年は?造りは?価格は?)といった

                                          PLATEAUから街の構造を見る - estie inside blog
                                        • 無償入手可能な音声コーパス/音声データベースの一覧 - Qiita

                                          無償かつ入手しやすい音声データセットをメモしています。 ライセンス・利用規約は「商用利用可能」「研究用途のみ」ともに紹介します。 コーパスを探すときに有用なサイト コーパス配布元サイト 音声資源コンソーシアム : 日本語コーパスが豊富、無償または有償で利用可能 緩いライセンスのコーパスでなくても良いときはここ 自発的発話の日本語音声コーパスはだいたいここにある 入手は要申請 所属や責任者を記入する必要があるため、研究者や企業でないと厳しい? (この記事では音声資源コンソーシアムのコーパスは未掲載) Shinnosuke Takamichi: コーパス一覧 : 日本語中心。高道先生が携わっている音声コーパス 大量の日本語音声コーパスが配布されている 音声合成のコーパスをつくろう (Slideshare) : 2021年6月時点の音声コーパス事情 あなたにどうしても伝えたい30の音声コーパス

                                            無償入手可能な音声コーパス/音声データベースの一覧 - Qiita
                                          • IBM、55種類の言語、5億行のコードからなるソースコードの大規模データセット「Project CodeNet」を公開

                                            CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

                                              IBM、55種類の言語、5億行のコードからなるソースコードの大規模データセット「Project CodeNet」を公開
                                            • Amazonのデータセットで始める商品検索

                                              この記事は 情報検索・検索技術 Advent Calendar 2022 の7日目の記事です。 はじめに 今年の夏、Amazonが多言語 (英語、スペイン語、そして日本語) のラベル付きの商品検索のデータセットを公開しました。 論文: https://arxiv.org/abs/2206.06588 リポジトリ: https://github.com/amazon-science/esci-data 情報検索において商品検索は、ウェブ検索を作りたいという企業より商品検索を作りたい企業の方が多いという意味で、ポピュラーなトピックだと思います。ところが公開データで実験を行おうとするとドメインが違うウェブ検索のデータセットか、ラベルのない商品カタログか、ラベルはあるけど小規模なデータセットかという限られた選択肢しかなく、仕方がないので非公開の独自データセットを作って実験を行うという状況でした。

                                                Amazonのデータセットで始める商品検索
                                              • 画像認識の定番データセットImageNetはもう終わりか - Qiita

                                                オミータです。ツイッターで人工知能のことや他媒体で書いている記事など を紹介していますので、人工知能のことをもっと知りたい方などは気軽に@omiita_atiimoをフォローしてください! 2012年にAlexNet[Krizhevsky, A.(2012)]が登場してから、画像認識分野での発展は著しい。その発展を支えてきたものこそ大規模データセットImageNet[Deng, J.(2009)]である。ImageNetでSoTAを達成すると、そのモデルには最強モデルの称号が与えられると言っても過言ではない。2020年6月にGoogle Brainによって出されたこの論文は、そんな当たり前に使われてきたImageNetデータセットに対して疑問符を叩きつけるものとなっている。現存のImageNetでの性能評価が必ずしも正しいのだろうか。この論文を通してその答えを探しにいく。 本論文で使われて

                                                  画像認識の定番データセットImageNetはもう終わりか - Qiita
                                                • アクティブに更新され続けている、お勧めの機械学習データセット一覧サイト

                                                  アクティブに更新され続けている、お勧めの機械学習データセット一覧サイト:AI・機械学習のデータセット辞典 「300個以上のデータセットを紹介している大型サイト」「毎週/毎月のようにアクティブに更新されているサイト」という条件に該当するお勧めのデータセット一覧サイトとして「arXivTimes/DataSets」「Awesome Public Datasets」「UCI Machine Learning Repository」の3つを紹介する。

                                                    アクティブに更新され続けている、お勧めの機械学習データセット一覧サイト
                                                  • 【入門】Pythonによる人工衛星データ解析(Google Colab環境) - Qiita

                                                    はじめに 〜衛星データとは〜 人工衛星データとは、人工衛星を利用した“リモートセンシング”によって取得されたデータを指します。 これまで人工衛星データは専門ツールや大容量データ処理基盤が必要なため、利用できる組織は大学機関や一部の専門機関が限られていましたが、昨今のオープンソース・ライブラリの普及やデータ処理基盤のクラウド利用により、一般組織でも気軽に人工衛星データを扱える外部環境が整ってきました。 衛星データを利用することで、これまで取得することができなかった様々な場所・時間・対象の状態をビッグデータで解析することが期待できます。 そこで本記事では、どの様にデータを扱うのかを、衛星データ解析の専門ツールを利用せず(最も身近なツールの一つであるpythonを利用)、誰でも気軽に試すために無償で利用方法を紹介していきたいと思います。 また、今回はビジネスや社会実装に利用イメージが沸きやすい衛

                                                      【入門】Pythonによる人工衛星データ解析(Google Colab環境) - Qiita
                                                    • MIT、人種差別的と批判された大規模画像データセット「Tiny Images」をオフラインに

                                                      米マサチューセッツ工科大学(MIT)は6月29日(現地時間)、多数のAIシステムのトレーニングに利用されてきた8000万点以上の画像を集めたデータセット「Tiny Images」をオフラインにしたと発表した。カテゴライズの用語に差別的なものがあると指摘されたため。 MITのアントニオ・トラルバ教授は声明文で、「影響を受けた可能性のある人々に謝罪する」と語った。 問題を指摘したのはプライバシー関連の米新興企業UnifyIDのチーフサイエンティスト、ビナイ・プラブー氏とアイルランド国立大学ダブリン校のアベバ・ビルハネ教授。両氏は6月25日、「Large image datasets: A pyrrhic win for computer vision?」(リンク先はPDF)という匿名の論文(7月1日に正式版を公開)で、Tiny Imagesに女性の画像に「売春婦」というラベルが付いていたり、黒

                                                        MIT、人種差別的と批判された大規模画像データセット「Tiny Images」をオフラインに
                                                      • 「盛り土」指摘は有志チーム 早い把握「時代変わった」:朝日新聞デジタル

                                                        ","naka5":"<!-- BFF501 PC記事下(中⑤企画)パーツ=1541 -->","naka6":"<!-- BFF486 PC記事下(中⑥デジ編)パーツ=8826 --><!-- /news/esi/ichikiji/c6/default.htm -->","naka6Sp":"<!-- BFF3053 SP記事下(中⑥デジ編)パーツ=8826 -->","adcreative72":"<!-- BFF920 広告枠)ADCREATIVE-72 こんな特集も -->\n<!-- Ad BGN -->\n<!-- dfptag PC誘導枠5行 ★ここから -->\n<div class=\"p_infeed_list_wrapper\" id=\"p_infeed_list1\">\n <div class=\"p_infeed_list\">\n <div class=\"

                                                          「盛り土」指摘は有志チーム 早い把握「時代変わった」:朝日新聞デジタル
                                                        • PLATEAU VIEW 3.0

                                                          PLATEAUは、国土交通省が主導する、日本全国の3D都市モデルの整備・活用・オープンデータ化プロジェクトです。PLATEAU VIEWでは、3D都市モデルをウェブ上で可視化できます。

                                                            PLATEAU VIEW 3.0
                                                          • 大学院講義のネタとしての『あつまれ どうぶつの森』|こかぜなおき

                                                            1. はじめに2020年3月20日に発売されてから世界中で人気を博している任天堂Switch用ゲームソフト『あつまれ どうぶつの森(以下、あつ森と略)』、かくいう私もハマっております。今回の記事では、『あつ森』を大学院講義の教材として用いたことについてご紹介したいと思います。教材開発等の参考になれば幸いです。 2. 学術的に注目すべきポイント|標準的データ形式イギリスのBBCニュースは、COVID-19の世界的流行に伴う外出自粛期間において、『あつ森』における魚釣りや虫捕り、家の模様替えやどうぶつたちとの日常的なふれあいなど、一見「生産性のない」と思われるような行動が、世界中の人びとの心を癒す効果を持ったことを指摘しています(元記事)。ただし、今回の記事では、このような『あつ森』の心理的効果ではなく、美術館・図書館・博物館など世界中の文化機関が、自らが所有する文化財の画像データを『あつ森』

                                                              大学院講義のネタとしての『あつまれ どうぶつの森』|こかぜなおき
                                                            • 人間参加型(human-in-the-loop)機械学習とは?

                                                              こちらの資料は、機械学習向けのデータセットを300件まとめたものです。商品分類、チャットボット開発、店舗の需要予測、などの機械学習プロジェクトにご利用いただけます。 カテゴリ一覧 自然言語処理画像認識農業研究人口統計スポーツ法務医療ECサイトソーシャルメディア仮想通貨中国語韓国語

                                                                人間参加型(human-in-the-loop)機械学習とは?
                                                              • TechCrunch | Startup and Technology News

                                                                The prospects for troubled banking-as-a-service startup Synapse have gone from bad to worse this week after a United States Trustee filed an emergency motion on Wednesday.  The trustee is asking…

                                                                  TechCrunch | Startup and Technology News
                                                                • マップル、全国の「登記所備付地図データ」を可視化するビューア公開。法務省のデータを使いやすく 地図XMLフォーマットからベクトルタイルデータへ変換

                                                                    マップル、全国の「登記所備付地図データ」を可視化するビューア公開。法務省のデータを使いやすく 地図XMLフォーマットからベクトルタイルデータへ変換
                                                                  • 心理統計学の授業で教材に使えるオープンデータ集

                                                                    はじめに 統計学の講義や実習の際に使える心理系のデータセットをまとめました。アヤメの分類や経済統計もいいですが、やはり心理学に関連したデータを使う方が心理系の学生には興味をもって統計を学べると思います。ここには私が授業でよく使っているものをリストしました。他に良いものがあれば教えて下さい。 Open Stats Lab https://sites.trinity.edu/osl Psychological Science 誌に掲載された論文のデータが公開されています。データだけでなく、論文の概要や実習の手引きなども揃っています。回帰分析や因子分析など統計手法ごとに分類されているので、教材を選ぶ際にとても便利です。 datarium パッケージ https://rpkgs.datanovia.com/datarium/ R のパッケージです。パッケージをインストールすればすぐ使えるようになる

                                                                      心理統計学の授業で教材に使えるオープンデータ集
                                                                    • クラウド(AWS/Azure/GCP/IBM)で手軽に使えるオープンデータセット

                                                                      4つの人気クラウドプラットフォームで手軽に利用できるオープンなデータセットの一覧ページである「Registry of Open Data on AWS」「Azure Open Datasets」「Google Cloud 一般公開データセット」「IBM Developerの『データセット』カテゴリー」を紹介する。 連載目次 AWS/Azure/GCP/IBMといったクラウドプラットフォームでは、各クラウド内で簡単に使えるオープンなデータセットが提供されている。本稿ではそのデータセットの一覧/検索ページについて紹介する。なお、この一覧ページのデータセットの中には、必ずしも機械学習には向いていないものも幾つかは含まれると想定されるので、あらかじめご了承いただきたい。 Registry of Open Data on AWS

                                                                        クラウド(AWS/Azure/GCP/IBM)で手軽に使えるオープンデータセット
                                                                      • 政府統計の総合窓口(e-Stat)のAPIを使ってみよう - Qiita

                                                                        e-Statでは政府が提供する様々な統計データをXMLやJSONで取得するAPIを使用できます。 APIの利用登録と動作テスト 1.下記のURLからAPIの利用申請をします。 http://www.e-stat.go.jp/api/regist-login/ 2.APIを登録申請が完了すると「メールアドレス」と「パスワード」でログインが可能になります。 3.ログイン後、再度ログイン画面に行くと「利用者情報変更/削除」と「アプリケーションIDの取得」がおこなえる画面が表示されます。 利用者情報変更では、登録時に指定したデータを変更することができます。 4.appIDの発行を行う。 「アプリケーションIDの取得」画面で名称とURLを入力して、「発行」ボタンを押すとappIDが取得できます。 urlは存在しない場合は「http://localhost/」等を入力してください。 appIDは3個ま

                                                                          政府統計の総合窓口(e-Stat)のAPIを使ってみよう - Qiita
                                                                        • ベース・レジストリのパイロット事業における実証サイトの公開を開始しました|デジタル庁

                                                                          デジタル庁では、本日2022年4月22日(金)より、ベース・レジストリのパイロット事業として進めているレジストリカタログとアドレス・ベース・レジストリの実証サイトの公開を開始しました。 ベース・レジストリとは、公的機関等で登録・公開され、様々な場面で参照される、人、法人、土地、建物、資格等の社会の基本データであり、正確性や最新性が確保された社会の基盤となるデータベースです。(ベース・レジストリの詳細についてはベース・レジストリをご参照ください) 行政手続のワンスオンリーを実現するなど社会全体の効率性の向上を図るとともに、スマートシティ等の新しいサービスの創出を図るためには、マイナンバーや地理空間情報など社会全体の基盤となるデータを整備・活用することが必要です。 そこで、まずはベース・レジストリを、「公的機関等で登録・公開され、様々な場面で参照される、人、法人、土地、建物、資格等の社会の基本

                                                                            ベース・レジストリのパイロット事業における実証サイトの公開を開始しました|デジタル庁
                                                                          • litagin/moe-speech · Datasets at Hugging Face

                                                                            Not-For-All-Audiences This repository has been marked as containing sensitive content and may contain potentially harmful and sensitive information. View content

                                                                              litagin/moe-speech · Datasets at Hugging Face
                                                                            • Open Images Dataset:Googleによる膨大な画像データセット

                                                                              データセット「Open Images Dataset」について説明。物体検知用の境界ボックスや、セグメンテーション用のマスク、視覚的な関係性、Localized Narrativesといったアノテーションが施された、約900万枚と非常に膨大な数の画像データセット。その概要と使い方を紹介する。

                                                                                Open Images Dataset:Googleによる膨大な画像データセット
                                                                              • LLM のデータセットまとめ|npaka

                                                                                LLMのデータセットをまとめました。 1. 事前学習データセット1-1. Text・Wikipedia (ja) ・fujiki/wiki40b_ja ・shisa-pretrain-en-ja-v1 (ja) ・augmxnt/shisa-pretrain-en-ja-v1 ・Wikipedia (en) ・Wiki Demo (en) ・RefinedWeb (en) ・RedPajama V2 (en) ・Pile (en) ・SkyPile (zh) ・The Stack 2 (en) ・The Stack (en) ・StarCoder (en) 1-2. Code・The Stack 2 (en) ・The Stack (en) ・StarCoder (en) 2. SFTデータセット2-1. Instruction・ichikara-instruction (ja) ・ich

                                                                                  LLM のデータセットまとめ|npaka
                                                                                • Dataset Search:Googleによる「データセット検索」サイト

                                                                                  Dataset Searchは、2018年9月からグーグル(Google)が提供しているサイトの一つで、世界中からデータセットを検索できる(=ググれる)。「機械学習で利用するデータセットを手軽に探したい」という場合に、最初に実行してみるツールとして非常に有用である。通常のGoogle検索では、例えば「PyTorch cats dogs images classification」などのようなキーワードを入れて検索することになるだろうが、その結果、必ずしもデータセットのみがヒットするわけではない。それと比べると、データセットのみを効率的に表示してくれるので便利である。 データセット検索 例えば図1は、Dataset Searchで実際にデータセットを検索しようとしているところである。

                                                                                    Dataset Search:Googleによる「データセット検索」サイト