datasetの人気記事 34件 - はてなブックマーク

1 - 34 件 / 34件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

datasetの検索結果1 - 34 件 / 34件

無料で使える「住所マスターデータ」公開、表記統一や緯度経度への変換に活用可能　全国の町丁目レベル18万9540件の住所データを記録
- 1457 users
- internet.watch.impress.co.jp
- テクノロジー
- 2020/08/20
- 地図
- データ
- あとで読む
- 住所
- データベース
- 不動産
- map
- gis
- 開発
- data
無料 BGM・効果音のフリー音源素材 | Springin’ Sound Stock
- 1036 users
- www.springin.org
- アニメとゲーム
- 2022/06/23
無料 BGM・効果音のフリー音源素材誰でも報告不要で商用利用無料！今すぐ使える BGM・効果音 1,000点以上！動画制作やイベントにもちろんスプリンギンアプリでも利用可
- 素材
- 音楽
- フリー素材
- あとで読む
- sound
- プログラミング
- BGM
- 音源
- フリー
- 効果音
PLATEAU [プラトー] | 国土交通省が主導する、日本全国の3D都市モデルの整備・オープンデータ化プロジェクト
- 833 users
- www.mlit.go.jp
- テクノロジー
- 2020/12/22
3D都市モデルが実装されることで、未来はどのような展望を見せるのか。インタビューやレポートを通じて、多角的な視点で3D都市モデル、そしてPLATEAUのさまざまな可能性を読み解きます。
- 地図
- 3D
- あとで読む
- map
- webサービス
- 行政
- データ
- 国土交通省
- GIS
- web
個人情報テストデータジェネレーター
- 830 users
- testdata.userlocal.jp
- テクノロジー
- 2021/09/14
アプリケーションのテストなどで利用できる、リアルな架空の個人情報データ（疑似データ）を生成するツールです。
- テスト
- あとで読む
- データ
- ツール
- webサービス
- generator
- tool
- test
- ジェネレータ
- data
誰の声でも100人の声に変えられる声変換システム - Dwango Media Village(ドワンゴメディアヴィレッジ,dmv)
- 688 users
- dmv.nico
- テクノロジー
- 2020/09/14
著者の声を録画・録音して声を変換し元の映像と組み合わせてみた映像です。このときの変換元の音声は撮影用のスマートフォンで録音しており、部屋の残響が含まれるなど声が少し不鮮明になる収録環境ですが、それでもしっかり声変換できていることがわかると思います。概要 Dwango Media Villageの廣芝です。誰の声でも狙った複数の人の声に変えることができる声変換システムを開発し、実際に声を変えることができるデモページを公開しました。 (2022年5月 SeirenVoiceシリーズの製品化に伴いデモページは終了しました。) この記事では、声変換技術を研究開発する際に取り組んだ課題について紹介します。声の変換技術には、リアルタイム性と品質のトレードオフがあります。既存の声変換システムはリアルタイム性を重視する傾向がある一方、品質を重視したものはあまり見かけません。品質を優先した声変換
- 音声合成
- あとで読む
- 機械学習
- 技術
- 音声
- 学習
- technology
- システム
- データ
- deeplearning
デジタル庁のデータ分析基盤「sukuna」｜デジタル庁
- 625 users
- digital-gov.note.jp
- テクノロジー
- 2023/06/27
はじめまして。デジタル庁ファクト＆データユニット所属、データエンジニアの長谷川です。本記事ではデジタル庁内でデータ活用を推進するための組織と分析基盤についてご紹介します。これまでのデジタル庁noteと比べると、技術寄りの話題が多い記事となりますが、庁内のデータ活用に興味のある方はぜひご覧ください。デジタル庁のデータ活用組織「ファクト＆データユニット」ファクト＆データユニットとはデジタル庁の特徴の一つに、デジタル分野において各種の専門性をもつ「民間専門人材」が多く所属していることが挙げられます。民間の専門人材は、デザイン、プロダクトマネジメント、エンジニアリングなど、領域ごとに「ユニット」と呼ばれる組織を構成しており（参考：デジタル庁 - 組織情報）、必要に応じてさまざまなプロジェクトにアサインされて業務を遂行する、人材プールのような役割を果たしています。ファクト＆データユニットも
- データ
- あとで読む
- 統計
- GCP
- data
- 分析
- 行政
- cloud
- データ分析
- bigquery
Googleが大量の機械学習用データベースを無料公開してた - Qiita
- 597 users
- qiita.com/ulwlu
- テクノロジー
- 2021/08/31
個人用メモです。機械学習は素材集めがとても大変です。でもこの素材集め、実は無理してやらなくても、元から良質な無料データベースがあったようなのです。 URLはこちら YouTube8-M https://research.google.com/youtube8m/explore.html 提供されているサービスは以下の通り 800万個の動画 19億個のフレーム 4800個の分類使い方はExploreから画像セットを探し、ダウンロードするだけ。他の方法も見つけた open images dataset 「すごい神だな」と思ったのはこれもう完成されてますよねもちろんこの認識前の画像もセットでダウンロードできます。 Youtube-８Mとは、画像数を取るか、精度で取るか、という違いでしょうか。他にも良い素材集を教えていただきました（はてなブックマーク情報 @sek_165 さん）
- 機械学習
- あとで読む
- google
- データベース
- 学習
- 素材
- youtube
- 無料
- ML
- データセット
バンナム、約42万フレーム分のモーションデータ無償公開　歩行、格闘、ダンスなど　研究用に
- 535 users
- www.itmedia.co.jp
- テクノロジー
- 2022/04/28
ライセンスは「CC BY-NC-ND 4.0」で、利用の際にクレジットを表示すること、非営利でのみ利用すること、内容を改変しないことを求めている。バンダイナムコは、メタバースやXR技術が広まる中、コンテンツ規模が拡大すると従来のモーション制作過程では限界を迎えると予想。AIを活用したキャラクターのモーションを生成する研究を行っている。一方、AIによるモーション研究はデータセットの入手が難しいため研究開発が進んでいないとして、自社で使っているデータの一部を提供することにしたという。関連記事実在しない顔の画像3000点を無償配布、AI学習用データセットに　法人向け・商用利用可 AI活用のコンサルティング事業を手掛けるAPTOなど2社が、AIの学習データとして利用できる、実在しない男女の顔写真3000枚の無償配布を始めた。法人を対象に11月30日までの期間限定で提供し、商用利用も認める。
- 3DCG
- あとで読む
- 素材
- 3D
- データ
- AI
- 研究
- 開発
- モーション
- game
無料で10万点以上のパリの美術作品がダウンロード可能に、商用利用・修正・再頒布もOK
- 534 users
- gigazine.net
- 学び
- 2020/01/10
パリ市立近代美術館などが収蔵する多数の美術品を所管する公共団体Paris Muséesが、10万点以上の美術コレクションの画像を無料かつ自由に利用・修正・再頒布可能なオープンコンテントとしてインターネットに公開しました。 Les collections en ligne des musées de la Ville de Paris http://parismuseescollections.paris.fr/fr Open content : plus de 100 000 œuvres des collections des musées de la Ville de Paris en libre accès | Paris Musées http://www.parismusees.paris.fr/fr/actualite/open-content-plus-de-100-000-
- 素材
- 美術
- ダウンロード
- あとで読む
- 無料
- 芸術
- art
- gigazine
- 画像
- 美術館
APIキーもログインも不要！完全無料で使える天気予報API「Open-Meteo」を使ってみた！ - paiza times
- 411 users
- paiza.hatenablog.com
- テクノロジー
- 2021/11/04
どうも、まさとらん（@0310lan）です！今回は、誰でも無料で使える天気予報APIを提供してくれるWebサービスをご紹介します！面倒なユーザー登録やAPIキーの設定などが不要で、欲しい天気情報のパラメータを含めたURLを好きなように構成するだけで簡単にJavaScriptから制御できるのが特徴です。日本はもちろん、世界中の詳細な天気情報を取得できるのでご興味ある方はぜひ参考にしてみてください！【 Open-Meteo 】 ■「Open-Meteo」の使い方それでは、「Open-Meteo」をどのように使えばいいのか詳しく見ていきましょう！「Open-Meteo」が提供する天気予報APIを利用するにあたり、何か特別な登録や申請は必要ありません。もっと言えば、ユーザー登録も不要でAPIキーもありません。非営利プロジェクトであれば誰でも自由に使うことが可能で、以下のエンドポイント
- API
- あとで読む
- webサービス
- 天気
- 開発
- javascript
- プログラミング
- weather
- グラフ
- JSON
あなたがまだ使っていないかもしれないHTML5の便利機能10選 - Qiita
- 389 users
- qiita.com/kanye__east
- テクノロジー
- 2020/09/22
こんにちは、たかとーです🧑‍🎤 こちらは、10 useful HTML5 features, you may not be usingの翻訳記事になります。当記事は、Tapasさんの許可を得て翻訳しています。Tweet 10 useful HTML5 features, you may not be using HTML5は新しいものではありません。最初のリリース（2008年1月）以来いくつかの機能を使用してきました。100DaysOfCodeの取り組みの一環として、HTML5の機能リストをもう一度よく見てみました。何か見つけたかな？私は今のところあまり使っていません。この記事では、過去にあまり使ったことがなかったが、今では便利になったHTML5の機能を10個挙げています。また、Netlifyでホストされている、実際に動作する例を作成しました。参考になることを願っています。 htt
- html5
- html
- あとで読む
- web制作
- qiita
- css
- 便利
- javascript
- コンテンツ
- web
スマートニュース、国会議案データベースを無償公開　過去20年分をGitHubで
- 373 users
- www.itmedia.co.jp
- テクノロジー
- 2022/07/01
スマートニュースは7月1日、国会の過去20年分以上の議案データ約1万8000件を収集・整理し、オープンデータ化した国会議案のデータベースを、GitHubで無償公開（衆議院、参議院）した。GitHubを利用しない人向けに、閲覧用のWebページ（衆議院、参議院）も公開した。国会で審議された法案や予算案、条約、決議案といった議案は、衆参両議院のWebサイトに掲載されている。提出者や審議された委員会、賛成・反対した政党（衆院のみ）などの情報も確認できるが、国会の回次ごと、また議案ごとにページが分かれているため、集計や検索、一覧が難しかった。今回、同社の「メディア研究所」が、各議案のページに掲載されている情報を収集、整理し、CSVファイルとJSONファイル形式で公開。MITライセンスに準拠し、商用・非商用を問わずオープンデータとして誰でも無償で使えるようした。主に報道機関や研究者に、選挙報道や
- データベース
- あとで読む
- 政治
- github
- メディア
- データ
- web
- 選挙
- オープンデータ
- 国会
ダミーデータ作成のお供に！ VS Code 拡張機能「vscode-random」で人名やカラーコードなどを自動生成してもらおう！ | DevelopersIO
- 339 users
- dev.classmethod.jp
- テクノロジー
- 2020/10/15
はじめにダミーデータを作成しなければならないときってありますよね？テストデータやサンプル画面を作るときに値をどうするか困ったことありませんか？そういった悩みを VS Code で解決するための拡張機能が vscode-random です。 https://marketplace.visualstudio.com/items?itemName=jrebocho.vscode-random デモ（GitHub リポジトリより引用）拡張機能としてはカーソル位置にランダムな値を挿入するという単純なものなのですが、VS Code のマルチカーソル機能と組み合わせることで非常に強力な体験を得ることができます。名前やメールアドレスの項目がある JSON や YAML に対し、複数の項目にまとめて値を挿入して作り上げるのは気持ちいいこと間違いなし！対応コマンドコマンド説明生成例
- vscode
- あとで読む
- データ
- テスト
- コード
- dummy
- プログラミング
- 拡張
- ダミーデータ
- code
OCR処理プログラム及び学習用データセットの公開について | NDLラボ
- 309 users
- lab.ndl.go.jp
- テクノロジー
- 2022/04/25
2022年04月25日 NDLラボのGitHubから、次の2件を公開しました。ライセンスや詳細については、各リポジトリのREADMEをご参照ください。 NDLOCR 国立国会図書館（以下、「当館」とします。）が令和3年度に株式会社モルフォAIソリューションズに委託して実施したOCR処理プログラムの研究開発事業の成果である、日本語のOCR処理プログラムです。このプログラムは、国立国会図書館がCC BY 4.0ライセンスで公開するものです。なお、既存のライブラリ等を利用している部分については寛容型オープンライセンスのものを採用しているため、商用非商用を問わず自由な改変、利用が可能です。機能ごとに7つのリポジトリに分かれていますが、下記リポジトリの手順に従うことで、Dockerコンテナとして構築・利用することができます。リポジトリ : https://github.com/ndl-lab/
- OCR
- あとで読む
- github
- 勉強
- 学習
- 資料
- 機械学習
- 図書館
- python
- AI
Geolonia 住所データ
- 231 users
- geolonia.github.io
- テクノロジー
- 2020/08/05
Skip to the content. Geolonia 住所データ全国の町丁目、大字、小字レベルの住所データ（277,543件）をオープンデータとして公開いたします。本データは、国土交通省位置参照情報ダウンロードサービスで配布されている「大字・町丁目レベル位置参照情報」をベースとしていますが、「大字・町丁目レベル位置参照情報」データは年に一回更新であるのに対して、本リポジトリで配布するデータは毎月更新しています。 latest.csvをダウンロード latest.dbをダウンロードリリースノート住所データ仕様ファイルフォーマット latest.csv: CSV latest.db: SQLite3で読み込めるバイナリ形式列都道府県コード都道府県名都道府県名カナ都道府県名ローマ字市区町村コード市区町村名市区町村名カナ市区町村名ローマ字大字町丁目名大字町丁目
- data
- データ
- GIS
- opendata
- 地図
- oss
- development
- address
- webサービス
- 不動産
図書館オープンデータを使って図書館データポータルサイトを作りました - Qiita
- 225 users
- qiita.com/uedayou
- テクノロジー
- 2021/09/12
国立国会図書館では、さまざまなオープンデータが公開されています。その中に「図書館及び関連組織のための国際標準識別子（ISIL）」試行版LODがあります。これは、日本全国の図書館に関する情報が網羅的にまとめられているRDFデータとなります。提供されているデータはXMLファイルなので個別にデータを取得するためにはプログラムなどで処理する必要があるので、Webブラウザで各データを見やすく提供するWebサイト「図書館施設データポータル」を作成しました。ここでは、図書館施設データポータルを紹介します。図書館及び関連組織のための国際標準識別子（ISIL）」試行版LOD とは元データは、「図書館及び関連組織のための国際標準識別子（ISIL）」という図書館等につけられる国際的な識別子で、国立国会図書館では、このISILが付与される図書館の情報をオープンデータ(XMLファイルのRDFデータ)
rinna社、日本語に特化したGPT-2の大規模言語モデルを開発しオープンソース化
- 188 users
- prtimes.jp
- テクノロジー
- 2021/04/07
rinna株式会社（本社：東京都渋谷区/代表取締役：ジャン“クリフ”チェン、以下rinna社）は、日本語に特化したGPT-2の大規模言語モデルを構築し、オープンソースとして公開しました。 ■背景 rinna社は、MicrosoftのAI＆リサーチ部門でAIチャットボットの研究を行っていたチームがスピンアウトして2020年6月に設立したAI開発企業です。ディープラーニング技術を活用し、AIが文脈に応じた会話文を自動生成して人間と自然に会話する「共感チャットモデル」、AIが話し声や歌声で豊かな感情表現を可能にする「音声合成システム」などの技術を発表してきました。これらの最新技術は、当社が運営するAIチャットボット「りんな」や、会話内容や音声表現をカスタマイズしてキャラクター性を持たせたAIチャットボットである「AIキャラクター」の開発に応用され、企業のマーケティングなどにお使いいただいています
- 自然言語処理
- あとで読む
- AI
- 機械学習
- GPT-2
- 開発
- 日本語
- 言語
- nlp
- 研究
Wikipediaの前処理はもうやめて「Wiki-40B」を使う - Ahogrammer
- 177 users
- hironsan.hatenablog.com
- テクノロジー
- 2020/09/26
最近の自然言語処理では、大規模なテキストから単語の分散表現や言語モデルを学習させて使っています。学習する際のテキストとしては、分量や利用しやすさの都合からWikipediaが選ばれることが多いですが、その前処理は意外と面倒で時間のかかる作業です。そこで、本記事では比較的最近リリースされた前処理済みのデータセット「Wiki-40B」とその使い方を紹介します。 Wiki-40Bとは？ Wiki-40Bは、40言語以上のWikipediaを前処理して作られたデータセットです。このデータセットは言語ごとに学習/検証/テスト用に分かれているので、単語分散表現や言語モデルの学習・評価に使えます。言語ごとの対応状況については、以下のページを参照するとよいでしょう。 wiki40b | TensorFlow Datasets 前処理としては、大きくは以下の2つに分けられます。ページのフィルタリングペー
公開されている日本の企業名辞書の紹介 - MNTSQ Techブログ
- 129 users
- tech.mntsq.co.jp
- テクノロジー
- 2021/04/28
特許・契約書・有価証券報告書・企業関連ニュースなど、実応用上の自然言語処理では、会社名を認識したいという場面に非常に多く出くわす。会社名らしい文字列をテキストから抽出することは、形態素解析器の辞書を用いたり固有表現抽出モデルを学習することである程度実現される一方で、抽出した会社名をレコード化して分析などに用いる際には、いわゆる名寄せの問題が発生する。自然言語処理における名寄せに似た問題は、エンティティリンキングや共参照解析といったアプローチで探求されており、実応用上は前者のアプローチが採られることが多い印象がある。*1 名寄せタスクをエンティティリンキング的に解くためには、帰着先の知識ベース・辞書が予め存在していることが必要だが、研究の文脈では知識ベースとしてWikipediaが採用されることが多い。 Wikipediaを用いる利点は多くあり、様々なエンティティ種に対してそこそこのカバ
- database
- あとで読む
- 企業
- データ
- dictionary
- NLP
- 会社
- programming
- データベース
【保存版】オープンデータ・データセット100選 -膨大なデータを活用しよう！ | AI専門ニュースメディア AINOW
- 127 users
- ainow.ai
- テクノロジー
- 2020/03/02
最終更新日： 2020年3月4日 AIの高まりとともにデータの大切さが再認識される今、オープンにさまざまなデータが公開され、気軽に活用できるようになっています。オープンデータの存在は、膨大なデータから学習を行う機械学習にとって不可欠で、構築したいAIに合わせてオープンデータを選択し、活用することが必要です。一方、オープンデータのみでは競合優位性のあるAIは構築できません。マクロなオープンデータと、独自に収集したミクロなデータを組み合わせて、独自のAIを構築していくことが重要です。オープンデータを活用したサービスを構築する際には、サービスのUX（ユーザー体験）を高め、いかにユニークなデータを取得できるかが勝負なのでオープンデータに頼りすぎないようにしましょう。今回、オープンデータ・データセットを6カテゴリに分類し、100個選出しました。自身のサービスやAIの構築に活かせそうなデータを
日本語形態素解析器 MeCab を Python から利用する際の語彙データ（UniDic）が AWS 上で Open Data として公開されました | Amazon Web Services
- 102 users
- aws.amazon.com
- テクノロジー
- 2020/10/09
Amazon Web Services ブログ日本語形態素解析器 MeCab を Python から利用する際の語彙データ（UniDic）が AWS 上で Open Data として公開されました多くの機械学習デベロッパーの方々が、AWS 上でさまざまなアルゴリズムの開発やモデルの構築を行なっています。中でも自然言語処理を行う際には、対象言語の特性に即した形で前処理を行う必要があります。日本語の自然言語処理を実施する際には、形態素解析と呼ばれる文章の分解処理を前位処理として一般的に行います。日本語形態素解析を行うためには、日本語の語彙データが必要となりますが、このデータは通常 GB 以上のサイズに及ぶ大きなサイズとなります。またこれらを用いた計算の際にも大量の GPU および CPU を必要とするため、従来こうしたモデルを構築する際には常にストレージおよびコンピューティングのリソースの
- aws
- mecab
- python
- 形態素解析
- 自然言語処理
- あとで読む
- nlp
- データ
- amazon
GPT-3の学習データはどのように作られたか - moriyamaのエンジニアリング備忘録
- 99 users
- nmoriyama.hatenablog.com
- テクノロジー
- 2020/10/09
OpenAIが発表した言語モデルGPT-3はパフォーマンスの高さから各方面で注目されており、ついにはMicrosoftが学習済みモデルの利用を独占化しました。私個人の所感としてこれまで学習済みモデルは無料公開するという流れを無視し、（アーキテクチャではなく）学習済みモデルが商品化するのはAIビジネスの一つの転換期と感じています。深層学習による自然言語処理分野で巨大化していくモデルを十分に学習させるためにはWebデータの活用が大きな役割を果たしています。一方、その量に関する話題はあるものの、利用にあたっての細かな前処理に関する議論はあまりなされていない印象です。そこで本記事は学習データの構築にフォーカスします。 GPT-3の論文でも言及されている通り、学習データはGoogle Researchが発表したT5のデータを踏襲したと書かれていますので、まずはT5のデータから見て行きましょう。
- 機械学習
- GPT-3
- NLP
- あとで読む
- AI
- machineLearning
TechCrunch | Startup and Technology News
- 90 users
- jp.techcrunch.com
- テクノロジー
- 2020/08/05
Line Man Wongnai, an on-demand food delivery service in Thailand, is considering an initial public offering on a Thai exchange or the U.S. in 2025.
- open data
- 不動産
- map
- あとで読む
- 住所
- 統計
- 地図
- データ
- Dataset
- japan
PyTorch／TensorFlow／Keras／scikit-learnライブラリ内蔵のデータセット一覧
- 85 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2020/07/22
PyTorch／TensorFlow／Keras／scikit-learnライブラリ内蔵のデータセット一覧：AI・機械学習のデータセット辞典機械学習やディープラーニング用の主要ライブラリが提供する「画像／音声／テキストなどのデータセット」の名前とリンクを表にまとめ、典型的な使い方を簡単に紹介する。連載目次本連載「AI・機械学習のデータセット辞典」では、ここまで主に、scikit-learnやKeras／TensorFlow（tf.keras）、TensorFlow Datasets、PyTorchといった主要なPythonライブラリに共通的に含まれる代表的なデータセットを紹介し、各ライブラリでの典型的な実装コード例を示してきた。しかし、これらの全ライブラリに共通的に含まれているデータセットはまれで非常に少ない。よってこれからは、個々のライブラリに1つしか含まれていないようなこまごまと
- データセット
- TensorFlow
- ライブラリ
- PyTorch
- 機械学習
- 学習
- あとで読む
- AI
- scikit-learn
- Keras
GitHub - nocodb/nocodb: 🔥 🔥 🔥 Open Source Airtable Alternative
- 78 users
- github.com/nocodb
- テクノロジー
- 2021/05/28
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- Airtable
- database
- oss
- no code
- あとで読む
- Alternative
- db
- github
- OpenSource
Googleが自然言語処理の弱点「言い換え」を克服するデータセットを公開
- 73 users
- gigazine.net
- テクノロジー
- 2019/10/04
by Nicole Honeywill 自然言語処理のアルゴリズムは言葉の順序や構造の理解を不得意としてきました。この課題を克服すべく、Googleが新たにデータセットを公開。このデータセットで訓練を行うと、機械学習モデルのテキスト分類精度が50％から80％にまで向上するとのことです。 Google AI Blog: Releasing PAWS and PAWS-X: Two New Datasets to Improve Natural Language Understanding Models https://ai.googleblog.com/2019/10/releasing-paws-and-paws-x-two-new.html Googleは機械翻訳や音声認識で自然言語処理を取り入れていますが、自然言語処理では最先端のアルゴリズムでも「ニューヨークからフロリダへのフライト」
ReazonSpeech - Reazon Human Interaction Lab
- 71 users
- research.reazon.jp
- テクノロジー
- 2023/01/19
ReazonSpeech¶ ReazonSpeechは、世界最大のオープン日本語音声コーパスを構築するプロジェクトです。日本語音声技術の推進を目的として、35,000時間の日本語音声コーパスを公開しています。音声認識モデル・コーパス作成ライブラリをオープンソースライセンスで配布しています。
- AI
- speech
- 機械学習
- voice
- japanese
- 日本語
- 音声認識
- 学習
18～19世紀の新聞データ100万ページを英国企業が無償公開　商用利用は条件付きで可
- 65 users
- www.itmedia.co.jp
- 学び
- 2021/08/12
大英博物館と協力して古い新聞をデータ化し、サブスクリプション形式で提供している英Findmypast Newspaper Archiveは8月9日（現地時間）、18～19世紀に刊行された新聞約100万ページのデータを無償公開した。同社が許可すれば商用利用も可能という。非営利の場合は、著作権表示と参照元を明記すれば利用を認める。提供するのは、大英博物館が保存する1720～1880年にかけて刊行された150紙のデータ。新聞のタイトルは、ジャマイカの政治動向を報じる「Royal Gazette of Jamaica」、英国で初めてカラーイラストを採用した「Colored News」など。ユーザーはFindmypast Newspaper Archiveが提供するサブスクリプションサービス「The British Newspaper Archive」のアカウントを作成すれば閲覧できる。無償で閲
Papers with Code - Machine Learning Datasets
- 65 users
- paperswithcode.com
- 学び
- 2021/02/03
CIFAR-10 (Canadian Institute for Advanced Research, 10 classes) The CIFAR-10 dataset (Canadian Institute for Advanced Research, 10 classes) is a subset of the Tiny Images dataset and consists of 60000 32x32 color images. The images are labelled with one of 10 mutually exclusive classes: airplane, automobile (but not truck or pickup truck), bird, cat, deer, dog, frog, horse, ship, and truck (but no
コロナ対策で政府がオープンデータに本腰　民間の支援情報をGoogleスプレッドシートで公開
- 65 users
- www.itmedia.co.jp
- テクノロジー
- 2020/03/10
新型コロナウイルス感染症の拡大を受け、政府や自治体によるオープンデータの公開や活用が活発化している。内閣官房と総務省、経済産業省は3月10日、民間が提供している新型コロナ対策支援サービスなどのデータを標準化して公開する「#民間支援情報ナビ」プロジェクトを、エンジニアの民間団体Code for Japanと共同で始めた。自宅学習用のオンライン教材無償提供など、民間の支援サービスをGoogleスプレッドシートに集約。誰でもアクセス・利用できる。このデータの活用例として、収録データを検索できるサイト「VS COVID-19 #民間支援情報ナビ」をCode for Japanが公開した。政府は、公開したデータを使ったさまざまなアプリ開発を奨励していく他、新型ウイルス対応に関する政府の事業者支援情報についても、検索しやすい情報サイトを作る予定だ。 #民間支援情報ナビは、標準のデータフォーマット
- opendata
- 行政
- あとで読む
- ITmedia
- dataset
- clip
- COVID-19
- 健康
3DDB Viewer の公開について | 研究チーム | 人工知能研究センター
- 60 users
- www.airc.aist.go.jp
- テクノロジー
- 2020/08/12
近年、社会活動や企業活動の一部として世界的に三次元データの利用が拡大しており、多種多様なデータを容易に検索/閲覧できるシステムが、データの提供者と利用者の双方から求められています。3DDB Viewer は、産総研の3Dデータベース用に開発された Web ユーザインタフェースで、様々な三次元データ（点群／メッシュ／構造物等）を検索／表示／ダウンロードすることができます。マニュアルはこちら。
GitHub - japan-opendata/awesome-japan-opendata: Awesome Japan Open Data - 日本のオープンデータ情報一覧・まとめ
- 59 users
- github.com/japan-opendata
- テクノロジー
- 2024/02/27
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- github
- 情報
- オープンデータ
- 資料
- あとで読む
- 日本
- API
無償入手可能な音声コーパス／音声データベースの一覧 - Qiita
- 57 users
- qiita.com/nakakq
- テクノロジー
- 2021/09/08
無償かつ入手しやすい音声データセットをメモしています。ライセンス・利用規約は「商用利用可能」「研究用途のみ」ともに紹介します。コーパスを探すときに有用なサイトコーパス配布元サイト音声資源コンソーシアム : 日本語コーパスが豊富、無償または有償で利用可能緩いライセンスのコーパスでなくても良いときはここ自発的発話の日本語音声コーパスはだいたいここにある入手は要申請所属や責任者を記入する必要があるため、研究者や企業でないと厳しい？（この記事では音声資源コンソーシアムのコーパスは未掲載） Shinnosuke Takamichi: コーパス一覧 : 日本語中心。高道先生が携わっている音声コーパス大量の日本語音声コーパスが配布されている音声合成のコーパスをつくろう (Slideshare) : 2021年6月時点の音声コーパス事情あなたにどうしても伝えたい30の音声コーパス
アクティブに更新され続けている、お勧めの機械学習データセット一覧サイト
- 51 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2020/08/05
アクティブに更新され続けている、お勧めの機械学習データセット一覧サイト：AI・機械学習のデータセット辞典「300個以上のデータセットを紹介している大型サイト」「毎週／毎月のようにアクティブに更新されているサイト」という条件に該当するお勧めのデータセット一覧サイトとして「arXivTimes/DataSets」「Awesome Public Datasets」「UCI Machine Learning Repository」の3つを紹介する。