datasetの人気記事 21件 - はてなブックマーク

1 - 21 件 / 21件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

datasetの検索結果1 - 21 件 / 21件

無料で使える「住所マスターデータ」公開、表記統一や緯度経度への変換に活用可能　全国の町丁目レベル18万9540件の住所データを記録
- 1457 users
- internet.watch.impress.co.jp
- テクノロジー
- 2020/08/20
- 地図
- データ
- あとで読む
- 住所
- データベース
- 不動産
- map
- gis
- 開発
- data
無料 BGM・効果音のフリー音源素材 | Springin’ Sound Stock
- 1036 users
- www.springin.org
- アニメとゲーム
- 2022/06/23
無料 BGM・効果音のフリー音源素材誰でも報告不要で商用利用無料！今すぐ使える BGM・効果音 1,000点以上！動画制作やイベントにもちろんスプリンギンアプリでも利用可
- 素材
- 音楽
- フリー素材
- あとで読む
- sound
- プログラミング
- BGM
- 音源
- フリー
- 効果音
PLATEAU [プラトー] | 国土交通省が主導する、日本全国の3D都市モデルの整備・オープンデータ化プロジェクト
- 833 users
- www.mlit.go.jp
- テクノロジー
- 2020/12/22
3D都市モデルが実装されることで、未来はどのような展望を見せるのか。インタビューやレポートを通じて、多角的な視点で3D都市モデル、そしてPLATEAUのさまざまな可能性を読み解きます。
- 地図
- 3D
- あとで読む
- map
- webサービス
- 行政
- データ
- 国土交通省
- GIS
- web
個人情報テストデータジェネレーター
- 830 users
- testdata.userlocal.jp
- テクノロジー
- 2021/09/14
アプリケーションのテストなどで利用できる、リアルな架空の個人情報データ（疑似データ）を生成するツールです。
- テスト
- あとで読む
- データ
- ツール
- webサービス
- generator
- tool
- test
- ジェネレータ
- data
誰の声でも100人の声に変えられる声変換システム - Dwango Media Village(ドワンゴメディアヴィレッジ,dmv)
- 688 users
- dmv.nico
- テクノロジー
- 2020/09/14
著者の声を録画・録音して声を変換し元の映像と組み合わせてみた映像です。このときの変換元の音声は撮影用のスマートフォンで録音しており、部屋の残響が含まれるなど声が少し不鮮明になる収録環境ですが、それでもしっかり声変換できていることがわかると思います。概要 Dwango Media Villageの廣芝です。誰の声でも狙った複数の人の声に変えることができる声変換システムを開発し、実際に声を変えることができるデモページを公開しました。 (2022年5月 SeirenVoiceシリーズの製品化に伴いデモページは終了しました。) この記事では、声変換技術を研究開発する際に取り組んだ課題について紹介します。声の変換技術には、リアルタイム性と品質のトレードオフがあります。既存の声変換システムはリアルタイム性を重視する傾向がある一方、品質を重視したものはあまり見かけません。品質を優先した声変換
- 音声合成
- あとで読む
- 機械学習
- 技術
- 音声
- 学習
- technology
- システム
- データ
- deeplearning
デジタル庁のデータ分析基盤「sukuna」｜デジタル庁
- 625 users
- digital-gov.note.jp
- テクノロジー
- 2023/06/27
はじめまして。デジタル庁ファクト＆データユニット所属、データエンジニアの長谷川です。本記事ではデジタル庁内でデータ活用を推進するための組織と分析基盤についてご紹介します。これまでのデジタル庁noteと比べると、技術寄りの話題が多い記事となりますが、庁内のデータ活用に興味のある方はぜひご覧ください。デジタル庁のデータ活用組織「ファクト＆データユニット」ファクト＆データユニットとはデジタル庁の特徴の一つに、デジタル分野において各種の専門性をもつ「民間専門人材」が多く所属していることが挙げられます。民間の専門人材は、デザイン、プロダクトマネジメント、エンジニアリングなど、領域ごとに「ユニット」と呼ばれる組織を構成しており（参考：デジタル庁 - 組織情報）、必要に応じてさまざまなプロジェクトにアサインされて業務を遂行する、人材プールのような役割を果たしています。ファクト＆データユニットも
- データ
- あとで読む
- 統計
- GCP
- data
- 分析
- 行政
- cloud
- データ分析
- bigquery
Googleが大量の機械学習用データベースを無料公開してた - Qiita
- 597 users
- qiita.com/ulwlu
- テクノロジー
- 2021/08/31
個人用メモです。機械学習は素材集めがとても大変です。でもこの素材集め、実は無理してやらなくても、元から良質な無料データベースがあったようなのです。 URLはこちら YouTube8-M https://research.google.com/youtube8m/explore.html 提供されているサービスは以下の通り 800万個の動画 19億個のフレーム 4800個の分類使い方はExploreから画像セットを探し、ダウンロードするだけ。他の方法も見つけた open images dataset 「すごい神だな」と思ったのはこれもう完成されてますよねもちろんこの認識前の画像もセットでダウンロードできます。 Youtube-８Mとは、画像数を取るか、精度で取るか、という違いでしょうか。他にも良い素材集を教えていただきました（はてなブックマーク情報 @sek_165 さん）
- 機械学習
- あとで読む
- google
- データベース
- 学習
- 素材
- youtube
- 無料
- ML
- データセット
バンナム、約42万フレーム分のモーションデータ無償公開　歩行、格闘、ダンスなど　研究用に
- 535 users
- www.itmedia.co.jp
- テクノロジー
- 2022/04/28
ライセンスは「CC BY-NC-ND 4.0」で、利用の際にクレジットを表示すること、非営利でのみ利用すること、内容を改変しないことを求めている。バンダイナムコは、メタバースやXR技術が広まる中、コンテンツ規模が拡大すると従来のモーション制作過程では限界を迎えると予想。AIを活用したキャラクターのモーションを生成する研究を行っている。一方、AIによるモーション研究はデータセットの入手が難しいため研究開発が進んでいないとして、自社で使っているデータの一部を提供することにしたという。関連記事実在しない顔の画像3000点を無償配布、AI学習用データセットに　法人向け・商用利用可 AI活用のコンサルティング事業を手掛けるAPTOなど2社が、AIの学習データとして利用できる、実在しない男女の顔写真3000枚の無償配布を始めた。法人を対象に11月30日までの期間限定で提供し、商用利用も認める。
- 3DCG
- あとで読む
- 素材
- 3D
- データ
- AI
- 研究
- 開発
- モーション
- game
無料で10万点以上のパリの美術作品がダウンロード可能に、商用利用・修正・再頒布もOK
- 534 users
- gigazine.net
- 学び
- 2020/01/10
パリ市立近代美術館などが収蔵する多数の美術品を所管する公共団体Paris Muséesが、10万点以上の美術コレクションの画像を無料かつ自由に利用・修正・再頒布可能なオープンコンテントとしてインターネットに公開しました。 Les collections en ligne des musées de la Ville de Paris http://parismuseescollections.paris.fr/fr Open content : plus de 100 000 œuvres des collections des musées de la Ville de Paris en libre accès | Paris Musées http://www.parismusees.paris.fr/fr/actualite/open-content-plus-de-100-000-
- 素材
- 美術
- ダウンロード
- あとで読む
- 無料
- 芸術
- art
- gigazine
- 画像
- 美術館
APIキーもログインも不要！完全無料で使える天気予報API「Open-Meteo」を使ってみた！ - paiza times
- 411 users
- paiza.hatenablog.com
- テクノロジー
- 2021/11/04
どうも、まさとらん（@0310lan）です！今回は、誰でも無料で使える天気予報APIを提供してくれるWebサービスをご紹介します！面倒なユーザー登録やAPIキーの設定などが不要で、欲しい天気情報のパラメータを含めたURLを好きなように構成するだけで簡単にJavaScriptから制御できるのが特徴です。日本はもちろん、世界中の詳細な天気情報を取得できるのでご興味ある方はぜひ参考にしてみてください！【 Open-Meteo 】 ■「Open-Meteo」の使い方それでは、「Open-Meteo」をどのように使えばいいのか詳しく見ていきましょう！「Open-Meteo」が提供する天気予報APIを利用するにあたり、何か特別な登録や申請は必要ありません。もっと言えば、ユーザー登録も不要でAPIキーもありません。非営利プロジェクトであれば誰でも自由に使うことが可能で、以下のエンドポイント
- API
- あとで読む
- webサービス
- 天気
- 開発
- javascript
- プログラミング
- weather
- グラフ
- JSON
あなたがまだ使っていないかもしれないHTML5の便利機能10選 - Qiita
- 389 users
- qiita.com/kanye__east
- テクノロジー
- 2020/09/22
こんにちは、たかとーです🧑‍🎤 こちらは、10 useful HTML5 features, you may not be usingの翻訳記事になります。当記事は、Tapasさんの許可を得て翻訳しています。Tweet 10 useful HTML5 features, you may not be using HTML5は新しいものではありません。最初のリリース（2008年1月）以来いくつかの機能を使用してきました。100DaysOfCodeの取り組みの一環として、HTML5の機能リストをもう一度よく見てみました。何か見つけたかな？私は今のところあまり使っていません。この記事では、過去にあまり使ったことがなかったが、今では便利になったHTML5の機能を10個挙げています。また、Netlifyでホストされている、実際に動作する例を作成しました。参考になることを願っています。 htt
- html5
- html
- あとで読む
- web制作
- qiita
- css
- 便利
- javascript
- コンテンツ
- web
スマートニュース、国会議案データベースを無償公開　過去20年分をGitHubで
- 373 users
- www.itmedia.co.jp
- テクノロジー
- 2022/07/01
スマートニュースは7月1日、国会の過去20年分以上の議案データ約1万8000件を収集・整理し、オープンデータ化した国会議案のデータベースを、GitHubで無償公開（衆議院、参議院）した。GitHubを利用しない人向けに、閲覧用のWebページ（衆議院、参議院）も公開した。国会で審議された法案や予算案、条約、決議案といった議案は、衆参両議院のWebサイトに掲載されている。提出者や審議された委員会、賛成・反対した政党（衆院のみ）などの情報も確認できるが、国会の回次ごと、また議案ごとにページが分かれているため、集計や検索、一覧が難しかった。今回、同社の「メディア研究所」が、各議案のページに掲載されている情報を収集、整理し、CSVファイルとJSONファイル形式で公開。MITライセンスに準拠し、商用・非商用を問わずオープンデータとして誰でも無償で使えるようした。主に報道機関や研究者に、選挙報道や
- データベース
- あとで読む
- 政治
- github
- メディア
- データ
- web
- 選挙
- オープンデータ
- 国会
ダミーデータ作成のお供に！ VS Code 拡張機能「vscode-random」で人名やカラーコードなどを自動生成してもらおう！ | DevelopersIO
- 339 users
- dev.classmethod.jp
- テクノロジー
- 2020/10/15
はじめにダミーデータを作成しなければならないときってありますよね？テストデータやサンプル画面を作るときに値をどうするか困ったことありませんか？そういった悩みを VS Code で解決するための拡張機能が vscode-random です。 https://marketplace.visualstudio.com/items?itemName=jrebocho.vscode-random デモ（GitHub リポジトリより引用）拡張機能としてはカーソル位置にランダムな値を挿入するという単純なものなのですが、VS Code のマルチカーソル機能と組み合わせることで非常に強力な体験を得ることができます。名前やメールアドレスの項目がある JSON や YAML に対し、複数の項目にまとめて値を挿入して作り上げるのは気持ちいいこと間違いなし！対応コマンドコマンド説明生成例
- vscode
- あとで読む
- データ
- テスト
- コード
- dummy
- プログラミング
- 拡張
- ダミーデータ
- code
OCR処理プログラム及び学習用データセットの公開について | NDLラボ
- 309 users
- lab.ndl.go.jp
- テクノロジー
- 2022/04/25
2022年04月25日 NDLラボのGitHubから、次の2件を公開しました。ライセンスや詳細については、各リポジトリのREADMEをご参照ください。 NDLOCR 国立国会図書館（以下、「当館」とします。）が令和3年度に株式会社モルフォAIソリューションズに委託して実施したOCR処理プログラムの研究開発事業の成果である、日本語のOCR処理プログラムです。このプログラムは、国立国会図書館がCC BY 4.0ライセンスで公開するものです。なお、既存のライブラリ等を利用している部分については寛容型オープンライセンスのものを採用しているため、商用非商用を問わず自由な改変、利用が可能です。機能ごとに7つのリポジトリに分かれていますが、下記リポジトリの手順に従うことで、Dockerコンテナとして構築・利用することができます。リポジトリ : https://github.com/ndl-lab/
- OCR
- あとで読む
- github
- 勉強
- 学習
- 資料
- 機械学習
- 図書館
- python
- AI
Geolonia 住所データ
- 231 users
- geolonia.github.io
- テクノロジー
- 2020/08/05
Skip to the content. Geolonia 住所データ全国の町丁目、大字、小字レベルの住所データ（277,543件）をオープンデータとして公開いたします。本データは、国土交通省位置参照情報ダウンロードサービスで配布されている「大字・町丁目レベル位置参照情報」をベースとしていますが、「大字・町丁目レベル位置参照情報」データは年に一回更新であるのに対して、本リポジトリで配布するデータは毎月更新しています。 latest.csvをダウンロード latest.dbをダウンロードリリースノート住所データ仕様ファイルフォーマット latest.csv: CSV latest.db: SQLite3で読み込めるバイナリ形式列都道府県コード都道府県名都道府県名カナ都道府県名ローマ字市区町村コード市区町村名市区町村名カナ市区町村名ローマ字大字町丁目名大字町丁目
- data
- データ
- GIS
- opendata
- 地図
- oss
- development
- address
- webサービス
- 不動産
図書館オープンデータを使って図書館データポータルサイトを作りました - Qiita
- 225 users
- qiita.com/uedayou
- テクノロジー
- 2021/09/12
国立国会図書館では、さまざまなオープンデータが公開されています。その中に「図書館及び関連組織のための国際標準識別子（ISIL）」試行版LODがあります。これは、日本全国の図書館に関する情報が網羅的にまとめられているRDFデータとなります。提供されているデータはXMLファイルなので個別にデータを取得するためにはプログラムなどで処理する必要があるので、Webブラウザで各データを見やすく提供するWebサイト「図書館施設データポータル」を作成しました。ここでは、図書館施設データポータルを紹介します。図書館及び関連組織のための国際標準識別子（ISIL）」試行版LOD とは元データは、「図書館及び関連組織のための国際標準識別子（ISIL）」という図書館等につけられる国際的な識別子で、国立国会図書館では、このISILが付与される図書館の情報をオープンデータ(XMLファイルのRDFデータ)
rinna社、日本語に特化したGPT-2の大規模言語モデルを開発しオープンソース化
- 188 users
- prtimes.jp
- テクノロジー
- 2021/04/07
rinna株式会社（本社：東京都渋谷区/代表取締役：ジャン“クリフ”チェン、以下rinna社）は、日本語に特化したGPT-2の大規模言語モデルを構築し、オープンソースとして公開しました。 ■背景 rinna社は、MicrosoftのAI＆リサーチ部門でAIチャットボットの研究を行っていたチームがスピンアウトして2020年6月に設立したAI開発企業です。ディープラーニング技術を活用し、AIが文脈に応じた会話文を自動生成して人間と自然に会話する「共感チャットモデル」、AIが話し声や歌声で豊かな感情表現を可能にする「音声合成システム」などの技術を発表してきました。これらの最新技術は、当社が運営するAIチャットボット「りんな」や、会話内容や音声表現をカスタマイズしてキャラクター性を持たせたAIチャットボットである「AIキャラクター」の開発に応用され、企業のマーケティングなどにお使いいただいています
- 自然言語処理
- あとで読む
- AI
- 機械学習
- GPT-2
- 開発
- 日本語
- 言語
- nlp
- 研究
Wikipediaの前処理はもうやめて「Wiki-40B」を使う - Ahogrammer
- 177 users
- hironsan.hatenablog.com
- テクノロジー
- 2020/09/26
最近の自然言語処理では、大規模なテキストから単語の分散表現や言語モデルを学習させて使っています。学習する際のテキストとしては、分量や利用しやすさの都合からWikipediaが選ばれることが多いですが、その前処理は意外と面倒で時間のかかる作業です。そこで、本記事では比較的最近リリースされた前処理済みのデータセット「Wiki-40B」とその使い方を紹介します。 Wiki-40Bとは？ Wiki-40Bは、40言語以上のWikipediaを前処理して作られたデータセットです。このデータセットは言語ごとに学習/検証/テスト用に分かれているので、単語分散表現や言語モデルの学習・評価に使えます。言語ごとの対応状況については、以下のページを参照するとよいでしょう。 wiki40b | TensorFlow Datasets 前処理としては、大きくは以下の2つに分けられます。ページのフィルタリングペー
公開されている日本の企業名辞書の紹介 - MNTSQ Techブログ
- 129 users
- tech.mntsq.co.jp
- テクノロジー
- 2021/04/28
特許・契約書・有価証券報告書・企業関連ニュースなど、実応用上の自然言語処理では、会社名を認識したいという場面に非常に多く出くわす。会社名らしい文字列をテキストから抽出することは、形態素解析器の辞書を用いたり固有表現抽出モデルを学習することである程度実現される一方で、抽出した会社名をレコード化して分析などに用いる際には、いわゆる名寄せの問題が発生する。自然言語処理における名寄せに似た問題は、エンティティリンキングや共参照解析といったアプローチで探求されており、実応用上は前者のアプローチが採られることが多い印象がある。*1 名寄せタスクをエンティティリンキング的に解くためには、帰着先の知識ベース・辞書が予め存在していることが必要だが、研究の文脈では知識ベースとしてWikipediaが採用されることが多い。 Wikipediaを用いる利点は多くあり、様々なエンティティ種に対してそこそこのカバ
- database
- あとで読む
- 企業
- データ
- dictionary
- NLP
- 会社
- programming
- データベース
【保存版】オープンデータ・データセット100選 -膨大なデータを活用しよう！ | AI専門ニュースメディア AINOW
- 127 users
- ainow.ai
- テクノロジー
- 2020/03/02
最終更新日： 2020年3月4日 AIの高まりとともにデータの大切さが再認識される今、オープンにさまざまなデータが公開され、気軽に活用できるようになっています。オープンデータの存在は、膨大なデータから学習を行う機械学習にとって不可欠で、構築したいAIに合わせてオープンデータを選択し、活用することが必要です。一方、オープンデータのみでは競合優位性のあるAIは構築できません。マクロなオープンデータと、独自に収集したミクロなデータを組み合わせて、独自のAIを構築していくことが重要です。オープンデータを活用したサービスを構築する際には、サービスのUX（ユーザー体験）を高め、いかにユニークなデータを取得できるかが勝負なのでオープンデータに頼りすぎないようにしましょう。今回、オープンデータ・データセットを6カテゴリに分類し、100個選出しました。自身のサービスやAIの構築に活かせそうなデータを
日本語形態素解析器 MeCab を Python から利用する際の語彙データ（UniDic）が AWS 上で Open Data として公開されました | Amazon Web Services
- 102 users
- aws.amazon.com
- テクノロジー
- 2020/10/09
Amazon Web Services ブログ日本語形態素解析器 MeCab を Python から利用する際の語彙データ（UniDic）が AWS 上で Open Data として公開されました多くの機械学習デベロッパーの方々が、AWS 上でさまざまなアルゴリズムの開発やモデルの構築を行なっています。中でも自然言語処理を行う際には、対象言語の特性に即した形で前処理を行う必要があります。日本語の自然言語処理を実施する際には、形態素解析と呼ばれる文章の分解処理を前位処理として一般的に行います。日本語形態素解析を行うためには、日本語の語彙データが必要となりますが、このデータは通常 GB 以上のサイズに及ぶ大きなサイズとなります。またこれらを用いた計算の際にも大量の GPU および CPU を必要とするため、従来こうしたモデルを構築する際には常にストレージおよびコンピューティングのリソースの
- aws
- mecab
- python
- 形態素解析
- 自然言語処理
- あとで読む
- nlp
- データ
- amazon