Welcome, folks, to Week in Review (WiR), TechCrunch’s weekly news recap. The weather’s getting hotter — but not quite as hot as the generative AI space, which saw a slew of new model
国立大学法人東海国立大学機構 名古屋大学大学院法学研究科の佐野 智也 講師、増田 知子 特任教授、同大学院情報学研究科の外山 勝彦 教授、同大学数理・データ科学教育研究センターの駒水 孝裕 准教授らの研究グループは、明治 19年から平成 29年(1886~2017)までに公布された法律と勅令を全文検索できるデータベースを作成・公開しました。このデータベースは、日本政府の、現在有効な法令データを提供する「e-Gov法令検索」では検索できない過去の法令データを提供するものであり、「e-Gov法令検索」を補完する意味を持ちます。 これまで多くの法学研究において法令や判例情報の調査収集にデータベースを利用する際は、個別の事件処理等を意識した限定的利用が主でした。それを越えて、大規模データを使って政策や法令を俯瞰し、経時的に解析しようという研究は、国内的にも国際的にもほとんど例がありません。 今回の
ML事業部の近江崇宏です。 ストックマークではプロダクトで様々な自然言語処理の技術を用いていますが、その中のコア技術の一つに固有表現抽出があります。固有表現抽出はテキストの中から固有表現(固有名詞)を抽出する技術で、例えば「Astrategy」というプロダクトでは、固有表現抽出を用いてニュース記事の中から企業名を抽出しています。(企業名抽出については過去のブログ記事を参考にしてください。) 一般に、固有表現抽出を行うためには、大量のテキストに固有表現をアノテーションした学習データをもとに機械学習モデルの学習を行います。今回、ストックマークは固有表現抽出のための日本語の学習データセットを公開いたします!ご自由にお使いいただければと思います! レポジトリ:https://github.com/stockmarkteam/ner-wikipedia-dataset 固有表現をハイライトしたサンプ
PyTorch/TensorFlow/Keras/scikit-learnライブラリ内蔵のデータセット一覧:AI・機械学習のデータセット辞典 機械学習やディープラーニング用の主要ライブラリが提供する「画像/音声/テキストなどのデータセット」の名前とリンクを表にまとめ、典型的な使い方を簡単に紹介する。 連載目次 本連載「AI・機械学習のデータセット辞典」では、ここまで主に、scikit-learnやKeras/TensorFlow(tf.keras)、TensorFlow Datasets、PyTorchといった主要なPythonライブラリに共通的に含まれる代表的なデータセットを紹介し、各ライブラリでの典型的な実装コード例を示してきた。しかし、これらの全ライブラリに共通的に含まれているデータセットはまれで非常に少ない。よってこれからは、個々のライブラリに1つしか含まれていないようなこまごまと
「ボカロ界の革命だ」――AIを活用して歌声を合成するフリーウェア「NEUTRINO」が2月22日に登場し、ニコニコ動画やTwitterで話題になっている。楽譜データを入力すれば、音程や声質などを操作しなくても人間のような自然な歌声を合成できる。 これまでも研究者や専門の開発者によって日本マイクロソフトの「りんな」や、ヤマハが技術協力した「AI美空ひばり」など、AIを活用した歌声合成技術で作られた楽曲が公開されてきたが、NEUTRINOの登場で誰でも“AIシンガー”に触れられるようになった。 NEUTRINOはSHACHIさんが開発した歌声合成ソフト。ニューラルネットワークを活用して事前に実在する声優や歌手の歌い方を学習したAIが、入力された楽譜から本人らしい発声のタイミングや声の高さ、声質などを推定。自動でビブラートや“しゃくり上げ”といった歌唱表現を再現し、人間らしい歌声を合成する。高性
AI活用のコンサルティング事業を手掛けるAPTO(東京都渋谷区)とエイアイ・フィールド(東京都品川区)は10月5日、AIの学習データとして利用できる、実在しない男女の顔写真3000枚の無償配布を始めた。法人を対象に11月30日までの期間限定で提供し、商用利用も認める。「AI市場の加速に貢献できれば」(2社)という。 エイアイ・フィールドが自社の技術で自動生成した、実在しない10代~90代の男女の画像を提供。APTOが作成した年齢・性別などのアノテーション(画像を説明するテキスト情報)も付属する。申し込みは専用サイトで受け付ける。 もともとはエイアイ・フィールドが自社サービスで活用するために作成した画像だったが、6月に用途を研究目的に限った上で1000点を無料配布したところ、利用者からの反響があったことから、データを2000点追加し、商用利用を認めた上で再配布することを決めたという。 関連記
日本の政府系のオープンデータで一番有名なのが「e-Stat」である。統計学やデータサイエンスに携わるもの/学ぶものであれば、名前は聞いたことがあるだろう。かつては各省庁がバラバラに管理&公開していた公的データを、一カ所に集めて誰でも簡単に利用できるようにしたサイトである(2008年から運用が開始され、2018年にリニューアルされた)。 統計分野は多岐にわたり、「国土・気象」「人口・世帯」「労働・賃金」「農林水産業」「鉱工業」「商業・サービス業」「企業・家計・経済」「住宅・土地・建設」「エネルギー・水」「運輸・観光」「情報通信・科学技術」「教育・文化・スポーツ・生活」「行財政」「司法・安全・環境」「社会保障・衛生」「国際」「その他」という17分野が提供されている。データセットは、条件指定によるフィルタリングやグラフ化が行える。例えば人口ピラミッドのグラフも簡単に作成できる。 また、もちろん無
※この投稿は米国時間 2020 年 3 月 31 日に、Google Cloud blog に投稿されたものの抄訳です。 データは常に、公衆衛生上の緊急事態に対する調査や研究、取り組みにおいて重要な役割を果たしますが、世界的な危機の発生時にこそ、その真価が発揮されるといえるのではないでしょうか。研究プロセスにとって、データセットへのアクセスやそのデータをクラウド規模で分析できるツールは、切り離すことのできない重要なものですが、とりわけ COVID-19(新型コロナウイルス感染症)への対応にあたっては、その必要性がグローバル規模で高まっています。 Google Cloud では、研究者、データ サイエンティスト、アナリストが COVID-19 に対抗するための取り組みを支援するために、Johns Hopkins Center for Systems Science and Engineeri
CIFAR-10 (Canadian Institute for Advanced Research, 10 classes) The CIFAR-10 dataset (Canadian Institute for Advanced Research, 10 classes) is a subset of the Tiny Images dataset and consists of 60000 32x32 color images. The images are labelled with one of 10 mutually exclusive classes: airplane, automobile (but not truck or pickup truck), bird, cat, deer, dog, frog, horse, ship, and truck (but no
衛星データ、どこかで勉強したいと思っているけれど、結局始められてないなぁというそこのあなた!この機会に宙畑と一緒に衛星データを学びましょう 宙畑では、日々衛星データに関する情報をお届けしています。 本記事では、今までご紹介をした内容を整理し、どのように衛星データを学んで行くのが良いのか、お伝えしたいと思います! 今、衛星データ学習がおすすめな2つの理由 そもそも、なぜ今、衛星データを学ぶことがおすすめなのか、その理由は2つあります。 衛星データ市場は今後伸びていく市場 Credit : EuroConsult Source : http://www.euroconsult-ec.com/research/satellite-value-chain-2018-extract.pdf 実際に世界全体で使われている衛星データ(画像を含む)とデータを利用したサービスの市場規模は、衛星データそのもの
※ 各社/団体のプライバシーポリシーをお読みの上、サービス利用をご判断ください。特に個人でご利用される場合、ご家族でよくご相談した上でのご判断をお願いします。 ※ 政府の公開する企業等による支援情報のオープンデータに加え、提供されているサービスを公開資料を基に整理したものであり、支援サービスをすべて網羅しているわけではありません。また、空欄は公開情報に明確に情報が記載されていないため空欄にしており、その内容がないというわけではありません。またサービスの問い合わせ等は直接支援企業にお問い合わせ下さい。推奨ブラウザは、Chrome/Safariの最新版です。ブラウザによっては、動作しないことがあります。(経産省 ニュースリリース、総務省 広報・報道)
スマートフォンやスマートスピーカー、銀行ATM、券売機など、あらゆる場面で合成音声が使われるようになって久しい。近年では特に機械学習技術を活用した音声合成システムの製品化やサービス化が進んでいる。 音声合成の研究開発や製品化を行う際には、学習素材として大量の音声が必要だ。しかし学習に適した上質な音声ファイルはネット上にもあまりない。いまだに素材を集めにくい状態にある。 これまでは研究開発用の素材を得るため「音素バランス文」と呼ばれる台本を用意し、それをアナウンサーや声優などに読み上げてもらい、まとまったデータを取得していた。 「しかし、これまでの音素バランス文には『使用料』『ライセンス』『台本の読みにくさ』3つのハードルがありました」 そう話すのは明治大学で音声合成の研究をしている小口純矢さんだ。音声合成ソフトの販売を手掛けるSSS(仙台市)と小口さんが所属する明治大学、九州工業大学は6月
© 2016 - 2022 Association for Promotion of Infrastructure Geospatial Information Distribution. All Rights Reserved.
東北地方を応援する萌えキャラの運営会社が、キャラの声を生かしたAI研究向け学習データを無料で公開している。直接的な収益にもならず、研究者に使ってもらえるとも限らないのに、なぜそのような取り組みを行っているのか。データを公開した萌えキャラ運営会社SSS(仙台市)の小田恭央CEOに話を聞いた。 萌えキャラ「東北ずん子」の運営会社 SSSは東北応援キャラ「東北ずん子」を運営する企業で、グッズの製作や地域振興イベントなど、ライセンスビジネスを展開している。ヤマハの歌声合成ソフト「VOCALOID」用音源の販売などは行っているが、AIの技術開発を行っているテクノロジー企業というわけではない。「AI向けの学習データを無料公開」といわれると少し唐突にも聞こえる。 同社は2019年11月、研究者向けに「東北きりたん歌唱データベース(DB)」を無料公開した。東北ずん子の関連キャラ「東北きりたん」の歌声を約1
はじめに こんにちは。estieでデータサイエンスをしている齊藤です。これはestie夏のブログ祭り8日目の記事です。 8/10はヤドンの日なので、ヤドン好きな私が記事を書いています。 ヤドンと私 PLATEAUとは PLATEAUとは、国交省のオープンデータプロジェクトです。雑に説明すると、「日本中の都市をまるごと3Dデータとして整備・公開・活用しよう!」というプロジェクトです。 基本的にはビルや道路の3Dデータなので、UnityやVRに持っていって遊ぶような使い方がまず想定され、実際にさまざまな活用がされています。 3D都市モデル PLATEAU LT 01 - connpass 3D都市モデル PLATEAU LT 02 - connpass 一方で私はestieでビルの賃料を予測したり、補正したりする業務に携わってきました。そのため、ビルの属性(竣工年は?造りは?価格は?)といった
無償かつ入手しやすい音声データセットをメモしています。 ライセンス・利用規約は「商用利用可能」「研究用途のみ」ともに紹介します。 コーパスを探すときに有用なサイト コーパス配布元サイト 音声資源コンソーシアム : 日本語コーパスが豊富、無償または有償で利用可能 緩いライセンスのコーパスでなくても良いときはここ 自発的発話の日本語音声コーパスはだいたいここにある 入手は要申請 所属や責任者を記入する必要があるため、研究者や企業でないと厳しい? (この記事では音声資源コンソーシアムのコーパスは未掲載) Shinnosuke Takamichi: コーパス一覧 : 日本語中心。高道先生が携わっている音声コーパス 大量の日本語音声コーパスが配布されている 音声合成のコーパスをつくろう (Slideshare) : 2021年6月時点の音声コーパス事情 あなたにどうしても伝えたい30の音声コーパス
この記事は 情報検索・検索技術 Advent Calendar 2022 の7日目の記事です。 はじめに 今年の夏、Amazonが多言語 (英語、スペイン語、そして日本語) のラベル付きの商品検索のデータセットを公開しました。 論文: https://arxiv.org/abs/2206.06588 リポジトリ: https://github.com/amazon-science/esci-data 情報検索において商品検索は、ウェブ検索を作りたいという企業より商品検索を作りたい企業の方が多いという意味で、ポピュラーなトピックだと思います。ところが公開データで実験を行おうとするとドメインが違うウェブ検索のデータセットか、ラベルのない商品カタログか、ラベルはあるけど小規模なデータセットかという限られた選択肢しかなく、仕方がないので非公開の独自データセットを作って実験を行うという状況でした。
オミータです。ツイッターで人工知能のことや他媒体で書いている記事など を紹介していますので、人工知能のことをもっと知りたい方などは気軽に@omiita_atiimoをフォローしてください! 2012年にAlexNet[Krizhevsky, A.(2012)]が登場してから、画像認識分野での発展は著しい。その発展を支えてきたものこそ大規模データセットImageNet[Deng, J.(2009)]である。ImageNetでSoTAを達成すると、そのモデルには最強モデルの称号が与えられると言っても過言ではない。2020年6月にGoogle Brainによって出されたこの論文は、そんな当たり前に使われてきたImageNetデータセットに対して疑問符を叩きつけるものとなっている。現存のImageNetでの性能評価が必ずしも正しいのだろうか。この論文を通してその答えを探しにいく。 本論文で使われて
はじめに 〜衛星データとは〜 人工衛星データとは、人工衛星を利用した“リモートセンシング”によって取得されたデータを指します。 これまで人工衛星データは専門ツールや大容量データ処理基盤が必要なため、利用できる組織は大学機関や一部の専門機関が限られていましたが、昨今のオープンソース・ライブラリの普及やデータ処理基盤のクラウド利用により、一般組織でも気軽に人工衛星データを扱える外部環境が整ってきました。 衛星データを利用することで、これまで取得することができなかった様々な場所・時間・対象の状態をビッグデータで解析することが期待できます。 そこで本記事では、どの様にデータを扱うのかを、衛星データ解析の専門ツールを利用せず(最も身近なツールの一つであるpythonを利用)、誰でも気軽に試すために無償で利用方法を紹介していきたいと思います。 また、今回はビジネスや社会実装に利用イメージが沸きやすい衛
米マサチューセッツ工科大学(MIT)は6月29日(現地時間)、多数のAIシステムのトレーニングに利用されてきた8000万点以上の画像を集めたデータセット「Tiny Images」をオフラインにしたと発表した。カテゴライズの用語に差別的なものがあると指摘されたため。 MITのアントニオ・トラルバ教授は声明文で、「影響を受けた可能性のある人々に謝罪する」と語った。 問題を指摘したのはプライバシー関連の米新興企業UnifyIDのチーフサイエンティスト、ビナイ・プラブー氏とアイルランド国立大学ダブリン校のアベバ・ビルハネ教授。両氏は6月25日、「Large image datasets: A pyrrhic win for computer vision?」(リンク先はPDF)という匿名の論文(7月1日に正式版を公開)で、Tiny Imagesに女性の画像に「売春婦」というラベルが付いていたり、黒
","naka5":"<!-- BFF501 PC記事下(中⑤企画)パーツ=1541 -->","naka6":"<!-- BFF486 PC記事下(中⑥デジ編)パーツ=8826 --><!-- /news/esi/ichikiji/c6/default.htm -->","naka6Sp":"<!-- BFF3053 SP記事下(中⑥デジ編)パーツ=8826 -->","adcreative72":"<!-- BFF920 広告枠)ADCREATIVE-72 こんな特集も -->\n<!-- Ad BGN -->\n<!-- dfptag PC誘導枠5行 ★ここから -->\n<div class=\"p_infeed_list_wrapper\" id=\"p_infeed_list1\">\n <div class=\"p_infeed_list\">\n <div class=\"
1. はじめに2020年3月20日に発売されてから世界中で人気を博している任天堂Switch用ゲームソフト『あつまれ どうぶつの森(以下、あつ森と略)』、かくいう私もハマっております。今回の記事では、『あつ森』を大学院講義の教材として用いたことについてご紹介したいと思います。教材開発等の参考になれば幸いです。 2. 学術的に注目すべきポイント|標準的データ形式イギリスのBBCニュースは、COVID-19の世界的流行に伴う外出自粛期間において、『あつ森』における魚釣りや虫捕り、家の模様替えやどうぶつたちとの日常的なふれあいなど、一見「生産性のない」と思われるような行動が、世界中の人びとの心を癒す効果を持ったことを指摘しています(元記事)。ただし、今回の記事では、このような『あつ森』の心理的効果ではなく、美術館・図書館・博物館など世界中の文化機関が、自らが所有する文化財の画像データを『あつ森』
はじめに 統計学の講義や実習の際に使える心理系のデータセットをまとめました。アヤメの分類や経済統計もいいですが、やはり心理学に関連したデータを使う方が心理系の学生には興味をもって統計を学べると思います。ここには私が授業でよく使っているものをリストしました。他に良いものがあれば教えて下さい。 Open Stats Lab https://sites.trinity.edu/osl Psychological Science 誌に掲載された論文のデータが公開されています。データだけでなく、論文の概要や実習の手引きなども揃っています。回帰分析や因子分析など統計手法ごとに分類されているので、教材を選ぶ際にとても便利です。 datarium パッケージ https://rpkgs.datanovia.com/datarium/ R のパッケージです。パッケージをインストールすればすぐ使えるようになる
4つの人気クラウドプラットフォームで手軽に利用できるオープンなデータセットの一覧ページである「Registry of Open Data on AWS」「Azure Open Datasets」「Google Cloud 一般公開データセット」「IBM Developerの『データセット』カテゴリー」を紹介する。 連載目次 AWS/Azure/GCP/IBMといったクラウドプラットフォームでは、各クラウド内で簡単に使えるオープンなデータセットが提供されている。本稿ではそのデータセットの一覧/検索ページについて紹介する。なお、この一覧ページのデータセットの中には、必ずしも機械学習には向いていないものも幾つかは含まれると想定されるので、あらかじめご了承いただきたい。 Registry of Open Data on AWS
e-Statでは政府が提供する様々な統計データをXMLやJSONで取得するAPIを使用できます。 APIの利用登録と動作テスト 1.下記のURLからAPIの利用申請をします。 http://www.e-stat.go.jp/api/regist-login/ 2.APIを登録申請が完了すると「メールアドレス」と「パスワード」でログインが可能になります。 3.ログイン後、再度ログイン画面に行くと「利用者情報変更/削除」と「アプリケーションIDの取得」がおこなえる画面が表示されます。 利用者情報変更では、登録時に指定したデータを変更することができます。 4.appIDの発行を行う。 「アプリケーションIDの取得」画面で名称とURLを入力して、「発行」ボタンを押すとappIDが取得できます。 urlは存在しない場合は「http://localhost/」等を入力してください。 appIDは3個ま
デジタル庁では、本日2022年4月22日(金)より、ベース・レジストリのパイロット事業として進めているレジストリカタログとアドレス・ベース・レジストリの実証サイトの公開を開始しました。 ベース・レジストリとは、公的機関等で登録・公開され、様々な場面で参照される、人、法人、土地、建物、資格等の社会の基本データであり、正確性や最新性が確保された社会の基盤となるデータベースです。(ベース・レジストリの詳細についてはベース・レジストリをご参照ください) 行政手続のワンスオンリーを実現するなど社会全体の効率性の向上を図るとともに、スマートシティ等の新しいサービスの創出を図るためには、マイナンバーや地理空間情報など社会全体の基盤となるデータを整備・活用することが必要です。 そこで、まずはベース・レジストリを、「公的機関等で登録・公開され、様々な場面で参照される、人、法人、土地、建物、資格等の社会の基本
LLMのデータセットをまとめました。 1. 事前学習データセット1-1. Text・Wikipedia (ja) ・fujiki/wiki40b_ja ・shisa-pretrain-en-ja-v1 (ja) ・augmxnt/shisa-pretrain-en-ja-v1 ・Wikipedia (en) ・Wiki Demo (en) ・RefinedWeb (en) ・RedPajama V2 (en) ・Pile (en) ・SkyPile (zh) ・The Stack 2 (en) ・The Stack (en) ・StarCoder (en) 1-2. Code・The Stack 2 (en) ・The Stack (en) ・StarCoder (en) 2. SFTデータセット2-1. Instruction・ichikara-instruction (ja) ・ich
Dataset Searchは、2018年9月からグーグル(Google)が提供しているサイトの一つで、世界中からデータセットを検索できる(=ググれる)。「機械学習で利用するデータセットを手軽に探したい」という場合に、最初に実行してみるツールとして非常に有用である。通常のGoogle検索では、例えば「PyTorch cats dogs images classification」などのようなキーワードを入れて検索することになるだろうが、その結果、必ずしもデータセットのみがヒットするわけではない。それと比べると、データセットのみを効率的に表示してくれるので便利である。 データセット検索 例えば図1は、Dataset Searchで実際にデータセットを検索しようとしているところである。
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く