並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 99件

新着順 人気順

データセットの検索結果1 - 40 件 / 99件

データセットに関するエントリは99件あります。 機械学習AI学習 などが関連タグです。 人気エントリには 『AIがこの世にいない人の顔画像を大量生成する、著作権フリーの画像が10万枚! | Techable(テッカブル)』などがあります。
  • AIがこの世にいない人の顔画像を大量生成する、著作権フリーの画像が10万枚! | Techable(テッカブル)

    創作AIの進化は予想以上に速く、気づけば創作物の多くをAIが担っていた…なんて状況も、信憑性を帯びてきた。クオリティの高い創作物を大量生成するAIの出現で、著作の使用料体系に崩壊が起きる可能性がある。 ヒトの書いたものと見分けがつかないような文章を生成する「GPT-2」の登場も衝撃的だったが、真っ先に市場にインパクトを与えそうなのが画像の領域だ。 Webサイト、generated.photos上に、著作権フリーのオリジナル顔画像10万枚が公開された。あらゆるシーンでハイクオリティの顔画像が利用可画像生成AIは、悪用されることでマイナスの影響もあるが、著作権フリーの画像が出回れば自身の創作の幅が広がり、恩恵を受ける方も多いだろう。同プロジェクトは、まさにこれを狙ったものだ。 GAN(敵対的生成ネットワーク)による画像生成は、ヒトやネコ、アニメキャラから賃貸物件まで、たくさんの対象で試されてい

      AIがこの世にいない人の顔画像を大量生成する、著作権フリーの画像が10万枚! | Techable(テッカブル)
    • Googleが大量の機械学習用データベースを無料公開してた - Qiita

      個人用メモです。 機械学習は素材集めがとても大変です。 でもこの素材集め、実は無理してやらなくても、元から良質な無料データベースがあったようなのです。 URLはこちら YouTube8-M https://research.google.com/youtube8m/explore.html 提供されているサービスは以下の通り 800万個の動画 19億個のフレーム 4800個の分類 使い方はExploreから画像セットを探し、ダウンロードするだけ。 他の方法も見つけた open images dataset 「すごい神だな」と思ったのは これもう完成されてますよね もちろんこの認識前の画像もセットでダウンロードできます。 Youtube-8Mとは、画像数を取るか、精度で取るか、という違いでしょうか。 他にも良い素材集を教えていただきました (はてなブックマーク情報 @sek_165 さん )

        Googleが大量の機械学習用データベースを無料公開してた - Qiita
      • pythonを使った株価の自動収集 - Qiita

        Help us understand the problem. What are the problem?

          pythonを使った株価の自動収集 - Qiita
        • OCR処理プログラム及び学習用データセットの公開について | NDLラボ

          2022年04月25日 NDLラボのGitHubから、次の2件を公開しました。ライセンスや詳細については、各リポジトリのREADMEをご参照ください。 NDLOCR 国立国会図書館(以下、「当館」とします。)が令和3年度に株式会社モルフォAIソリューションズに委託して実施したOCR処理プログラムの研究開発事業の成果である、日本語のOCR処理プログラムです。 このプログラムは、国立国会図書館がCC BY 4.0ライセンスで公開するものです。なお、既存のライブラリ等を利用している部分については寛容型オープンライセンスのものを採用しているため、商用非商用を問わず自由な改変、利用が可能です。 機能ごとに7つのリポジトリに分かれていますが、下記リポジトリの手順に従うことで、Dockerコンテナとして構築・利用することができます。 リポジトリ : https://github.com/ndl-lab/

          • 無料GPT-4アプリの公開とクリーンデータセットの作成について|kun1emon

            どうもこんにちは。最近、大規模言語モデル(LLM)の個人開発に取り組んでいる@kun1em0nと申します。この度、最近話題のChatGPTの最新モデルGPT-4を無料で使用できるアプリを作成したので公開いたします。今回アプリを無料で公開する意図についてこの記事で説明したいと思います。 Japanese-Alpaca-LoRAの作成前回の記事ではスタンフォード大学が作成したStanford Alpacaの日本語対応モデル Japanese-Alpaca-LoRAを作成し公開した話を紹介しました。 このモデルの作成に使ったデータの大元(Alpacaデータ)はText-davinci-003というOpenAIサービスで出力した結果になりますが、OpenAIの利用規約ではコンテンツ生成者はOpenAIサービスで出力した結果を競合モデルの開発用途に使用してはならないと記載されています。ただ、コンテン

              無料GPT-4アプリの公開とクリーンデータセットの作成について|kun1emon
            • OpenAIの共同設立者が「私たちは間違っていた」と語る、AIの危険性からデータをオープンにしない方針へと大転換

              言語モデルのChatGPTや画像生成AIのDALL·Eを手がけるAI研究所のOpenAIは、AI技術の悪用を防ぎ社会に友好的な形で発展させることを目的に、サム・アルトマン氏やイーロン・マスク氏らが2015年に発足させた非営利組織です。そんなOpenAIの創始メンバーに名を連ねるイルヤ・サツキヴァー氏が、AIをオープンにするという設立当初の理念は誤りだったと、IT系ニュースサイト・The Vergeのインタビューの中で語りました。 OpenAI co-founder on company’s past approach to openly sharing research: ‘We were wrong’ - The Verge https://www.theverge.com/2023/3/15/23640180/openai-gpt-4-launch-closed-research-il

                OpenAIの共同設立者が「私たちは間違っていた」と語る、AIの危険性からデータをオープンにしない方針へと大転換
              • Stable Diffusionを「いらすとや」で追加学習する - TadaoYamaokaの開発日記

                前回、Stable Diffusionをdanbooruデータセットを使用して追加学習することを試した。 今回は、自分でデータセットを作成して追加学習することを試す。 データセットには、画像とキャプションが揃っている必要があり、キャプションがない場合はCLIPで疑似ラベルを生成するなどする必要がある。 今回は、画像に対するキャプションがある「いらすとや」をスクレイピングして、データセットを作成した。 データセット作成 「いらすとや」から全ての画像とキャプションを取得した。 画像に複数バリエーションがある場合は、1つ目の画像のみを使用した。 キャプションは、日本語になっているため、Googleスレッドシートで、「=GOOGLETRANSLATE(XX,"ja","en")」を使って英語に変換を行った。 合計で、22891枚の画像とキャプションのセットが用意できた。 画像サイズ変換 画像は、5

                  Stable Diffusionを「いらすとや」で追加学習する - TadaoYamaokaの開発日記
                • PythonでTableau風 BIツールによる視覚的データ探索をやってみよう 〜PyGWalker〜 - Qiita

                  更新情報 -目次- はやくもUI改善等 Ver.upが図られています。以下内容の記事を追加しました。 1. データフレーム表示 2. ヒストグラムの描き方 3. ダークモード対応 4. オンライン版 5. 海外のデータイノベーション支援団体でも人気 はじめに Tableauはご存じでしょうか? 私は使ったことはありませんが、名前だけはよく耳にします。 これは、専門家でなくてもデータの収集・分析・加工ができるBI(ビジネス・インテリジェンス)ツールのひとつです。 なんと、Jupyter Notebook上(Google ColabもOK)で実行できる Tableau風 BIツール「PyGWalker」が登場しました。 Tableauそのものではありませんが、ドラッグ&ドロップの簡単な操作でデータ分析や視覚的な探索が実行できます。 こんなのが出てくるとは・・・すごい。 しかも、数行のコードで実

                    PythonでTableau風 BIツールによる視覚的データ探索をやってみよう 〜PyGWalker〜 - Qiita
                  • 高精度でテキスト分類を行えるAIの環境を用意しました【BERT】 - ニートの言葉

                    こんにちは、あんどう(@t_andou)です。 最近、自然言語処理のAIの一種であるBERTをよく触っています。 今回はBERTのソースを読まなくてもサクッと試せる環境を用意しましたので、メモとして残しておきます。 BERTとはどういうものか 画像引用:https://arxiv.org/pdf/1810.04805.pdf 凄くざっくりと説明すると、BERTとは2018年末にGoogleの人たちが開発した自然言語処理において汎用的に使えて精度の良いAIです。 自然言語処理において精度を測るためにいくつかのタスクがあるのですが、発表された時点ではダントツの成績でした。 仕組みなどの詳細については論文を読むか解説記事をググってください。 2019/09/22時点で既により精度の良い手法がどんどん発表されていますが、BERTの情報量と比べるとまだ少ないため、入門としてはBERTを触ってみるのが

                      高精度でテキスト分類を行えるAIの環境を用意しました【BERT】 - ニートの言葉
                    • https://twitter.com/sino6/status/1628891225008009217

                        https://twitter.com/sino6/status/1628891225008009217
                      • 最強のツール「LangSmith」が登場した話【Python / LangChain】

                        【📩 仕事の相談はこちら 📩】 お仕事の相談のある方は、下記のフォームよりお気軽にご相談ください。 https://forms.gle/G5g1SJ7BBZw7oXYA7 もしもメールでの問い合わせの方がよろしければ、下記のメールアドレスへご連絡ください。 info*galirage.com(*を@に変えてご送付ください) 🎁 「生成AIの社内ガイドライン」PDFを『公式LINE』で配布中 🎁 「LINEで相談したい方」や「お問い合わせを検討中の方」は、公式LINEでご連絡いただけますと幸いです。 (期間限定で配信中なため、ご興味ある方は、今のうちに受け取りいただけたらと思います^^) https://lin.ee/3zRuqKe おまけ①:生成AIエンジニア塾 より専門的な「生成AIエンジニア人材」を目指しませんか? そんな方々に向けて、「生成AIエンジニア塾」というプログラムを

                          最強のツール「LangSmith」が登場した話【Python / LangChain】
                        • AWS、MS、Metaらがオープンな地図データを実現する「Overture Maps Foundation」結成。2023年前半にはデータ公開へ

                          オープンソースを推進する非営利団体のLinux Foundationは、AWS、マイクロソフト、Meta、TomTomの4社がオープンな地図データを実現する「Overture Maps Foudation」を同団体の傘下に設立したと発表しました。 “We are excited to facilitate this open collaboration among leading technology companies to develop high quality, open map data that will enable untold innovations for the benefit of people, companies, and communities." - Jim Zemlin About Overture Maps: https://t.co/TpPey0gTS

                            AWS、MS、Metaらがオープンな地図データを実現する「Overture Maps Foundation」結成。2023年前半にはデータ公開へ
                          • Wikipediaの前処理はもうやめて「Wiki-40B」を使う - Ahogrammer

                            最近の自然言語処理では、大規模なテキストから単語の分散表現や言語モデルを学習させて使っています。学習する際のテキストとしては、分量や利用しやすさの都合からWikipediaが選ばれることが多いですが、その前処理は意外と面倒で時間のかかる作業です。そこで、本記事では比較的最近リリースされた前処理済みのデータセット「Wiki-40B」とその使い方を紹介します。 Wiki-40Bとは? Wiki-40Bは、40言語以上のWikipediaを前処理して作られたデータセットです。このデータセットは言語ごとに学習/検証/テスト用に分かれているので、単語分散表現や言語モデルの学習・評価に使えます。言語ごとの対応状況については、以下のページを参照するとよいでしょう。 wiki40b | TensorFlow Datasets 前処理としては、大きくは以下の2つに分けられます。 ページのフィルタリング ペー

                              Wikipediaの前処理はもうやめて「Wiki-40B」を使う - Ahogrammer
                            • 月ノ美兎さんの音声合成ツール(Text To Speech) を作ってみた - Qiita

                              何をした? Youtube上に公開されている動画の音声から、ディープラーニング技術を用いた音声合成ツールを構築しました。 今回対象にしたのは、バーチャルユーチューバー・にじさんじの委員長こと 月ノ美兎 さん(Youtubeチャンネル) です。 ※選出理由は、単純に私がYoutube上で一番推している方だからです。 成果 動画から抽出した音声と、音声を文章に起こしたテキストの組み合わせのデータセット約50分ぶんを教師データとして学習した結果 ※学習に必要なデータ量は最低でも1時間程度と言われているので、まだまだ足りていません… 月ノ美兎さんの音声合成ツールを作ってみた https://t.co/YVdWW9vREb via @YouTube — K2 (@K2ML2) May 29, 2020 発話内容が不明瞭な箇所がありますが、一応ご本人の声に近い音声を作成することができているかと思います

                                月ノ美兎さんの音声合成ツール(Text To Speech) を作ってみた - Qiita
                              • 都道府県 一覧 | 『日本歴史地名大系』地名項目データセット

                                地名項目の位置情報(緯度経度)の推定については、精度を改善する余地が大きいため、今後も各種資料を精査しながら精度を向上させていきます。現状では、地図上のマーカーの位置が最適でない場合もあるかと思いますが、今後さまざまな精度向上の取り組みを進めていく予定です。 都道府県 一覧 合計 80502 件 検索 歴史的地名/現代地名による統合検索では、現代および歴史的な市区町村名や現代の町丁・字名による検索が可能です。 地名(の一部)を入力: 概要 『日本歴史地名大系』地名項目データセットとは、ジャパンナレッジ版『日本歴史地名大系』(平凡社)の中から、行政地名に関連する地名項目をまとめたデータセットです。2023年11月現在、地名項目=80,502件を提供しています。 出典 『日本歴史地名大系』地名項目データセット

                                  都道府県 一覧 | 『日本歴史地名大系』地名項目データセット
                                • OpenAI、大規模言語モデルの数学能力を大きく向上させることに成功 | AIDB

                                  OpenAIは新しいフレームワーク「PRM」を発表しました。これは、大規模言語モデル(LLM)の数学能力を向上させるためのもので、AIが問題を解く際の誤りをプロセスベースで特定・修正する能力を強化します。このフレームワークで訓練した大規模言語モデルは、DeepMind社の作成した数学問題集(MTAHデータセット)において他のモデルを凌駕し最も優れたパフォーマンスを見せました。 また、この手法は数学だけでなく推論能力を必要とする広範な問題の解決にも応用できる可能性があり、注目を集めています。 参照論文情報 タイトル:Let’s Verify Step by Step 著者:Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman,

                                    OpenAI、大規模言語モデルの数学能力を大きく向上させることに成功 | AIDB
                                  • 顔画像生成のためのデータセットを作る - すぎゃーんメモ

                                    動機 TensorFlowの登場をきっかけに 機械学習によるアイドル顔識別 という取り組みをしていて、3年以上かけてコツコツとアイドルの自撮りを収集してラベルをつけてデータセットを作ってきたけど、 アイドルヲタクはもう辞めてしまって 現場にも全然行かなくなり、卒業・脱退の情報を追いながらラベルを更新していく作業を続ける情熱はすっかり薄れてしまった。 もうアイドル顔識別プロジェクトは終了にしよう、と思った。 しかし折角今まで集めたデータを捨ててしまうのは勿体無い。せめて最後に何か活用できないものか。 と考えて、「画像生成」に再び取り組んでみることにした。 過去に試したことはあったけど、それほど上手くはいっていない。 TensorFlowによるDCGANでアイドルの顔画像生成 TensorFlowによるDCGANでアイドルの顔画像生成 その後の実験など この記事を書いたのが2016年。 この後

                                      顔画像生成のためのデータセットを作る - すぎゃーんメモ
                                    • Generated Photos | Unique, worry-free model photos

                                      Enhance your creative works with photos generated completely by AI. Search our gallery of high-quality diverse photos or create unique models by your parameters in real time

                                        Generated Photos | Unique, worry-free model photos
                                      • 【保存版】オープンデータ・データセット100選 -膨大なデータを活用しよう! | AI専門ニュースメディア AINOW

                                        最終更新日: 2020年3月4日 AIの高まりとともにデータの大切さが再認識される今、オープンにさまざまなデータが公開され、気軽に活用できるようになっています。 オープンデータの存在は、膨大なデータから学習を行う機械学習にとって不可欠で、構築したいAIに合わせてオープンデータを選択し、活用することが必要です。 一方、オープンデータのみでは競合優位性のあるAIは構築できません。マクロなオープンデータと、独自に収集したミクロなデータを組み合わせて、独自のAIを構築していくことが重要です。 オープンデータを活用したサービスを構築する際には、サービスのUX(ユーザー体験)を高め、いかにユニークなデータを取得できるかが勝負なのでオープンデータに頼りすぎないようにしましょう。 今回、オープンデータ・データセットを6カテゴリに分類し、100個選出しました。自身のサービスやAIの構築に活かせそうなデータを

                                          【保存版】オープンデータ・データセット100選 -膨大なデータを活用しよう! | AI専門ニュースメディア AINOW
                                        • 大規模言語モデル間の性能比較まとめ|mah_lab / 西見 公宏

                                          StableLMのファインチューニングってできるのかな?と調べたところ、GitHubのIssueで「モデル自体の性能がまだ良くないから、ファインチューニングの段階ではないよ」というコメントがありまして。 シートの中身を見てみるlm-evalシートstablelm-base-alpha-7bは54行目にありまして、確かに他の言語モデルと比較するとまだまだな性能のようです。応援したいですね。 シートの列の意味それぞれの列の意味については推定ですが以下の通りです。 RAM 言語モデルのGPUメモリ消費量。 lambada(ppl) LAMBADAデータセットによる測定値。ロングレンジの言語理解能力をテストする(文章全体を読まないと答えられないタスクでの評価)。PPLはPerplexityという指標で、モデルの予測の不確かさを示す。PPLが低いほど、モデルの予測精度が高い。 lambada(acc

                                            大規模言語モデル間の性能比較まとめ|mah_lab / 西見 公宏
                                          • Microsoftのデータ可視化ツール「SandDance」がオープンソース化

                                            公式サイト 概要 SandDanceは、WebGLを用いたBIツールで巨大なデータセットを素早く可視化し、複数のビュー間を滑らかなアニメーションでトランジションさせることで新たな知見を得ることができるBIツールだそうです(公式サイトより) サンプル画像でもカッコいいアニメーションが目を引きます。 deck.glのショーケースページで紹介されていて、個人的に興味を持っていたのですが、先日Microsoftの公式ブログでオープンソース化されることが発表されました。 Microsoft open sources SandDance, a visual data exploration tool - Open Source Blog Github やたらパーティクルが飛び交ってカッコいいです。 慣れないと無意味な3Dチャートとか作ってしまいかねない危うさはありますが、内部ではDeck.glやVeg

                                              Microsoftのデータ可視化ツール「SandDance」がオープンソース化
                                            • Googleが機械学習用のデータセットをインターネット上から検索可能な「Dataset Search」を正式公開

                                              機械学習でアルゴリズムを構築する上で重要なのが「データセット」です。アルゴリズムの精度を上げるためにはより多くのデータと時間が求められますが、十分に大規模なデータセットを集めたり探したりするのは機械学習を行う上で特に苦労するポイント。そんなデータセットをオンライン上から検索できる「Dataset Search」の正式版をGoogleが公開しました。 Dataset Search https://datasetsearch.research.google.com/ Discovering millions of datasets on the web https://blog.google/products/search/discovering-millions-datasets-web/ Dataset Searchにアクセスするとこんな感じ。 データセットを検索するには、入力欄に検索した

                                                Googleが機械学習用のデータセットをインターネット上から検索可能な「Dataset Search」を正式公開
                                              • 効率的な教師データ作成(アノテーション)のための研究サーベイ - ABEJA Tech Blog

                                                どうも緒方@conta_です。 みなさんAI頑張ってますか? きっと昼はGPUサーバーを回して、夜は結果待ちでビールサーバーを回してる人が多いことでしょう。 機械学習を実際のプロダクトに活用する場合、自分が解きたいタスクがそのままオープンなデータセットで解決できることは少ないので、まず最初に課題となるのはデータセット作成です。 実際にカメラやセンサーを取り付けて収集したり、Webからクローリングしてきたり、事業会社であれば自社のデータセットに教師ラベルをつけることで新しいタスクに取り組むことが可能になるでしょう。 よく疑問になるポイントとして、データセットの量と質は、多ければ多いほど良く、高品質であれば高品質であるほど良いのですが教師データを作成するのは一苦労です。 *下記アノテーションの量や質について実験した結果がまとまってます tech-blog.abeja.asia もちろん少数デー

                                                  効率的な教師データ作成(アノテーション)のための研究サーベイ - ABEJA Tech Blog
                                                • あらゆるデータセットに使える3つの可視化テクニック | Yakst

                                                  Python の可視化ライブラリである Seaborn を利用して表現豊かなグラフを生成するためのテクニックを紹介する記事です。グラフの選択基準としてデータを構成する値が分類のある値かそれとも連続値であるかに注目しており、この記事を通して実践的なテクニックを身につけることができます。 可視化は素晴らしいものです。ですが、優れた可視化の実現は悩ましく容易ではありません。 また、大勢に対して優れた可視化をプレゼンするような場合には時間と労力がかかりますよね。 私たちは棒グラフ、散布図、ヒストグラムの作り方についてはよく知っていますが、それらを美しくすることに対してはそこまでの注意を払っていません。 このことは同僚やマネージャーからの信頼に影響します。今あなたがそれを感じることはありませんが、それは起こることです。 さらに、私はコードの再利用が重要であることを知っています。新しいデータセットに触

                                                  • Wikipediaを用いた日本語の固有表現抽出データセットの公開

                                                    ML事業部の近江崇宏です。 ストックマークではプロダクトで様々な自然言語処理の技術を用いていますが、その中のコア技術の一つに固有表現抽出があります。固有表現抽出はテキストの中から固有表現(固有名詞)を抽出する技術で、例えば「Astrategy」というプロダクトでは、固有表現抽出を用いてニュース記事の中から企業名を抽出しています。(企業名抽出については過去のブログ記事を参考にしてください。) 一般に、固有表現抽出を行うためには、大量のテキストに固有表現をアノテーションした学習データをもとに機械学習モデルの学習を行います。今回、ストックマークは固有表現抽出のための日本語の学習データセットを公開いたします!ご自由にお使いいただければと思います! レポジトリ:https://github.com/stockmarkteam/ner-wikipedia-dataset 固有表現をハイライトしたサンプ

                                                      Wikipediaを用いた日本語の固有表現抽出データセットの公開
                                                    • PyTorch/TensorFlow/Keras/scikit-learnライブラリ内蔵のデータセット一覧

                                                      PyTorch/TensorFlow/Keras/scikit-learnライブラリ内蔵のデータセット一覧:AI・機械学習のデータセット辞典 機械学習やディープラーニング用の主要ライブラリが提供する「画像/音声/テキストなどのデータセット」の名前とリンクを表にまとめ、典型的な使い方を簡単に紹介する。 連載目次 本連載「AI・機械学習のデータセット辞典」では、ここまで主に、scikit-learnやKeras/TensorFlow(tf.keras)、TensorFlow Datasets、PyTorchといった主要なPythonライブラリに共通的に含まれる代表的なデータセットを紹介し、各ライブラリでの典型的な実装コード例を示してきた。しかし、これらの全ライブラリに共通的に含まれているデータセットはまれで非常に少ない。よってこれからは、個々のライブラリに1つしか含まれていないようなこまごまと

                                                        PyTorch/TensorFlow/Keras/scikit-learnライブラリ内蔵のデータセット一覧
                                                      • Googleが世界の各地で「不要不急の外出がどれだけ控えられているか」が一目でわかるレポートを公開、日本の各都道府県のデータもチェック可能

                                                        新型コロナウイルス感染症(COVID-19)が流行している国や地域では、不要不急の外出を控える動きが強まっています。そのような動きが実際にどれほどの規模に達しているのか、Googleが「世界各地の小売店・スーパーマーケット・公園・駅・職場・自宅にいる人がどれだけ増減したか」がわかる詳細なレポートを公開しています。 COVID-19 Community Mobility Reports https://www.google.com/covid19/mobility/ Googleが公開したデータは、Googleのスマートフォン向けアプリで「ロケーション履歴」をONにしているアカウントの情報に基づいています。Googleマップなどを利用するユーザーは世界中に何億人もいるため、そのユーザーの一部しかロケーション履歴をONにしていなかったとしても得られるデータは膨大です。なお、収集されたデータはG

                                                          Googleが世界の各地で「不要不急の外出がどれだけ控えられているか」が一目でわかるレポートを公開、日本の各都道府県のデータもチェック可能
                                                        • 実在しない顔の画像3000点を無償配布、AI学習用データセットに 法人向け・商用利用可

                                                          AI活用のコンサルティング事業を手掛けるAPTO(東京都渋谷区)とエイアイ・フィールド(東京都品川区)は10月5日、AIの学習データとして利用できる、実在しない男女の顔写真3000枚の無償配布を始めた。法人を対象に11月30日までの期間限定で提供し、商用利用も認める。「AI市場の加速に貢献できれば」(2社)という。 エイアイ・フィールドが自社の技術で自動生成した、実在しない10代~90代の男女の画像を提供。APTOが作成した年齢・性別などのアノテーション(画像を説明するテキスト情報)も付属する。申し込みは専用サイトで受け付ける。 もともとはエイアイ・フィールドが自社サービスで活用するために作成した画像だったが、6月に用途を研究目的に限った上で1000点を無料配布したところ、利用者からの反響があったことから、データを2000点追加し、商用利用を認めた上で再配布することを決めたという。 関連記

                                                            実在しない顔の画像3000点を無償配布、AI学習用データセットに 法人向け・商用利用可
                                                          • 機械学習/データサイエンスに活用できる「政府系」オープンデータセット3選

                                                            日本の政府系のオープンデータで一番有名なのが「e-Stat」である。統計学やデータサイエンスに携わるもの/学ぶものであれば、名前は聞いたことがあるだろう。かつては各省庁がバラバラに管理&公開していた公的データを、一カ所に集めて誰でも簡単に利用できるようにしたサイトである(2008年から運用が開始され、2018年にリニューアルされた)。 統計分野は多岐にわたり、「国土・気象」「人口・世帯」「労働・賃金」「農林水産業」「鉱工業」「商業・サービス業」「企業・家計・経済」「住宅・土地・建設」「エネルギー・水」「運輸・観光」「情報通信・科学技術」「教育・文化・スポーツ・生活」「行財政」「司法・安全・環境」「社会保障・衛生」「国際」「その他」という17分野が提供されている。データセットは、条件指定によるフィルタリングやグラフ化が行える。例えば人口ピラミッドのグラフも簡単に作成できる。 また、もちろん無

                                                              機械学習/データサイエンスに活用できる「政府系」オープンデータセット3選
                                                            • Googleが自然言語処理の弱点「言い換え」を克服するデータセットを公開

                                                              by Nicole Honeywill 自然言語処理のアルゴリズムは言葉の順序や構造の理解を不得意としてきました。この課題を克服すべく、Googleが新たにデータセットを公開。このデータセットで訓練を行うと、機械学習モデルのテキスト分類精度が50%から80%にまで向上するとのことです。 Google AI Blog: Releasing PAWS and PAWS-X: Two New Datasets to Improve Natural Language Understanding Models https://ai.googleblog.com/2019/10/releasing-paws-and-paws-x-two-new.html Googleは機械翻訳や音声認識で自然言語処理を取り入れていますが、自然言語処理では最先端のアルゴリズムでも「ニューヨークからフロリダへのフライト」

                                                                Googleが自然言語処理の弱点「言い換え」を克服するデータセットを公開
                                                              • 兵庫県の病院が「眼底画像」データセット1万3000枚を無料公開 「AI研究・教育に使って」

                                                                2011年から2018年にかけて、計5389人から収集した眼底画像だという。眼底画像のデータセットには、加齢黄斑変性症、緑内障、網膜剥離(はくり)、糖尿病など9種類の症例画像がタグとともに記録されている。 ツカザキ病院眼科は04年から臨床データベース構築に取り組んでおり、現在は7人のAIエンジニアが眼底画像の自動診断などを研究している。AIエンジニアチーフの升本浩紀さんは、「少子高齢化に対応していくには、ITによる医療の効率化や医療革新などが必要」とプロジェクトページで説明している。 関連記事 順天堂大、認知症の早期発見に「IBM Watson」活用へ 「同じ話を繰り返す」「表情の変化が乏しい」など兆候を検知 順天堂大が、日本IBMなどと共同で行っている、AIを医療に役立てるプロジェクトの詳細を発表。人の表情や振る舞いを「IBM Watson」で分析し、認知症を発症しているか否かを判定する

                                                                  兵庫県の病院が「眼底画像」データセット1万3000枚を無料公開 「AI研究・教育に使って」
                                                                • ReazonSpeech - Reazon Human Interaction Lab

                                                                  ReazonSpeech¶ ReazonSpeechは、世界最大のオープン日本語音声コーパスを構築するプロジェクトです。 日本語音声技術の推進を目的として、35,000時間の日本語音声コーパスを公開しています。 音声認識モデル・コーパス作成ライブラリをオープンソースライセンスで配布しています。

                                                                  • 自然言語処理の研究に悩む その3 - Reproc.pnz

                                                                    前置き 最近やっていたことが一段落したので、博論に向けて考えをまとめたいと思います。ここ半年で取り組んでいた論文は投稿中・準備中という感じで今年はまだ結果が出ていないのですが、テーマ的にだんだん思想バトル感が出てきており、あまりすんなり論文が通る・業績が増えるような雰囲気ではなくなっています(言い訳です)。もう少し目線を下げたほうがよいかもしれないです。 あらすじ ここに至るまでの細かい話は前回や前々回の記事をご覧いただければと思うのですが、以下に簡単にまとめます。おそらく本質的には大きな変化があるわけではないので読み飛ばしていただいてもたぶん大丈夫です。 自然言語処理におけるひとつの目標として「言語を理解するシステムを作る」ことが挙げられると自分は考えています。そうしたシステムの振る舞いをテキスト上で評価するタスクのひとつに「機械読解(machine reading comprehens

                                                                      自然言語処理の研究に悩む その3 - Reproc.pnz
                                                                    • 「AIによる動画要約研究」に激震。今までの自動動画要約技術はランダム抽出と大差なかった? | Ledge.ai

                                                                      画像認識におけるトップカンファレンス「CVPR 2019」で、AIでの自動動画要約の常識を根本的に覆す論文が発表された。最先端の動画要約手法が、ランダムで作成された動画要約と同等レベルでの要約しか作成できていないことを示したものだ。 本稿では、7月13日に開催された「CCSE 2019」でのサイバーエージェントAI Labの大谷まゆ氏による講演「ディープラーニング時代の性能評価」の講演内容、および同氏のCVPR 2019に採択された論文「Rethinking The Evaluation of Video Summaries」の内容をまとめた。 合わせて、動画要約技術で用いられてきた手法の簡単な説明と、「ランダム抽出での要約結果がAIと同等の結果を示した」とはどういうことか、解説する。 近年の動画要約手法とそのデータセットそもそも動画要約とは、もとの映像のなかで根幹をなす内容を捉えつつ、映

                                                                        「AIによる動画要約研究」に激震。今までの自動動画要約技術はランダム抽出と大差なかった? | Ledge.ai
                                                                      • Wikipediaを元にした日本語の名寄せデータセットを作成しました - Sansan Tech Blog

                                                                        こんにちは、DSOC 研究開発部の奥田です。以前の私のブログ記事ではコーギーの動画を見ていると書きましたが、とうとうコーギーを家族として迎え入れ、現在生後6ヶ月の子犬と暮らしております。 さて私たちDSOCでは、SansanやEightの価値を高めるために様々な自然言語処理のタスクに取り組んでおります。例えばニュース記事からの固有表現抽出では、私たちのサービスに特化した固有表現を対象に研究開発しています。その他にも様々あるなかで、特に重要かつ困難とされているものの一つに「名寄せ」というタスクがあります。AIや人工知能と呼ばれるものが発達した現代においても、人間には当たり前にできるタスクが機械には難しいことがまだまだ存在します。 今回は、その「名寄せ」というタスクにおける日本語でのデータセットを作成してみました。これをきっかけに、日本語での名寄せというタスクの研究が進み分野が活性化することを

                                                                          Wikipediaを元にした日本語の名寄せデータセットを作成しました - Sansan Tech Blog
                                                                        • Uber社の全部盛りデータ可視化ツールスイート「Vis.gl」一覧

                                                                          Vis.gl – Uber Vis Team Uber社がオープンソースとして公開している可視化ツールでは「deck.gl」が有名ですが、他にもUber社の持つ巨大なデータセットを分析するために作成されたさまざまなデータ可視化ツールがオープンソースとして公開されています。「Vis.gl」はそれらUber社が作成し公開している可視化ツールをまとめた呼び名で、現在では11点ほどのデータ可視化に有用なツールが公開されており今なお増え続けています。 ここでは、「Vis.gl」スイートとして公開されているツールを一通りざっと紹介したいと思います。(一部、Vis.gl以外でUber社が公開しているツールも含んでいます) ■データビジュアライゼーションフレームワーク ・deck.gl WebGLを用いて大量のデータを可視化することに長けたフレームワーク。 レイヤーベースのコンポーネントとして作られていて

                                                                            Uber社の全部盛りデータ可視化ツールスイート「Vis.gl」一覧
                                                                          • Amazon Personalize使い方まとめ / CloudFormationとPythonでレコメンドアプリケーションを学習・デプロイする - フリーランチ食べたい

                                                                            今週、Amazon PersonalizeがGAになりました。東京リージョンでも使うことができます。 この記事ではAmazon Personalizeの概要、使い方の解説を行います。PythonのAWS SDKを使ってレコメンドアプリケーションを作成していきます。 また事前準備のS3やIAM Roleの作成で、AWSの公式ドキュメントだと手作業が発生しているのですが、それだと大変なので一発で構築できるCloudFormationも紹介します。 aws.amazon.com 最初に触った感想 少し触ってみたのですが、以下の点で非常に良いと思いました。 学習・予測(レコメンド取得)が全てサーバーレスで行える 事前に準備されているアルゴリズムはDeep Learningベースで多く、それ以外も高度なもの 逆に以下のような不満な点もありました。 用語が機械学習で一般的に使うものとかけ離れていて混乱

                                                                              Amazon Personalize使い方まとめ / CloudFormationとPythonでレコメンドアプリケーションを学習・デプロイする - フリーランチ食べたい
                                                                            • 画像認識の定番データセットImageNetはもう終わりか - Qiita

                                                                              オミータです。ツイッターで人工知能のことや他媒体で書いている記事など を紹介していますので、人工知能のことをもっと知りたい方などは気軽に@omiita_atiimoをフォローしてください! 2012年にAlexNet[Krizhevsky, A.(2012)]が登場してから、画像認識分野での発展は著しい。その発展を支えてきたものこそ大規模データセットImageNet[Deng, J.(2009)]である。ImageNetでSoTAを達成すると、そのモデルには最強モデルの称号が与えられると言っても過言ではない。2020年6月にGoogle Brainによって出されたこの論文は、そんな当たり前に使われてきたImageNetデータセットに対して疑問符を叩きつけるものとなっている。現存のImageNetでの性能評価が必ずしも正しいのだろうか。この論文を通してその答えを探しにいく。 本論文で使われて

                                                                                画像認識の定番データセットImageNetはもう終わりか - Qiita
                                                                              • トップカンファレンスにおけるデータセットシフトと機械学習 - Ridge-institute R&D Blog

                                                                                こんにちは,株式会社Ridge-iのリサーチチームの@machinery81です. 今回はNeurIPS2020で発表されたデータセットシフトを扱う機械学習に関連する論文を紹介します. 本記事は,Ridge-i主催の論文読み会で発表した以下の資料に基づいています. TL;DR 機械学習におけるデータセットシフト Covariate Shift Target Shift Concept Shift Domain Shift Sample Selection Bias Taxonomy of NeurIPS2020 papers about Dataset Shift 論文紹介 Rethinking Importance Weighting for Deep Learning under Distribution Shift Importance Weighting for Distribut

                                                                                  トップカンファレンスにおけるデータセットシフトと機械学習 - Ridge-institute R&D Blog
                                                                                • アクティブに更新され続けている、お勧めの機械学習データセット一覧サイト

                                                                                  アクティブに更新され続けている、お勧めの機械学習データセット一覧サイト:AI・機械学習のデータセット辞典 「300個以上のデータセットを紹介している大型サイト」「毎週/毎月のようにアクティブに更新されているサイト」という条件に該当するお勧めのデータセット一覧サイトとして「arXivTimes/DataSets」「Awesome Public Datasets」「UCI Machine Learning Repository」の3つを紹介する。

                                                                                    アクティブに更新され続けている、お勧めの機械学習データセット一覧サイト

                                                                                  新着記事