並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 85件

新着順 人気順

学習データの検索結果1 - 40 件 / 85件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

学習データに関するエントリは85件あります。 機械学習AI人工知能 などが関連タグです。 人気エントリには 『データエンジニアの私が機械学習・データサイエンスでオススメしたいスキルマップと本まとめ - 2020年版 - Lean Baseball』などがあります。
  • データエンジニアの私が機械学習・データサイエンスでオススメしたいスキルマップと本まとめ - 2020年版 - Lean Baseball

    要約すると, データサイエンス・機械学習周りでよく聞かれること&回答を言語化しました. 「データサイエンティストやりたい」「機械学習エンジニアになりたい」というキャリア志望を持つ方は多いと思います. 私の周りでも, 公私ともにそんな志望者の相談を聞いたり, (主にインターンの学生さんですが)一緒に仕事をしたりする機会もメッチャ多いです. 「ビジネスサイド強いマン」「サーバーサイドエンジニア」という視点からデータエンジニア兼データサイエンティストな自分が, そんな彼ら彼女らにオススメしている, データサイエンティストを目指すためのスキルマップ 各領域のスキルアップを実現するためにオススメしたい書籍 を紹介したいと思います. なお, 昨年も同様のエントリーを書いておりそのUpgrade版となります. shinyorke.hatenablog.com このエントリーの対象読者 データサイエンスに

      データエンジニアの私が機械学習・データサイエンスでオススメしたいスキルマップと本まとめ - 2020年版 - Lean Baseball
    • 【大炎上】イラストAIサイト「NovelAI」明確に絵描きの敵だった(danbooru という無断転載サイトを学習データに利用)

      NovelAI @novelaiofficial @NilaierMusic Since we are training on Danbooru, it also learns character names and their visuals. You can prompt for "masterpiece portrait of smiling rem, re zero, caustics, textile shading, high resolution illustration" and get this: pic.twitter.com/2wqDmAxCJa 2022-09-25 10:20:30

        【大炎上】イラストAIサイト「NovelAI」明確に絵描きの敵だった(danbooru という無断転載サイトを学習データに利用)
      • 学習データに最適化されすぎて本来の目的が達成できなくなる「過学習」と同様の現象はAIだけでなく社会全体で起こっているという主張

        機械学習における過学習(過剰適合/オーバーフィッティング)とは、AIが学習データのみに最適化されてしまい、未知のデータに対する予測能力が低くなってしまうという現象です。そんな過学習と同様の現象が機械学習分野だけでなく社会全体のさまざまな場面でも発生していると、Google傘下の人工知能研究所・Google Brainの研究者であり近年の画像生成AIに広く用いられている「拡散モデル」の論文執筆者でもあるJascha Sohl-Dickstein氏が主張しています。 Too much efficiency makes everything worse: overfitting and the strong version of Goodhart’s law | Jascha’s blog https://sohl-dickstein.github.io/2022/11/06/strong-Go

          学習データに最適化されすぎて本来の目的が達成できなくなる「過学習」と同様の現象はAIだけでなく社会全体で起こっているという主張
        • OpenAI APIのファインチューニングの学習データのガイドライン|npaka

          以下の記事を元に、「OpenAI API」のファインチューニングの学習データのガイドラインをまとめました。 1. 学習データの書式ファインチューニングするには、単一の入力「プロンプト」とそれに関連する出力 「コンプリーション」 のペアで構成される学習データが必要です。これは、1回のプロンプトで詳細な手順や複数の例を入力するような、ベースモデルの使用方法とは大きく異なります。 「学習データの書式」のガイドラインは、次のとおりです。 ・プロンプトが終了してコンプリーションが開始することをモデルに知らせるため、区切り記号 ("\n\n###\n\n"など) でプロンプトを終了する必要があります。区切り記号は、プロンプトの他の場所で使用されない文字列を指定します。 ・コンプリーションが終了することをモデルに知らせるため、停止記号 ("\n"、"###"など)でコンプリーションを終了する必要がありま

            OpenAI APIのファインチューニングの学習データのガイドライン|npaka
          • Springerから機械学習・データサイエンスに関する電子書籍(65冊)が無料|Sangmin Ahn

            この中から機械学習(Machine Learning)やデータサイエンスに関する書籍を65冊ピックアップしました。リストは下記のサイトを参考にしてます。 1  リストにアクセスする方法書籍のリストはグーグルシートに「Machine Learning and Data」のタブを追加して表示しています。アクセスする方法は、 ①下記イメージをクリック ②グーグルシートへ遷移 ③Machine Learning and Dataのタブを選択 リストに含まれている、「Robotics, Vision and Control」は僕も持ってますが、通常ですと8000円を超える教材です。 Robotics, Vision and Control: Fundamental Algorithms In MATLAB® Second, Completely Revised, Extended And Updat

              Springerから機械学習・データサイエンスに関する電子書籍(65冊)が無料|Sangmin Ahn
            • GPT-3の学習データはどのように作られたか - moriyamaのエンジニアリング備忘録

              OpenAIが発表した言語モデルGPT-3はパフォーマンスの高さから各方面で注目されており、ついにはMicrosoftが学習済みモデルの利用を独占化しました。 私個人の所感としてこれまで学習済みモデルは無料公開するという流れを無視し、(アーキテクチャではなく)学習済みモデルが商品化するのはAIビジネスの一つの転換期と感じています。 深層学習による自然言語処理分野で巨大化していくモデルを十分に学習させるためにはWebデータの活用が大きな役割を果たしています。一方、その量に関する話題はあるものの、利用にあたっての細かな前処理に関する議論はあまりなされていない印象です。 そこで本記事は学習データの構築にフォーカスします。 GPT-3の論文でも言及されている通り、学習データはGoogle Researchが発表したT5のデータを踏襲したと書かれていますので、まずはT5のデータから見て行きましょう。

                GPT-3の学習データはどのように作られたか - moriyamaのエンジニアリング備忘録
              • 機械学習/データサイエンスに活用できる「政府系」オープンデータセット3選

                日本の政府系のオープンデータで一番有名なのが「e-Stat」である。統計学やデータサイエンスに携わるもの/学ぶものであれば、名前は聞いたことがあるだろう。かつては各省庁がバラバラに管理&公開していた公的データを、一カ所に集めて誰でも簡単に利用できるようにしたサイトである(2008年から運用が開始され、2018年にリニューアルされた)。 統計分野は多岐にわたり、「国土・気象」「人口・世帯」「労働・賃金」「農林水産業」「鉱工業」「商業・サービス業」「企業・家計・経済」「住宅・土地・建設」「エネルギー・水」「運輸・観光」「情報通信・科学技術」「教育・文化・スポーツ・生活」「行財政」「司法・安全・環境」「社会保障・衛生」「国際」「その他」という17分野が提供されている。データセットは、条件指定によるフィルタリングやグラフ化が行える。例えば人口ピラミッドのグラフも簡単に作成できる。 また、もちろん無

                  機械学習/データサイエンスに活用できる「政府系」オープンデータセット3選
                • NEC、従来技術の半分の学習データ量でも高精度に識別可能なディープラーニング技術を開発

                  NECは、従来の半分程度の学習データ量でも高い識別精度を維持できるディープラーニング技術を新たに開発しました。 識別精度の向上には、識別が難しい学習データをより多く学習することが有効ですが、学習に適した質の良いデータを十分に確保することが重要です。本技術は、ニューラルネットワーク(注1)の中間層で得られる特徴量を意図的に変化させることで、識別が難しい学習データを集中的に人工生成します。これにより、少ない学習データ量でも識別精度を大きく向上させ、ディープラーニングを適用したシステムの開発期間短縮に貢献します。 具体的には、ディープラーニング技術の適用に必要な学習データ量を半分程度に削減します。また本技術は、データの種類を問わず汎用的に適用可能であることから、専門家による調整が不要になります。これにより従来、学習データ収集時間やコストの高さが阻害要因となっていた製品の外観検査やインフラ保全など

                    NEC、従来技術の半分の学習データ量でも高精度に識別可能なディープラーニング技術を開発
                  • 萌えキャラを腐らせたくない 「東北ずん子」運営会社がAI向け学習データを無料公開、その狙いは

                    東北地方を応援する萌えキャラの運営会社が、キャラの声を生かしたAI研究向け学習データを無料で公開している。直接的な収益にもならず、研究者に使ってもらえるとも限らないのに、なぜそのような取り組みを行っているのか。データを公開した萌えキャラ運営会社SSS(仙台市)の小田恭央CEOに話を聞いた。 萌えキャラ「東北ずん子」の運営会社 SSSは東北応援キャラ「東北ずん子」を運営する企業で、グッズの製作や地域振興イベントなど、ライセンスビジネスを展開している。ヤマハの歌声合成ソフト「VOCALOID」用音源の販売などは行っているが、AIの技術開発を行っているテクノロジー企業というわけではない。「AI向けの学習データを無料公開」といわれると少し唐突にも聞こえる。 同社は2019年11月、研究者向けに「東北きりたん歌唱データベース(DB)」を無料公開した。東北ずん子の関連キャラ「東北きりたん」の歌声を約1

                      萌えキャラを腐らせたくない 「東北ずん子」運営会社がAI向け学習データを無料公開、その狙いは
                    • 孤独でつらい機械学習データの作成を、ワイワイ楽しくする環境を3日で作る - Qiita

                      21世紀でもっともセクシーと言われるデータサイエンスは、18世紀を彷彿とさせる奴隷的な作業によって支えられています(要出典)。その作業とは、データを作る作業(=アノテーション)です。多くの場合、アノテーションは孤独な単調作業の繰り返しです。延々と続けていると、全ての単語にunkとつけるようになる事例も報告されています。つまりつらい!のです。 本記事では、「孤独で辛い」アノテーションを「みんなで楽しく」行える環境を作る方法を紹介します。そのポイントは以下3点です。 Easy: アノテーションを楽に Feedback: アノテーションした結果がすぐにわかるように Gamification: アノテーション結果をみんなで競い合う Overview アノテーションを行う流れは以下のようになります。 Annotation Tool for Easy: アノテーションを楽にするためのツールを用意 In

                        孤独でつらい機械学習データの作成を、ワイワイ楽しくする環境を3日で作る - Qiita
                      • 【機械学習】機械学習を用いたin silico screening【AI創薬】~第2/5章 スクレイピングによる公共データベース(PDB)からの機械学習データを収集~ - LabCode

                        AI創薬とは? AI創薬は、人工知能(AI)技術を利用して新しい薬物を発見、開発するプロセスです。AIは大量のデータを高速に処理し、薬物の候補を予測したり、薬物相互作用を評価したりします。また、AIは薬物の効果や安全性をシミュレートすることも可能で、臨床試験の前の段階でリスクを評価することができます。これにより、薬物開発のコストと時間を大幅に削減することが期待されています。AI創薬は、薬物開発の新しいパラダイムとして注目を集め、製薬企業や研究機関で積極的に研究、導入が進められています。また、バイオインフォマティクス、ケモインフォマティクス、機械学習、ディープラーニングなどの技術が組み合わされ、薬物開発のプロセスを革新しています。さらに、AI創薬は個人化医療の推進にも寄与し、患者にとって最適な治療法を提供する可能性を秘めています。 今回はAI創薬の中でも、in silico screeeni

                        • 【Python】Webアプリ開発、AI・機械学習、データ分析が学べるコンテンツ&書籍23選 - paiza times

                          こんにちは。倉内です。 Pythonは文法がシンプルで初めてプログラミングを学ぶ方も取り組みやすく、また、近年はビッグデータ分析やAI・機械学習の分野で利用され人気の高いプログラミング言語です。 2020年1月に公開された『AI崩壊』という映画の中でもAIのプログラムはPythonで書かれていました。(画面にコードがよく映るので学習したことがある方はすぐ分かると思います。見る機会があれば注目してみてください) 人気があるので学習コンテンツや書籍も充実していますが、たくさんありすぎて逆に「どれで勉強するといいだろうか…?」と悩むこともあるかもしれませんね。 そこで今回は目的別にPythonを学べるオンラインコンテンツと書籍をご紹介したいと思います。 Pythonの基本を学ぶ オンライン実行環境がある学習サービス 【 Progate 】 【 paizaラーニング 】 【 PyQ 】 ローカル環

                            【Python】Webアプリ開発、AI・機械学習、データ分析が学べるコンテンツ&書籍23選 - paiza times
                          • 機械学習モデルの学習データを推論する方法 | 技術者ブログ | 三井物産セキュアディレクション株式会社

                            近年、機械学習を使用した医療診断技術や顔認識・音声認識技術などが登場しており、患者のレントゲン写真から病気の種類を予想するシステムや、顔認証を行うシステムなどに利用されています。その一方で、システムが学習したデータを特定する攻撃手法も盛んに研究されており、データ・プライバシー侵害の懸念も広がっています。特に、システムの挙動から学習データを推論する「メンバーシップ推論攻撃(Membership Inference Attacks)」は数年前から多くの検証が行われており、現実的な脅威になる可能性が高まっています。 メンバーシップ推論攻撃は、攻撃対象の分類器(以下、標的分類器)に正常な入力データを与え、標的分類器から応答された分類結果を観察することで、入力したデータが分類器の学習データに含まれているか否か(=メンバーシップか否か)を推論します。仮に、近年プライバシーや自由の侵害などを理由に反対意

                              機械学習モデルの学習データを推論する方法 | 技術者ブログ | 三井物産セキュアディレクション株式会社
                            • デジタル庁、教育デジタル化の工程表発表 個人の生涯学習データを一元管理

                              デジタル庁は7日、2030(令和12)年ごろをめどに個人が幼児教育から生涯にわたる学習データを一元的に管理できる仕組みを構築する教育のデジタル化の工程表を発表した。個人は学習履歴に合わせた指導や行政支援を受けることができ、社会人になってからも職業訓練や生涯学習で生かせる。民間事業者は匿名化したビッグデータを使って、教材の開発などのビジネスにつなげることもできる。 工程表はデジタル庁と文部科学省、総務省、経済産業省が共同で策定。短期目標として今年中に教育現場の通信環境を整備、学校業務のデジタル化を進める。25年までの中期目標ではパソコンやタブレット端末を日常的に使用することで教育データを収集し、学校と自治体間で連携させる。長期目標の30年ごろまでに、個人は自分のデータを管理できるようになり、個性に合わせた学習を受けることもできるようになる。データを共有している自治体からは、申請手続きが不要な

                                デジタル庁、教育デジタル化の工程表発表 個人の生涯学習データを一元管理
                              • NEC、ディープラーニングに必要な学習データを半減、中間層で得られる特徴量を意図的に変化 | IT Leaders

                                IT Leaders トップ > テクノロジー一覧 > AI > 市場動向 > NEC、ディープラーニングに必要な学習データを半減、中間層で得られる特徴量を意図的に変化 AI AI記事一覧へ [市場動向] NEC、ディープラーニングに必要な学習データを半減、中間層で得られる特徴量を意図的に変化 2019年8月19日(月)日川 佳三(IT Leaders編集部) リスト NECは2019年8月19日、ディープラーニングに必要な学習データ量を半減させられる技術を開発したと発表した。少ない学習データ量でも識別精度を高められるとしている。ニューラルネットワークの中間層で得られる特徴量を意図的に変化させることで、識別が難しい学習データを集中的に人工生成する仕組み。 NECは今回、ディープラーニングに必要な学習データ量を半分程度に削減できる技術を開発した(図1)。データの種類を問わず、汎用的に適用でき

                                  NEC、ディープラーニングに必要な学習データを半減、中間層で得られる特徴量を意図的に変化 | IT Leaders
                                • ChatGPTに同じ言葉を連呼させると、壊れて学習データ(個人情報入り)を吐き出す?Google DeepMind研究者らのチームが論文発表 | テクノエッジ TechnoEdge

                                  同様のプロンプトを使って出てきた情報としてはほかにも、研究論文やCNNほかのニュースサイトの記事断片、Wikipediaのページに記された文章、詩の断片、Bitcoinアドレス、ファックス番号、だれかの名前、誕生日、ソーシャルメディアのハンドルネーム、デートサイトからとみられる露骨なコンテンツ、著作権のある研究論文の断片などがありました。 LLMはチャットボットやテキスト画像生成AIなど、テクノロジー界隈をこの1年半ほど賑わせている生成AIの基盤技術です。その深層学習アルゴリズムは、膨大な量のデータに基づいてトレーニングされていますが、その膨大な量のデータセットは一般に、公共のインターネットから収集されることが多いと言われています。しかし、OpenAIのLLMはクローズドソースであるため、どのようなデータセットを用いてトレーニングしてきたのかは、ほとんど知られていませんでした。 研究者は、

                                    ChatGPTに同じ言葉を連呼させると、壊れて学習データ(個人情報入り)を吐き出す?Google DeepMind研究者らのチームが論文発表 | テクノエッジ TechnoEdge
                                  • TOPPANの古文書解読アプリ、学習データ追加で解読精度が向上

                                    古文書カメラは、スマートフォンで撮影したくずし字資料をAI-OCR技術で手軽に解読可能な無料アプリ。今回のアップデートでは学習データの追加とAI-OCRモデルの刷新を行い、100枚程度のサンプルでフルオート処理をした場合の精度を計測したところ、とくに手書きの古文書に対して大幅な解読精度の改善が認められたという。 あわせて、さまざまな条件下で撮影した画像に対応できるよう画像編集機能を追加。斜めから撮影した画像の補正する「台形補正」、シミやノイズなどを軽減する「ノイズ除去」、余分な画像を除去する「トリミング」、資料画像を回転できる「角度補正」、モノクロ状態で白黒を反転する「白黒反転」を利用できる。また、これまでの1日あたり10回だった解読機能の利用回数を30回に増加させた。利用回数は毎日0時にリセットされる。 関連記事 Pixel Foldの「デュアルスクリーン通訳モード」が日本でも利用可能に

                                      TOPPANの古文書解読アプリ、学習データ追加で解読精度が向上
                                    • 生成AI学習データ、事業者に開示指針 政府が骨子案 - 日本経済新聞

                                      政府が年内にまとめる人工知能(AI)の事業者向け指針の骨子案が11日、分かった。開発から活用の5段階で企業が守るべきルールを示す。生成AIがどんなデータを学習したかの開示などを求める。産業競争力向上につながるAIの適切な利用に向け、ルールを設けて透明性を高める。急速に進化するAIを巡るルールづくりは国際的に検討が進む。欧州連合(EU)は開発者から利用者まで各主体が果たす責務を法律で厳しく定める

                                        生成AI学習データ、事業者に開示指針 政府が骨子案 - 日本経済新聞
                                      • 焦点:学習データ争奪戦、「廃れたSNS」のコンテンツに群がる生成AI企業

                                        4月5日、 2000年代初頭、フォトバケットは世界一の画像管理・共有サイトだった。写真はSNSのロゴのイメージ。2021年5月撮影(2024年 ロイター/Dado Ruvic) [ニューヨーク 5日 ロイター] - 2000年代初頭、フォトバケットは世界一の画像管理・共有サイトだった。当時人気だったマイスペースやフレンドスターといったサービスのメディア管理を担うバックボーンとして7000万人ものユーザーを抱え、米国のオンライン写真市場の半分近くのシェアを握っていた。 現在、フォトバケットを使い続けているユーザーはわずか200万人にまで激減し、スタッフ数も40人程度となった。しかし、生成AI(人工知能)革命のおかげで、フォトバケットは「第2のピーク」を迎えようとしている。 コロラド州エドワーズを本拠とする同社のテッド・レナード最高経営責任者(CEO)はロイターの取材に対し、文章による指示に応

                                          焦点:学習データ争奪戦、「廃れたSNS」のコンテンツに群がる生成AI企業
                                        • AI学習データの開示を義務づける法案がEUで提出される

                                          AIの学習データ開示を企業に義務づける法案がEUで提出され、成立に向けて一歩前進したことが明らかになりました。 EU proposes new copyright rules for generative AI | Reuters https://www.reuters.com/technology/eu-lawmakers-committee-reaches-deal-artificial-intelligence-act-2023-04-27/ Europe to ChatGPT: Disclose Your Sources - WSJ https://www.wsj.com/amp/articles/europe-to-chatgpt-disclose-your-sources-863ef330 新しい法案によると、文章生成AIのChatGPTや画像生成AIのStable Diffu

                                            AI学習データの開示を義務づける法案がEUで提出される
                                          • AIを使った人事評価は「ブラックボックス」 日本IBMの労組が反発、学習データなど開示求める

                                            日本アイ・ビー・エム(IBM)と子会社などの従業員約120人による労働組合「JMITU日本アイビーエム支部」(JMITU)が、同社のAI「Watson」を使った人事評価や賃金決定の施策に対し、「判断の過程がブラックボックス化している」などと反発していることが分かった。JMITUは、Watsonの学習データの開示などをIBMに求めたが、同社はこれを拒否。現在も解決に至っていない。 JMITUは「団体交渉に誠実に応じないのは違法(労働組合法7条が禁止する不当労働行為)」と主張し、4月3日付で東京都労働委員会に救済を申し立てている。都労委は申し立てを正式に受理しており、解決に向けた調整に入るとしている。 IBMは19年8月からWatson導入 JMITUによると、IBMは2019年8月に、AIを活用した人事評価ツール「IBM Compensation Advisor with Watson」(W

                                              AIを使った人事評価は「ブラックボックス」 日本IBMの労組が反発、学習データなど開示求める
                                            • 【機械学習】機械学習を用いたin silico screening【AI創薬】~第1章 公共データベース(ChMBL)からの機械学習の学習データを収集~ - LabCode

                                              AI創薬とは? AI創薬は、人工知能(AI)技術を利用して新しい薬物を発見、開発するプロセスです。AIは大量のデータを高速に処理し、薬物の候補を予測したり、薬物相互作用を評価したりします。また、AIは薬物の効果や安全性をシミュレートすることも可能で、臨床試験の前の段階でリスクを評価することができます。これにより、薬物開発のコストと時間を大幅に削減することが期待されています。AI創薬は、薬物開発の新しいパラダイムとして注目を集め、製薬企業や研究機関で積極的に研究、導入が進められています。また、バイオインフォマティクス、ケモインフォマティクス、機械学習、ディープラーニングなどの技術が組み合わされ、薬物開発のプロセスを革新しています。さらに、AI創薬は個人化医療の推進にも寄与し、患者にとって最適な治療法を提供する可能性を秘めています。 今回はAI創薬の中でも、in silico screeeni

                                              • 「TensorFlow」の学習データを「Scratch」のプログラムに組み込む ~AIを体感!画像を機械学習させてみよう<後編>【どれ使う?プログラミング教育ツール】

                                                  「TensorFlow」の学習データを「Scratch」のプログラムに組み込む ~AIを体感!画像を機械学習させてみよう<後編>【どれ使う?プログラミング教育ツール】
                                                • 生成AIの学習データに児童虐待画像 米大学研究者が指摘 - 日本経済新聞

                                                  米スタンフォード大の研究者は20日、画像生成AI(人工知能)の学習用データセット「LAION(ライオン)5B」が1000件以上の児童の性的虐待画像を含んでいたと発表した。多くの画像生成AIが同データを使って学習しており、不適切な画像を生成する恐れがあると警告している。ライオン5Bはインターネット上の50億枚以上の画像のURL(アドレス)を集約したデータセットだ。報告書を発表したスタンフォード大

                                                    生成AIの学習データに児童虐待画像 米大学研究者が指摘 - 日本経済新聞
                                                  • ニュース原稿に特化した日英翻訳AI 約50万対の学習データを手作業で NHKが開発

                                                    「翻訳AIを作るために、約50万対の翻訳データを手作業で作成した」――NHK放送技術研究所の担当者は、日英翻訳AI(人工知能)の開発についてこう説明した。 NHK放送技術研究所は5月28日、AIを活用したニュース原稿の日英翻訳技術を報道陣向けに公開した。一文が70~80文字程度の原稿を、より正確に翻訳できるという。イベント「技研公開2019」(5月30日~6月2日)で一般公開する。 操作画面は一般的な翻訳サイトとほぼ同じ。日本語の文章を入力して実行ボタンを押すと8秒程度で英訳する。ニュース原稿特有の文章を翻訳する用途に絞ることで、誤訳を従来の技術の3分の1まで減らした。NHKのニュース原稿は他のメディアに比べて一文が長い特徴があり、一般的な英訳システムの使用は難しいという。翻訳家はAIが英訳した文章を監修するだけで済むため、作業の高速化や人件費削減が望める。 この日英翻訳AIは、日本語の文

                                                      ニュース原稿に特化した日英翻訳AI 約50万対の学習データを手作業で NHKが開発
                                                    • ポジティブ?ネガティブ?ツイートの感情分析にBERTを活用した事例紹介 〜 学習データのラベル偏りに対する取り組み

                                                      ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、自然言語処理システムを開発している山城です。今回はYahoo!リアルタイム検索の一機能である感情分析機能の紹介と、そのシステム刷新作業の一環として行ったラベル偏り改善の取り組みについて解説します。 リアルタイム検索とは?ツイートから受ける印象を推定しよう! Yahoo!リアルタイム検索というサービスがあります。ユーザーはこちらを用いて、Twitterに投稿されたツイート(つぶやき)が検索できます。 たとえばユーザーが『月曜日』という単語を入力すると、直近数時間のうちにつぶやかれた『月曜日』という文字列を含むツイートが集められて、その単語に関するさまざまなコメントが閲覧できます。 ところで、リアルタイム検索ではその部分コ

                                                        ポジティブ?ネガティブ?ツイートの感情分析にBERTを活用した事例紹介 〜 学習データのラベル偏りに対する取り組み
                                                      • 【機械学習】機械学習を用いたin silico screening【AI創薬】~第3/5 章 機械学習データの整形~ - LabCode

                                                        AI創薬とは? AI創薬は、人工知能(AI)技術を利用して新しい薬物を発見、開発するプロセスです。AIは大量のデータを高速に処理し、薬物の候補を予測したり、薬物相互作用を評価したりします。また、AIは薬物の効果や安全性をシミュレートすることも可能で、臨床試験の前の段階でリスクを評価することができます。これにより、薬物開発のコストと時間を大幅に削減することが期待されています。AI創薬は、薬物開発の新しいパラダイムとして注目を集め、製薬企業や研究機関で積極的に研究、導入が進められています。また、バイオインフォマティクス、ケモインフォマティクス、機械学習、ディープラーニングなどの技術が組み合わされ、薬物開発のプロセスを革新しています。さらに、AI創薬は個人化医療の推進にも寄与し、患者にとって最適な治療法を提供する可能性を秘めています。 今回はAI創薬の中でも、in silico screeeni

                                                        • 300ヶ国語に対応!自然言語処理AIから自動運転AIまで あらゆるAI学習データを収集・作成できるプラットフォーム「Lionbridge AI」が正式ローンチ:時事ドットコム

                                                          300ヶ国語に対応!自然言語処理AIから自動運転AIまで あらゆるAI学習データを収集・作成できるプラットフォーム「Lionbridge AI」が正式ローンチ [ライオンブリッジジャパン株式会社] グローバル企業向けに優れた翻訳・ローカリゼーション・AI学習データサービスを提供するライオンブリッジジャパン株式会社の本社Lionbridge Technologies, Inc.(本社所在地: マサチューセッツ州、CEO: ジョン・フェネリー、以下Lionbridge)は、2019年6月4日に、AI学習データの収集・作成プラットフォーム「Lionbridge AI」を正式にローンチしたことをお知らせいたします。 ■Lionbridge AI開発背景 Lionbridgeは今まで、世界中の企業のプラットフォーム上で、検索関連性の評価や、位置情報取得の検証を向上させるためにデータの収集やクリーニン

                                                            300ヶ国語に対応!自然言語処理AIから自動運転AIまで あらゆるAI学習データを収集・作成できるプラットフォーム「Lionbridge AI」が正式ローンチ:時事ドットコム
                                                          • 教育・学習データ利活用について | 東北大学

                                                            教育・学習データ利活用(EDU: Educational Data Utilization)宣言 東北大学は、日本を代表する高等教育機関として、日々の教育や学習に関するデータを安全な方法で取得・保持・分析し、客観的データに基づく教育改善や学生等の学習支援を図るととともに、データ利活用から得られた叡智を公開し、国民と人類の福利に貢献します。 令和3年3月16日 東北大学教育・学習データ取扱8原則 東北大学教育・学習データ利活用ポリシー 問い合わせ先 東北大学教育・学生支援部教務課全学教育企画係 教育・学生支援 インフォメーション 教育 ニューノーマルに対応した新しい授業形態について ニューノーマルに対応した新しい授業形態について オンライン授業グッドプラクティス カリキュラム・授業 全学教育 大学院共通科目 学年暦・授業日程 科目ナンバリング 本学におけるGPA制度 各学部・各研究科カリキュ

                                                              教育・学習データ利活用について | 東北大学
                                                            • 学習データの蓄積を加速する ABEJA Platform Annotation - Y's note

                                                              AIをビジネスに実装する方法 作者:岡田 陽介日本実業出版社Amazon ABEJA Platformについて yut.hatenablog.com @yutakikuchi_です。 前回のPostでABEJAが開発しているMLOpsの課題を解決するABEJA Platformの概要について説明しました。このPostではABEJA Platformの一機能であり、学習データの蓄積を加速する ABEJA Platform Annotation について紹介します。 ABEJA Platform Annotationとは abejainc.com 今回はMLOpsで重要な学習データを蓄積するためのAnnotationについて書きます。そもそも学習データとは?という方もいると思うので、簡単に一言で表すと、人工知能のモデルを作るための知識・入力データと言えます。人間も学習という訓練を重ねながら脳を

                                                                学習データの蓄積を加速する ABEJA Platform Annotation - Y's note
                                                              • 生成AIの学習データ、適正な収集とクリエイターなどへの対価求める…政府の中間骨子案

                                                                【読売新聞】 政府は21日、生成AI(人工知能)の急速な発展に伴う知的財産権保護のあり方を議論する「AI時代の知的財産権検討会」の会合をオンラインで開き、中間とりまとめの骨子案が了承された。生成AIの開発者・提供者に対し、AIの学習

                                                                  生成AIの学習データ、適正な収集とクリエイターなどへの対価求める…政府の中間骨子案
                                                                • 【!?】AI絵師、ついに有名絵師に特化した学習データがばら撒かれる! まじで凄すぎるぜAI

                                                                  899 名無しさん@お腹いっぱい。[] 2022/10/16(日) 03:30:33.71 ID:vERrBR6c また新しい展開になったぞ 今度は特定の絵師ごとに狙い撃ちで学習したデータが配布され始めた 本家の絵師の画風を学習させてのAI二次創作がし放題になってる 4chでnovelAIに aからzまで作家の絵を学習させてる mimicのワールドワイド版だな 業界団体が規制に動かないと日本のイラストコンテンツマジで終わるよ 925 名無しさん@お腹いっぱい。[sage] 2022/10/16(日) 04:28:05.17 ID:nZuJ4XZR 絵師の絵柄学習データがばらまかれ始める 1 名前:風吹けば名無し[] 投稿日:2022/10/16(日) 02:21:09.20 ID:E0D4aZy60 やりたい放題やんけ かにかま ザンクロー 朝凪 武田弘光

                                                                    【!?】AI絵師、ついに有名絵師に特化した学習データがばら撒かれる! まじで凄すぎるぜAI
                                                                  • 国産生成AIの開発進む「豊富な日本語の学習データが強み」 | NHK

                                                                    国内でも生成AIの開発が加速する中、京都府を拠点に研究を行う国立研究開発法人「情報通信研究機構」=NICTでは、豊富な日本語の学習データを強みとした国産AIの開発を進めています。 京都府精華町にあるNICTデータ駆動知能システム研究センターの鳥澤健太郎フェローのチームは、生成AIの基盤となる「大規模言語モデル=LLM」をことし7月、開発に成功したと発表しました。開発にかかった期間はおよそ4か月です。 最大の特徴は、大規模な日本語の学習データです。海外での開発が先行する生成AIでは、学習データは英語が中心で良質な日本語のデータをどう確保するのかが課題となっています。 チームでは、これまで15年かけて膨大な日本語のウェブサイトの情報を収集していて「アノテーター」と呼ばれる専門スタッフおよそ50人が学習データに不要な単語を取り除けるよう調整を行うなどして、ほかにはない良質な日本語のデータを新聞1

                                                                      国産生成AIの開発進む「豊富な日本語の学習データが強み」 | NHK
                                                                    • ChatGPTの学習データと学習方法が知りたい! 〜Q.埼玉県沖で採れるウニはいくらですか? A.ウニはいくらではない。〜 - GMOインターネットグループ グループ研究開発本部

                                                                      2023.01.12 ChatGPTの学習データと学習方法が知りたい! 〜Q.埼玉県沖で採れるウニはいくらですか? A.ウニはいくらではない。〜 ウニはいくらですか? ウニはいくらじゃありません!!! みなさん、こんにちは。グループ研究開発本部、AI研究開発室のY.Tです。 先程の画像は、1ヶ月ほど前に公開され話題となっているChatGPTとお話ししてみた時の画像です。 文章としては、文法が崩壊しておらず、意味も通るとても自然な文章が生成されていますね。 しかし、単純な質問に見えて「埼玉県に海はない」「ウニはイクラではない」「”イクラ”か”幾ら”かで意味が変わる」などのバックグラウンド知識や文脈の高度な判断が、適切な解答のためには要求される質問に見事に引っ掛かっています。 これは、あくまで入力に対して尤もらしい出力を返すモデルであり、知識から論理的な回答をするモデルではないためです。 一方

                                                                        ChatGPTの学習データと学習方法が知りたい! 〜Q.埼玉県沖で採れるウニはいくらですか? A.ウニはいくらではない。〜 - GMOインターネットグループ グループ研究開発本部
                                                                      • OpenAI、合成画像の検知技術 AIの学習データ管理も - 日本経済新聞

                                                                        【シリコンバレー=渡辺直樹】生成AI(人工知能)「Chat(チャット)GPT」を開発した米新興オープンAIは7日、AIの合成画像を検知する技術を発表した。偽情報の拡散を防ぐのに使う。また報道機関やコンテンツ作成者向けに、AIに学習させる情報を管理できるツールを2025年までに開発すると発表した。AIの適切な利用に向けた仕組みづくりを急ぐ。オープンAIは画像を描く生成AIも提供している。特殊なデ

                                                                          OpenAI、合成画像の検知技術 AIの学習データ管理も - 日本経済新聞
                                                                        • ChatGPTに入力情報を学習データとして使用させない方法「オプトアウト」

                                                                          3月31日、イタリアのデータ保護当局は、OpenAIによる同国ユーザーのデータ処理に一時的な制限を課す命令を出し、それを受けたOpenAIはイタリアからのChatGPTへのアクセスをブロックした。 また、韓国メディア「이코노미스트(Economist)」は3月30日、サムスン電子の一部署がChatGPTの使用を許可したところ、機密性の高い社内情報をChatGPTに入力してしまう事案が3件発生したと報道している。 ChatGPTとの会話は無限の可能性を秘めているが、そこに入力したデータはどのように扱われているのだろうか。巷間言われるようにプライバシーや守秘義務に関わる情報をChatGPTに渡してはいけないのだろうか。あらためてOpenAIの規約を確認してみた。 API経由で使うなら安全 これまでChatGPTを利用するには、OpenAIが提供するフリーリサーチプレビュー版もしくは有料の「Ch

                                                                            ChatGPTに入力情報を学習データとして使用させない方法「オプトアウト」
                                                                          • 少量の学習データによる次世代AI構築の基盤となる事前学習済みモデル

                                                                            新エネルギー・産業技術総合開発機構(NEDO)と産業技術総合研究所(産総研)は2019年12月10日、AI(人工知能)を用いた動画認識やバイオ分野の自然言語テキストを理解する基盤となる事前学習済みモデルを構築したと発表した。また同日、同モデルを公開した。 同モデルは、産総研のAI用クラウド計算基盤「ABCI」による大規模な機械学習によって、大量の動画やテキストデータを事前に学習している。

                                                                              少量の学習データによる次世代AI構築の基盤となる事前学習済みモデル
                                                                            • ChatGPTの学習データ量はまだ少ない?! - まねき猫の部屋

                                                                              AI ChatGPTの学習データ量から、今のChatGPTの現状などを考察してみようという記事です。まだ突っ込み所満載なのですが、お暇ならお付き合いください。 目次 1.ChatGPTの学習データ ChatGPTの学習データ量 世界の公開データ量と比べる 2.形式知と暗黙知から 世界のデータ内訳を推定する 形式知は全体の10% 3.形式知でAIが利用可能なデータ量 世界データの61%は画像データ? 4.おわりに 1.ChatGPTの学習データ ChatGPTの学習データは、インターネット上に公開されている大量のテキストデータを使用していると言われます。具体的な例として、Wikipediaやウェブページ、書籍、ニュース記事、雑誌、論文などの公開されているデジタル化されたテキストテータになります。 ChatGPTの学習データ量 そのテキストデータ量は、GPT-3.5で45TB、それ以降は非公開

                                                                                ChatGPTの学習データ量はまだ少ない?! - まねき猫の部屋
                                                                              • モデルから学習データが復元される話 - Qiita

                                                                                はじめに こんにちは.NTTドコモ先進技術研究所2年目の田中です.ドコモ先進技術研究所Advent Calendarの発起人で,業務では こんなこと や こんなこと の研究をしています.ただ,この辺の本業に関する技術的な事は大人の事情で簡単には記事にできないので,今回は全く別の(とは言っても機械学習に関する)話題で記事を書きたいと思います. 今回記事するのは,機械学習のセキュリティに関する話です.「機械学習を使ってマルウェア検知をしましょう」とかではなく,「機械学習の」セキュリティです. 弊社も含めた多くの企業で,機械学習を使った多くのサービスが提供されていますが,この機械学習によって作られた classifier や regressor (以下,モデルと呼びます) そのものに,セキュリティ上の問題があるのではないかと指摘されています.今回は,こういったモデルのセキュリティ上の問題について

                                                                                  モデルから学習データが復元される話 - Qiita
                                                                                • NEC、従来の半分程度の学習データ量でも高い識別精度を維持できるディープラーニング技術を開発

                                                                                  新着記事