同様のプロンプトを使って出てきた情報としてはほかにも、研究論文やCNNほかのニュースサイトの記事断片、Wikipediaのページに記された文章、詩の断片、Bitcoinアドレス、ファックス番号、だれかの名前、誕生日、ソーシャルメディアのハンドルネーム、デートサイトからとみられる露骨なコンテンツ、著作権のある研究論文の断片などがありました。 LLMはチャットボットやテキスト画像生成AIなど、テクノロジー界隈をこの1年半ほど賑わせている生成AIの基盤技術です。その深層学習アルゴリズムは、膨大な量のデータに基づいてトレーニングされていますが、その膨大な量のデータセットは一般に、公共のインターネットから収集されることが多いと言われています。しかし、OpenAIのLLMはクローズドソースであるため、どのようなデータセットを用いてトレーニングしてきたのかは、ほとんど知られていませんでした。 研究者は、