ベクトル量子化(VQ)を用いたVAEである「VQ-VAE」を、敵対的生成ネットワーク(GAN)に発展させた新しい画像生成モデルが「VQGAN」です。このVQGANと、テキストと画像という異なるデータを結びつけるニューラルネットワークの「CLIP」を組み合わせることで、「入力したテキストから画像を生成するモデル」をライアン・モールトンさんが作成しています。 Tour of the Sacred Library – Ryan Moulton's Articles https://moultano.wordpress.com/2021/07/20/tour-of-the-sacred-library/ モールトンさんは、画像生成モデルの「VQGAN」と、画像とテキストを結びつけるニューラルネットワークの「CLIP」を組み合わせ、「入力したテキストから画像を生成するモデル」を作成しました。 このモ