入力に対して画像で条件づけする Diffusion モデルである ControlNet の解説をします。 paper: https://t.co/hIkh8qgjcL github: https://github.com/lllyasviel/ControlNet ([1] の Fig1 より引用) 本論文は Style2Paints 開発者の lllyasviel(@lvminzhang) が出されていることから、高精度に入力線画に着彩する Styl2Paints V5 (のDorothyモデル?)に使用されているモデルである可能性が高いです。 Diffusion Model (特に Latent Diffusion)では入力の条件付けを忠実には考慮できていないモデルが多いため、本論文の結果はなかなかにインパクトがあります。個人的には GAN 時代の pix2pix がそのまま Diff