目的 Stable Diffusion (SD)は画像の加工ツールとして非常に優秀ですが、その延長で動画にも活用したい欲求を持っている人は多いでしょう。動画は静止画の集合ですから、パラパラ漫画の要領で一枚ずつ切り出して加工すれば動画の加工も可能です。ただこのアプローチでぶつかる大きなハードルが時間方向の一貫性 (time-consistency or coherence)です。動画から切り出した連続画像を別々に加工すると、SDがもたらすランダム性により仕上がりに違いが生まれます。それがたとえ微妙な差異でも、動画として再生してみると違和感満載になります。本記事ではそんな課題を克服するアプローチをまとめます。 前提と要件 動画の生成ではなく加工。元動画がある前提でその加工をする。つまりVideo-to-Videoを行います。 元の動画の大幅な修正はしないし、したくない。 追加でモデルを学習する