サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
Appleイベント
medium.com/@crosssceneofwindff
資料でも述べているように、一般的に線画着色の際のヒントの与え方は下画像のようにアタリ、タグ、リファレンスの3種類が存在します。リファレンスは少し分かりにくいですが画像を与えてこのような色配置で塗ってほしいと指定するものです。 前回の記事ではこの3種類の内アタリを与えた方式について実験した結果を述べました。今回の記事ではこのアタリ方式を少し昇華させたものと、リファレンス方式について実験した結果について述べていきます。 Method: Atari①Improvements 前回の記事において、下画像のようなUNetをベースとしたGeneratorとDiscriminatorを用いたpix2pix方式の線画着色を行なっていました。ヒントとなる当たりは入力として与えるだけでした。 Generator Architecture in Previous Methodしかし、この方式では大局的には塗れて
Introduction今までは主に可愛い女の子の画像(or 動画)を生成することに取り組んできましたが、画面上に映せるようになったらやはり可愛い声で話して欲しいものです。そこで今回は、別の人の声が与えられた時に美少女声へと変換するための声質変換と、テキストが与えられた時に美少女声を生成するText-to-Speech(TTS)を行なった試行結果について述べようと思います。 Voice ConversionIntroduction声質変換のデータには2種類あります。それが、パラレルデータとノンパラレルデータです。以下にそれぞれの特徴を述べていきます。 パラレルデータを用いた声質変換 同じセリフを発する2種類の声を学習データとして用います。発話内容が同じのため、言語特徴を気にせず音響特徴量の変換を行うことが可能です。しかし、話速の違い等によって言葉を発するタイミングがずれてしまうのでDyna
IntroductionProgressiveGANやStyleGAN等、GANの発展により1024✕1024といった高解像度かつ綺麗な画像生成を行えることが可能になってきました。しかし、それらはあくまでも顔画像の生成に留まっており、以下の図のように人間の全身画像といったより複雑な画像に関しては依然として生成は難しいままです。 Koichi Hamada, et al., “ Full-body High-resolution Anime Generation with Progressive Structure-conditional Generative Adversarial Networks”そこで、今回は二次元美少女の顔画像生成という観点ではなく、全身画像に観点を置いて生成を試みたのでその結果について述べていきます。先に述べておきますが、全身と名づけておきながら実際は腰ぐらいまで
Introductionこの記事は「ICLR2019を読むアドベントカレンダー」の15日目の投稿記事です ノンパラレルなデータに対してのスタイル変換はCycleGAN登場以降様々な分野に適用されてました。しかし、変換させたいインスタンスの形がまるっきり変化していたり、一枚の画像にインスタンスが多く存在すると下画像のOriginal→CycleGANのように対象が変換されなかったり意図しない変換になってしまうことがありました。今回紹介する論文では、このような問題に対してインスタンス毎のスタイル変換を行うInstaGANを提案しています。このInstaGANを用いることによって下画像のOriginal→InstaGANのように狙った対象の変換や、インスタンス毎の変換を行うことが可能になります。 この論文の貢献は以下のように三つあります。 An instance-augmented neural
Introduction前に線画着色についての記事を書きましたが、個人的に不満足だったので書き直しの意味で今回の記事を書きます(前回の記事は削除します)。ただ、前回の内容をそのまま行うのも面白くないのでネットワーク構造と損失関数を変えて実験した結果を載せます。 Network Architecture 今回用いたネットワーク構造: Generatorの出力はチャンネル数3。Discriminatorの出力はチャンネル数1。UNetベースで特段面白い構造ではないですが、GeneratorにResBlockを導入し、アップサンプリングとしてはNearest Neighbor Upsampling -> Convolutionを行っています。 Dataset線画着色するにあたって、今回線画と着色画像を19000ペアを用意しました。 着色画像はsafebooruからスクレイピングしました。なるべく
Introduction今回はいつものように論文で提案された手法を実装して結果を見る記事ではなく、論文紹介です。まだレビュー中のものを紹介するのは気が引けるのですがTwitterやSlackで述べるには情報過多なので、記事に一旦まとめてみたいと思います。論文名は記事タイトルにあるもので、URLはこちらです。ここで提案されているBigGANは、512×512の高解像度条件付き画像生成(例えばImageNetを学習してImageNetのラベルを入力ノイズに付随して与え、そのラベルに相当する画像を生成するタスク)を行いますが、そのスコアが驚くものでした。GANの評価指標として用いられているInception Score(IS)とFIDの値がそれぞれ166.3と9.6と、従来のSoTAである52.52と18.65を大きく更新するものになったのです。 3. Scaling Up GANsいきなり3と
今回の目的としてはキャラクターの髪色変換(ex. 黒→白)を行います。このように画像の一部分だけを変化させるようなスタイル変換としてはCycleGAN(論文)等が挙げられますが、問題としては2つのドメイン間しか往復できないことにありました。例えば、髪色を例にとると一つの学習器では黒→白と白→黒だけしか変換出来ません。別の髪色に変換しようとしたら更に学習器が必要となります。そこで、多ドメインを多ドメインへと変換出来るような学習器を用意する必要がありますが、そこで今回検討したのがStarGAN(論文)です。今回はこのStarGANを用いて、キャラクターの髪色を様々な色へと変化させることを行いました。 StarGANこの記事では、詳細は割愛します。簡潔に述べると、Generatorに今どのドメインへと変化させようとしているか表すベクトルをconcatして加え、Discriminatorにその画像
このページを最初にブックマークしてみませんか?
『Lento – Medium』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く