タグ

ブックマーク / google-research.github.io (3)

  • AudioPaLM

    A Large Language Model That Can Speak and Listen |paper| Paul Rubenstein*, Chulayuth Asawaroengchai*, Duc Dung Nguyen*, Ankur Bapna, Zalán Borsos, Félix de Chaumont Quitry, Peter Chen, Dalia El Badawy, Wei Han, Eugene Kharitonov, Hannah Muckenhirn, Dirk Padfield, James Qin, Danny Rozenberg, Tara Sainath, Johan Schalkwyk, Matt Sharifi, Michelle Tadmor Ramanovich, Marco Tagliasacchi, Alexandru Tudor

    stealthinu
    stealthinu 2023/06/26
    マルチモーダルでで音声から音声への直接翻訳を行う。多国語対応だが既にWhisperあるしなあ。本題とずれるが日本語が… Low-resource扱いになっててしかもいくつか翻訳失敗してる。別の意味でヤバい。
  • SoundStorm

    SoundStorm:Efficient Parallel Audio Generation [paper] Zalán Borsos, Matt Sharifi, Damien Vincent, Eugene Kharitonov, Neil Zeghidour, Marco Tagliasacchi Google Research Abstract. We present SoundStorm, a model for efficient, non-autoregressive audio generation. SoundStorm receives as input the semantic tokens of AudioLM, and relies on bidirectional attention and confidence-based parallel decoding

    stealthinu
    stealthinu 2023/06/08
    完全に想像以上だった。これ単に短い参照音声から「音色のまね」が出来てるってだけじゃなくて、しゃべり方が人間のものまねレベルになってる… TTSではこれに追い付けないという気持ちになった。
  • MusicLM

    MusicLM: Generating Music From Text |paper|dataset| Andrea Agostinelli, Timo I. Denk, Zalán Borsos, Jesse Engel, Mauro Verzetti, Antoine Caillon, Qingqing Huang, Aren Jansen, Adam Roberts, Marco Tagliasacchi, Matt Sharifi, Neil Zeghidour, Christian Frank Google Research Abstract We introduce MusicLM, a model generating high-fidelity music from text descriptions such as "a calming violin melody bac

    stealthinu
    stealthinu 2023/01/28
    音楽生成、テキストのイメージから曲を作るだけじゃなくて音自体を作っている。BGMレベルには到達している感じ。
  • 1