"GPUメモリに限りがある状況(16GB T4や24GB RTX3090など)でも大規模な言語モデルを高パフォーマンスで実行できる「FlexGen」"

kns_1234kns_1234 のブックマーク 2023/02/21 11:52

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

GitHub - FMInference/FlexGen: Running large language models on a single GPU for throughput-oriented scenarios.

    In recent years, large language models (LLMs) have shown great performance across a wide range of tasks. Increasingly, LLMs have been applied not only to interactive applications (such as chat), bu...

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう