タグ

ブックマーク / zenn.dev/selllous (1)

  • 大規模言語モデルを自作しよう!(Transformers+DeepSpeed+torch.compile+flash_attn2)

    記事は、LLM Advent Calendar 2023 13日目の記事です。 はじめに 🤗 Transformersは、自然言語処理、マルチモーダル、音声処理、コンピュータビジョン分野の事前学習済モデルを簡単にダウンロードしトレーニングすることが可能なpythonライブラリです。このライブラリを使用し、大規模言語モデル(LLM)の事前学習済モデルをローカルPC上にダウンロードし、それを使用した言語生成や、要約・翻訳・質問応答などの個別のタスクへのファインチューニング、チャットAIへの組み込みなどが盛んに行われています。 LLMの事前学習方法に関する情報としては、GPT-NeoXやMegatron-LM、TinyLlama、lit-llamaなど、他のpythonライブラリを使用したものが増えてきています。一方で、Transformersライブラリを使用したLLMの事前学習に関する情報

    大規模言語モデルを自作しよう!(Transformers+DeepSpeed+torch.compile+flash_attn2)
    misshiki
    misshiki 2023/12/15
    “japanese-mistral-300m-recipeを使用し、LLMの事前学習とファインチューニングの方法について説明”
  • 1