並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 277件

新着順 人気順

Llamaの検索結果1 - 40 件 / 277件

  • 無料で商用可、ChatGPT(3.5)に匹敵する生成AI「Llama 2」 Metaが発表、Microsoftと優先連携

    米Metaは7月18日(現地時間)、大規模言語モデル「Llama 2」を発表した。利用は無料で商用利用も可能としている。最大サイズの700億パラメーターモデルは「ChatGPT(の3月1日版)と互角」(同社)という。 ダウンロードには、Metaが用意するフォームから名前とメールアドレス、国、組織名を入れ、利用規約に同意した旨を送信する。Metaが受理すると専用URLが送られてくるため、同社がGitHubで公開しているダウンロード用のスクリプトと合わせるとLlama 2の各モデルをダウンロードできるようになる。 モデルサイズは70億、130億、700億パラメーターの3種類があり、それぞれベースモデルとチャット向けに追加学習(ファインチューニング)したモデルを用意する。いずれも4096トークン(おおよそ単語数の意)まで文脈を読める。 性能は、Llama-2-70b-chat(700億のチャット

      無料で商用可、ChatGPT(3.5)に匹敵する生成AI「Llama 2」 Metaが発表、Microsoftと優先連携
    • ラズパイで動く大規模言語モデルがGitHubで公開 性能は“GPT-3相当”、Metaの「LLaMA」派生

      LLaMAは米Metaが独自開発した大規模言語モデル。LLM分野の研究推進を支援するため、研究者向けに2月にリリースした。大規模インフラを利用できない研究者のために小規模ながら性能の高いことが特徴で、7B(=70億)、13B、33B、65Bの4種類のパラメーターを用意している。13Bモデルはベンチマークで米OpenAIのLLM「GPT-3」を上回るという。 米スタンフォード大学は、LLaMAの7Bモデルを派生させ独自のLLM「Stanford Alpaca」を開発。このモデルは研究や学術目的でのみ利用でき、娯楽や商用での利用は禁止している。Alpaca LoRAでは、Stanford Alpacaが生成するトークン(単語列)を再現できるという。 関連記事 Meta、独自大規模言語モデル(LLM)の「LLaMA」を限定リリース Metaは独自の大規模言語モデル「LLaMA」(Large La

        ラズパイで動く大規模言語モデルがGitHubで公開 性能は“GPT-3相当”、Metaの「LLaMA」派生
      • 国産の日本語生成AIの無料デモ版が公開 ~「GPT-3.5 Turbo」に匹敵する性能を達成/東大初のELYZA社が700億パラメーターのLLM「ELYZA-japanese-Llama-2-70b」を開発

          国産の日本語生成AIの無料デモ版が公開 ~「GPT-3.5 Turbo」に匹敵する性能を達成/東大初のELYZA社が700億パラメーターのLLM「ELYZA-japanese-Llama-2-70b」を開発
        • Metaの「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開しました|ELYZA, Inc.

          Metaの「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開しました 本記事のサマリーELYZAが「Llama 2」ベースの商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を一般公開 性能は「GPT-3.5 (text-davinci-003)」に匹敵、日本語の公開モデルのなかでは最高水準 Chat形式のデモや評価用データセットも合わせて公開 既に社内では、130億、700億パラメータのモデルの開発も進行中 はじめにこんにちは。ELYZAの研究開発チームの佐々木、中村、平川、堀江です。 この度ELYZAは、Metaの「Llama 2」をベースに、日本語による追加事前学習を行なった日本語言語モデル「ELYZA-japanese-Llama-2-7b」と、そこにELYZA独自の事後学習を施した「

            Metaの「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開しました|ELYZA, Inc.
          • Llama

            Llama is the next generation of our open source large language model, available for free for research and commercial use.

              Llama
            • Meta、コード生成や解釈に特化した大規模言語モデル「Code Llama」公開

              Metaは、コードもしくは自然言語によるプロンプトから、コードの生成およびコードに関する自然言語の説明を生成できる大規模言語モデル「Code Llama」を公開しました。 Code Llamaは、先月(2023年7月)にMetaが発表した大規模言語モデル「Llama 2」をベースに、コードに特化したデータセットでさらに訓練したバージョンだと説明されています。 対応するプログラミング言語はPython、C++、Java、PHP、JavaScript、Typescript、C#、Bashなどを始めとする主要な言語。 GPUで処理できるサイズやPython特化のモデルも Code Llamaは3つのサイズ、7B、13B、34Bが提供されています。 7Bモデルは1つのGPUで処理できる一方で、34Bモデルは最善の結果を返し、より良いコーディング支援を可能にする能力があります。 一方、7Bおよび13

                Meta、コード生成や解釈に特化した大規模言語モデル「Code Llama」公開
              • ChatGPT(3.5)に匹敵する「Llama 2」をローカルPCで動かしてみた

                生成AIのトップランナーといえば、米OpenAIが提供するGPT-4などを使ったChatGPTですが、その対抗馬として期待されているのが米Metaが提供する大規模言語モデル「Llama 2」です。 このLlama 2、GPT-3.5の3月1日時点のモデルに匹敵する性能を持っているというのがウリです。GPT-3.5といえば、無料版のChatGPTで使われているモデルです。それがオープンソースとして公開されたのですから、衝撃的です。 さらに、高性能なだけでなくモデルサイズが小さいことも特徴です。GPT-3のパラメータ数は1750億(175B)、GPT-3.5は未公開ではあるものの3550億(355B)と推定されています。一方で、Llama 2は、700億(70B)パラメータで、GPT-3.5並をうたっています。 パラメータが小さくなれば必要なGPUのメモリも小さくなります。GPT-3.5はデー

                  ChatGPT(3.5)に匹敵する「Llama 2」をローカルPCで動かしてみた
                • 130億パラメータの「Llama 2」をベースとした日本語LLM「ELYZA-japanese-Llama-2-13b」を公開しました(商用利用可)|ELYZA, Inc.

                  130億パラメータの「Llama 2」をベースとした日本語LLM「ELYZA-japanese-Llama-2-13b」を公開しました(商用利用可) 本記事のサマリーELYZA は「Llama 2 13B」をベースとした商用利用可能な日本語LLMである「ELYZA-japanese-Llama-2-13b」シリーズを一般公開しました。前回公開の 7B シリーズからベースモデルおよび学習データの大規模化を図ることで、既存のオープンな日本語LLMの中で最高性能、GPT-3.5 (text-davinci-003) も上回る性能となりました。また、推論の高速化を実現したチャット型デモを併せて公開しています。 はじめにこんにちは。ELYZAの研究開発チームの平川、佐々木、中村、堀江、サム、大葉です。 この度 ELYZA は、130億(13B)パラメータの「ELYZA-japanese-Llama-

                    130億パラメータの「Llama 2」をベースとした日本語LLM「ELYZA-japanese-Llama-2-13b」を公開しました(商用利用可)|ELYZA, Inc.
                  • コード専用生成AI「WizardCoder」、米Microsoftが公開 ベースはCode Llama、高い精度を達成

                    このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 米Microsoftなどに所属する研究者らは、米Metaが最近リリースしたCode LLM(コーディング専用大規模言語モデル)「Code Llama」をベースにしたコード専用生成AI「WizardCoder」を発表した。 LLMの性能を評価するベンチマーク「HumanEval Benchmark」で、ChatGPT(GPT-3.5)やClaude2を上回る高い精度73.2%を達成し、存在感を示した。唯一下回ったのは、8月26日に同研究者らが計測したGPT-4(82.0%)のみ。ただし、3月に米OpenAIの公式テクニカルレポートが報告したG

                      コード専用生成AI「WizardCoder」、米Microsoftが公開 ベースはCode Llama、高い精度を達成
                    • GPT4-Vの100分の1のサイズで同等の性能を誇るマルチモーダルモデル「Llama 3-V」が登場、トレーニング費用はたった8万円

                      画像認識が可能なオープンソースモデルの「Llama 3-V」が公開されました。Llama 3-Vは、OpenAIのマルチモーダルモデル「GPT4-V」よりも格段に小型で、事前トレーニングにかかる費用は500ドル(約78000円)程度なのにもかかわらず、ほとんどの指標で同等のパフォーマンスを示しています。 Llama 3-V: Matching GPT4-V with a 100x smaller model and 500 dollars | by Aksh Garg | May, 2024 | Medium https://aksh-garg.medium.com/llama-3v-building-an-open-source-gpt-4v-competitor-in-under-500-7dd8f1f6c9ee 今回発表されたLlama 3-Vは、 Metaが公開した言語モデルの「L

                        GPT4-Vの100分の1のサイズで同等の性能を誇るマルチモーダルモデル「Llama 3-V」が登場、トレーニング費用はたった8万円
                      • チャットAI「LLaMA」を一発でローカルにインストールして「文章の続きを書く機能」を試せる「Dalai」使い方まとめ

                        FacebookやInstagramの運営元であるMetaが開発した言語モデル「LLaMA」は、単体GPUで動作する手軽さとChatGPTに匹敵する性能を両立しているとして話題になっています。そんなLLaMAをApple シリコン搭載Macで動作可能にした「llama.cpp」をGUI付きで簡単に動作させられる「Dalai」が登場したので、実際にインストールして「文章の続きを書く機能」を試してみました。 dalai https://cocktailpeanut.github.io/dalai/ Dalaiを使うには、JavaScript実行環境「Node.js」や開発者向けツール詰め合わせパック「Command Line Tools」を先にインストールしておく必要があります。今回はiMacを使って、必要なソフトウェアから順番にインストールしてみます。既に環境が整っている場合は、「Dalai

                          チャットAI「LLaMA」を一発でローカルにインストールして「文章の続きを書く機能」を試せる「Dalai」使い方まとめ
                        • Meta、無料で商用可の新LLM「Llama 3」、ほぼすべてのクラウドでアクセス可能に

                          米Metaは4月18日(現地時間)、オープンソースのLLMの最新版「Llama 3」を発表した。80億パラメータと700億パラメータの2モデルで、いずれもほぼすべての主要クラウドサービス(AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM、Snowflake)で間もなく利用可能になる。 昨年リリースの先代「Llama 2」にも700億パラメータモデルはあったが、Llama 3は4000億パラメータの高密度モデル(こちらはまだ公開されていない)のトレーニングも継続中だとマーク・ザッカーバーグCEOは語った。 トレーニングデータセットは、Llama 2よりも7倍大きく、4倍のコードが含まれている。英語以外での利用に備えるため、データセットの5%以上が非英語データで構成されて

                            Meta、無料で商用可の新LLM「Llama 3」、ほぼすべてのクラウドでアクセス可能に
                          • “数学特化”の大規模言語モデル「WizardMath」 米Microsoftなどが開発 Llamaモデルを強化

                            このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 米Microsoftと中国科学院に所属する研究者らが発表した論文「WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct」は、数学的推理能力を強化するモデルを提案した研究報告である。このモデルは、オープンソースの事前学習済み大規模言語モデル(LLM)である「Llama-2」に対して適用することで実現する。 米MetaのLlamaモデルシリーズは、オープンソース革命を引き起こし、クローズドソースのL

                              “数学特化”の大規模言語モデル「WizardMath」 米Microsoftなどが開発 Llamaモデルを強化
                            • 僅か2.3GBで日本語可能な超高性能ローカルLLMのPhi-3 MINIをllama.cppとCPUで動かしてみた。スマホでも可。従来のコンパクトLLMと比較して超越した性能で未来を感じさせるMicroSoft寄付ありがとう

                              Kapper@Linuxガジェヲタ&異世界小説家&生成AI&電子工作大好き @kapper1224 昨日MicroSoftからリリースしたローカルLLMモデルのPhi-3 mini 4k Q4をllama.cppのサーバ版を動かしてみた。こいつ2.32GBしかないくせに日本語しゃべれるぞ。今までとは桁違いの性能なんですけど・・・ ./build/bin/server -m ../Phi-3-mini-4k-instruct-q4.gguf -n 128 huggingface.co/microsoft/Phi-… pic.twitter.com/DTmUmeh7JE 2024-04-24 22:46:51

                                僅か2.3GBで日本語可能な超高性能ローカルLLMのPhi-3 MINIをllama.cppとCPUで動かしてみた。スマホでも可。従来のコンパクトLLMと比較して超越した性能で未来を感じさせるMicroSoft寄付ありがとう
                              • Meta Llama 3

                                Build the future of AI with Meta Llama 3. Now available with both 8B and 70B pretrained and instruction-tuned versions to support a wide range of applications.

                                  Meta Llama 3
                                • Llama 2 をDocker使ってローカルで動かす

                                  Llama 2 発表! Metaから商用利用可能なライセンスでオープンなLLMであるLlama 2が発表されました。 こりゃすごそうだけど、しばらくは様子見かなーと思っていたら、npakaさんが一瞬で動かしているではありませんか。 こりゃやるしかないと、ローカルでDockerで動かしてみました。要は、npakaさんの記事の「(1) Pythonの仮想環境の準備」を詳しく書いたものです。 DockerでLlama 2を動かす Dockerファイルは、以下リポジトリに格納してあります。 セットアップ方法は、以下参照ください。Linux/Windows前提です。Mac(Apple Silicon)では残念ながら今のところ動きませんでした。 Macでも動きますが、時間が非常にかかるので実用的ではないです。 Dockerのイメージ作成(ビルド)まで実施したらOKです。 続いて量子化されたモデルlla

                                    Llama 2 をDocker使ってローカルで動かす
                                  • Metaがコード生成AI「Code Llama」発表、無料で商用利用可能

                                    米Meta(メタ)は米国時間2023年8月24日、プログラムのソースコードを生成するAI(人工知能)「Code Llama」を公開した。同社の大規模言語モデル(LLM)「Llama 2」をベースとした生成AIで、Llama 2と同様に無料で商用利用可能なツールとして提供する。 自然言語によるプロンプト(指示)に従ってコードを生成するほか、入力したコードをデバッグする機能も備える。PythonやC++、Java、PHP、Typescript、Javascript、C#、Bashなど、一般的に使用される多くのプログラミング言語に対応する。 3つのパラメーターサイズのモデルを提供する。パラメーター数はそれぞれ70億、130億、340億で、いずれも5000億トークン(おおよその単語数)のコードとコード関連データでトレーニングされているという。サイズの小さい70億と130億のモデルは、リアルタイム性

                                      Metaがコード生成AI「Code Llama」発表、無料で商用利用可能
                                    • MetaのLlama 3を日本語でさらに学習したAIモデル、rinnaが公開

                                        MetaのLlama 3を日本語でさらに学習したAIモデル、rinnaが公開
                                      • ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (1) 事前学習編

                                        はじめに こんにちは。ELYZAの研究開発チームの佐々木 (@hikomimo)、中村 (@tyo_yo_)、堀江 (@eemon18)、平川 (@h__must__) です。 先日弊社株式会社ELYZAでは以下のようなリリースをさせていただきました。 Metaの「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開しました 上記のリリースには、Metaの「Llama 2」をベースとした以下のモデルが含まれます。 日本語追加事前学習済みモデル ELYZA-japanese-Llama-2-7b ELYZA-japanese-Llama-2-7b-fast 上記の事前学習済みモデルに事後学習 (instruction tuning) を実施したモデル ELYZA-japanese-Llama-2-7b-instruct (デモ)

                                          ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (1) 事前学習編
                                        • AWS提供の生成AIサービスが一般開放 新たにLlama 2も利用可能に

                                          AWSのサービスとも連携可能で、例えば監視ツール「Amazon CloudWatch」と連携すれば利用状況を可視化できるという。ただし、ユーザーのデータベースと生成AIを直接接続する機能などは引き続きプレビュー版のまま提供する。 関連記事 AWSが生成AIに本格参入 テキスト生成、文章要約、画像生成など API経由で利用できる「Amazon Bedrock」発表 AWSが生成AIに本格参入。API経由で生成AIを利用できる「Amazon Bedrock」を発表した。現在は利用申し込み受付中。今後数カ月を経て広範囲に展開していくという。 AWS、生成AIの活用支援に140億円投資 新プログラム始動 米AWSが、顧客による生成AIの構築・活用を支援するプログラム「AWS Generative AI Innovation Center」を発表。1億ドル(約140億円)を投じ、生成AIによるサービ

                                            AWS提供の生成AIサービスが一般開放 新たにLlama 2も利用可能に
                                          • 【超簡単手順】低スペックローカルPCで大規模言語モデル「LLaMA」を動かす!

                                            ある日、Twitterを巡回していると え...マジで?となりました。自分の専属AIを作りたい!と思い立ち、実際に動かしてみました。 目標 このようにローカルPC上でLLaMAとチャットできるようになります。 ただ、自分が使ったモデルは7Bモデルと言って、パラメータがあまり大きくない=あまり賢くないモデルだったので出力は変な感じになっています笑 (明らかにネットの会話を推論に引っ張ってきてますね...) なので、今回はとりあえず動かしてみたい人向けです!精度などは気にせずお試しください。 ちなみに、自分はM1 MacBookAir(8Gメモリ)で動きました!信じられないぐらい遅いですが笑 Macユーザー向けに解説しますが、windows、linuxユーザーでもほとんど変わらないと思います。 手順 基本的にはこのgithubでの手順を踏んでいきます。 Node.js (npm) をインストー

                                              【超簡単手順】低スペックローカルPCで大規模言語モデル「LLaMA」を動かす!
                                            • Googleが公開したローカルLLMのgemma.cppをLinuxとAndroidのTermuxで動かしてみた。とりあえず2bだけど日本語で返事が帰ってくる程度に賢い。llama.cppでGGUF版があるけどこちらもチャット形式で良い。NetBSD上でもビルドし動作しました

                                              Kapper@Linuxガジェヲタ&異世界小説家&生成AI&電子工作大好き @kapper1224 Googleが公開したローカルLLMのgemma.cppを参考サイトを見ながら動かしてみた。先駆者に感謝 とりあえず2bだけど日本語で返事が帰ってくる程度に賢い。llama.cppでGGUF版があるけどこちらもチャット形式で良い note.com/ngc_shj/n/n3f5… pic.twitter.com/8bfoGYRrnF 2024-02-26 22:28:22

                                                Googleが公開したローカルLLMのgemma.cppをLinuxとAndroidのTermuxで動かしてみた。とりあえず2bだけど日本語で返事が帰ってくる程度に賢い。llama.cppでGGUF版があるけどこちらもチャット形式で良い。NetBSD上でもビルドし動作しました
                                              • Metaの大規模言語モデル「LLaMA」がChatGPTを再現できる可能性があるとさまざまなチャットAI用言語モデルのベンチマーク測定で判明

                                                近年は機械学習分野の研究がめまぐるしい勢いで進んでおり、数十億を超えるパラメーターを持つ大規模言語モデルが相次いで発表されています。イギリス・エディンバラ大学の大規模言語モデル研究者であるヤオ・フー氏らの研究チームが、独自のベンチマークに基づいて複数の大規模言語モデルのパフォーマンスを比較した結果をGitHubで公開しています。 GitHub - FranxYao/chain-of-thought-hub: Benchmarking large language models' complex reasoning ability with chain-of-thought prompting https://github.com/FranxYao/chain-of-thought-hub 研究チームによると、「パラメーターが10B未満の言語モデルでも、OpenAIのGPT-3.5と同等のパ

                                                  Metaの大規模言語モデル「LLaMA」がChatGPTを再現できる可能性があるとさまざまなチャットAI用言語モデルのベンチマーク測定で判明
                                                • Metaの大規模言語モデル「Llama 2」を無料で誰でもブラウザからお試しできる「LLaMA2 Chatbot」

                                                  Metaが発表した商用利用も可能な大規模言語モデル(LLM)「Llama 2」を、誰でも無料でブラウザ上からお試しできる「LLaMA2 Chatbot」が公開されました。 LLaMA2 Chatbot by a16z-infra https://llama2.ai/ 画面左にあるメニュー部分では、モデルやパラメーターを変更したり、チャット履歴を削除したりすることができます。 選択できるモデルはパラメーター数が700億の「LLaMA2-70B」、パラメーター数が130億の「LLaMA2-13B」、パラメーター数が70億の「LLaMA2-7B」の3つ。パラメーター数が多い方がパフォーマンスが高くなります。 モデル選択エリアの下では「Temprature」(数値が高いと出力のランダム性が増す)、「Top P」(数値が高いと単語選択の多様性が高まる)、「Max Sequence Length」(文

                                                    Metaの大規模言語モデル「Llama 2」を無料で誰でもブラウザからお試しできる「LLaMA2 Chatbot」
                                                  • マイクロソフト最新SLM「Phi-3」 メタ「Llama 3」あっさり抜く

                                                    マイクロソフトは4月23日、生成AI向けの小規模言語モデル(SLM)「Phi-3-mini」を発表した。 Phi-3-miniは、パラメーター数が38億の比較的小型軽量な言語モデル。単純なタスクに適しており、特定のニーズに合わせて容易に微調整できる点を特徴とする。スマートフォンや自動車のコンピューター、リモートカメラといったリソースの少ないデバイスでも利用できるほか、オフライン動作にも対応し、ネット接続が困難な地域でも生成AIの恩恵を受けられるという。 同社が実施したベンチマークテストでは、パラメーター数で勝るメタの「Llama 3-8B-in」(80億)や、グーグルの「Gemma 7B」(70億)に対して、より優れた性能を発揮。特にLlama 3に関しては、4月18日のリリースからわずか5日でPhi-3-miniに追い越される形となった。 ただしPhi-3-miniも万能ではなく、広範な

                                                      マイクロソフト最新SLM「Phi-3」 メタ「Llama 3」あっさり抜く
                                                    • 【西川和久の不定期コラム】 LLMがローカルで動くパラメータ数どこまで?Metaの「Llama 2」を試してみた

                                                        【西川和久の不定期コラム】 LLMがローカルで動くパラメータ数どこまで?Metaの「Llama 2」を試してみた
                                                      • Llama.cpp で Llama 2 を試す|npaka

                                                        「Llama.cpp」で「Llama 2」を試したので、まとめました。 ・macOS 13.4.1 ・Windows 11 前回 1. Llama.cpp「Llama.cpp」はC言語で記述されたLLMのランタイムです。「Llama.cpp」の主な目標は、MacBookで4bit量子化を使用してLLAMAモデルを実行することです。 特徴は、次のとおりです。 ・依存関係のないプレーンなC/C++実装 ・Appleシリコンファースト (ARM NEON、Accelerate、Metalを介して最適化) ・x86アーキテクチャのAVX、AVX2、AVX512のサポート ・Mixed F16/F32精度 ・4bit、5bit、8bit量子化サポート ・BLASでOpenBLAS/Apple BLAS/ARM Performance Lib/ATLAS/BLIS/Intel MKL/NVHPC/AC

                                                          Llama.cpp で Llama 2 を試す|npaka
                                                        • Metaが大規模言語モデル「LLaMA」を発表、GPT-3に匹敵する性能ながら単体のGPUでも動作可能

                                                          MetaのAI研究組織であるMeta AI Researchが、大規模言語モデル「LLaMA(Large Language Model Meta AI)」を2023年2月24日に発表しました。Meta AI Researchによれば、LLaMAはOpenAIのGPT-3よりもパラメーター数がずっと小さく、単体GPUでも動作可能でありながら、ベンチマークテストの一部ではGPT-3を上回ったとのことです。 LLaMA: Open and Efficient Foundation Language Models - Meta Research https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/ Meta unveils a new large languag

                                                            Metaが大規模言語モデル「LLaMA」を発表、GPT-3に匹敵する性能ながら単体のGPUでも動作可能
                                                          • 数行のコード追加でStable Diffusion生成画像を高品質にする「FreeU」、Llama2を10万トークンに低コストで増やす手法「LongLoRA」など重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge

                                                            2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第13回目は、画像生成AIを高品質にする手法、画像と文章を中間言語を用いずに入出力するモデルなど5つの論文をまとめました。 生成AI論文ピックアップ数行のコード追加でStable Diffusionなどの生成画像を高品質にする手法「FreeU」 大規模言語モデルのトークンを効率よく増やす手法「LongLoRA」 Llama2を10万トークンに 2.6兆トークンで訓練された、130億のパラメータを持つ多言語モデル「Baichuan 2」 スマホで物体検出をリアルタイムかつ高精度で行う新モデル「Gold-YOLO」 画像と文章を“そのまま”入出力できる生成モデル「Drea

                                                              数行のコード追加でStable Diffusion生成画像を高品質にする「FreeU」、Llama2を10万トークンに低コストで増やす手法「LongLoRA」など重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge
                                                            • Meta、独自大規模言語モデル(LLM)の「LLaMA」を限定リリース

                                                              米Metaは2月24日(現地時間)、独自の大規模言語モデル(LLM)の「LLaMA」(Large Language Model Meta AI)をリリースすると発表した。研究者向けの限定リリースで、LLM分野の研究推進を支援するよう設計したものとしている。 LLMは、大量のテキストデータを使って訓練された深層学習アルゴリズム。米OpenAIのAIチャットサービス「ChatGPT」のエンジンとなっている「GPT-3.5」などが知られている。米Microsoftのチャットbot「新しいBing」が採用しているのは、GPTの“次世代LLM”とされている。 GPTは公開されてはいるが、利用するには大規模なインフラが必要だ。LLaMAは、そうした大規模インフラを利用できない研究者がLLMを研究できるように、小規模ながら性能の高いモデルとして開発したもの。ラベル付けされていない大量のデータでトレーニン

                                                                Meta、独自大規模言語モデル(LLM)の「LLaMA」を限定リリース
                                                              • llama2のファインチューニング(QLORA)のメモ|Kan Hatakeyama

                                                                2023/11/13追記以下の記事は、Llama2が公開されて数日後に書いた内容です。 公開から数ヶ月経った23年11月時点では、諸々の洗練された方法が出てきていますので、そちらも参照されることをおすすめします。 (以下、元記事です) 話題のLamma2をファインチューニングします。 QLoRAライブラリを使うパターンと、公式推奨の2つを試しました。前者が個人的にはオススメです。 前提Hugging faceで配布されている公式のモデルが必要です。以下を参考に、ダウンロードしておきます。 データセット作成 (7/20 15:20追記 設定ミスってたので修正しました) test.jsonを適当に作ります。 [ { "input": "", "output": "### Human: 富士山といえば?### Assistant: なすび" }, { "input": "", "output":

                                                                  llama2のファインチューニング(QLORA)のメモ|Kan Hatakeyama
                                                                • Metaの大規模言語モデル「LLaMA-65B」のデータが4chanで流出

                                                                  Metaが2023年2月に発表した大規模言語モデル「LLaMA」はGPT-3と匹敵する性能を持ち、単体のGPUでも動作可能なほどに動作が軽いことから、コンシューマーレベルのハードウェア環境でもChatGPTのようなAIを動かせるようになることが期待されています。そんなLLaMAのデータが流出したと話題になっています。 Facebook LLAMA is being openly distributed via torrents | Hacker News https://news.ycombinator.com/item?id=35007978 LLaMAはMetaのAI研究組織であるMeta AI Researchによって開発された大規模言語モデルです。OpenAIのChatGPTやDeepMindのChinchillaなど、従来の大規模言語モデルを動作させるためにはAIに最適化したアク

                                                                    Metaの大規模言語モデル「LLaMA-65B」のデータが4chanで流出
                                                                  • 700億パラメータの日本語LLM「ELYZA-japanese-Llama-2-70b」を開発し、デモを公開しました|ELYZA, Inc.

                                                                    700億パラメータの日本語LLM「ELYZA-japanese-Llama-2-70b」を開発し、デモを公開しました はじめにこの度 ELYZA は、新たに開発した700億パラメータの大規模言語モデル (LLM) である「ELYZA-japanese-Llama-2-70b」のデモを公開しました。「ELYZA-japanese-Llama-2-70b」は、前回までに引き続き、英語の言語能力に優れた Meta 社の「Llama 2」シリーズに日本語能力を拡張するプロジェクトの一環で得られた成果物です。 ELYZA が公開している日本語ベンチマーク ELYZA Tasks 100 を用いたブラインド性能評価では、公開されている日本語の大規模言語モデル (以下、LLM) を大きく上回っていることに加え、OpenAI 社の「GPT-3.5 Turboシリーズ」や Anthoropic 社の「Cla

                                                                      700億パラメータの日本語LLM「ELYZA-japanese-Llama-2-70b」を開発し、デモを公開しました|ELYZA, Inc.
                                                                    • GPT-4やLlama 2の透明性をスタンフォード大HAIが評価 トップはMetaでOpenAIは3位

                                                                      米スタンフォード大学Human-Centered AI Institute(HAI)は10月18日(現地時間)、AIの基盤モデルを公開している10社の透明性を評価するスコアリングシステム「Foundation Model Transparency Index」(FMTI)を公開した。 基盤モデルとは一般に、教師なし学習で大量の生データでトレーニングされたAIニューラルネットワークを指す。例えば米OpenAIのGPT-4や、米Googleの「PaLM 2」などで、それぞれChatGPTやBardを介して一般人も利用している。 HAIの基盤モデル研究センター(CRFM)のリシ・ボンマサニ氏は、基盤モデル分野の企業の透明性が低下していると警鐘を鳴らし、FMTIは透明性評価のために設計したと語った。 システムは、基盤モデルの構築方法、機能方法、ユーザーにどのような形で使われるかなど、透明性に関する

                                                                        GPT-4やLlama 2の透明性をスタンフォード大HAIが評価 トップはMetaでOpenAIは3位
                                                                      • AIで商品名をクレンジングする、Llama2や、Google Cloud Gemini-proとVertex AIを活用した商品名の最適化

                                                                        ECサイト上の商品名は、「送料無料」や「ポイント5倍」、「母の日」といった宣伝文句が付加され、本来の商品名が分かりづらくなっています。 これらの不要なキーワードは、自然言語モデルを作成する際の妨げとなり、精度を上がりづらくしている一つの要因となっています。 そこで、本記事では、これら不要なキーワードを効率的に除去する方法について、具体的な手法と事例を紹介します。 データクレンジングの例、LLMオープンモデルを活用したアプローチ、さらにはGoogle Cloud PlatformのVertex AIやGemini-proを用いた解決策について触れます。 3行まとめ ・商品名から頻出単語のリストを作成し、商品名から不要なキーワードを検索して除去する ・オープンモデルでプロンプトを実行し除去する ・Google Cloud Platform のVertex AI、Gemini-proで除去する

                                                                          AIで商品名をクレンジングする、Llama2や、Google Cloud Gemini-proとVertex AIを活用した商品名の最適化
                                                                        • GPT-3のライバルとなるMetaの「LLaMA」をM1搭載Macで実行可能に、大規模言語モデルを普通の消費者向けハードウェアで実行可能であることが示される

                                                                          日常生活でのAI(人工知能)の使用への関心が高まる中、OpenAIのGPT-3やMicrosoftのKosmos-1などの大規模言語モデル(LLM)が注目を浴びており、2023年2月にはMetaが新たなLLMである「LLaMA」を発表しました。このLLaMAはGPT-3よりも小さな規模でありながらGPT-3に匹敵する性能を単体GPUの環境でも示すことが可能ということで、エンジニアのジョージ・ゲルガノフ氏がM1などのApple シリコン搭載MacでLLaMAを動作させる「llama.cpp」をGitHubで公開しています。 GitHub - ggerganov/llama.cpp: Port of Facebook's LLaMA model in C/C++ https://github.com/ggerganov/llama.cpp l1x/dev | Using LLaMA with

                                                                            GPT-3のライバルとなるMetaの「LLaMA」をM1搭載Macで実行可能に、大規模言語モデルを普通の消費者向けハードウェアで実行可能であることが示される
                                                                          • オープンソースで商用利用可能な大規模言語モデル「Llama 2」がReplicateに登場したのでAPI経由で使ってみた

                                                                            AIモデルを誰でも簡単にデプロイできるサイト「Replicate」にて、2023年7月18日に公開されたばかりの高性能オープンソースAIモデル「Llama 2」が登場したので早速使ってみました。 Accessing Llama 2 from the command-line with the llm-replicate plugin https://simonwillison.net/2023/Jul/18/accessing-llama-2/ Llama 2のバリエーションの情報や、他のモデルとの性能比較については下記の記事で掲載しています。 Metaが商用可能な大規模言語モデル「Llama 2」を無料公開、MicrosoftやQualcommと協力してスマホやPCへの最適化も - GIGAZINE また、下記の通りLlama 2をブラウザから試せるツールも早速登場しています。 Meta

                                                                              オープンソースで商用利用可能な大規模言語モデル「Llama 2」がReplicateに登場したのでAPI経由で使ってみた
                                                                            • Google Colab で Llama 2 を試す|npaka

                                                                              「Google Colab」で「Llama 2」を試したので、まとめました。 1. Llama 2「Llama 2」は、Metaが開発した、7B・13B・70B パラメータのLLMです。 2. モデル一覧「Llama 2」は、次の6個のモデルが提供されています。 (hfでないモデルも存在) ・meta-llama/Llama-2-70b-hf ・meta-llama/Llama-2-70b-chat-hf ・meta-llama/Llama-2-13b-hf ・meta-llama/Llama-2-13b-chat-hf ・meta-llama/Llama-2-7b-hf ・meta-llama/Llama-2-7b-chat-hf 3. 利用申請「Llama 2」を利用するには、利用申請が必要です。 (1) 公式のMetaのフォームから利用申請。 数時間後に利用許可のメールがきます。 (

                                                                                Google Colab で Llama 2 を試す|npaka
                                                                              • LLaMAのオープンソース実装OpenLLaMA、3000億トークンでトレーニングされたチェックポイントをリリース

                                                                                OpenLM Researchは、米Meta AIが開発した大規模言語モデル「LLaMA(Large Language Model Meta AI)」のライセンスに基づく、オープンソースの大規模言語モデルOpenLLaMAのパブリックプレビューとなる「OpenLLaMA 7B」の、3000億トークンでトレーニングされたチェックポイントを、5月3日(現地時間)にリリースした。 今回リリースされた300Bチェックポイントは、既存の実装と広く互換性を持たせることを目的に、BOSトークンの影響を受けにくくしている。 トレーニングは、1.2兆を超えるトークンを含むLLaMAトレーニングデータセットを再現した、TogetherによるRedPajamaデータセットによって行われており、モデルアーキテクチャ、コンテキスト長、トレーニングステップ、学習率スケジュール、オプティマイザなど、元のLLaMAペーパ

                                                                                  LLaMAのオープンソース実装OpenLLaMA、3000億トークンでトレーニングされたチェックポイントをリリース
                                                                                • コード生成AIは1兆5,000億ドルの経済価値に、メタは最新のコード生成AI「Code Llama」をリリース、その実力は | AMP[アンプ] - ビジネスインスピレーションメディア

                                                                                  コード生成AIがもたらす経済効果 ジェネレーティブAIツール活用による生産性改善が期待されている。マッキンゼーの推計によると、ジェネーティブAIによる自動化が進むと、生産性向上により2045年頃には、最大で4兆4,000億ドルもの経済価値が創出される可能性がある。 業務別で見た場合、ジェネレーティブAIの付加価値が最大となるのは、マーケティング/営業で、7,600億〜1兆2,000億ドルの価値創出につながるとされる。この分野では、パーソナライズされたコンテンツ生成などにより、マーケティングの生産性は5〜15%増加、また営業の生産性も3〜5%向上すると推計されている。 マーケティング/営業に次いで、ジェネーティブAIの恩恵を受けるとみられているのが、ソフトウェア開発だ。自動化によってもたらされる価値は、5,800億〜1兆2,000億ドルに達すると予想されている。コード作成、修正と再構築、原因