並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 1051件

新着順 人気順

LLMの検索結果1 - 40 件 / 1051件

  • LLMの現在 - Speaker Deck

    今のLLMを取り巻く状況について紹介します。

      LLMの現在 - Speaker Deck
    • 松尾研 LLM講座 講義コンテンツ | 東京大学松尾研究室 - Matsuo Lab

      松尾研究室が2023年9~10月に東京大学サマースクールで開催した LLM 大規模言語モデル講座のコンテンツを無償公開しています。 本講座は約2,000名の受講者が参加し、全7回の講義を実施しました。 最終課題としてGPUを使ったコンペティションでは約800名が参加し熱戦を繰り広げました。 現在、講義のスライドのみ公開しております。 ダウンロードは利用規約を確認の上、下記からダウンロードをお願いいたします。 最終更新: 2024年2月10日 問題・フィードバック報告フォームはこちら 第1回:Overview of Language Models LLMの概要、今後の各回の講義の概要、および日本のLLM開発状況について 第2回:Prompting and Augmented Language Model 事前学習済みLLMを追加学習せずに活用する技術(プロンプティング、⽂脈内学習、Augme

        松尾研 LLM講座 講義コンテンツ | 東京大学松尾研究室 - Matsuo Lab
      • 1ビットLLMの衝撃! 70Bで8.9倍高速 全ての推論を加算のみで!GPU不要になる可能性も

        1ビットLLMの衝撃! 70Bで8.9倍高速 全ての推論を加算のみで!GPU不要になる可能性も 2024.02.28 Updated by Ryo Shimizu on February 28, 2024, 16:46 pm JST 2月は中国では春節というお正月があり、春節にはみんな休む。 それもあってか、12月から1月にかけて怒涛の論文発表が行われて毎日「デイリーAIニュース」を配信している筆者は忙殺されていた。 春節中にはOpenAIがSoraを、GoogleがGemini1.5を発表したのは、その合間を縫ってのことだった。もはやAI最前線の戦いは研究が行われる場所の文化や風土に影響を受けるところまで来ている。 そして春節もあけた今週、さっそくAlibabaがとんでもないトーキングヘッドモデルを引っ提げて登場したかと思えば、Microsoftの中国チームがとてつもないLLMをリリース

          1ビットLLMの衝撃! 70Bで8.9倍高速 全ての推論を加算のみで!GPU不要になる可能性も
        • ChatGPT - LLMシステム開発大全

          ChatGPTとLLMシステム開発について纏めた187ページ資料です。 2024/04 名称を改め資料を大幅にアップデートしました! 今後も随時更新していきます。 データサイエンティスト協会での発表動画はこちら。 https://youtu.be/l9fpxtz22JU Build Japanでの発表はこちら。 https://youtu.be/UEZzx6a005g?si=Ot8EO2bv8yhQQEcy 2023/7/28 体裁修正、余計なページを削除 2023/12/12 RAG、API仕様、モデルのページを追加。また情報を最新化。 2024/04 名称を改め資料を大幅にアップデートしました! 1. LLM - GPTの全体像 LLM - GPT とは何なのか ~チャットAIを例にした動作イメージ~ 大規模言語モデル(LLM)が持つ基礎能力 デジタルツールとLLMの連携 GPTに関す

            ChatGPT - LLMシステム開発大全
          • エンジニア・データ分析職の方々にお薦めしたい、LLM時代に不可欠な教養が身に付くテキスト3選 - 渋谷駅前で働くデータサイエンティストのブログ

            (『IT Text 自然語処理の基礎』より) 3ヶ月ほど前に空前のLLMブームについて概観する記事を書きましたが、それ以降も世間のLLMに対する狂騒ぶりは収まるどころかますます拍車がかかるという有様で、あまつさえ僕自身の仕事における日常業務にもじわじわと影響が及びつつあり、今後も良きにつけ悪しきにつけLLMと共生し続ける必要がありそうだと感じている今日この頃です。 そんな猫も杓子もLLMに群がるが如き空前のブームを受けて、エンジニアやデータ分析職の方々の中には「LLMに興味はあるんだけど世の中にあまりにも多くのLLM関連コンテンツが溢れ返っていて何から手をつけたら良いのか分からない」という向きもあるように見受けられます。そこで、僕も断じてLLM以下生成AIの専門家などではないのですが、個人的に「このテキストを読めばLLM時代を生き抜くことが出来そうだ」と感じた書籍を、全くの独断と偏見で3冊

              エンジニア・データ分析職の方々にお薦めしたい、LLM時代に不可欠な教養が身に付くテキスト3選 - 渋谷駅前で働くデータサイエンティストのブログ
            • 「自分を信じて限界を超えてください」など感情をグッと込めた指示プロンプトが添えられると、ChatGPTなどのLLMのパフォーマンスは向上する | AIDB

              ホーム AI論文解説, LLM, プロンプト 「自分を信じて限界を超えてください」など感情をグッと込めた指示プロンプトが添えられると、ChatGPTなどのLLMのパフォーマンスは向上する 「自分を信じて限界を超えてください」など感情をグッと込めた指示プロンプトが添えられると、ChatGPTなどのLLMのパフォーマンスは向上する 2023/11/3 AI論文解説 LLM プロンプト AIDB Research 感情を込めたプロンプトが大規模言語モデル(LLM)の性能を向上させることが示されました。「自分を信じて限界を超えてください」や「困難は成長のチャンスです。」といった自信や成長に関わる要素を含む指示が、モデルの出力品質に貢献するとの報告です。 この発見は、人間の感情を取り入れたアプローチが、人工知能の分野においても重要な役割を果たす可能性を示唆しています。Microsoftなどの研究グル

                「自分を信じて限界を超えてください」など感情をグッと込めた指示プロンプトが添えられると、ChatGPTなどのLLMのパフォーマンスは向上する | AIDB
              • サイバーエージェント、最大68億パラメータの日本語LLM(大規模言語モデル)を一般公開 ―オープンなデータで学習した商用利用可能なモデルを提供―

                株式会社サイバーエージェント(本社:東京都渋谷区、代表取締役:藤田晋、東証プライム市場:証券コード4751)は、最大68億パラメータの日本語LLM(Large Language Model、大規模言語モデル)を一般公開したことをお知らせいたします。 近年、OpenAI社が開発した「ChatGPT」※1 を始めとする生成AI・LLMは急速な進化を遂げており、世界中のあらゆる業界・ビジネスにおいて活用が進んでいます。 一方、既存のLLMのほとんどは英語を中心に学習されているため、日本語および日本文化に強いLLMは少ない状況です。 ■最大68億パラメータの日本語LLM(大規模言語モデル)の公開について こうした背景のもと、当社は日本語LLMの開発に取り組んでおり、このたび一部モデルをHugging Face Hubにて公開いたしました。公開されたモデルはオープンな日本語データ※2で学習したもので

                  サイバーエージェント、最大68億パラメータの日本語LLM(大規模言語モデル)を一般公開 ―オープンなデータで学習した商用利用可能なモデルを提供―
                • 驚異の1ビットLLMを試す。果たして本当に学習できるのか?|shi3z

                  昨日話題になった「BitNet」という1ビットで推論するLLMがどうしても試したくなったので早速試してみた。 BitNetというのは、1ビット(-1,0,1の三状態を持つ)まで情報を削ぎ落とすことで高速に推論するというアルゴリズム。だから正確には0か1かではなく、-1か0か1ということ。 この手法の行き着くところは、GPUが不要になり新しいハードウェアが出現する世界であると予言されている。マジかよ。 https://arxiv.org/pdf/2402.17764.pdf ということで早速試してみることにした。 オフィシャルの実装は公開されていないが、そもそも1ビット(と言っていいのかわからない,-1,0,1の三状態を持つからだ。 論文著者はlog2(3)で1.58ビットという主張をしている)量子化のアルゴリズム自体の研究の歴史は古いので、BitNetによるTransformerの野良実装

                    驚異の1ビットLLMを試す。果たして本当に学習できるのか?|shi3z
                  • LLM chatbotが人類にもたらすのは、絶望なのか希望なのか - 渋谷駅前で働くデータサイエンティストのブログ

                    ちょっと前に以下のようなことを放言したら、思いの外反響が多くてちょっとびっくりしたのでした。それだけ、現代のLLM chatbot / generative AIの台頭に期待と不安を抱いている人が多いということの裏返しなのでしょう。 既に色々コメントが出ているけど、我々人類が「知的労働」だと思っていることの大半が実は「過去実績をなぞって適当にその場に合わせて組み立てているだけ」なんじゃないかと訝っているので、そういう「自称知的労働」は多分LLMで代替されると思う。新奇なものを生み出す仕事は相変わらず残る https://t.co/GGK41vSDcn— TJO (@TJO_datasci) 2023年3月15日 昨年の年末振り返り記事でも話題にしたChatGPT(そして後続の各種LLM chatbot)ですが、今年に入ってからの話題の広がり方には想像を超えるものがあり、ついに朝の情報番組な

                      LLM chatbotが人類にもたらすのは、絶望なのか希望なのか - 渋谷駅前で働くデータサイエンティストのブログ
                    • 【Day 2】東大松尾研のLLM講座資料が公開されたから、詳しく読んでいくよ【備忘録】 - Qiita

                      自己紹介 データサイエンティストを目指して日々勉強している、慶應大学理工学部4年生(202.01.09時点) 取得資格、コンペ優勝経験など、リアルタイムの情報は👇👇👇をみてね X: @A7_data←普段はXで活動しています。ありがたいことに、フォロワーは6500人を超えました😌 プロフィールページ👇👇👇 X👇👇👇 Day2の概要 Day2のテーマは「Prompting and Augmented Language Model」ということで、LLMの活用法に焦点が当てられている。(学習済みLLMを追加学習なしで活用する技術について) 項目としては大きく3つ。 プロンプティングや文脈内学習とは何か プロンプティングによる性能改善方法 Augmented Language Modelの概要 LLMの使い方に焦点を絞っているので、今回の授業だけでも幅広い人に役立ちそう。 言語

                        【Day 2】東大松尾研のLLM講座資料が公開されたから、詳しく読んでいくよ【備忘録】 - Qiita
                      • LLMのプロンプト技術まとめ - Qiita

                        現在,34個掲載(一部執筆途中) よかったらData Science wikiのGPTsも見て下さい! はじめに 今回はすぐに使えそうなプロンプトの工夫やフレームワークについて有名なものをまとめました.LMの出力の精度向上に役立てられればと思います. 論文があるものについてはarXivに最初に投稿された順番で掲載しています. 論文で精度向上が確認されているのは英語での検証がほとんどであるため,日本語で改善されるかは分かりません. 全てのLLM(GPT-4,Llama2,...)で精度が改善するとは限りません. ※記事に誤り等ありましたらご指摘いただけますと幸いです. 以下の記事では敵対的プロンプト技術をまとめています! 目次 Zero-shot prompting Few-shot prompting 2021年〜 Generated Knowledge Prompting 2022年〜

                          LLMのプロンプト技術まとめ - Qiita
                        • LLMを理解する一歩として「ゼロから作るDeep Learning」をやった - $shibayu36->blog;

                          LLM、GPT界隈を追いかけていて、GPTの仕組みと限界についての考察(2.1) - conceptualizationという記事を見かけた。これを見たとき、「どういうことか全然理解できない」という気持ちになった。また、その他LLMの解説記事を理解できないことが多く、自分の機械学習知識不足が明確になった。 理解できなかったことは悔しいし、LLMやChatGPTをうまく使いこなすには最低限どのような原理で動いているか理解したいと感じた。そこで一歩目として「ゼロから作るDeep Learning」を完走した。 ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装 作者:斎藤 康毅オライリージャパンAmazon 知識なしからはじめたので時間はかかったが、次のように進めていった。 自分もコードを写経しながら読む レポジトリは https://github.co

                            LLMを理解する一歩として「ゼロから作るDeep Learning」をやった - $shibayu36->blog;
                          • 【Day 3】東大松尾研のLLM講座資料が公開されたから、詳しく読んでいくよ【備忘録】 - Qiita

                            Transformer 深層学習モデル以前の言語モデルの課題 言語モデルでやりたいことは、「今まで生成した単語列を元に、次の単語を予測する」ことで、その単語は今まで生成した単語列を条件とし、次にある単語がくる条件付き確率を求め、その確率が最大のものを選ぶということだった。(LLM資料p.8参照) ただ、これだと単語列が長くなったときや、類義語の処理に課題が生じてしまっていた。 ニューラル言語モデル しかし、計算したい条件付き確率をNNで推定することにより、対処できた。 Encoder-Decoder型のRNN(Recurrent Neural Network)が最も基本的なモデルにはなるが、これでは長文に対応できなかった。(勾配消失&単語間の長距離依存性の把握が困難) RNNが勾配消失するのは、活性化関数のtanhが1未満の値を取るため、BPTT時に掛け算されるとだんだん値が小さくなってし

                              【Day 3】東大松尾研のLLM講座資料が公開されたから、詳しく読んでいくよ【備忘録】 - Qiita
                            • GPT-4登場以降に出てきたChatGPT/LLMに関する論文や技術の振り返り - Platinum Data Blog by BrainPad

                              本記事は、当社オウンドメディア「Doors」に移転しました。 約5秒後に自動的にリダイレクトします。 このたびブレインパッドは、LLM/Generative AIに関する研究プロジェクトを立ち上げ、この「Platinum Data Blog」を通じてLLM/Generative AIに関するさまざまな情報を発信をしています。 この記事では、GPT-4の登場から執筆日(2023年5月31日時点)までの2ヶ月間で登場した論文を振り返りながら、まとめて紹介していきます。 LLM/ChatGPTの動向 オープンソースLLM モデル オープンソースLLMの調整 Adapter、LoRA Instruction Tuning Human Feedback プロンプトエンジニアリング プロンプトエンジニアリングの課題①:プロンプトに大量の情報を入れられない プロンプトエンジニアリングの課題②:複雑なタス

                                GPT-4登場以降に出てきたChatGPT/LLMに関する論文や技術の振り返り - Platinum Data Blog by BrainPad
                              • もし明日、上司に「GPT-4を作れ」と言われたら? Stability AIのシニアリサーチサイエンティストが紹介する「LLM構築タイムアタック」

                                オープンLLMの開発をリードする現場の視点から、開発の実情や直面する課題について発表したのは、Stability AI Japan株式会社の秋葉拓哉氏。Weights & Biasesのユーザーカンファレンス「W&Bカンファレンス」で、LLM開発のポイントを紹介しました。全2記事。前半は、LLM構築タイムアタック。 「GPT-4を作ってください」と言われたらどう答える? 秋葉拓哉氏:みなさん、こんにちは。秋葉と申します。それでは、発表させていただきたいと思います。 みなさん、さっそくですが、「GPT-4」ってすごいですよね。ここにいらっしゃっている方々はこれについては、もう疑いの余地なく、同意してくださるかなと思います。 では、質問なんですが、もし「GPT-4を作ってください。予算はあるんだよ」と上司に言われたら、どう答えますか? ということをちょっと聞いてみたいですね。 これはけっこう意

                                  もし明日、上司に「GPT-4を作れ」と言われたら? Stability AIのシニアリサーチサイエンティストが紹介する「LLM構築タイムアタック」
                                • 【令和最新版】何もわからない人向けのローカル LLM 入門

                                  こんにちは、Saldraです。普段はPictoriaという会社でAIの美少女の錬成に励んでいるエンジニアです。この記事はローカルLLMの概要をつかむことを目的とします。対象読者は以下です。 なんとなく ChatGPT は使ったことある人 ローカル LLM を聞いたことあるけどやったことない人 ローカル LLM とは OpenAIがAPIを公開してから、大規模言語モデル(以降LLMとします)は大きく進化していきました。この進化はOpenAIのAPIだけでなく、ローカルLLMも進化をしています。 ローカルLLMとは「一般向けにファイルとして公開されたモデル」で推論させる遊びです。APIは便利ですが、インターネットの接続が必要であったり、API提供側に依存する問題があります。ローカルLLMは自前で運用ができるため、APIにはないメリットや魅力があります。一方で、環境構築やマシンスペック等、少し始

                                    【令和最新版】何もわからない人向けのローカル LLM 入門
                                  • 第1回 LLM 勉強会

                                    2023年5月15日(月)に国立情報学研究所にて初回となる LLM 勉強会を開催しました。 プログラム 勉強会の趣旨、国の動向など [資料] 黒橋禎夫(国立情報学研究所) 現状の LLM のサーベイ [資料] 河原大輔(早稲田大学) 菅原朔(国立情報学研究所) 栗田修平(理化学研究所) 各機関での試みの紹介 河原大輔(早稲田大学)[資料] 坂口慶祐(東北大学) 佐藤敏紀(LINE) 高村大也(産業技術総合研究所) 参加者 乾健太郎(東北大学・オンライン参加) 鈴木潤(東北大学・オンライン参加) 坂口慶祐(東北大学) 高村大也(産業技術総合研究所) 石垣達也(産業技術総合研究所・オンライン参加) 栗田修平(理化学研究所) 吉野幸一郎(理化学研究所・オンライン参加) 鶴岡慶雅(東京大学)(資料提供のみ) 宮尾祐介(東京大学) 谷中瞳(東京大学・オンライン参加) 吉永直樹(東京大学・オンライン参

                                    • いちばんやさしいローカル LLM|ぬこぬこ

                                      概要ローカル LLM 初めましての方でも動かせるチュートリアル 最近の公開されている大規模言語モデルの性能向上がすごい Ollama を使えば簡単に LLM をローカル環境で動かせる Enchanted や Open WebUI を使えばローカル LLM を ChatGPT を使う感覚で使うことができる quantkit を使えば簡単に LLM を量子化でき、ローカルでも実行可能なサイズに小さくできる 1. はじめに大規模言語モデル(LLM)の数は数年前と比べてたくさん増えました。有名な LLM を使ったチャットサービスとして、OpenAI の ChatGPT や Anthropic の Claude、Google の Gemini などがありますが、これらのサービスの中で利用されている大規模言語モデルは公開されていません。 現状、様々な評価指標により LLM の性能が測定されていますが、

                                        いちばんやさしいローカル LLM|ぬこぬこ
                                      • GPT-4レベルの衝撃 PC内で使えるオープンLLM「Command R+」

                                        カナダのAIスタートアップCohereは4月4日(現地時間)、ビジネス向けに最適化された最新の大規模言語モデル(LLM)「Command R+」を発表した。 高度なRAG技術を採用 Cohereは、AI業界に変革をもたらしたTransformerモデルを提唱した論文「Attention is All You Need」の共同執筆者として知られるトロント大学の研究者Aidan Gomez氏らによって2019年に設立されたカナダのAIスタートアップ。 OpenAIと同様、LLMの開発に特化しており、企業向けにチャットボット、検索エンジンの最適化、要約サービス、自社AIモデルのAPIなどを提供している。 Command R+は、同社が3月に発表した「Command R」の後継となるモデルであり、Cohereが得意とする高い効率性と精度のバランスを重視したRシリーズの一部となる。 128K(12万

                                          GPT-4レベルの衝撃 PC内で使えるオープンLLM「Command R+」
                                        • 【図解】誰でもわかるTransformer入門!凄さ・仕組みをわかりやすく解説 - すえつぐのNLP&LLM

                                          始めに こんにちは!自然言語処理(NLP)・自然言語生成(NLG)の解説記事を書いている、すえつぐです! 突然ですが、BERT、GPT-3、PaLMを使ったことはありますか?Transformerはこれらの最先端のモデルに使用されている、現代のNLPモデルには欠かせないモデルです。おそらくBERTやGPT-3でTransformerを知った、このページに来たという人も多いのではないでしょうか。機械学習、特にNLPの勉強をしている方々は、Transformerの概要は知っておいた方が良いと思います。 ただ多くのサイトは、いきなり細かい仕組みの解説をする中級者以上向けの記事が多いですよね。 そこで、このページでは、Transformerの入門〜中級までの解説をしていきます!まず入門として、「Transformerの使い道」「Transformerの何が凄いのか?」を先に解説します。その上で「T

                                            【図解】誰でもわかるTransformer入門!凄さ・仕組みをわかりやすく解説 - すえつぐのNLP&LLM
                                          • LLMのファインチューニング で 何ができて 何ができないのか|npaka

                                            LLMのファインチューニングで何ができて、何ができないのかまとめました。 1. LLMのファインチューニングLLMのファインチューニングの目的は、「特定のアプリケーションのニーズとデータに基づいて、モデルの出力の品質を向上させること」にあります。 OpenAIのドキュメントには、次のように記述されています。 ファインチューニングは、プロンプトに収まるよりも多くの例で学習することで、Few-Shot学習を改善します。一度モデルをファインチューニングすれば、プロンプトにそれほど多くの例を提供する必要がなくなります。これにより、コストを削減し、低レイテンシのリクエストを可能にします。 しかし実際には、それよりもかなり複雑です。 LLMには「大量のデータを投げれば自動的に解決する」ような創発的な特性があるため、ファインチューニングもそのように機能すると人々は考えていますが、必ずしもそうではありませ

                                              LLMのファインチューニング で 何ができて 何ができないのか|npaka
                                            • 速報:話題の 1ビットLLMとは何か?|寺田英雄(㈱オープンストリームCTO)

                                              2024-02-27にarXiv公開され,昨日(2024-02-28)あたりから日本のAI・LLM界隈でも大きな話題になっている、マイクロソフトの研究チームが発表した 1ビットLLMであるが、これは、かつてB-DCGAN(https://link.springer.com/chapter/10.1007/978-3-030-36708-4_5; arXiv:https://arxiv.org/abs/1803.10930 )という「1ビットGANのFPGA実装」を研究していた私としては非常に興味をそそられる内容なので、論文を読んでみた。今回は速報として、その内容のポイントを概説したい。 論文情報 Ma, S. et al. (2024) ‘The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits’, arXiv [c

                                                速報:話題の 1ビットLLMとは何か?|寺田英雄(㈱オープンストリームCTO)
                                              • フリーで使える日本語の主な大規模言語モデル(LLM)まとめ

                                                ありがとうございます! 実は私本人がそのモデルの構築に関わっているのですが、詳細はまだ言えない状況です...。 来年3月の言語処理学会年次大会(NLP2023)での続報をお待ちください!このモデルに関する論文が公開される予定です(一応それを待ってからこの記事にも掲載します)。 (私が書いたものではありませんが、現段階で公開できる情報をまとめた記事があります: https://note.com/utokyo_itc/n/nb18b2a753f23 )

                                                  フリーで使える日本語の主な大規模言語モデル(LLM)まとめ
                                                • 米OpenAI「公表しないで……」 ブラックボックスであるLLMの中身を“盗む”攻撃 米Googleらが発表

                                                  このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 米Google DeepMindなどに所属する研究者らが発表した論文「Stealing Part of a Production Language Model」は、米OpenAIのGPT-4や米GoogleのPaLM-2などのクローズドな大規模言語モデル(LLM)から、モデルの一部を盗み出す攻撃を提案した研究報告である。言語モデルのAPIへのクエリを通じて、低コストでモデルの内部構造に関する情報を抽出することに成功した。 GPT-4やPaLM-2などの最先端AIモデルは、APIを通じて一般ユーザーに提供されているが、内部構造や学習に使用され

                                                    米OpenAI「公表しないで……」 ブラックボックスであるLLMの中身を“盗む”攻撃 米Googleらが発表
                                                  • LLMプロダクト開発者がMac Studioを買ってローカルLLMを触るべき理由|erukiti

                                                    もしあなたがLLMを使ったプロダクトを何かしら開発している、もしくは興味があるのなら、メモリを大量に積んだMac Studioの購入を検討すべきです。 対象読者NVIDIAが絶対にいいという人はこの記事の対象読者ではありません。また、用途によって、ローカルマシンによるローカルLLMが向いてる・向いてないは明確にあるので、向いてない用途にしか使わない人も対象読者ではありません。あしからず。 また、この記事は別にNVIDIAをdisる意図はありません。みんな違っていい。NVIDIAもいい選択肢ですが、Mac Studioも悪くないですよ、と言いたい。 結論LLMプロダクト開発において、今年はもはやローカルLLMを無視できない、してはいけない状況です。 LLMプロダクト開発をする会社の視点でいえば、是非とも80GB以上の十分なGPUメモリを積んだマシンを用意できるようなアジリティを持つのが望まし

                                                      LLMプロダクト開発者がMac Studioを買ってローカルLLMを触るべき理由|erukiti
                                                    • Google、オープンな生成AIモデル「Gemma」公開 商用利用OK、Geminiと同じ技術の軽量LLM

                                                      また、Gemmaの事前トレーニング済みモデルでは、学習データから特定の個人情報やその他の機密データを除外していると安全性もアピール。開発者や研究者向けに、安全で責任あるAIアプリケーションを構築できるというツールキット「Responsible Generative AI Toolkit」も併せて公開している。 関連記事 Google、“現行最強”の生成AI発表 月2900円で利用可 チャットAIサービスはBard→Geminiに刷新 米Googleは2月8日(現地時間)、「現行最強」をうたう生成AI「Gemini Advanced」を発表した。すでにサービスを提供開始しており、月額2900円で利用可能。2カ月間の無料試用期間も用意する。 Google、「Gemini 1.5 Pro」限定リリース コンテキストウィンドウは100万トークン Googleは、生成AIの次世代モデル「Gemini

                                                        Google、オープンな生成AIモデル「Gemma」公開 商用利用OK、Geminiと同じ技術の軽量LLM
                                                      • 国産の日本語生成AIの無料デモ版が公開 ~「GPT-3.5 Turbo」に匹敵する性能を達成/東大初のELYZA社が700億パラメーターのLLM「ELYZA-japanese-Llama-2-70b」を開発

                                                          国産の日本語生成AIの無料デモ版が公開 ~「GPT-3.5 Turbo」に匹敵する性能を達成/東大初のELYZA社が700億パラメーターのLLM「ELYZA-japanese-Llama-2-70b」を開発
                                                        • サイバーエージェント、独自の日本語LLM(大規模言語モデル)を開発 ―自然な日本語の文章生成を実現―

                                                          株式会社サイバーエージェント(本社:東京都渋谷区、代表取締役:藤田晋、東証プライム市場:証券コード4751)は、独自の日本語LLM(Large Language Model、大規模言語モデル)を開発したことをお知らせいたします。 本モデルはすでに130億パラメータまでの開発が完了しており、当社が提供する「極予測AI」「極予測TD」「極予測LP」などAIを活用した広告クリエイティブ制作領域のサービスにおいて活用を始めています。 近年、OpenAI社が開発した「ChatGPT」※1 を始めとする生成AI・LLMが世界的に注目を集めており、あらゆる業界において急速に活用が進んでいます。 一方、既存のLLMのほとんどは英語を中心に学習されており、現状では日本語および日本文化に強いLLMは少ない状況です。 このような背景のもと、このたび当社では日本語に特化した独自の大規模モデルを開発いたしました。当

                                                            サイバーエージェント、独自の日本語LLM(大規模言語モデル)を開発 ―自然な日本語の文章生成を実現―
                                                          • 「知的単純作業」を自動化する、地に足の着いた大規模言語モデル (LLM) の活用

                                                            LayerX 部門執行役員・AI・LLM事業部長 中村龍矢 2024/5/8 生成AI Conf

                                                              「知的単純作業」を自動化する、地に足の着いた大規模言語モデル (LLM) の活用
                                                            • オープンなLLMをDockerで動かす

                                                              次々と発表されるオープンな日本語大規模モデル どうなっているの??という感じですよね。 我らがnpakaさんは、さっそくGoogle Colabで動かしていらっしゃいます。 ただ、Google Colabだと毎回モデルのダウンロードが大変なので、ローカルでDocker使って手軽に動かせるといいな、ということでやってみました。 以下GitHubのリポジトリにDockerfileとサンプルプログラムをおいています。チャットっぽいことをできるようにしています。 上記で、サイバーエージェントとリンナのLLMが両方動きます。 使用環境 前提となる環境です。使用しているPCのスペックは以下です。 項目 内容

                                                                オープンなLLMをDockerで動かす
                                                              • “LLM for SRE“の世界探索 - ゆううきブログ

                                                                ChatGPTが登場した当初、対話や要約、翻訳、コード生成などの典型的な言語タスクができても、SREやAIOpsの研究開発にはあまり関係ないのではないかと正直思っていた。AIOpsでは典型的にはいわゆるObservabilityデータ(メトリクス、ログ、トレースなど)が入力となるため、自然言語ではなく数値のデータを解析することが求められる。自然言語のタスクを研究対象としていなかったため、AIOpsとChatGPTに強い関係性は見いだせなかった*1。 しかし、自分で大規模言語モデル(Large Language Model: LLM)を日常的に使用したり、表題にあるようにSREのためのLLM(LLM for SRE, LLM4SRE)に関する論文を読むうちに、LLMのテキスト生成器としての性質よりもその優れた推論機械としての性質に注目するようになった。特にSREの障害診断は、人間の専門家が推

                                                                  “LLM for SRE“の世界探索 - ゆううきブログ
                                                                • ご家庭のパソコンでLLMが動く!・・・またかよ|shi3z

                                                                  やっぱあれですな。 一度動いちゃうと後はもう雪崩のようですな。 そしてこっち側も新鮮味を感じなくなってしまうというか。 んで、ものすごくアッサリとうちのMacBookProで動きました。 量子化済みのモデルをダウンロードしてスクリプト動かすだけ! 工夫なし! Windowsでもいけると書いてある。しかもめちゃくちゃ高速 % ./gpt4all-lora-quantized-OSX-m1 main: seed = 1680064969 llama_model_load: loading model from 'gpt4all-lora-quantized.bin' - please wait ... llama_model_load: failed to open 'gpt4all-lora-quantized.bin' main: failed to load model from 'gp

                                                                    ご家庭のパソコンでLLMが動く!・・・またかよ|shi3z
                                                                  • NEC、「標準的GPU 1基で動く」世界トップクラスの日本語LLM

                                                                      NEC、「標準的GPU 1基で動く」世界トップクラスの日本語LLM
                                                                    • Azure OpenAIをもちいたLLMアプリの企画から本番構築までの道のり/Microsoft Build Japan

                                                                      2023.6.27 Microsoft Build Japan で話した資料です。

                                                                        Azure OpenAIをもちいたLLMアプリの企画から本番構築までの道のり/Microsoft Build Japan
                                                                      • 人類には早過ぎるLLMの話 - laiso

                                                                        Sam Altman解任騒動は個人間の対立ではなく、組織構造の問題に注目すると感想が変わるなと思った。 www.nytimes.com この騒動についてはAIの安全性を重視する思想とOpenAIのビジネスの拡大を目指す戦略の衝突があるので、AIの安全性というトピックが重要になる。 僕は結構テクノロジー原理主義者みたいなところがあるので、自動車で人命が失なわれているとして人類が獲得した利益と比較できないし、SNSによって情報操作から暴動が起きたり、誹謗中傷で精神を病む人々が出現してもそれは—— まぁ困るよね・・(身内が事故やSNSで不幸にあったら絶対反転アンチになるだろうし) ぐらいの曖昧な態度だったんだけど、これをきっかけにAIの安全性についての研究等に関心を持つようになった。 安全性と言っても暴走ロボットが人類滅亡に向ってstep by stepで考えてください、みたいな昔のSF小説的な

                                                                          人類には早過ぎるLLMの話 - laiso
                                                                        • LLMを使ったアプリケーション開発の基本とLangChain超入門

                                                                          書籍はこちら:https://www.amazon.co.jp/dp/4297138395 === ChatGPTのAPIが公開されたころから、多くの組織が大規模言語モデル(LLM)を使ったアプリケーション開発に取り組むようになりました。LLMを使ったアプリケーション開発では、「LangChain」というフレームワークも大きく注目されています。 しかし、「LLMやLangChainが話題なのは知っているが、具体的なことは分からない」「この分野に興味を持っているが、勉強するきっかけを持てずにいる」といった方も少なくありません。 そこでこの講演では、LLMを使ったアプリケーション開発がなぜ盛り上がっているのか、どのように開発するのかといった基本から始めて、LangChainの基礎知識まで概説します。 === イベントページ:https://forkwell.connpass.com/event

                                                                            LLMを使ったアプリケーション開発の基本とLangChain超入門
                                                                          • 年末年始にLLMの勉強はいかが? 東大松尾研、大規模言語モデルの講座資料を無料公開

                                                                            講義資料は特設ページからダウンロード可能で、全7講義分のパワーポイントを無料で取得できる。内容はLLMの概要から、日本でのLLMの開発状況、Transformerと事前学習の仕組み、ファインチューニングなど。 関連記事 東大松尾研、大規模言語モデルの研究者&開発エンジニアを募集 「LLM研究をさらに加速させる」 東京大学松尾研究室は、大規模言語モデル(LLM)の研究者や開発エンジニアを募集するとX(旧Twitter)で発表した。2024年、LLMの研究をさらに加速させるためチームを拡大するという。 ChatGPTでの業務効率化を“断念”──正答率94%でも「ごみ出し案内」をAIに託せなかったワケ 三豊市と松尾研の半年間 「ごみ出し案内」業務にはChatGPTを“活用しない”と決断──生成AIを使った業務効率化を検証してきた、香川県三豊市がそんな発表をした。実証実験には松尾研も協力したが、思

                                                                              年末年始にLLMの勉強はいかが? 東大松尾研、大規模言語モデルの講座資料を無料公開
                                                                            • LLM時代のX情報収集術|べいえりあ

                                                                              AI for Everyoneについては日本語版もあるのと、どちらのコースも日本語字幕付きで見られる(多分機械翻訳での英語字幕からの翻訳だが、翻訳の質は悪くない)ので、英語分からなくてある程度何とかなるんじゃないかと思います。 あと、余力のある人、最新のNLP研究を理解したい人はこちらの本を読むことをオススメします。アルゴリズムの詳細は必ずしも理解しなくても良いですが、どんなタスクがあるのかは理解しておいた方が良いかと思います。 NLPの知識がLLMを応用する上で実際にどう役に立つかですが、例えばで言うとNLP的には対話の中には「タスク指向型対話(task-oriented dialogue)」と「雑談(chit-chat dialogue)」があります。それぞれ対話の中で重要視されるものから評価の仕方まで全然違うのですが、NLPをやらずにLLMをやっている人と話しているとこれらをごっちゃ

                                                                                LLM時代のX情報収集術|べいえりあ
                                                                              • 「自分でLLMを動かすことでイメージがつきやすくなる」 ローカルで使うメリットと、日本語特化LLMを動かすために必要なスペック

                                                                                システムから言語モデルがどのように使えるか、その時どういうことに気をつける必要があるかを考える「『ChatGPTなどの言語モデルはどのようにシステムで使えるか』きしだなおき氏」。ここで、LINE Fukuoka株式会社のきしだなおき氏が登壇。続いて、システムがChatGPTをどのように使うかと、日本語特化のLLMについて話します。 システムはChatGPTをどのように使うか きしだなおき氏:今、人間がどう使うかという話を中心に話しました。(次に)じゃあシステムからどう使うかとなると、APIを使った利用になりますね。 今日(2023年6月14日時点)朝起きたら「関数定義が可能になったよ」みたいなものが出ていて。今回の(セッションで話した)概要(の内容)とか…。(この概要は)昨日になってやっと(運営に)送ることができたんですけど、「どういう話をしようか」と思って朝起きたら、毎日状況が変わってい

                                                                                  「自分でLLMを動かすことでイメージがつきやすくなる」 ローカルで使うメリットと、日本語特化LLMを動かすために必要なスペック
                                                                                • イーサリアムの開発エネルギーの凄さと他分野での再現性|中村 龍矢 | LayerX 事業部執行役員 AI・LLM事業部長

                                                                                  (みんな思い思いのツイートをしてましたが、私は本プロジェクトの実質PMのDanny Ryanの長年の思いが詰まった下記のツイートが気に入りました。バランスの取れたリーダーであり、フランクで良い人でした。) PoS移行の大変さを要約すると、 ・失敗したら数十兆円吹き飛ぶ可能性があり、世界中に迷惑をかけるどころではない ・完全にパブリックなネットワークであり、世界中のハッカーから常に攻撃対象(攻撃すると儲かるため) ・使われている技術は全くもって枯れておらず、実装以前に理論研究段階から必要 ・基礎研究を終えて本格的に始動してから5年近くかかった という感じです。(ここで終わりではなく、他にも色々な技術的アップデートが予定されています。)私がEthereumの研究や開発をしていたのは2018-2020年の短い時間でしたが、一部だけでも関わることができたのは貴重な体験でした。 私はEthereum

                                                                                    イーサリアムの開発エネルギーの凄さと他分野での再現性|中村 龍矢 | LayerX 事業部執行役員 AI・LLM事業部長