並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 77件

新着順 人気順

LLMの検索結果1 - 40 件 / 77件

  • 最近ローカルLLMがアツいらしい

    最近、ローカルLLMがアツくなっているという話をtwitterでチラホラ見かける。 ローカルLLMって何じゃ?というと、オープンに公開されているモデルのウエイトをDLしてきて手元のPC上で推論させる事である。 オープンなAIモデルとは逆の存在として、モデルがDLできないクローズなAIモデルもある。 OpenAIやAnthropicのような最先端AI企業のクローズなAIモデルに比べて、オープンに公開されているオープンなAIモデルの性能は今でもかなり後れを取っている。 だから去年の間はあくまでAIの本命はChatGPTのようなクローズモデルであって、オープンなAIモデルなんて眼中にありませんみたいな風潮が無くはなかった。だが最近は風向きが少々変わってきている。 GPTのAPI高い問題 & OpenAIがAIベンチャー皆殺しにしてしまう問題 まず「結局GPTのAPIを叩いてサービス運営して成功し

    • 「知的単純作業」を自動化する、地に足の着いた大規模言語モデル (LLM) の活用

      LayerX 部門執行役員・AI・LLM事業部長 中村龍矢 2024/5/8 生成AI Conf

        「知的単純作業」を自動化する、地に足の着いた大規模言語モデル (LLM) の活用
      • LLM時代のX情報収集術|べいえりあ

        AI for Everyoneについては日本語版もあるのと、どちらのコースも日本語字幕付きで見られる(多分機械翻訳での英語字幕からの翻訳だが、翻訳の質は悪くない)ので、英語分からなくてある程度何とかなるんじゃないかと思います。 あと、余力のある人、最新のNLP研究を理解したい人はこちらの本を読むことをオススメします。アルゴリズムの詳細は必ずしも理解しなくても良いですが、どんなタスクがあるのかは理解しておいた方が良いかと思います。 NLPの知識がLLMを応用する上で実際にどう役に立つかですが、例えばで言うとNLP的には対話の中には「タスク指向型対話(task-oriented dialogue)」と「雑談(chit-chat dialogue)」があります。それぞれ対話の中で重要視されるものから評価の仕方まで全然違うのですが、NLPをやらずにLLMをやっている人と話しているとこれらをごっちゃ

          LLM時代のX情報収集術|べいえりあ
        • AIの新星ニューラルネットワーク「KAN」とは? LLMが“カンニング”して評価を盛ってた? など重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge

          2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第45回目は、生成AI最新論文の概要5つを紹介します。 生成AI論文ピックアップ 高精度なニューラルネットワーク・アーキテクチャ「KAN」をMITなどの研究者らが開発 1手先のトークン予測ではなく、4手先のトークンを同時に予測するモデルをMetaなどが開発 医療分野に特化したマルチモーダル大規模言語モデル「Med-Gemini」をGoogleが開発 大規模言語モデルが答えに相当するベンチマークを事前に学習し、高い評価を出していた? AIカンニング問題を指摘した研究 一貫性の高い長編ビデオをテキストから生成するAIモデル「StoryDiffusion」 高精度なニューラ

            AIの新星ニューラルネットワーク「KAN」とは? LLMが“カンニング”して評価を盛ってた? など重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge
          • 【西川和久の不定期コラム】 初心者も簡単!ついにPCで104BのLLMも動かせるようになった!そして巷を騒がせるマルチモーダルも試した

              【西川和久の不定期コラム】 初心者も簡単!ついにPCで104BのLLMも動かせるようになった!そして巷を騒がせるマルチモーダルも試した
            • LLMをWebフレームワークにしたら、未来が見えた #2024

              最近、LLMにWeb Backendを書かせて遊ぶ、Hanabiというサービスを作っています。その開発過程で、前に試したLLMをAPIとして振る舞わせるアプローチを再検討したので、記事としてまとめました。 一年ちょっと前、私はChatGPTをWebフレームワークにしようと試みました...が、残念ながら全く実用的ではありませんでした。しかし、あれから一年、LLMは目覚ましい進歩で進化を遂げました。価格は下がり、速度も上がり、記憶容量の増加やRAGの発展など、もはや別物レベルで進化しています。 いまならもうちょっと実用的なヤツが作れるんじゃねってことで、色々な手法を面白がった再検討したまとめです。 余談ですが、一年前はLLM=ChatGPTという状況でしたね...懐かしい。ちょうどvicuna13Bが出た頃ですかね? ↓去年の記事(できれば読んでほしい)↓ 出来たもの 全部プロンプトに入れちゃ

                LLMをWebフレームワークにしたら、未来が見えた #2024
              • 話題のLLMローコード構築ツールDifyをAWSのマネージドサービスで構築してみた - エムスリーテックブログ

                こんにちは。エムスリーエンジニアリンググループのコンシューマチームに所属している園田です。 普段の業務では AWS やサーバーサイド、フロントエンドで遊んでいるのですが、最近はもっぱら OpenAI や Claude3 で遊んでます。 今回は、最近巷で話題の LLM ローコード構築ツールである Dify の OSS 版を AWS のマネージドサービスのみを使って構築してみました。 DifyとはオープンソースのLLMアプリ開発プラットフォームで、様々なLLMを使用してChatGPTのGPTsのようなものがノーコードで簡単に作れます。 引用元: DifyでSEO記事作成を試してみる|掛谷知秀 試しにAskDoctorsのガイドラインHTMLをナレッジ登録してみた ローカル環境で Dify を構築する記事はたくさん見かけますが、AWS のマネージドサービスで構築する内容は見かけなかった*1ので公

                  話題のLLMローコード構築ツールDifyをAWSのマネージドサービスで構築してみた - エムスリーテックブログ
                • Zodスキーマでプロンプト生成を行い構造化データを自由自在に扱えて、LLMプロダクト開発が圧倒的に効率化した話 - Algomatic Tech Blog

                  最近はAIエンジニアを名乗ってるerukitiです。フロントエンドもバックエンドも、LLMを触るあれこれもやってるので、「AIエンジニア」くらいを名乗るとちょうどよさそうだなと思ってます。いずれLLM自体の開発なんかもやってるかもしれません。 LLMプロダクトを開発していると、構造化データを作りたいのに、Anthropic ClaudeのAPIにはJSONモードが無いことや、なんならJSONモードやfunction callingを使っても、データが正しい形式に従ってることは保証しがたい、みたいな自体に遭遇することがあります。 JSONが出力できたとしても、構造化データをうまく吐き出させるのは難しいものです。文字列を出力させたいけど、複数あるときは、配列なのか、それともカンマ区切りなのか?項目がオプショナルの場合はどうするか?項目が存在しない、空文字や 0 や undefined や nu

                    Zodスキーマでプロンプト生成を行い構造化データを自由自在に扱えて、LLMプロダクト開発が圧倒的に効率化した話 - Algomatic Tech Blog
                  • ゼロからLLMつくりたくなったときに参考になりそうなサイト

                    はじめに 「ゼロからLLMつくりたいなー」と思っていますが、なかなか時間がとれないので、いざというとき(?)のために、参考になりそうなサイトをまとめておきます。 個人的な備忘録です。まだ全然作れていないので、どれが良いという評価もできません。 NLP2024チュートリアル 良さそう。 NLP2024-チュートリアル3-作って学ぶ 日本語大規模言語モデル Neural Networks: Zero to Hero Andrej Karpathyさんの動画。英語ですが、すごい良さそう Llama Llamaの情報 GENIAC その他 LLaVA(画像系) 環境構築 モデルマージ まとめ LLMに限らず、何かをゼロから小さく作ってみるのは、回り道のようで理解を深める最短経路と思っています。すぐ効果があるようなものではないですが、こういうのはまとめて取り組んでいきたいですね。 日本語の良い書籍が

                      ゼロからLLMつくりたくなったときに参考になりそうなサイト
                    • ローカルLLMはこーやって使うの💢

                      making-the-most-of-local-llms.ipynb Sorry, something went wrong. Reload? Sorry, we cannot display this file. Sorry, this file is invalid so it cannot be displayed.

                        ローカルLLMはこーやって使うの💢
                      • 1つの大きなLLM(大規模言語モデル)を複数のGPUで力を合わせて動かそう | IIJ Engineers Blog

                        地方拠点の一つ、九州支社に所属しています。サーバ・ストレージを中心としたSI業務に携わってましたが、現在は技術探索・深堀業務を中心に対応しています。 2018年に難病を患ったことにより、定期的に入退院を繰り返しつつ、2023年には男性更年期障害の発症をきっかけに、トランスジェンダーとしての道を歩み始めてます。 LLM群雄割拠の時代 昨今、ローカルGPUで駆動できるようなLLM(大規模言語モデル)もかなり増えてきて、キャッチコピー的に「ついに我が家にもGPT-4が!」とか言われるようになってまいりました。パラメータ規模で言えば70億~130億(7B-13B)パラメータ、700億(70B)パラメータ、1400億(140B)パラメータあたりのモデルが活発にリリースされているように見受けられます。 大きなモデルをGPU寄せ集めしつつ遊びたい! しかしながら、コンシュマー向けのGPUにおいては、7B

                          1つの大きなLLM(大規模言語モデル)を複数のGPUで力を合わせて動かそう | IIJ Engineers Blog
                        • 最近の7B小型日本語LLMはエージェントになれるのか?

                          あれから進化的マージの試行錯誤を繰り返していたが、ついに相当性能が高そうなモデルが生まれた。 Umievo-itr012-Gleipnir-7Bである。 umiyuki/Umievo-itr012-Gleipnir-7B · Hugging Face ElyzaTasks100の平均スコアは3.91に達して、ついにGPT-3.5Turboのスコア(3.88)を上回ってしまった。 ただし、スコアが上回ってるからと言って性能が勝ってるというわけではない事に注意して欲しい。例えるなら、身長が高いからと言って強いわけではないみたいな話である。 前回の記事では少し誤解を招く書き方だったかもしれないが、そもそも7Bの小型日本語LLMなんてのは基本的にドアホである。間違ってもChatGPTの代わりに使えるなんて考えてはいけない。 とは言うものの、単なるドアホではスコア3.91なんて取れないという事もまた

                            最近の7B小型日本語LLMはエージェントになれるのか?
                          • AIの仕組みであるLLMの「ブラックボックス」の内部を見てどのニューラルネットワークが特定の概念を呼び起こすかを知る試みをAnthropicが解説

                            チャットAI「Claude」などを開発するAI企業「Anthropic」がAIモデルの内部動作について、何百万もの概念がどのように表現されているかという研究結果を報告しました。 Mapping the Mind of a Large Language Model \ Anthropic https://www.anthropic.com/research/mapping-mind-language-model AIモデルの本体である大規模言語モデル(LLM)の出力はブラックボックスとして扱われており、入力に対応して出力が行われた時になぜその特定の応答が出力されたのかは不明となっています。そのため、モデルが有害・偏見・ウソなどの危険な出力をしないことを信頼するのは難しいものです。 Anthropicは以前よりLLMの内部についての研究を行っており、2023年10月には「特徴」単位でまとめるこ

                              AIの仕組みであるLLMの「ブラックボックス」の内部を見てどのニューラルネットワークが特定の概念を呼び起こすかを知る試みをAnthropicが解説
                            • からあげさんってすごいなあポエム(松尾研LLMコミュニティ初心者セミナー)

                              はじめに 今回始めて松尾研LLMコミュニティの初心者向け講座"Begginning LLM"の第一回に参加しました! 1~2ヶ月に1回ほど開催される連続講座のようでChatGPTで遊んだことあるけど本格的にLLMのこと知りたい!けど何からはじめていいのか分からないという人にぴったりの講座だと感じました。 この講座内容のすべては以下のYoutubeで公開されています。 今回のセミナーの中では松尾研所属のからあげさんが2つのユニットのセミナーを行っていました。 この記事ではからあげさんから学んだことを思ったままに書いていきます。 からあげさんはここがすごいぞ みなさんからあげさんのセミナーがとても気になって受講された方が多いんじゃないかな?と思いました。 もちろん、わたしも松尾研LLMでのからあげさんのご活躍が見たくて申し込みました!!! 約100枚の圧倒的スライド数 まず、すごいボリュームの

                                からあげさんってすごいなあポエム(松尾研LLMコミュニティ初心者セミナー)
                              • LLMエージェントの設計16パターン | AIDB

                                LLMエージェントの設計は課題が多い上に分類が整理されていません。なお課題としてはハルシネーション(誤った情報の生成)の存在や推論の道筋が不明瞭な点などが挙げられています。 今回研究者らは、基盤モデルを使ったエージェントの設計パターン16種類をまとめました。例えば、エージェントが目標をどうやって設定するか、計画をどう作るかについての情報が記載されています。 参照論文情報 タイトル:Agent Design Pattern Catalogue: A Collection of Architectural Patterns for Foundation Model based Agents 著者:Yue Liu, Sin Kit Lo, Qinghua Lu, Liming Zhu, Dehai Zhao, Xiwei Xu, Stefan Harrer, Jon Whittle 所属:Dat

                                  LLMエージェントの設計16パターン | AIDB
                                • 「富岳」で学習した日本語向け国産AI「Fugaku-LLM」公開

                                    「富岳」で学習した日本語向け国産AI「Fugaku-LLM」公開
                                  • インストール不要でLlama 3やMistralなどオープンソースLLMをブラウザで動かせるチャットボット「Secret Llama」が登場

                                    Llama 3やMistral-7Bといったオープンソースの大規模言語モデル(LLM)をサポートし、WebGPUを使ってブラウザ上で完全に動作するチャットボット「Secret Llama」が公開されています。 Secret Llama https://secretllama.com/ GitHub - abi/secret-llama: Fully private LLM chatbot that runs entirely with a browser with no server needed. Supports Mistral and LLama 3. https://github.com/abi/secret-llama 実際にSecret LlamaのデモサイトでLlama 3を動作させて会話してみたところが以下のムービー。 大規模言語モデルを完全にブラウザで動作できる「Secr

                                      インストール不要でLlama 3やMistralなどオープンソースLLMをブラウザで動かせるチャットボット「Secret Llama」が登場
                                    • GPT-4oとPhi-3でLLMとSLMの双方を取り込むMicrosoftのAI戦略

                                        GPT-4oとPhi-3でLLMとSLMの双方を取り込むMicrosoftのAI戦略
                                      • DifyとローカルLLMを使用して複数のエージェントを設定して議論する方法 - Sun wood AI labs.2

                                        注意: Modelfile の構文は開発中です。モデルファイルは、Ollamaでモデルを作成・共有するための設計図です。おススメ記事フォーマットModelfile のフォーマット:# コメントINSTRUCTION 引数インストラクション説... モデルプロバイダーの追加 モデルタイプを選択: 「ollama」を選択します。 必要な情報を入力: モデル名: llm-jp-13b-v2 Base URL: http://host.docker.internal:11434 Completion Mode: 「Chat」 モデルコンテキストサイズ: 4096 最大トークン数の上限: 4096 Vision Support: 「No」を選択 ワークフローの作成 4人のエージェントのシステムプロンプトを設定: 楽観的AI研究者、慎重派経済学者、AIジャーナリスト、倫理学者の4人のエージェントを作成

                                          DifyとローカルLLMを使用して複数のエージェントを設定して議論する方法 - Sun wood AI labs.2
                                        • スーパーコンピュータ「富岳」で学習した大規模言語モデル「Fugaku-LLM」を公開 : 富士通

                                          PRESS RELEASE 2024年5月10日 東京工業大学 東北大学 富士通株式会社 理化学研究所 名古屋大学 株式会社サイバーエージェント Kotoba Technolgies Inc. スーパーコンピュータ「富岳」で学習した大規模言語モデル「Fugaku-LLM」を公開 日本語能力に長け、研究・ビジネス利用にも期待 要点 日本の計算機技術を用いて開発した日本語能力に優れた大規模言語モデルを公開 スーパーコンピュータ「富岳」の性能を最大限に活用した分散並列学習を実現 AI基盤モデルを科学研究に活用する「AI for Science」など革新的な研究やビジネスにつながる 概要 東京工業大学 学術国際情報センターの横田理央教授の研究チームと東北大学 大学院情報科学研究科の坂口慶祐准教授、富士通株式会社 人工知能研究所の白幡晃一シニアプロジェクトディレクター、理化学研究所 のMohamed

                                            スーパーコンピュータ「富岳」で学習した大規模言語モデル「Fugaku-LLM」を公開 : 富士通
                                          • 中国製GPUで学習した純中国製LLM「MT-infini-3B」が「Llama3-8B」を超える性能を示し中国単独で高性能AIを開発できることが明らかに

                                            中国に拠点を置くGPUメーカーの「摩爾線程(Moore Threads)」が、自社製GPUを用いて大規模言語モデル「MT-infini-3B」を開発したことを発表しました。MT-infini-3BはNVIDIA製GPUを用いて学習した大規模言語モデルと同等以上の性能を備えているそうです。 摩尔线程携手无问芯穹:基于夸娥千卡智算集群的“MT-infini-3B”大模型实训已完成 | 摩尔线程 https://www.mthreads.com/news/171 アメリカ政府は中国によるAI研究を軍事上の脅威と捉えており、中国に対して高性能半導体の禁輸措置を実施しています。このため中国ではNVIDIAやAMD、Intelなどが開発しているAI研究用チップの開発が困難となっています。 そんな中、Moore Threadsは2023年12月に独自開発のAI研究用GPU「MTT S4000」を発表しま

                                              中国製GPUで学習した純中国製LLM「MT-infini-3B」が「Llama3-8B」を超える性能を示し中国単独で高性能AIを開発できることが明らかに
                                            • 世界初、AIモデルの再学習コストを大幅に削減可能な過去の学習過程を再利用する「学習転移」を実現~NTT版LLM「tsuzumi」など基盤モデルの更新・差し替えを容易に~ | ニュースリリース | NTT

                                              ◆深層学習において、過去の学習過程をモデル間で再利用する全く新たな仕組みとして「学習転移」技術を実現しました。 ◆本技術は、深層学習におけるパラメータ空間の高い対称性を活用し、実際に学習することなく低コストな変換により数秒~数分程度で一定の精度を実現できるため、モデルの再学習コストを抜本的に削減できることを示しました。 ◆これにより、NTTが研究開発を進める大規模言語モデル(LLM)「tsuzumi(*1)」をはじめとした多様な基盤モデル(*2)の運用コスト削減・消費電力の削減や、多数のAIで議論することで多様な解の創出をめざしたAIコンステレーション(*3)の構想具現化など、次世代のAI技術開発に貢献します。 日本電信電話株式会社(本社:東京都千代田区、代表取締役社長:島田 明、以下「NTT」)は、深層学習において過去の学習過程をモデル間で再利用する全く新たな仕組みとして「学習転移」技術

                                                世界初、AIモデルの再学習コストを大幅に削減可能な過去の学習過程を再利用する「学習転移」を実現~NTT版LLM「tsuzumi」など基盤モデルの更新・差し替えを容易に~ | ニュースリリース | NTT
                                              • 「RAGはそんなに簡単じゃない」──AIエンジニア主導でLLMを導入すると失敗に? 日本語特化のELYZA・曽根岡CEOに聞く、LLM開発&活用のいま

                                                「RAGはそんなに簡単じゃない」──AIエンジニア主導でLLMを導入すると失敗に? 日本語特化のELYZA・曽根岡CEOに聞く、LLM開発&活用のいま(1/2 ページ) GPT-3.5 Turboと同水準の日本語特化型LLMを開発したELYZA。4月にはKDDIグループの傘下となり、注目を集めている。日本語性能トップクラスのLLMをどう作っているのか。KDDI傘下になったのはどんな狙いが? LLM活用でいま注目のポイントは? 気になることを、曽根岡侑也CEOにインタビューした。 「ChatGPTがやってることを全部やりきった」 3月に発表した700億パラメータモデル「ELYZA-japanese-Llama-2-70b」は、OpenAIの「GPT-3.5 Turbo」やGoogleの「Gemini 1.0 Pro」に匹敵する日本語タスク処理性能を備える。性能向上をどのように実現したのか。

                                                  「RAGはそんなに簡単じゃない」──AIエンジニア主導でLLMを導入すると失敗に? 日本語特化のELYZA・曽根岡CEOに聞く、LLM開発&活用のいま
                                                • 1000億パラメータのLLM、AIスタートアップが公開 フルスクラッチで開発 「ハルシネーションを大幅抑止」

                                                  AIスタートアップ企業のストックマーク(東京都港区)は5月16日、1000億パラメータ規模の大規模言語モデル(LLM)を開発したと発表した。「Stockmark-LLM-100b」と名付けられたこのLMは、同社がフルスクラッチで開発したものでハルシネーション(AIがもっともらしいうそをつく現象)を大幅に抑えているのが特徴という。 同社は「公開されている既存のLLMモデルを用いずに、当社がフルスクラッチで開発した独自のLLM」と説明。独自に収集したビジネスドメインの日本語データを中心に事前学習させているため、日本語やビジネスドメイン、最新の時事話題に精通しているとしている。 ハルシネーションを抑えるため、答えられない質問には無理に回答せず「分からない」と答えるという。同社は「厳密さが求められるビジネスシーンにおいても信頼して活用できるモデルの開発に成功した」とし、独自LLMの性能をアピールし

                                                    1000億パラメータのLLM、AIスタートアップが公開 フルスクラッチで開発 「ハルシネーションを大幅抑止」
                                                  • 高効率のLLM学習手法ReFTを試してみる | 株式会社AI Shift

                                                    こんにちは AIチームの戸田です 今回は先月スタンフォード大学が発表した新しいParameter-efficient fine-tuning(PEFT)のReFTを試してみたいと思います。 PEFT PEFTはLLMのような大規模な事前学習済みのニューラルネットワークのモデルを、効率的にfine-tuningする手法の総称です。モデル全体ではなく一部のパラメータだけを更新することで計算コストを大幅に削減できる上に、Full fine-tuning(モデル全体を学習)するのと同等の性能を達成することができると言われています。代表的なものにLow-Rank Adaptation(LoRA)が挙げられます。 ReFT Representation Finetuning (ReFT)は、LoRAとよく似たPEFT手法です。違いは、LoRAがモデルの重みを部分的に更新するのに対し、ReFTはモデルの

                                                      高効率のLLM学習手法ReFTを試してみる | 株式会社AI Shift
                                                    • LLMによるLLMの評価とその評価の評価について

                                                      LLMをプロダクトに活用していく上でプロンプトの出力結果を評価していかなければいけない訳ですが、可能な限り自動で定量評価できると改善もしていきやすくなり大変助かります。 そこで所謂LLM-as-a-Judgeと呼ばれるLLMに評価してもらう手法を取るわけですが、やはり「このスコアはどれくらい信じられるのか...?」という疑問が湧いてきて"評価の評価"がしたくなってきます。 というところで、本記事では使いそうなLLM-as-a-Judgeの手法について調べた後、"評価の評価"の仕方を調べてみた結果をまとめていきます。 LLM-as-a-Judgeの手法 まず初めに、LLM-as-a-Judgeにも様々な手法が存在するので、それらを確認していきます。 スコアベース 一番ベーシックなものはスコアをつけてもらうやり方です。 次のように実際のインプット、それに対するLLMの回答をプロンプトに加えて、

                                                        LLMによるLLMの評価とその評価の評価について
                                                      • TypeScriptでもLLMアプリケーション開発 / LLM Application In Typescript

                                                        GPTsをMVPに使うアジャイルな社内LLMツール開発 / Agile in-house LLM tool development using GPTs as MVPs

                                                          TypeScriptでもLLMアプリケーション開発 / LLM Application In Typescript
                                                        • スパコン「富岳」で学習した日本語特化大規模言語モデル「Fugaku-LLM」が公開される

                                                          スーパーコンピューター「富岳」を用いて学習した130億パラメータの大規模言語モデル「Fugaku-LLM」が2024年5月10日(金)に公開されました。Fugaku-LLMは既存の大規模言語モデルに頼らず独自の学習データを用いて学習しており、既存の日本語特化大規模言語モデルと比べて高い性能を発揮することがアピールされています。 スーパーコンピュータ「富岳」で学習した大規模言語モデル「Fugaku-LLM」を公開 日本語能力に長け、研究・ビジネス利用にも期待 | 東工大ニュース | 東京工業大学 https://www.titech.ac.jp/news/2024/069217 スーパーコンピュータ「富岳」で学習した大規模言語モデル「Fugaku-LLM」を公開 : 富士通 https://pr.fujitsu.com/jp/news/2024/05/10.html Fugaku-LLMは2

                                                            スパコン「富岳」で学習した日本語特化大規模言語モデル「Fugaku-LLM」が公開される
                                                          • 実用的なLLMアプリケーションを作るための大規模アップデート 「LangChain 0.1」「LlamaIndex 0.10」になって変わったこと

                                                            『OpenAI GPT-4V/ChatGPT/GPTs 人工知能プログラミング実践入門』著者の布留川氏は、登壇時点までのOpenAIの最新情報と、最新技術情報のキャッチアップ術について話しました。全4回。前回はこちらから。 「LangChain」と「LlamaIndex」の違い 布留川英一氏:OpenAIの新機能を話したので、次にLangChain 0.1とLlamaIndex 0.10について話そうかと思います。今回のOpenAI本にはこのLangChainとLlamaIndex(の話題)は入れませんでした。その1個前の本にはLangChainとLlamaIndexは入っていたんですが、今回の本には入れられませんでした。 年末ぐらいにLangChainとLlamaIndexの大規模アップデートがありました。より実用的なLLMアプリケーションを作るために大規模アップデートがあったので、本に

                                                              実用的なLLMアプリケーションを作るための大規模アップデート 「LangChain 0.1」「LlamaIndex 0.10」になって変わったこと
                                                            • NTT東日本のデータサイエンティストがKaggleコンペティション「LLM Prompt Recovery」で金メダルを獲得し、Kaggle Masterへ昇格 | NTT東日本

                                                              News Release東日本電信電話株式会社 2024年5月17日 NTT東日本のデータサイエンティストがKaggleコンペティション「LLM Prompt Recovery」で金メダルを獲得し、Kaggle Masterへ昇格 NTT東日本のデータサイエンティスト森田 大貴(もりた だいき)を含むチームが、世界的なAIのデータ分析コンペティションプラットフォーム「Kaggle(カグル)」※1で開催された「LLM Prompt Recovery」※2(以下、本コンペティション)において、全2,175チーム中12位に入賞し、金メダルを獲得しました。 これにより、森田社員は「Kaggle」コンペティションに参加している約20万人のユーザーの中で上位約1%に相当する「Kaggle Master」※3の称号を獲得しました。 1. 本コンペティションについて 「Kaggle」は、世界中のAIエンジ

                                                                NTT東日本のデータサイエンティストがKaggleコンペティション「LLM Prompt Recovery」で金メダルを獲得し、Kaggle Masterへ昇格 | NTT東日本
                                                              • ollamaで Fugaku-LLM を動かす

                                                                昨日公開された Fugaku-LLM は珍しく公式が GGUF ファイルを配布してくれているので、これを使って手元の Macbook で動かしてみます。 準備: ollama をインストールする 以下のインストーラに従ってアプリケーションを入手できます。 アプリケーションの指示に従って、CLI 上でも ollama コマンドを使えるようにしておきます。 ステップ1: Fugaku-LLM のファイルをダウンロードする からお好みのファイルを選びます。 とりあえず、一番サイズの小さい(おそらく量子化が一番効いている) 「Fugaku-LLM-13B-instruct-0325b-q5_k_m.gguf」を選びます。 の download ボタンからダウンロード。 ステップ2: Modelfile を作成する モデルファイルのダウンロードが終わったら、同じディレクトリに、Modelfile と

                                                                  ollamaで Fugaku-LLM を動かす
                                                                • スーパーコンピュータ「富岳」で学習した大規模言語モデル「Fugaku-LLM」を公開 日本語能力に長け、研究・ビジネス利用にも期待

                                                                  要点 日本の計算機技術を用いて開発した日本語能力に優れた大規模言語モデルを公開 スーパーコンピュータ「富岳」の性能を最大限に活用した分散並列学習を実現 AI基盤モデルを科学研究に活用する「AI for Science」など革新的な研究やビジネスにつながる 概要 東京工業大学 学術国際情報センターの横田理央教授の研究チームと東北大学 大学院情報科学研究科の坂口慶祐准教授、富士通株式会社 人工知能研究所の白幡晃一シニアプロジェクトディレクター、理化学研究所 のMohamed Wahib(モハメド・ワヒブ)チームリーダー、名古屋大学 大学院工学研究科の西口浩司准教授、株式会社サイバーエージェント AI事業本部AI Labの佐々木翔大リサーチサイエンティスト、Kotoba Technologies Inc. の小島熙之CEOは、理化学研究所のスーパーコンピュータ「富岳」を用いて学習した日本語能力に

                                                                    スーパーコンピュータ「富岳」で学習した大規模言語モデル「Fugaku-LLM」を公開 日本語能力に長け、研究・ビジネス利用にも期待
                                                                  • 複雑な表をLLMに理解させる|ナッピー通信

                                                                    はじめにGPT-4o、Gemeniのマルチモーダルが進化したとXで話題になっています、路線図が読み取れた、もえないごみはダメだとXで話題になっています GPT-4o、視覚能力すごい‥‥ 人間でも認識困難な東京の路線図を把握して最短経路を提案してくる pic.twitter.com/ONA2b24Hyb — 大佐 | AIオタク (@wasedaAI_taisa) May 25, 2024 路線図の方はLLMの学習時に情報を持っていて、与えられた画像が路線図だと認識した可能性が高そうです。もえないごみの収集のようにLLMには未学習の内容を答えさせるにはどうしたら良いかを考えてみたいと思います。 ユースケースを考える単にデーター化しますだとどのようにするのか難しいので、今回はごみの収集日をAIに答えさせるというシチュエーションで行きます。 山田さんは、諫早市西郷に住む会社員、会社にいる時にごみ

                                                                      複雑な表をLLMに理解させる|ナッピー通信
                                                                    • ファッションドメインにおけるLLMの未知の知識獲得可能性 - DROBEプロダクト開発ブログ

                                                                      概要 背景・目的 関連研究 事後学習を通じた知識の獲得 未知の知識をどう定義するか 実験 ある情報がLLMにとって新知識であるかの確認 QAデータセット 実験の設定 結果 自作したQAデータセットでの結果 相対的な汎化性能(定量) 相対的な汎化性能(定性) 考察 未知の知識の定義の難しさ ハルシネーションの対策の難しさ 今後の発展 DROBEで機械学習エンジニアをしております、藤崎です。 概要 大規模言語モデル(LLM)に未知の知識を獲得させることができるかを検証しました。 LLMにとっての未知の知識はモデルの重みがリリースされた日付以降に公開された、ファッションドメインにおける商品の価格や規格の詳細情報としています。 その結果、ドメインの難易度が低く、使用者の専門性が高いようなユースケースにおいて、LLMを活用することは可能だと判断できました。 ただし、未知の知識の定義の難しさやハルシネ

                                                                        ファッションドメインにおけるLLMの未知の知識獲得可能性 - DROBEプロダクト開発ブログ
                                                                      • Fugaku-LLMをollamaで利用する

                                                                        国産LLMであるFugaku-LLMが2024-05-10に公開されました。 LLMのチャットアプリとしてインストールが簡単で人気のollamaに、Fugaku-LLMのモデルを登録して使うことができたので、その手順を紹介します。 動作確認環境 OS Ubuntu 22.04 Desktop および WSL上のUbuntu-22.04 ollama v0.1.34 (2024-05-10時点の最新バージョン) (1) ollamaをインストールする (まだollamaをインストールしていなければ) ollamaの公式サイトに行って「Download↓」をクリックし、 OSに応じたインストーラーを入手してインストールします。 (WSL上のUbuntu-22.04の場合はもちろんLinuxです) (2) Fugaku-LLMのGGUFファイルをダウンロードする Fugaku-LLMには2024

                                                                          Fugaku-LLMをollamaで利用する
                                                                        • ノーコードLLM統合アプリのdifyでollamaと連携してみた - Qiita

                                                                          はじめに 革新的な連携: ノーコードプラットフォームDifyとAIツールOllamaの連携により、開発プロセスが劇的に変革されます。 探求: この記事では、両ツールの統合手順と開発者にとっての利点を詳しく探ります。Difyの直感的なインターフェースを通じて、OllamaのAIモデルを効果的に活用する方法を紹介します。 Ollamaとは Ollamaは、LLama3やLLava、vicunaやPhiなどのオープンに公開されているモデルを手元のPCやサーバーで動かすことの出来るツールです。 difyとは DifyはオープンソースのLLMアプリ開発プラットフォームです。 RAGエンジンを使用して、エージェントから複雑なAIワークフローまでLLMアプリを編成します。 前提の環境の説明 OS: Windows 11 ollamaはWinodowsのインストーラを使用する difyはDocker De

                                                                            ノーコードLLM統合アプリのdifyでollamaと連携してみた - Qiita
                                                                          • LLM評価の落とし穴~開発者目線で気をつけるポイント~

                                                                            エンジニアゼロの組織から内製開発の DX をどう実現したのか / How did we achieve DX in in-house development in an organization with zero engineers?

                                                                              LLM評価の落とし穴~開発者目線で気をつけるポイント~
                                                                            • 大規模言語モデル (LLM)における低精度数値表現

                                                                              2024年5月8日のHPC研究会で使用したスライドです。 https://www.ipsj.or.jp/kenkyukai/event/hpc194.html

                                                                                大規模言語モデル (LLM)における低精度数値表現
                                                                              • 富岳で学習した“純”国産LLMが、GitHub・Hugging Faceで無償公開

                                                                                東京工業大学、東北大学、名古屋大学、理化学研究所、富士通、サイバーエージェントおよびKotoba Technologiesからなる共同研究チームは、2024年5月10日、スーパーコンピューター「富岳」を用いて学習した、日本語能力に優れた大規模言語モデル(LLM)「Fugaku-LLM」を公開した。 Fugaku-LLMは、富岳で効率的にLLM学習するための研究成果として開発され、日本語を中心とした独自データで学習させた、130億パラメーターのLLM。開発者・研究者向けにGitHubでソースコードが、Hugging Faceでモデルが公開され、ライセンス内においては、商業および研究目的でも利用できる。 共同研究の全体統括を担った東京工業大学の学術国際情報センター 教授である横田理央氏は「海外製のGPUに頼らずに、国産のハードウェアで、さらに国産のモデルを一から開発した、純粋な国産LLMはFu

                                                                                  富岳で学習した“純”国産LLMが、GitHub・Hugging Faceで無償公開
                                                                                • LLM に表データを読み解かせたかったので、ちょっと試してみた | CyberAgent Developers Blog

                                                                                  AI事業本部 協業リテールメディア Div. の青見 (@nersonu) です。2023年11月に中途で入社したため、5月でようやく入社半年を迎えました。社内 Slack の times で有給休暇が付与されて喜んでいる(?)様子を御覧ください。 有給休暇に喜ぶ筆者 そんな社歴半年のペーペーですが、普段は機械学習エンジニアと強い気持ちで名乗ってお仕事をしています。特にうまい繋ぎも思いつかないので、記事の本題に入りましょう。 近年、 LLM に関する話題は尽きることはありません。研究領域やビジネス領域といった概念にとらわれず、わたしたちの生活のすぐそばで、今まさに違和感が少しずつ取り除かれながら社会に溶け込んでいっていると感じます。そんな LLM ですが、自然言語というデータの枠に収まらず、様々なタスクへの適用の試みが日夜行われています。そんな挑戦的な数多あるトピックの中から「表形式データ

                                                                                    LLM に表データを読み解かせたかったので、ちょっと試してみた | CyberAgent Developers Blog