[B! LLM] serihiroのブックマーク

大規模言語モデルの開発

2024年度人工知能学会全国大会（第38回）チュートリアル講演１本講演では、大規模言語モデルの開発に必要な基礎および最新動向を概観する。その後、東京工業大学情報理工学院の岡崎研究室と横田研究室、産業技術総合研究所の研究チームで開発された大規模言語モデルSwallowの開発経験を踏まえ、学習データの構築、モデルの学習や評価などを説明し、日本語に強い大規模言語モデルの現状や課題を議論したい。

serihiro 2024/06/01

LLM

リンク

社内文書検索&QAシステムの RAG ではないところ - Algomatic Tech Blog

こんにちは。NEO(x) 機械学習エンジニアの宮脇（@catshun_）です。 RAG システムの開発、いざ業務に統合するとなると結構大変ですよね。構築してみたがユーザ数が伸びず、、なんてことはよくあると思います。実際こんな記事も話題になりましたね。本記事では、コラムとして RAG システムの設計で考慮したい点を自戒を込めて記述したいと思います。誤っている記述等もあると思いますが、本記事を読んだ方の議論のネタになってくれれば幸いです。また Retrieval-based LM の技術的な話は、以下で触れておりますので併せてご覧ください。 RAG とは RAG (Retrieval-Augmented Generation) とは、社内文書・長期記憶に該当する対話履歴・API 仕様書などの外部知識資源を、言語モデルが扱えるよう入力系列に挿入する手法です。もともと Lewis+'

serihiro 2024/05/30

LLM
RAG

リンク

小さくても強力: 小規模言語モデル Phi-3 の大きな可能性 - News Center Japan

すべての Microsoft 製品 Global Microsoft 365 Teams Copilot Windows Surface Xbox セール法人向けサポートソフトウェア Windows アプリ AI OneDrive Outlook Skype OneNote Microsoft Teams PC とデバイス Xbox を購入するアクセサリ VR & 複合現実エンタメ Xbox Game Pass Ultimate Xbox Live Gold Xbox とゲーム PC ゲーム Windows ゲーム映画とテレビ番組法人向け Microsoft Cloud Microsoft Security Azure Dynamics 365 一般法人向け Microsoft 365 Microsoft Industry Microsoft Power Platform W

serihiro 2024/05/29

LLM

リンク

LLMの現在 - Speaker Deck

今のLLMを取り巻く状況について紹介します。

serihiro 2024/04/28

LLM

リンク

SayCan

Do As I Can, Not As I Say: Grounding Language in Robotic Affordances Michael Ahn* Anthony Brohan* Noah Brown* Yevgen Chebotar* Omar Cortes* Byron David* Chelsea Finn* Chuyuan Fu* Keerthana Gopalakrishnan* Karol Hausman* Alex Herzog* Daniel Ho* Jasmine Hsu* Julian Ibarz* Brian Ichter* Alex Irpan* Eric Jang* Rosario Jauregui Ruano* Kyle Jeffrey* Sally Jesmonth* Nikhil Joshi* Ryan Julian* Dmitry Kala

serihiro 2024/03/28

LLM

リンク

ACT-1: Transformer for Actions

ACT-1: Transf ormer for Actions September 14, 2022 — Adept Team AI has moved at an incredible pace in the last few years. Scaling up Transf ormers has led to remarkable capabilities in language (e.g., GPT-3, PaLM, Chinchilla), code (e.g., Codex, AlphaCode), and image generation (e.g., DALL-E, Imagen). At Adept, we are building the next frontier of models that can take actions in the digital world—th

serihiro 2024/03/28

LLM

リンク

【論文】Llama2 から学ぶ最新大規模言語モデル

Llama2 とは 7/26 日に Meta が公開した大規模事前学習済みモデルです。ちなみに読み方はラマです(始めて見たときはエルラマ!?って思ってましたが、動物のラマって Llama らしいですね)。 Llama2 は公開されているモデルの中では英語においてトップクラスの性能を誇っているそうです。 Llama1 の発表から半年を経たずにアップデートされた Llama2 ですが、何が変わったのか論文を読んでまとめました。大規模言語モデル(LLM: Large Language Model)とは、一言で言うと「大量のテキストデータを学習させた、入力された文章の続きを生成する AI モデル」のことです。1 回の生成では文章に続く次の 1 単語(正確には 1 トークン)を予測することしかできませんが、生成した単語を再度入力として扱うことで、自身で生成を繰り返すことができ長い文章を生成すること

serihiro 2024/03/22

LLM
llama2

リンク

RAGの実装戦略まとめ - Qiita

それでは以下、簡単なデモを含めながら個別に説明していきます。 1. ハイブリッドサーチこちらは、性質の異なる複数の検索方式（例えばベクトル検索とキーワード検索）を組み合わせて検索精度を向上させる手法になります。各検索方式単体の場合に比べ、性質の異なる検索方式を組み合わせ、ある種いいとこ取りをする事で、検索性能の向上が期待できます。今回はBM25でのキーワードベースの類似度検索と通常のベクトル検索を組み合わせていきます。 BM25について簡単に説明しておくと、文脈や文章構造は完全に無視した上で、文書内の単語を全てバラバラに分割し、文書内の各単語の出現頻度と文書間におけるレア度を加味した特徴量を算出します。つまり、特定の文書内の各単語の数をカウントしてヒストグラムを作れば、似たような文書には同じような単語がよく出るはずなので(同じようなヒストグラムの形になるので)、類似度が高くなる性質

serihiro 2024/03/20

llm

リンク

Turingと自動運転とLLM- LLM-jp 勉強会

serihiro 2024/03/18

LLM

リンク

Ollama

Get up and running with large language models. Run Llama 2, Code Llama, and other models. Customize and create your own.

serihiro 2024/03/15

LLM

リンク

RAGについて情報をまとめる

RAGについてまとめ RAG情報が溢れているので整理しています。 RAGの概要・入門 RAGの性能改善のテクニックまとめ手法 RAG関係の論文 RAG関係のサーベイ論文サーベイ論文の解説記事 RAG（検索拡張生成）包括的な論文をわかりやすく解説コサイン類似度が本当に適しているのかをといかける論文 retrieval-augmented thoughts(RAT)という手法について書かれた論文 RAGのエラーの分類に関する論文 HyDEという手法の論文 HyDEのノートブックメタ認知をRAGに適用実践評価 RAGの評価ソフトブログ記事 LLMのRAGを用いたコンペまとめ随時更新中です。関連記事

serihiro 2024/03/15

LLM
RAG

リンク

Swallow Corpus – TokyoTech-LLM

Swallow Corpusは東京工業大学情報理工学院の岡崎研究室で開発された大規模なウェブテキストコーパスです。Common Crawlから配布されているアーカイブ（2020年から2023年にかけて収集された21スナップショット分、約634億ページ）から日本語のテキストを独自に抽出・精錬し、約3,121億文字（約1.73億ページ）からなる日本語ウェブコーパスを構築しました。この規模は、CC-100 (約258億文字）、mC4（約2,397億文字）、OSCAR 23.10（約740億文字）を抜き、日本語の言語モデルの学習コーパスの中で、商用利用が可能なものとしては最大となります。 Swallow Corpusのの研究開発は、国立研究開発法人新エネルギー・産業技術総合開発機構（NEDO）の「次世代人工知能・ロボットの中核となるインテグレート技術開発」プロジェクト (JPNP18002) の「

serihiro 2024/03/14

LLM

リンク

【深層学習】GPT - 伝説の始まり。事前学習とファインチューニングによるパラダイムシフト【ディープラーニングの世界vol.31】#109 #VRアカデミア #DeepLearning

serihiro 2024/03/13

LLM

リンク

LLM速習ログ

はじめに仕事・プライベート上での様々な環境変化や私自身の変化があり、最近ではコード書かない(書けない?)おじさんになってしまいつつありますが、年末年始休暇のタイミングで LLM 周りを学んで時代にキャッチアップしたくなったので、備忘として残します。 LLM 概要をサクッと学ぶ NTT データさんの記事。概要理解のための資料としてとてもわかりやすいです。 ttya さんの連載記事。実装例も掲載されており、とてもわかりやすいです。感情分類のお試し実装事前学習済みモデル/トークナイザの下調べ東北大乾研究室が公開している BERT の事前学習済みモデルを利用しているネット記事が多い。トークナイザ: BertJapaneseTokenizer トークナイズには MeCab コーパスは Wikipedia 日本語版 github 上記載モデルは、CC-100 データセットの日本語部分とウィ

serihiro 2024/03/13

LLM

リンク

Supervised Fine-tuning Trainer

serihiro 2024/03/13

LLM

リンク

700億パラメータの日本語LLM「ELYZA-japanese-Llama-2-70b」を開発し、デモを公開しました｜ELYZA, Inc.

700億パラメータの日本語LLM「ELYZA-japanese-Llama-2-70b」を開発し、デモを公開しましたはじめにこの度 ELYZA は、新たに開発した700億パラメータの大規模言語モデル (LLM) である「ELYZA-japanese-Llama-2-70b」のデモを公開しました。「ELYZA-japanese-Llama-2-70b」は、前回までに引き続き、英語の言語能力に優れた Meta 社の「Llama 2」シリーズに日本語能力を拡張するプロジェクトの一環で得られた成果物です。 ELYZA が公開している日本語ベンチマーク ELYZA Tasks 100 を用いたブラインド性能評価では、公開されている日本語の大規模言語モデル (以下、LLM) を大きく上回っていることに加え、OpenAI 社の「GPT-3.5 Turboシリーズ」や Anthoropic 社の「Cla

serihiro 2024/03/12

LLM

リンク

RAGの実案件に取り組んできた今までの知見をまとめてみた | DevelopersIO

はじめに新規事業部生成AIチーム山本です。 ChatGPT（OpenAI API）をはじめとしたAIの言語モデル（Large Language Model：以下、LLM）を使用して、チャットボットを構築するケースが増えています。通常、LLMが学習したときのデータに含まれている内容以外に関する質問には回答ができません。そのため、例えば社内システムに関するチャットボットを作成しようとしても、素のLLMでは質問に対してわからないという回答や異なる知識に基づいた回答が（当然ながら）得られてしまいます。この問題を解決する方法として、Retrieval Augmented Generation（以下、RAG）という手法がよく使用されます。RAGでは、ユーザからの質問に回答するために必要そうな内容が書かれた文章を検索し、その文章をLLMへの入力（プロンプト）に付け加えて渡すことで、ユーザが欲しい

serihiro 2024/02/29

LLM
RAG

リンク

松尾研 LLM講座講義コンテンツ | 東京大学松尾研究室 - Matsuo Lab

松尾研究室が2023年9~10月に東京大学サマースクールで開催した LLM 大規模言語モデル講座のコンテンツを無償公開しています。本講座は約2,000名の受講者が参加し、全7回の講義を実施しました。最終課題としてGPUを使ったコンペティションでは約800名が参加し熱戦を繰り広げました。現在、講義のスライドのみ公開しております。ダウンロードは利用規約を確認の上、下記からダウンロードをお願いいたします。最終更新: 2024年2月10日問題・フィードバック報告フォームはこちら第1回：Overview of Language Models LLMの概要、今後の各回の講義の概要、および日本のLLM開発状況について第2回：Prompting and Augmented Language Model 事前学習済みLLMを追加学習せずに活用する技術（プロンプティング、⽂脈内学習、Augme

serihiro 2023/12/28

tutorial
LLM

リンク

Retrieval-Augmented Generation(RAG)とは？ | IBM ソリューションブログ

主要カテゴリー IBM Cloud Blog IBM Data and AI IBM Consulting IBM Partner Ecosystem IBM Sustainability Software Client Engineering IBM テクニカル・サポート社員が語る「キャリアとIBM」 IBM Cloud Blog IBM Cloud News IBM クラウド・ビジョン IBM Cloud アップデート情報 IBM Cloud チュートリアル IBM Data and AI IBM Watson Blog アナリティクス Data Science and AI SPSS Modeler ヒモトク Db2 オートメーション IBM Consulting デジタル変革（DX）アプリの開発とモダナイゼーション製品／サービスソフトウェアハードウェアサービス無料評価

serihiro 2023/12/01

LLM
RAG

リンク

結局日本語大規模言語モデル（LLM）ってどれを使えばいいの？JGLUEベンチマーク非公式まとめ

2022年6月に日本語言語理解ベンチマークJGLUEが公開され、日本語大規模言語モデルの性能比較がより簡単に行えるようになりました。しかしながら、2023年3月現在、JGLUEの test データやリーダーボード（モデルのスコア成績ランキング）は公開されていません。様々な企業・研究機関が dev データを使ってモデルの性能評価を行っている状況です。そこで本記事では、現在公表されている dev データのモデルのスコア一覧をまとめてみます。あくまで、JGLUE のリーダーボードが公開されるまでの暫定的な記事としてご覧ください。注: HuggingFace でアップロードされているモデルのスコアのみ掲載します。 * JCQA = JCommonsenseQA モデルパラメータ数 MARC-ja JSTS(v1.1) JNLI JSQuAD JCQA

serihiro 2023/11/14

search
LLM

リンク

はてなブックマーク

タグ

関連タグで絞り込む (10)

LLMに関するserihiroのブックマーク (36)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス