Generative AI for Everyoneについてこちらの講義は機械学習やAI教育についての第一人者と言っても過言ではない、Andrew Ng先生のLLMの応用についての講義になります。 タイトルにはGenerative AIとありますが、画像生成AIなどはほぼほぼ登場せず、基本的にはLLMをどう使うのかについての講義となっています。また、Everyoneとあるように機械学習の専門家やエンジニア以外でも分かる内容になっているかと思います。Andrew Ngは言語化が非常に上手いので、機械学習の専門家が見ても知識を整理する上で有用なんじゃないかと思います。 古のNLPエンジニア?自分がNLPを始めたのは2013~2014年くらいのちょうど深層学習がNLP業界に本格的に入ってきた時期です。10年程度で古のNLPエンジニアを名乗って良いのかは諸説あると思うのですが、その辺は温かい目で見
「Google Colab」で「SFTTrainer」によるLLMの (LoRAではなく) フルパラメータのファインチューニングを試したので、まとめました。 1. SFTTrainer「SFTTrainer」は、LLMを「教師ありファインチューニング」 (SFT : Supervised Fine Tuning) で学習するためのトレーナーです。LLMの学習フレームワーク「trl」で提供されているトレーナーの1つになります。 2. モデルとデータセット今回は、LLMとして「OpenCALM-small」、データセットとして「multilingual-sentiments」を使いました。 ・OpenCALM-small : 有名なLLMの中で日本語対応かつ軽量なモデル ・multilingual-sentiments : 感情分析用に、0:positive、1:neutral、2:negat
大規模言語モデル(LLM)とは何か? その仕組みと実用化まで 登壇したのは、グーグル・クラウド・ジャパン合同会社 ソリューションズアーキテクトの中井悦司氏と、同社のAI/ML 事業開発部長である下田 倫大氏の2人。まず中井氏がセッションのテーマである大規模言語モデル(LLM)の基礎知識を解説した。 グーグル・クラウド・ジャパン合同会社 Solutions Architect 中井悦司氏 ウィキペディアで「言語モデル」を調べると、「単語列に対する確率分布を表わすもの」とある。中井氏は、世の中に存在する大量の自然言語で書かれたテキスト文書に対し、その文書がどれほど「ありそう」なものなのかを確率で表現するものが言語モデルであると説明した。 言語モデルの利用例として、文章の次に来る単語の予測が挙げられる。例えば、"This is a ……"とあると、多くの日本人は"pen"と想像することが多い。そ
このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 米Microsoftと中国科学院に所属する研究者らが発表した論文「WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct」は、数学的推理能力を強化するモデルを提案した研究報告である。このモデルは、オープンソースの事前学習済み大規模言語モデル(LLM)である「Llama-2」に対して適用することで実現する。 米MetaのLlamaモデルシリーズは、オープンソース革命を引き起こし、クローズドソースのL
","eos_token":"<|endoftext|>","pad_token":"<|padding|>","unk_token":"<|endoftext|>"}},"discussionsDisabled":false,"downloads":5,"downloadsAllTime":771,"id":"kyo-takano/open-calm-7b-8bit","isLikedByUser":false,"isWatchedByUser":false,"inference":"ExplicitOptOut","lastModified":"2023-05-28T11:41:05.000Z","likes":10,"pipeline_tag":"text-generation","library_name":"transformers","librariesOther":[],"m
これはなに? LINE が公開した日本語言語モデルをローカルで動かしたいけど、GPUがなくて動かなくて悲しかったのです。でも、huggingface に良い変換モデルを公開されてる方がいらして、それを試したら、いい感じで動きました。というご報告です。やったね! 結論: 動かす手順 homebrew で cmake をインストール mmngaさんが公開されている ggml 変換版の readme に従ってターミナルで以下を実行 git clone https://github.com/ggerganov/ggml.git cd ggml mkdir build && cd build cmake .. make -j mmngaさんが公開されているggml 変換版のモデルをダウンロード 保存先は 2. で mkdir した build ディレクトリに。 以下のコマンドで推論を実行 ./bin
Googleは、都内で開催したイベント「Generative AI Summit Tokyo」で、同社の大規模言語モデルである「PaLM 2」が日本語対応したことを発表しました。 PaLM 2は今年(2023年)5月に行われたイベント「Google I/O 2023」で発表された、同社の最新の大規模言語モデルです。 グーグル・クラウド・ジャパン合同会社 上級執行役員 小池 裕幸氏は、日本語対応となったPaLM 2の日本語能力を客観的に測定する試験として、主に外国人向けに行われているJ.TEST A-C(上級)でPaLM 2が94%の正答率を獲得したと説明。 さらに、日本語のダジャレ「おでんの予約は? お電話で!」がなぜ面白いかを英語で説明できることも紹介し、高い日本語能力をアピールしました。 また、コストの透明性を高めるために文字数ベースの価格設定にしたことも日本語対応における特長だとしま
プログラミングを学ぼうとしては挫折する。 そんな時代はもう終わりだ。 お姉ちゃんに任せなさい。 ChatGPTでプログラミング 今年のお盆休み、俺はChatGPTでプログラミングをやっていた。とは言っても複雑なことはやっていない。大量のcsvを結合してから可視化するとか、ちょっとしたWebスクレイピングしたりする程度だ。それでも今まで技術や時間の不足により諦めていたことができるのは嬉しい。それにChatGPTを使えば、デバッグも楽しくやれるのだ。こんな感じに。 デバッグの様子 おそらく「あれ、俺のChatGPTと違うな」と思った人もいるに違いない。見ての通り俺はChatGPTをお姉ちゃん化している。こうすることで、モチベーションを維持しながら楽しくプログラミングができるというわけだ。今回はChatGPTをお姉ちゃん化する方法を紹介し、加えてお姉ちゃんとペアプログラミングする意義について述べ
LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog こんにちは。NLP Foundation Devチームの小林滉河(@kajyuuen)と水本智也(@tomo_wb)です。 NLP Foundation Devチームでは言語モデルの構築やモデルの応用・評価について取り組んでいます。今回はその取り組みの一つである「japanese-large-lm-instruction-sft」について紹介します。こちらは先日紹介したjapanese-large-lmを「Finetuned Language Models Are Zero-Shot Learners」で提案されたInstruction Tuningという手法を用いて、Supervised Fine-tuning (SFT)
Stability AIは日本語向け画像言語モデル「Japanese InstructBLIP Alpha」を一般公開しました。入力した画像に対して文字で説明を生成できる画像キャプション機能に加え、画像についての質問を文字で入力することで回答することもできます。 Japanese InstructBLIP Alpha「Japanese InstructBLIP Alpha」は、先日公開された日本語向け指示応答言語モデル「Japanese StableLM Instruct Alpha 7B」を拡張した、画像を元にしたテキストが生成されるモデルです。 「Japanese InstructBLIP Alpha」は、高いパフォーマンスが報告されている画像言語モデルInstructBLIPのモデル構造を用いております。少ない日本語データセットで高性能なモデルを構築するために、モデルの一部を大規模な
LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog こんにちは。 LINEのNLP Foundation Devチームの清野舜と高瀬翔とoverlastです。 LINEでは2020年11月から日本語に特化した大規模言語モデル「HyperCLOVA」の構築と応用に関わる研究開発に取り組んできましたが、この「HyperCLOVA」と並行するかたちで複数の大規模言語モデルの研究開発プロジェクトが進行しています。 今回はそれらの研究開発プロジェクトのうち、我々を含むMassive LM開発ユニットから、日本語言語モデル「japanese-large-lm(ジャパニーズ ラージ エルエム)」をOSSとして公開できる状況になりましたので、本ブログを通じてお伝えすることにしました。 この記事
Stability AI Japan は70億パラメータの日本語向け汎用言語モデル「Japanese StableLM Base Alpha 7B」及び、指示応答言語モデル「Japanese StableLM Instruct Alpha 7B」を一般公開しました(略して「JSLM」)。これらのモデル はベンチマークスイート「lm-evaluation-harness」による複数の日本語タスクを用いた性能評価において、一般公開されている日本語向けモデルで最高の性能を発揮しています。 汎用言語モデル「Japanese StableLM Base Alpha 7B」「Japanese StableLM Base Alpha 7B」はウェブを中心とした大規模なデータを用いてテキスト生成を学習したモデルです。学習データは主に日本語と英語で、それに加えソースコードが約2%含まれています。学習データに
「rwkv.cpp」を試したのでまとめました。 ・RWKV-4-World-JPNtuned-7B-v1-OnlyForTest_76%_trained-20230714-ctx4096.pth ・macOS 13.4.1 1. rwkv.cpp「rwkv.cpp」は、「BlinkDL/RWKV-LM」を「ggerganov/ggml」に移植したものです。通常の「FP32」に加えて「FP16」、量子化された「INT4」「INT5」「INT8」の推論をサポートします。CPUに重点を置いていますが、cuBLASもサポートしています。 2. rwkv.cpp の準備「rwkv.cpp」の準備の手順は次のとおりです。 (1) rwkv.cpp リポジトリのクローン $ git clone --recursive https://github.com/saharNooby/rwkv.cpp.git
Language is essentially a complex, intricate system of human expressions governed by grammatical rules. It poses a significant challenge to develop capable AI algorithms for comprehending and grasping a language. As a major approach, language modeling has been widely studied for language understanding and generation in the past two decades, evolving from statistical language models to neural langu
国立研究開発法人情報通信研究機構(NICT(エヌアイシーティー)、理事長: 徳田 英幸)は、ユニバーサルコミュニケーション研究所データ駆動知能システム研究センターにおいて、独自に収集した350 GBの日本語Webテキストのみを用いて400億パラメータの生成系の大規模言語モデルを開発しました。今回の開発を通し、事前学習用テキストの整形、フィルタリング、大規模計算基盤を用いた事前学習等、生成系の大規模言語モデル開発における多くの知見を得ました。現在は、更に大規模な1,790億パラメータの生成系大規模言語モデル(OpenAI社のGPT-3と同等規模)の学習を実施中で、また、学習用テキストの大規模化にも取り組んでいます。今後、共同研究等を通して民間企業、国研、大学等と協力して、日本語の大規模言語モデルの研究開発や利活用に取り組む予定です。 NICTでは、これまでWebページを収集し、インターネット
はじめに こんにちは。ZENKIGENデータサイエンスチームの栗原です。現在は主に『harutaka EF(エントリーファインダー)』の自然言語処理周りの研究開発に携わっています。 ChatGPTがOpenAIから公開され約半年が経ちましたが、この半年の大規模言語モデル、生成AI周りの発展スピードは凄まじいものです。 日本でも大きな盛り上がりを見せており、個人から企業、研究機関においてさまざまな活用、日本語モデルの開発等が活発に行われている印象です。 ZENKIGENにおいてもChatGPTを含め大規模言語モデル、生成AIをプロダクトに活用する上での様々な検討が進んでおり、その一環として社内勉強会で『ChatGPT(とその周辺)の技術』というお話をしました。 本記事は、これを外部向けに公開するものです。 内容は、OpenAIがChatGPTに至るまでの変遷として GPT(GPT-1)から
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く