[B! nlp] Nyohoのブックマーク

Getting Started with Gemini – Nextra

Nyoho 2023/12/22

リンク

Generative AI for Everyoneから、古のNLPエンジニアの心に刺さったこと8選｜べいえりあ

Generative AI for Everyoneについてこちらの講義は機械学習やAI 教育についての第一人者と言っても過言ではない、Andrew Ng先生のLLMの応用についての講義になります。タイトルにはGenerative AIとありますが、画像生成AIなどはほぼほぼ登場せず、基本的にはLLMをどう使うのかについての講義となっています。また、Everyoneとあるように機械学習の専門家やエンジニア以外でも分かる内容になっているかと思います。Andrew Ngは言語化が非常に上手いので、機械学習の専門家が見ても知識を整理する上で有用なんじゃないかと思います。古のNLP エンジニア？自分がNLPを始めたのは2013～2014年くらいのちょうど深層学習がNLP業界に本格的に入ってきた時期です。10年程度で古のNLP エンジニアを名乗って良いのかは諸説あると思うのですが、その辺は温かい目で見

Nyoho 2023/12/09

リンク

[輪講資料] LoRA: Low-Rank Adaptation of  Large Language Models

パラメータを固定した事前学習済みモデルに対して、ごく少数のパラメータからなる低ランク行列を導入・学習することで、モデル全体のfine-tuningと同等の性能を発揮できる手法であるLoRAと、その論文について解説した資料です。深層学習を用いた自然言語処理の歴史的な変遷と周辺技術から、LoRAが必要とされるに至った背景まで丁寧に解説します。

Nyoho 2023/10/05

リンク

Google Colab で SFTTrainer によるLLMのフルパラメータのファインチューニングを試す｜npaka

「Google Colab」で「SFTTrainer」によるLLMの (LoRAではなく) フルパラメータのファインチューニングを試したので、まとめました。 1. SFTTrainer「SFTTrainer」は、LLMを「教師ありファインチューニング」 (SFT : Supervised Fine Tuning) で学習するためのトレーナーです。LLMの学習フレームワーク「trl」で提供されているトレーナーの1つになります。 2. モデルとデータセット今回は、LLMとして「OpenCALM-small」、データセットとして「multilingual-sentiments」を使いました。・OpenCALM-small : 有名なLLMの中で日本語対応かつ軽量なモデル・multilingual-sentiments : 感情分析用に、0:positive、1:neutral、2:negat

Nyoho 2023/09/24

「「この映画は」の続きに、映画のポジティブ感想のみが出力されていることがわかります。」

リンク

Stability AI Japanにおける大規模言語モデルの研究開発

LLMの開発は難しい？簡単？Stability AIの現場から (2023/10/11, W&B Fully Connected)

Nyoho 2023/09/20

リンク

大規模言語モデル（LLM）をアプリケーション開発で活用するには？グーグル・クラウドが基礎から解説

大規模言語モデル（LLM）とは何か？その仕組みと実用化まで登壇したのは、グーグル・クラウド・ジャパン合同会社　ソリューションズアーキテクトの中井悦司氏と、同社のAI/ML 事業開発部長である下田倫大氏の2人。まず中井氏がセッションのテーマである大規模言語モデル（LLM）の基礎知識を解説した。グーグル・クラウド・ジャパン合同会社 Solutions Architect 中井悦司氏ウィキペディアで「言語モデル」を調べると、「単語列に対する確率分布を表わすもの」とある。中井氏は、世の中に存在する大量の自然言語で書かれたテキスト文書に対し、その文書がどれほど「ありそう」なものなのかを確率で表現するものが言語モデルであると説明した。言語モデルの利用例として、文章の次に来る単語の予測が挙げられる。例えば、"This is a ……"とあると、多くの日本人は"pen"と想像することが多い。そ

Nyoho 2023/09/09

リンク

“数学特化”の大規模言語モデル「WizardMath」　米Microsoftなどが開発　Llamaモデルを強化

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」（シームレス）を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: ＠shiropen2 米Microsoftと中国科学院に所属する研究者らが発表した論文「WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct」は、数学的推理能力を強化するモデルを提案した研究報告である。このモデルは、オープンソースの事前学習済み大規模言語モデル（LLM）である「Llama-2」に対して適用することで実現する。米MetaのLlamaモデルシリーズは、オープンソース革命を引き起こし、クローズドソースのL

Nyoho 2023/08/25

リンク

kyo-takano/open-calm-7b-8bit · Hugging Face

","eos_token":"<|endoftext|>","pad_token":"<|padding|>","unk_token":"<|endoftext|>"}},"discussionsDisabled":false,"downloads":5,"downloadsAllTime":771,"id":"kyo-takano/open-calm-7b-8bit","isLikedByUser":false,"isWatchedByUser":false,"inference":"ExplicitOptOut","lastModified":"2023-05-28T11:41:05.000Z","likes":10,"pipeline_tag":"text-generation","library_name":"transf ormers","librariesOther":[],"m

Nyoho 2023/08/23

8-bit quantized version of OpenCALM-7B by CyberAgent (under CC BY-SA 4.0)

リンク

LINE が公開した日本語言語モデルをM2 Macbook Airで動かす

これはなに？ LINE が公開した日本語言語モデルをローカルで動かしたいけど、GPUがなくて動かなくて悲しかったのです。でも、huggingface に良い変換モデルを公開されてる方がいらして、それを試したら、いい感じで動きました。というご報告です。やったね！結論: 動かす手順 homebrew で cmake をインストール mmngaさんが公開されている ggml 変換版の readme に従ってターミナルで以下を実行 git clone https://github.com/ggerganov/ggml.git cd ggml mkdir build && cd build cmake .. make -j mmngaさんが公開されているggml 変換版のモデルをダウンロード保存先は 2. で mkdir した build ディレクトリに。以下のコマンドで推論を実行 ./bin

Nyoho 2023/08/23

これは確かに結構高速。手元で 33.23 ms per token だった。精度はおいておいてもこれだけ動くのは素晴らしい。

リンク

Google、大規模言語モデル「PaLM 2」が日本語対応したと発表。ダジャレを理解する能力も

Googleは、都内で開催したイベント「Generative AI Summit Tokyo」で、同社の大規模言語モデルである「PaLM 2」が日本語対応したことを発表しました。 PaLM 2は今年（2023年）5月に行われたイベント「Google I/O 2023」で発表された、同社の最新の大規模言語モデルです。グーグル・クラウド・ジャパン合同会社上級執行役員小池裕幸氏は、日本語対応となったPaLM 2の日本語能力を客観的に測定する試験として、主に外国人向けに行われているJ.TEST A-C（上級）でPaLM 2が94％の正答率を獲得したと説明。さらに、日本語のダジャレ「おでんの予約は？お電話で！」がなぜ面白いかを英語で説明できることも紹介し、高い日本語能力をアピールしました。また、コストの透明性を高めるために文字数ベースの価格設定にしたことも日本語対応における特長だとしま

Nyoho 2023/08/23

リンク

Instruction Tuning for Large Language Models: A Survey

Nyoho 2023/08/22

nlp

リンク

プログラミングに挫折したならAIお姉ちゃんに任せなさい - 本しゃぶり

プログラミングを学ぼうとしては挫折する。そんな時代はもう終わりだ。お姉ちゃんに任せなさい。 ChatGPTでプログラミング今年のお盆休み、俺はChatGPTでプログラミングをやっていた。とは言っても複雑なことはやっていない。大量のcsvを結合してから可視化するとか、ちょっとしたWebスクレイピングしたりする程度だ。それでも今まで技術や時間の不足により諦めていたことができるのは嬉しい。それにChatGPTを使えば、デバッグも楽しくやれるのだ。こんな感じに。デバッグの様子おそらく「あれ、俺のChatGPTと違うな」と思った人もいるに違いない。見ての通り俺はChatGPTをお姉ちゃん化している。こうすることで、モチベーションを維持しながら楽しくプログラミングができるというわけだ。今回はChatGPTをお姉ちゃん化する方法を紹介し、加えてお姉ちゃんとペアプログラミングする意義について述べ

Nyoho 2023/08/21

はー custom instructions ってこう使うのかー

リンク

Instruction Tuningにより対話性能を向上させた3.6B日本語言語モデルを公開します

LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog こんにちは。NLP Foundation Devチームの小林滉河(@kajyuuen)と水本智也(@tomo_wb)です。 NLP Foundation Devチームでは言語モデルの構築やモデルの応用・評価について取り組んでいます。今回はその取り組みの一つである「japanese-large-lm-instruction-sft」について紹介します。こちらは先日紹介したjapanese-large-lmを「Finetuned Language Models Are Zero-Shot Learners」で提案されたInstruction Tuningという手法を用いて、Supervised Fine-tuning (SFT)

Nyoho 2023/08/18

“比較的大きいモデルを高速で学習させるためDeepSpeedに対応しているDeepSpeed-Chatを用いて、Instruction Tuningを行いました。”

リンク

日本語画像言語モデル「Japanese InstructBLIP Alpha」をリリースしました — Stability AI Japan

Stability AIは日本語向け画像言語モデル「Japanese InstructBLIP Alpha」を一般公開しました。入力した画像に対して文字で説明を生成できる画像キャプション機能に加え、画像についての質問を文字で入力することで回答することもできます。 Japanese InstructBLIP Alpha「Japanese InstructBLIP Alpha」は、先日公開された日本語向け指示応答言語モデル「Japanese Stabl eLM Instruct Alpha 7B」を拡張した、画像を元にしたテキストが生成されるモデルです。「Japanese InstructBLIP Alpha」は、高いパフォーマンスが報告されている画像言語モデルInstructBLIPのモデル構造を用いております。少ない日本語データセットで高性能なモデルを構築するために、モデルの一部を大規模な

Nyoho 2023/08/17

絵から答えてくれる精度高そう。そんな聞き方でわかるんだと驚いた。

リンク

36億パラメータの日本語言語モデルを公開しました

LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog こんにちは。 LINEのNLP Foundation Devチームの清野舜と高瀬翔とoverlastです。 LINEでは2020年11月から日本語に特化した大規模言語モデル「HyperCLOVA」の構築と応用に関わる研究開発に取り組んできましたが、この「HyperCLOVA」と並行するかたちで複数の大規模言語モデルの研究開発プロジェクトが進行しています。今回はそれらの研究開発プロジェクトのうち、我々を含むMassive LM開発ユニットから、日本語言語モデル「japanese-large-lm（ジャパニーズラージエルエム）」をOSSとして公開できる状況になりましたので、本ブログを通じてお伝えすることにしました。この記事

Nyoho 2023/08/14

リンク

日本語言語モデル「Japanese StableLM Alpha」をリリースしました — Stability AI Japan

Stability AI Japan は70億パラメータの日本語向け汎用言語モデル「Japanese Stabl eLM Base Alpha 7B」及び、指示応答言語モデル「Japanese Stabl eLM Instruct Alpha 7B」を一般公開しました（略して「JSLM」)。これらのモデルはベンチマークスイート「lm-evaluation-harness」による複数の日本語タスクを用いた性能評価において、一般公開されている日本語向けモデルで最高の性能を発揮しています。汎用言語モデル「Japanese Stabl eLM Base Alpha 7B」「Japanese Stabl eLM Base Alpha 7B」はウェブを中心とした大規模なデータを用いてテキスト生成を学習したモデルです。学習データは主に日本語と英語で、それに加えソースコードが約2%含まれています。学習データに

Nyoho 2023/08/10

リンク

rwkv.cpp を試す｜npaka

「rwkv.cpp」を試したのでまとめました。・RWKV-4-World-JPNtuned-7B-v1-OnlyForTest_76%_trained-20230714-ctx4096.pth ・macOS 13.4.1 1. rwkv.cpp「rwkv.cpp」は、「BlinkDL/RWKV-LM」を「ggerganov/ggml」に移植したものです。通常の「FP32」に加えて「FP16」、量子化された「INT4」「INT5」「INT8」の推論をサポートします。CPUに重点を置いていますが、cuBLASもサポートしています。 2. rwkv.cpp の準備「rwkv.cpp」の準備の手順は次のとおりです。 (1) rwkv.cpp リポジトリのクローン $ git clone --recursive https://github.com/saharNooby/rwkv.cpp.git

Nyoho 2023/07/16

リンク

A Survey of Large Language Models

Language is essentially a complex, intricate system of human expressions governed by grammatical rules. It poses a significant challenge to develop capable AI algorithms for comprehending and grasping a language. As a major approach, language modeling has been widely studied for language understanding and generation in the past two decades, evolving from statistical language models to neural langu

Nyoho 2023/07/06

リンク

日本語に特化した大規模言語モデル（生成AI）を試作｜2023年｜NICT-情報通信研究機構

国立研究開発法人情報通信研究機構（NICT（エヌアイシーティー）、理事長: 徳田英幸）は、ユニバーサルコミュニケーション研究所データ駆動知能システム研究センターにおいて、独自に収集した350 GBの日本語Webテキストのみを用いて400億パラメータの生成系の大規模言語モデルを開発しました。今回の開発を通し、事前学習用テキストの整形、フィルタリング、大規模計算基盤を用いた事前学習等、生成系の大規模言語モデル開発における多くの知見を得ました。現在は、更に大規模な1,790億パラメータの生成系大規模言語モデル（OpenAI社のGPT-3と同等規模）の学習を実施中で、また、学習用テキストの大規模化にも取り組んでいます。今後、共同研究等を通して民間企業、国研、大学等と協力して、日本語の大規模言語モデルの研究開発や利活用に取り組む予定です。 NICTでは、これまでWebページを収集し、インターネット

Nyoho 2023/07/04

リンク

ChatGPT（とその周辺）の技術

はじめにこんにちは。ZENKIGENデータサイエンスチームの栗原です。現在は主に『harutaka EF（エントリーファインダー）』の自然言語処理周りの研究開発に携わっています。 ChatGPTがOpenAIから公開され約半年が経ちましたが、この半年の大規模言語モデル、生成AI周りの発展スピードは凄まじいものです。日本でも大きな盛り上がりを見せており、個人から企業、研究機関においてさまざまな活用、日本語モデルの開発等が活発に行われている印象です。 ZENKIGENにおいてもChatGPTを含め大規模言語モデル、生成AIをプロダクトに活用する上での様々な検討が進んでおり、その一環として社内勉強会で『ChatGPT（とその周辺）の技術』というお話をしました。本記事は、これを外部向けに公開するものです。内容は、OpenAIがChatGPTに至るまでの変遷として GPT（GPT-1）から

Nyoho 2023/06/21

初代GPTから書いてあった。

リンク

はてなブックマーク

タグ

関連タグで絞り込む (52)

nlpに関するNyohoのブックマーク (348)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス