最近話題になった大規模言語モデルをまとめました。 1. クラウドサービス1-1. GPT-4「GPT-4」は、「OpenAI」によって開発された大規模言語モデルです。 マルチモーダルで、テキストと画像のプロンプトを受け入れることができるようになりました。最大トークン数が4Kから32kに増えました。推論能力も飛躍的に向上しています。 現在、「ChatGPT Plus」(有料版)で制限付きで利用できる他、ウェイトリストの登録者を対象に「OpenAI API」での利用も開始しています。
はじめに いつもNVIDIAが載っているWindowsで楽しくLLMを動かしたり生成AIライフを楽しんでいますが、今回はMacOSでOllamaを入れてLlama3を動かしてみました。 スペック: Apple M1 Pro(16 GB) 少し前だとCUDAのないMacでは推論は難しい感じだったと思いますが、今ではOllamaのおかげでMacでもLLMが動くと口コミを見かけるようになりました。 ずっと気になっていたのでついに私のM1 Macでも動くかどうかやってみました! 結論、爆速で推論できていたのでとても驚きました。OSS開発に感謝です! Ollamaとは OllamaとはローカルでLLMを動かすことができるアプリケーションです。 以下からダウンロードできます。 MacOSとLinuxで使うことができます。Windowsもプレビュー版があるみたいです。 #いざ推論 ダウロードができたらシ
こんにちは。AWS事業本部コンサルティング部に所属している今泉(@bun76235104)です。 ソフトウェア設計・クラス設計などの学習捗ってますか? 私は実際にソフトウェア設計に関する本を読んで学習したり、OSSを書いてアウトプットしたりするのですが、なかなかフィードバックをもらえず上達しているのか分かりません。 普段のお仕事も直接的にコードを書くことも少ないので、先輩によるご指導などももらいにくい状況です。 そこで今回、話題のAIとソフトウェア設計の考え方について壁打ちしてもらったところ、非常に良い学習方法だと感じたので、この記事を書いてみました! ちなみに私は以下のようにソフトウェア設計関連の書籍を読んで学習しています。 ちなみに今回は以下ブログ記事で公開しているくらにゃんGPTをベースにしたBotと会話をしています。 ChatGPT API model: gpt-3.5-turbo
最近の自然言語処理では、大規模なテキストから単語の分散表現や言語モデルを学習させて使っています。学習する際のテキストとしては、分量や利用しやすさの都合からWikipediaが選ばれることが多いですが、その前処理は意外と面倒で時間のかかる作業です。そこで、本記事では比較的最近リリースされた前処理済みのデータセット「Wiki-40B」とその使い方を紹介します。 Wiki-40Bとは? Wiki-40Bは、40言語以上のWikipediaを前処理して作られたデータセットです。このデータセットは言語ごとに学習/検証/テスト用に分かれているので、単語分散表現や言語モデルの学習・評価に使えます。言語ごとの対応状況については、以下のページを参照するとよいでしょう。 wiki40b | TensorFlow Datasets 前処理としては、大きくは以下の2つに分けられます。 ページのフィルタリング ペー
1. OpenAI APIのモデル「OpenAI API」は、用途に応じて「GPT-3.5」をはじめとする様々なモデル を提供しています。 ・GPT-3.5 : 自然言語とコードを理解および生成する最新モデル。 ・DALL-E : 自然言語から画像を生成・編集するモデル ・Whisper : 音声をテキストに変換するモデル ・Embeddings : 埋め込み (ベクトル表現) を生成するモデル ・Codex : コードを理解および生成するモデル ・Moderation : センシティブおよび 安全でない文章を検出するモデル ・GPT-3 : 自然言語を理解および生成する旧モデル 2. GPT-3.5「GPT-3.5」は、自然言語とコードを理解および生成する最新モデルです。最も高性能で費用対効果の高いモデルは、チャット用に最適化されていますが、既存タスクにも適している「gpt-3.5-tu
めちゃくちゃ分かりやすい機械学習の講義で有名なAndrew NgさんとOpenAIのIsa Fulfordさんが無料で提供しているChatGPT Prompt Engineering for Developersというコンテンツが面白かったので、内容をまとめてみました。 (注)大規模言語モデル(LLM)を利用したアプリケーションを開発する開発者向けのコンテンツなので、ChatGPTのUIで扱うようなゴールシークプロンプトといったようなプロンプトテクニックを扱うものではないことをご承知置きください。 最も重要なポイント自身の開発するアプリケーションに適したプロンプトを開発するためのプロセスを持つこと。 インターネット上にあるような「完璧なプロンプト30選」のようなコンテンツをアテにして、1回で成功させようなんて思わないこと。もし1回目でうまくいかなくても、例えば指示が十分に明確でなかった、あ
こんにちは。デジタルテクノロジー統括部でアナリストをしているY・Nです。 パーソルキャリアのデジタルテクノロジー統括部は、一般社団法人データサイエンティスト協会が定める「データサイエンティストに求められるスキルセット」を基に、以下の3つのグループが組織されています。 ビジネスグループ アナリティクスグループ エンジニアグループ 出典:データサイエンティスト協会 これらの3グループが互いに連携しあい、AI(ここでは機械学習による予測モデルを指すことにします)によって様々な業務を自動化させたり、意思決定の補助に利用させるプロジェクトに取り組んでいます。 その際、「AIの判断根拠をどの程度(どの様に)見せれば良いか」ということが常にビジネスグループで議題に上がります。殊にAIの予測結果を人間(特に営業部門の人)が見た上で意思決定の補助として利用する場合に顕著で、判断根拠が表示されないブラックボッ
TL; DR LangChainのメリデメを整理する過程で、今となってはopenai-pythonのうちChatGPTのAPIをを簡単に取り回せる程度のシンプルなライブラリがあるだけでも十分便利なんじゃないかと思ったので、ライブラリを個人で作ってみました。(バージョン0.0.1なのでちょっとお粗末な所もありますが) github.com はじめに こんにちは、データサイエンティストの坂元です。ABEJAアドベントカレンダーの13日目の記事です。世は大LLM時代ということで、ありがたいことにABEJAでも複数のLLMプロジェクトを推進させて頂いています。私自身もいくつかのLLMプロジェクトに参画しています。LLMといえばLangChainが便利ですね。OpenAI APIの利用だけでなく、各種ドキュメントのパースが出来たり、HuggingFaceやインデックスDBを扱う他のライブラリとインテ
ポイント Japanese Stable LM 2 1.6B(JSLM2 1.6B)は16億パラメータで学習した日本語の小型言語モデルです。 JSLM2 1.6Bのモデルサイズを16億パラメータという少量にすることによって、利用するために必要なハードウェアを小規模に抑えることが可能であり、より多くの開発者が生成AIのエコシステムに参加できるようにします。 ベースモデルとしてJapanese Stable LM 2 Base 1.6Bと、指示応答学習(Instruction tuning)済みのJapanese Stable LM 2 Instruct 1.6Bを提供します。両モデルともStability AI メンバーシップで商用利用が可能です。また、どちらのモデルもHugging Faceからダウンロードすることができます。 Japanese Stable LM 2 Base 1.6B
アップルの研究チームは3月14日、画像とテキストを理解し処理する能力を持つマルチモーダル大規模言語モデル「MM1」を発表した。今のところ論文のみの公開で、一般公開の時期は明かされていない。 一部ベンチマークではGPT-4Vをも凌ぐ性能を発揮 複数(30億、70億、300億)のパラメータサイズを備えるMM1は、10億以上の画像および30兆語以上のテキスト、GitHubのコード例などの多様なデータセットを用い、教師なし学習と教師あり学習を組み合わせる独自の方法で学習され、多様なタスクに対して高い精度を示すという。 各種ベンチマークの結果によると、30億および70億パラメーターのモデルはそれぞれのモデルサイズにおいて過去最高を記録。特にVQAv2(画像理解)、TextVQA(画像内のテキスト情報)、ScienceQA(科学知識)、MMBench(マルチモーダル)、MathVista(数学)などの
米アマゾン・ウェブ・サービス(Amazon Web Services)は2019年11月21日(米国時間)、音声からの文字起こしAI(人工知能)サービス「Amazon Transcribe(トランスクライブ)」の対応言語に、日本語など7言語を追加したと発表した。Amazon Transcribeを利用すると、コールセンターや動画配信などのシステムに日本語の文字起こし機能を組み込みやすくなる。 Amazon Transcribeは保存された音声・動画ファイルからの文字起こしに加え、音声・動画のストリームデータを基にした即時の文字起こしも可能だ。今回はこれらのうち音声・動画ファイルからの文字起こしで日本語に対応した。
近年はChatGPTやBardなどの対話型AIが相次いでリリースされ、人間の質問や呼びかけに対して非常に高精度な回答ができることで注目を浴びていますが、これらの対話型AIは時に真実ではないことを真実かのように話す「ハルシネーション(幻覚)」を起こすことがあります。そこで、膨大な数のAPIから適切なものを呼び出し、幻覚を大幅に減らすことができる言語モデル「Gorilla」を、アメリカ・カリフォルニア大学バークレー校とMicrosoft Researchの研究チームが公開しました。 Gorilla: Large Language Model Connected with Massive APIs https://arxiv.org/abs/2305.15334 Gorilla https://gorilla.cs.berkeley.edu/ GitHub - ShishirPatil/gori
⚠️注意今回公開するのはLoRAを用いて作成したLLaMAの日本語化Adapterでありモデル自体ではありません。 LoRAをマージするベースのLLaMAは商用不可であり、今回公開するAdapterで日本語化したモデルも商用利用はできません。 OpneAIの利用規約で、OpenAIサービス、ChatGPTの出力結果を競合モデル開発用途に利用することはできません コンテンツ生成者はできません。 詳細は記事後半で述べていますが利用規約が適用されるのはコンテンツ生成者までです。 概要2022年の11月末にOpenAIからChatGPTが発表されてから、それに追随するようにGoogleからBard、MetaからLLaMAなど大規模言語モデル(LLM)が発表されました。さらにLLaMA 7Bを「text-davinci-003」を用いて「Self-Instruct」で作成された52Kのデータセット(
【2023/04/18追記】現在、この記事で説明したものから使い方のインターフェースが変わっているので、実際に使うときは https://github.com/shibayu36/chat-hatenablog のREADME.mdを参考にしてください。 以下の記事を見て、もっと気軽に自分のはてなブログとチャットしたいなと思った。 自分のScrapboxをChatGPTにつないだ - 西尾泰和のScrapbox 自分のはてなブログをChat GPTにつないだ - hitode909の日記 ChatWP: WordPressをAI化しておしゃべりする そこで自分のはてなブログとチャットするツールを作ってみた。 https://github.com/shibayu36/chat-hatenablog やりたかったこと 僕はコードレビューでコメントする時、自分の意見を補足する目的で、参考となる自
はじめに 5月からTuringに中途入社した棚橋です。リクルートで広告配信システムの開発や量子アニーリングに関する研究開発に関わっていました。現在、Turingのリサーチチームで完全自動運転システムの研究開発に取り組んでいます。 3行でまとめ 今月開催されるCVPR2023では約2400本もの論文が発表されるため、見るべき論文を事前に検索しておきたい。 社内で行われた大規模言語モデル(LLM)ハッカソンをきっかけに、LLMのEmbeddingを用いて論文の「検索・推薦・要約」システムを作成し公開した。 検索クエリに文章を使った曖昧な検索が行えたり、類似論文の推薦ができる。6/13にアップデートされたGPT3.5の新機能であるファンクション機能を使うことで、複数観点に分けて研究内容の要約を出力させた。 ↓ 今回作成した、LLMを使ったCVPR論文検索システム 事の発端 Turingは、ハンド
知っている人は知っていると思うが、Qiitaではたびたび大量のスパム記事が投稿されている。 深夜24~26時頃に記事一覧を確認してみて欲しい。 スパム記事がわんさか出てくるはず。 登録したてのQiitaユーザは不安よな。1 ———— @dcm_chida 動きます🧐 はじめに これはNTTドコモサービスイノベーション部AdventCalendar2019の1日目の記事です。 我々の部署では日頃から「KDDCUP2」や「論文読み会」に取り組んでおり、若手から中堅社員まで最先端の技術取得に励んでいます。 そうした活動をもっと外部へと発信していこうと始めたのがこのAdventCalendarです。社員一人一人が書いた記事を通して、少しでも多くの方に興味を持って頂ければ幸いです。 さて、僕は4年目社員ですがプログラミング初心者の頃から現在に至るまで、Qiitaにはかなりお世話になりました。 自分
3つの要点 ✔️相互情報量を最大化する枠組みでニューラルネットを学習する教師なし学習手法IICの提案 ✔️予測値をそのまま出力するニューラルネットを学習可能であるため、クラスタリングが不要 ✔️従来の教師なし学習手法の「クラスタが一つにまとまってしまう問題」および「ノイズに弱いという問題」を解決 Invariant Information Clustering for Unsupervised Image Classification and Segmentation written by Xu Ji et.al (Submitted on 22 Aug 2019) subjects : Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG) はじめに 近年、様々な場面において、深層学習手法が使用さ
[fit] textlint - Linterの作り方 自己紹介 Name : azu Twitter : @azu_re Website: Web scratch, JSer.info Book: JavaScript Primer アジェンダ Linterを作る人向けの話 Linterの考え方とアーキテクチャを一致させる 使うものを作ろう、作るために使おう textlint とは 自然言語(日本語や英語など)に対するLinter MarkdownやHTMLなどのマークアップ言語に対応している ビルトインのルールは0 利用できるルールは100以上ある 多くのルールはオフラインで動くので、外部に入力してる内容を送信しない CI/CDに組み込める自然言語のチェッカー(表記揺れ、スペルチェック、誤用、読みやすさのチェックなど) textlint users Translation: Angul
近年、ChatGPTを始めとする大規模言語モデル*1に大きな注目が集まっておりますが、これらは膨大な知識をモデル内に有することで高い言語処理性能を示す一方、学習に要するエネルギーは、原発1基1時間分の電力量が必要*2とも言われており、また、運用には大規模なGPUクラスタを必要とし様々な業界に特化するためのチューニングや推論にかかるコストが膨大であることから、サステナビリティおよび企業が学習環境を準備するための経済的負担面で課題があります。 NTTでは、これらの課題を解決する研究開発を進め、今回、軽量でありながら世界トップレベルの日本語処理性能を持つ大規模言語モデル「tsuzumi*2」を開発しました。「tsuzumi」のパラメタサイズは6~70億と軽量であるため、市中のクラウド提供型LLMの課題である学習やチューニングに必要となるコストを低減します。「tsuzumi」は英語と日本語に対応し
最近は、健康系アプリにはまっているkonnoです。 今年は本当に暑いですね...過去〇〇年で最高、などと言われることもありますが、でも、実際のところはどうなんでしょうか? 今回は、データさえ与えればあっという間に分析してくれるCode Interpreterを使って、過去の気象データから気温変化の傾向を見てみたいと思います。 気象データをCode Interpreterで分析 気象データを取得する 今回使用する気象データは、気象庁が公開している「過去の気象データ・ダウンロード」という以下のページから取得しました。 www.data.jma.go.jp 条件としては、以下のようにしています。(※今回は2022年12月31日までのデータを使用しています。) 項目 内容 地点 横浜 項目 日平均気温 期間 1893/01/01 ~ 2022/12/31 表示オプション デフォルト設定のまま ファ
カリフォルニア大学バークレー校などの研究チームがオープンソースの大規模言語モデル「Vicuna-13B」を公開しました。Vicuna-13BはOpenAIのChatGPTやGoogleのBardに近い精度で回答を生成でき、日本語にも対応しているとのこと。実際に動かせるデモも公開されていたので、使ってみました。 Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality | by the Team with members from UC Berkeley, CMU, Stanford, and UC San Diego https://vicuna.lmsys.org/ GitHub - lm-sys/FastChat: An open platform for training, serving, a
OpenAIは新しいフレームワーク「PRM」を発表しました。これは、大規模言語モデル(LLM)の数学能力を向上させるためのもので、AIが問題を解く際の誤りをプロセスベースで特定・修正する能力を強化します。このフレームワークで訓練した大規模言語モデルは、DeepMind社の作成した数学問題集(MTAHデータセット)において他のモデルを凌駕し最も優れたパフォーマンスを見せました。 また、この手法は数学だけでなく推論能力を必要とする広範な問題の解決にも応用できる可能性があり、注目を集めています。 参照論文情報 タイトル:Let’s Verify Step by Step 著者:Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman,
ChatGPTで文章を要約したり口調を変えたりゲームのルールを教えてゲームを遊んだり、みんな いろいろな使い方や楽しみ方をしていると思います。 中にはプログラミングにあまり縁のない人も多くいます。 これ改めて考えると、自然言語でコンピュータを操作指示できるようにしたということで、インパクトすごいと思います。 たとえばこんな感じで、口調の調整を行っている人はよくみかけますね。 これ、よく考えるとコンピュータの挙動を調整しているわけですよね。 ここでは「以降は語尾に「ンゴ」をつけてください」と指示しているだけで、この指示にはまったくプログラミング知識が使われていません。 しかも「何か質問あるンゴか?」のように疑問形の形を調整してくれていますね。適切に「!」も入れて、「ンゴ」で終わらせることに何を求めているかもくみ取ってくれています。これをプログラミングで実現しようとするとかなり大変です。 RP
GoogleやAmazonが投資するAIスタートアップのAnthropicの研究チームが、ニューラルネットワークがどのように言語や画像を扱っているのかを解き明かす研究において、個々のニューロンを「特徴」と呼ばれる単位にまとめることでニューラルネットワークの中身を解釈しやすくなるという研究結果を発表しました。 Anthropic \ Decomposing Language Models Into Understandable Components https://www.anthropic.com/index/decomposing-language-models-into-understandable-components 大規模言語モデルは多数のニューロンが接続されたニューラルネットワークで、ルールに基づいてプログラミングされるのではなく、多数のデータを元にトレーニングを行うことでタス
ホーム生成AIずかんパラメーター数1兆以上【switch-c-2048】GoogleがついにGPT-4レベルのLLMをオープンソースで公開!概要〜使い方まで メディア事業部リサーチャーのいつきとメディア事業部AIエバンジェリストの藤崎です。この記事は専門的な内容を含むため、AIスペシャリストとの共同執筆となっています。 今回ご紹介するのは、Googleがオープンソース化したMOEモデルの「switch-c-2048」について。 なんと、こちらのMOEモデルは、1.6兆個のパラメーターと3.1TBサイズのデータでトレーニングされた大規模言語モデルで、あの「GPT 4」と同等のサイズだと話題になっています! switch-c-2048を使用すれば、より高速な学習が可能になるとのことですが、新しく公開されたモデルなので使い方がわからないという方も多いでしょう。 そこで今回の記事では、switch
はじめに Turing 株式会社のリサーチチームでインターンをしている東京工業大学 B4 横田研究室の藤井(@okoge_kaz)です。 大規模言語モデル(Large Language Model: LLM)への注目がGPT-4のリリース以降高まっていますが、LLMを作るための知見は十分に共有されているとは言い難いと個人的に感じています。 Turingでは、Vision and Language, Video and Languageなどのマルチモーダルなモデルの研究開発を行っている一環として、Megatron-DeepSpeed, GPT-NeoXなどを用いて数十Bのモデルの学習を行う知見を蓄積しています。今回はLLMの事前学習を行う際に候補となるMegatron-DeepSpeedを用いてGPT-2-7B(6.6B)の学習をどのように行うのかについて解説します。 分散並列学習がどのよう
こんにちは。 先日AIエージェント開発の技術解説記事を書いて「今後ChatGPTライクのAPIが出てきた瞬間に進化すると思う」という話をしたのですが… まさか3日後にChatGPT APIが出てくるとは思いませんでした。 というわけで今回はUnityからChatGPT APIを叩く方法について書いてみます。 先日の記事で用いたGPT-3のTextCompletionAPIよりも(Langchainなどを使わず)カスタマイズ無しで実際のAI利用シーンに活用できそうな印象を受けました。 具体的には… 応答速度が早い(応答の文章の長さによりますが、手元の環境では1~3秒で返ってきました) AI側の応答の前提条件の設定ができる。(キャラクターの性格や語尾など) (過去のプロンプトや生成結果を次のプロンプトに引き継ぐような実装をすることで)会話の文脈を考慮した応答をすることができる。 という特徴があ
名著です,まじでオススメ 個人的にすごく気に入っているかつオススメな「Pythonクローリング&スクレイピング」の増補改訂版が出てました. Pythonクローリング&スクレイピング[増補改訂版] -データ収集・解析のための実践開発ガイド 作者: 加藤耕太出版社/メーカー: 技術評論社発売日: 2019/08/10メディア: 単行本(ソフトカバー)この商品を含むブログを見る 早速読みましたが,初版からのアップデートに加え元々の構成の良さに感激しました.*1 本の内容そのものの解説は, 著者である加藤さんのエントリー @iktakahiroさんの感想エントリー をご覧いただくとして*2,このエントリーでは, Webクローリングとスクレイピングはコワクナイヨ! っていう話をルール・ノウハウという「お作法」の面でポエムしたいと思います. TL;DR インターネットおよび, リアル(現実世界)に迷惑
はじめまして@vimmodeです。普段はMNTSQというリーガルテックの会社で自然言語処理をしています。今回はBERTとBERTまでの流れを簡単に紹介します。 自然言語処理で今やデファクトスタンダードとなりつつであるBERT。登場当時はモデルの複雑さに伴う計算環境や計算リソースの確保が難しく気軽に動かせなかったが、ColabやKaggleカーネル環境が整備されたきたおかげで誰でも気軽に使えるようになりました。 また、haggingface社が公開したBERTと関連モデルのラッパーライブラリであるtransformersによりわずか10行程度でBERTモデルを記述できます。 一方、自然言語処理を始めて間もない段階でいきなりBERTを突きつけられても理解の壁が高いと思いますので、今回は数式やコードを使わずにBERTに至るまでの流れを簡単に紹介したいと思います。 ※これらはあくまで私の理解であり
AWS、API経由でジェネレーティブAIを利用する新サービス「Amazon Bedrock」を発表し、ジェネレーティブAIに本格参入。テキスト生成、文章要約、画像生成など Amazon Web Services(AWS)は、ジェネレーティブAIをAPI経由で利用できる新サービス「Amazon Bedrock」を発表し、ChatGPTに代表されるジェネレーティブAI市場に本格参入することを明らかにしました。 合わせて、Amazonの20年にわたる機械学習の経験を基に開発されたとされる、人間と自然言語で対話し質問に回答でき、要求に応じた文章の生成や要約などが可能で、不適切な入力や出力を検出し拒否するように設定された大規模言語モデル「Amazon Titan」も発表しました。 下記はAWS CEO Aam Selipsky氏のツイート。 We’re announcing Amazon Bedro
RPGなどのゲームをプレイしている最中に、村人のようなノンプレイヤーキャラクターが同じことしか言わなかったり、同じ行動ばかり続けていることにがっかりしたことがあるゲーマーは多いはず。ジョージア工科大学と、Facebook AI Research(FAIR)が協力して行った最近の研究で、「目標を持って会話したり行動したりするファンタジーゲームのAI」が発表されました。 How to Motivate Your Dragon: Teaching Goal-Driven Agents to Speak and Act in Fantasy Worlds (PDFファイル)https://arxiv.org/pdf/2010.00685.pdf Teaching AI agents to communicate and act in fantasy worlds https://techxplor
Chat Plugins https://platform.openai.com/docs/plugins/introduction OpenAPI仕様書を公開しておくとGPTがそれを解釈してユーザーの入力からWebリクエストを作って処理してくれるすごいやつ プラグイン開発者は自分の作った各APIのdescriptionをちゃんと書いておけばあとはChatGPT側でよしなにやってくれる LangChainのOpenAPI Agentに仕組みは似ている Retrieval Plugin そのままフォークして使える検索用の知識を与えるプラグイン(APIサーバー)の雛形 こんな感じでAPI作れば動くよというリファレンス実装で、別にPython必須というわけではない 開発者は好きなベクトルDBを選んで自分で構築したインデックスを突っ込んでおけばOK ベクトルDBが必要な理由はテキストを入力してテキ
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く