タグ

ブックマーク / note.com/npaka (19)

  • GPT-4o の概要|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・Hello GPT-4o 1. GPT-4o「GPT-4o」 (「omni」の「o」) は、人間とコンピュータのより自然な対話に向けた一歩です。テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像の出力のあらゆる組み合わせを生成します。 音声入力にはわずか232ミリ秒 (平均320ミリ秒) で応答できます。これは、人間の会話における応答時間とほぼ同じです。英語のテキストおよびコードでは「GPT-4 Turbo」のパフォーマンスに匹敵し、英語以外の言語のテキストでは大幅に改善されており、APIでははるかに高速で50%安価です。「GPT-4o」は、既存のモデルと比較して、特に視覚と音声の理解に優れています。 2. モデルの機能「GPT-4o」以前は、音声モードを使用して、平均2.8秒 (GPT-3.5) および5

    GPT-4o の概要|npaka
    advblog
    advblog 2024/05/14
  • Gemini 1.5 の概要|npaka

    以下の記事がおもしろかったので、簡単にまとめました。 ・Introducing Gemini 1.5, Google's next-generation AI model 1. Gemini 1.5「Gemini 1.5」は、劇的に強化されたパフォーマンスを提供するGoogleの新世代のAIモデルです。 早期テストのため、「Gemini 1.5 Pro」を最初にリリースします。幅広いタスクにわたるスケーリングに最適化された中規模のマルチモーダルモデルであり、これまでで最大モデルである「Gemini 1.0 Ultra」と同様のレベルで実行されます。また、長い文脈理解における画期的な実験的機能も導入しています。「Gemini 1.5 Pro」には、標準の128,000トークンのコンテキストウィンドウが付属します。 2. 非常に効率的なアーキテクチャ「Gemini 1.5」は、「Transfo

    Gemini 1.5 の概要|npaka
    advblog
    advblog 2024/02/19
  • Google Colab で LLaMA-Factory を試す|npaka

    Google Colab」で「LLaMA-Factory」を試したので、まとめました。 【注意】Google Colab Pro/Pro+のA100で動作確認しています。 1. LLaMA-Factory「LLaMA-Factory」は、WebUIによる簡単操作でLLMを学習できるLLMファインチューニングフレームワークです。 サポートするモデルは、次のとおりです。 サポートする学習法は、次のとおりです。 サポートするデータセットは、次のとおりです。 事前学習データセット ・Wiki Demo (en) ・RefinedWeb (en) ・RedPajama V2 (en) ・Wikipedia (en) ・Wikipedia (zh) ・Pile (en) ・SkyPile (zh) ・The Stack (en) ・StarCoder (en) SFTデータセット ・Stanford

    Google Colab で LLaMA-Factory を試す|npaka
    advblog
    advblog 2024/01/03
  • 音楽生成AI のリリース年表|npaka

    ・Electron v1.0系 初リリースより20回を超えるアップデートを重ね、仕様・動作共に安定してきたため正式版としてリリースいたしました。 ご利用・ご支援いただいている皆様に感謝いたします。 今後も引き続き改善・歌声ライブラリの開発を進めていきますのでよろしくお願いいたします。 (続く) — NEUTRINO Diffusion(歌声生成AI)公式 (@SHACHI_NEUTRINO) April 22, 2022

    音楽生成AI のリリース年表|npaka
    advblog
    advblog 2023/12/19
  • Google Colab で OpenAI API の Code Interpreter を試す|npaka

    Google Colab」で「OpenAI API」の「Code Interpreter」を試したので、まとめました。 前回 1. Code Interpreter「Assistant API」は、さまざまなタスクを実行できる強力な「AIアシスタント」を作成するためのAPIです。 「Assistant API」は現在、次の3つのツールをサポートしています。 ・Code Interpreter : Pythonコードを作成して実行 ・Retrieval : モデル外部からの知識を取得 ・Function Calling : 関数のレスポンスを取得 今回は、「Code Interpreter」を使います。「Code Interpreter」は、「Assistant API」がサンドボックス実行環境でPythonコードを作成して実行できるツールです。さまざまなデータと形式を含むファイルを処理し

    Google Colab で OpenAI API の Code Interpreter を試す|npaka
    advblog
    advblog 2023/11/12
  • OpenAI API で提供されている モデル まとめ|npaka

    OpenAI API」で提供されている「モデル」をまとめました。 ・Model - OpenAI API 1. OpenAI API で提供されている モデル「OpenAI API」で提供されている「モデル」は、次のとおりです。 ・GPT-4 / GPT-4 Turbo : GPT-3.5を改善し、自然言語やコードを理解し、生成できるモデル ・GPT-3.5 : GPT-3を改善し、自然言語やコードを理解し、生成できるモデル ・DALL-E : 自然言語から画像を生成および編集できるモデル ・TTS : テキストを自然な音声に変換できるモデル ・Whisper : 音声をテキストに変換できるモデル ・Embedding : テキストをベクトル表現に変換できるモデル ・Moderation : テキストが機密または安全かどうかを検出できるモデル ・GPT base : ファインチューニング

    OpenAI API で提供されている モデル まとめ|npaka
    advblog
    advblog 2023/11/10
  • Google Colab で OpenAI API の Retrieval を試す|npaka

    Google Colab」で「OpenAI API」の「Retrieval」を試したので、まとめました。 前回 1. Retrieval「Assistant API」は、さまざまなタスクを実行できる強力な「AIアシスタント」を作成するためのAPIです。 「Assistant API」は現在、次の3つのツールをサポートしています。 ・Code Interpreter : Pythonコードを作成して実行 ・Retrieval : モデル外部からの知識を取得 ・Function Calling : 関数のレスポンスを取得 今回は、「Retrieval」を使います。「Retrieval」は、製品情報やユーザーから提供されたドキュメントなど、モデル外部からの知識を取得して、アシスタントを強化します。ファイルをアップロードして「アシスタント」に渡すと、自動的にドキュメントをチャンク化し、埋め込みの

    Google Colab で OpenAI API の Retrieval を試す|npaka
    advblog
    advblog 2023/11/09
  • OpenAI DevDay で発表された新モデルと新開発ツール まとめ|npaka

    以下の記事が面白かったので、かるくまとめました。 ・New models and developer products announced at DevDay 1. GPT-4 Turbo「GPT-4 Turbo」は、「GPT-4」より高性能です。2023年4月までの知識と128kのコンテキストウィンドウを持ちます。さらに、「GPT-4」と比較して入力は1/3、出力は1/2の安い価格で提供します。 開発者はモデルID「gpt-4-1106-preview」で試すことができます。今後数週間以内に、安定した実稼働モデルをリリースする予定です。 1-1. Function Calling の更新「Function Calling」に、単一メッセージから複数のFunction (「車の窓を開けてエアコンをオフにする」など) を呼び出す機能などが追加されました。精度も向上しています。 1-2. 構造

    OpenAI DevDay で発表された新モデルと新開発ツール まとめ|npaka
    advblog
    advblog 2023/11/07
  • 大規模モデルを単一GPUで効率的に学習する方法|npaka

    以下の記事が面白かったので、かるくまとめました。 ・Methods and tools for efficient training on a single GPU 1. LLMを単一GPUで効率的に学習する方法大規模モデルの学習では、次の2つを考慮する必要があります。 ・スループット・学習時間 ・モデルのパフォーマンス 「スループット」 (サンプル / 秒) を最大化すると、学習コストの削減につながります。これは通常、GPUメモリを限界まで利用することで実現されます。必要なバッチサイズがメモリオーバーする場合は、「Gradient Accumulation」などの「メモリの最適化」が必要になります。 ただし、「推奨バッチサイズ」がメモリに収まる場合は、学習が遅くなる可能性があるため、「メモリの最適化」を適用する必要はありません。どのバッチサイズが最良の結果をもたらすかを決定し、それに応じ

    大規模モデルを単一GPUで効率的に学習する方法|npaka
    advblog
    advblog 2023/10/03
  • OpenAI API の ファインチューニングガイド|npaka

    1. ファインチューニングの利点ファインチューニングの利点は、次のとおりです。 (1) プロンプトよりも高品質な応答 (2) プロンプトに収まりきらないより多くの例の適用 (3) プロンプトの短縮によるトークン数 (コスト) の節約 (4) プロンプトの短縮による処理時間の短縮 モデルは膨大な量のテキストで事前学習されており、このモデルを効果的に利用するため、プロンプトに手順や応答の例を指定する手法が使われます。この例を使用してタスクの実行方法を示すことを「Few-Shot」と呼びます。 ファインチューニングで、プロンプトに収まりきらないより多くの例で学習することにより、さまざまなタスクでより良い結果を達成できるようになります。プロンプトに多くの例を指定する必要はなくなります。これによりトークン (コスト) が節約され、処理時間も短縮されます。 2. ファインチューニングの使用料金ファイン

    OpenAI API の ファインチューニングガイド|npaka
    advblog
    advblog 2023/08/24
  • OpenAI APIのファインチューニングの学習データのガイドライン|npaka

    以下の記事を元に、「OpenAI API」のファインチューニングの学習データのガイドラインをまとめました。 1. 学習データの書式ファインチューニングするには、単一の入力「プロンプト」とそれに関連する出力 「コンプリーション」 のペアで構成される学習データが必要です。これは、1回のプロンプトで詳細な手順や複数の例を入力するような、ベースモデルの使用方法とは大きく異なります。 「学習データの書式」のガイドラインは、次のとおりです。 ・プロンプトが終了してコンプリーションが開始することをモデルに知らせるため、区切り記号 ("\n\n###\n\n"など) でプロンプトを終了する必要があります。区切り記号は、プロンプトの他の場所で使用されない文字列を指定します。 ・コンプリーションが終了することをモデルに知らせるため、停止記号 ("\n"、"###"など)でコンプリーションを終了する必要がありま

    OpenAI APIのファインチューニングの学習データのガイドライン|npaka
    advblog
    advblog 2023/04/17
  • ChatGPTプラグイン の概要|npaka

    OpenAI」の「ChatGPTプラグイン」の記事が面白かったので、かるくまとめました。 ・Chat Plugins - OpenAI API ・ウェイトリスト 1. ChatGPTプラグイン「ChatGPTプラグイン」は、「ChatGPT」をサードパーティのアプリケーションに接続するためのプラグインです。「ChatGPT」は、開発者によって定義されたAPIと対話し、機能を強化し、幅広いアクションを実行できるようになります。 次のような機能を追加できます。 ・リアルタイム情報の取得 (スポーツスコア、株価、最新ニュースなど) ・知識ベース情報の取得 (会社のドキュメント、個人的なメモなど) ・ユーザーに代わってアクションを実行 (フライトの予約、べ物の注文など) プラグイン開発者は、マニフェストファイルとAPIエンドポイントを公開します。これらはプラグインの機能を定義し、「ChatGP

    ChatGPTプラグイン の概要|npaka
    advblog
    advblog 2023/03/24
  • GitHub Copilot の使い方|npaka

    GitHub Copilot」を使ってみたので、まとめました。 1. GitHub Copilot「GitHub Copilot」は、人工知能のペアプログラミングシステムです。人工知能 (OpenAI Codex) がコードの候補を提案することにより、プログラマがより迅速に少ない作業でコードを書けるようにサポートします。 サポートするエディタは、次の4つです。 ・Visual Studio Code ・Visual Studio ・JetBrainsNeovim 2. 使用料金「GitHub Copilot」の使用料金は月10ドル、または年100ドルです。60日間の無料トライアルもあります。 ・Pricing - GitHub Copilot 3. GitHub Copilotの開始「GitHub Copilot」の開始手順は、次のとおりです。 (1) 「GitHub」アカウントを持

    GitHub Copilot の使い方|npaka
    advblog
    advblog 2023/03/08
  • ChatGPT API の使い方|npaka

    OpenAI」の 記事「Chat completions」が面白かったので、軽くまとめました。 1. ChatGPT APIChatGPT」は、OpenAIの最も先進的な言語モデルである「gpt-3.5-turbo」を搭載しています。「OpenAI API」から「gpt-3.5-turbo」を使用して独自アプリケーションを作成できます。 ・メールや文章のドラフト ・Pythonコードの生成 ・一連の文書に関する質問応答 ・会話型エージェントの作成 ・ソフトウェアへの自然言語インターフェースの追加 ・さまざまな科目の家庭教師 ・言語の翻訳 ・ビデオゲームのキャラクターのシミュレート 2. 使用料金使用料金は、以下で確認できます。 3. Colab での実行「gpt-3.5-turbo」は、マルチターンの会話を簡単にするように設計されていますが、会話のないシングルターンタスクでも役立ちます

    ChatGPT API の使い方|npaka
    advblog
    advblog 2023/03/02
  • Google Colab で GPT-NEOX-20B による日本語テキスト生成を試す|npaka

    Google Colabで「GPT-NEOX-20B」による日語テキスト生成を試したのでまとめました。 【注意】「GPT-NEOX-20B」を動作させるには、「Google Colab Pro/Pro+」のプレミアム (A100 40GB) と「Google Drive」のスタンダード以上が必要です。 1. GPT-NEOX-20B「GPT-NEOX-20B」は、EleutherAIが提供するオープンソースの200億パラメータの言語モデルです。Pileデータセットで学習されています。 2. Colabでの実行Google Colabでの実行手順は、次のとおりです。 (1) 新規のColabのノートブックを開き、メニュー「編集 → ノートブックの設定」で「GPU」の「プレミアム」を選択 (2) Googleドライブのマウント。 # Googleドライブのマウント from google.c

    Google Colab で GPT-NEOX-20B による日本語テキスト生成を試す|npaka
    advblog
    advblog 2023/02/02
  • 最近話題になった 音楽生成AI まとめ|npaka

    最近話題になった「音楽生成AI」をまとめました。 1. AudioGenテキストからオーディオを生成するAIモデルです。「風が吹く中で口笛をする音」や 「大勢の歓声の中で話す男性の声」といったテキストから、それらしい音を生成してくれます。 現在のところ、モデルやAPIは提供されていません。 We present “AudioGen: Textually Guided Audio Generation”! AudioGen is an autoregressive transformer LM that synthesizes general audio conditioned on text (Text-to-Audio). 📖 Paper: https://t.co/XKctRaShN1 🎵 Samples: https://t.co/e7vWmOUfva 💻 Code & mod

    最近話題になった 音楽生成AI まとめ|npaka
    advblog
    advblog 2022/11/07
  • Google Colab で はじめる Stable Diffusion v1.4|npaka

    2. ライセンスの確認以下のモデルカードにアクセスして、ライセンスを確認し、「Access Repository」を押し、「Hugging Face」にログインして(アカウントがない場合は作成)、同意します。 4. Colabでの実行Colabでの実行手順は、次のとおりです。 (1) メニュー「編集→ノートブックの設定」で、「ハードウェアアクセラレータ」に「GPU」を選択。 (2) 「Stable Diffusion」のインストール。 # パッケージのインストール !pip install diffusers==0.3.0 transformers scipy ftfy(3) トークン変数の準備。 以下の「<HugginFace Hubのトークン>」の部分に、先程取得したHuggingFace Hubのトークンをコピー&ペーストします。 # トークン変数の準備 YOUR_TOKEN="<H

    Google Colab で はじめる Stable Diffusion v1.4|npaka
    advblog
    advblog 2022/08/23
  • MediaPipeとTensorFlow.jsによるブラウザでの顔と手の追跡|npaka

    以下の記事を参考に書いてます。 ・Face and hand tracking in the browser with MediaPipe and TensorFlow.js 1. ブラウザでライブデモを試してください「facemesh」は、画像内の顔の境界とランドマークを検出、「handpose」は手を検出するパッケージです。これらのパッケージは小さく、高速で、ブラウザ内で実行されるため、データがユーザーのデバイスを離れることはなく、ユーザーのプライバシーが保護されます。 以下のリンクから、今すぐ試すことができます。 ・facemesh ・handpose これらパッケージは、マルチモーダル知覚パイプラインを構築するためのライブラリ「MediaPipe」の一部としても利用できます。 ・MediaPipe face tracking ・MediaPipe hand pose trackin

    MediaPipeとTensorFlow.jsによるブラウザでの顔と手の追跡|npaka
    advblog
    advblog 2020/03/23
  • VRM入門|npaka

    1. VRMとは「VRM」は、プラットフォーム非依存の3Dアバターファイルフォーマットです。「人型のキャラクター・アバター」において、細かいモデルデータの差違を吸収し、アプリケーション側での取り扱いしやすくすることを目的としています。UnityVRMファイルを読み書きする標準実装が提供されますが、フォーマット自体はプラットフォーム非依存であり他エンジンや環境でも取り扱うことが可能です。 2. VRMの特徴VRMの特徴は次のとおりです。 ・プラットフォーム非依存で人型のキャラクター3Dモデルデータを取り扱うことが可能。 ・3D標準の「glTF2.0」をベースに、人型モデルを取り扱うための制約と拡張を加えたフォーマット。 ・テクスチャやマテリアルなどすべてのデータを含めて1ファイルにまとめられる。 ・スケール(1.00 = 1m)・座標系と向き(Y-up, -Z方向向き)など標準仕様が決まっ

    VRM入門|npaka
    advblog
    advblog 2019/11/07
  • 1