並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 42件

新着順 人気順

promptの検索結果1 - 40 件 / 42件

  • GitHub Copilotと快適なユニットテストコード作成生活

    こちらで登壇させていただいた資料です。 https://trident-qa.connpass.com/event/314818/ ※ こちらは2024/05/23 時点の私の考えとなります。更新の予定はございませんのでご了承ください

      GitHub Copilotと快適なユニットテストコード作成生活
    • ChatGPTの「メモリ(Memory)」機能の活用法 - Taste of Tech Topics

      こんにちは、暖かくなったと思ったら涼しくなったりと、なかなか洋服選びが難しい季節ですが皆さん体調お変わりないでしょうか。安部です。 今回は、ChatGPTで少し前に一般公開された「メモリ(Memory)」機能をご紹介し、活用のためのTipsを共有できればと思います。 機能の利用自体は何も意識せず簡単にできますが、意識的に活用しないと本領発揮してくれない機能だなという印象です。 まずは、どのような機能なのか簡単に見ていきましょう。 メモリ機能の概要 メモリ機能が使えると何がうれしいのか メモリ機能の有効化 実際に使ってみる 活用Tips ショートカットコマンドの作成 手順自動化 前提知識の補完 メモリの削除 プライバシー/セキュリティについて まとめ メモリ機能の概要 「メモリ(Memory)」機能とは、文字通りChatGPTがこれまでやりとりした情報を記憶し、以降の応答時にそれらを踏まえた

        ChatGPTの「メモリ(Memory)」機能の活用法 - Taste of Tech Topics
      • Chrome の 組み込み AI Gemini Nano を試してみる

        インストールが完了したらアドレスバーに chrome://flags と入力して設定画面を開きます。以下の 2 つのフラグを設定します。 Enables optimization guide on device: Enabled BypassPerfRequirement Prompt API for Gemini Nano: Enabled また、あらかじめ Gemini Nano のモデルをダウンロードしておく必要があります。アドレスバーに chrome://components/ と入力して Optimization Guide On Device Model の「アップデートを確認」をクリックします。 Gemini Nano を使ってみる それでは、Gemini Nano を使ってみましょう。以下のコードをコンソールに貼り付けて実行します。 const canCreate = aw

          Chrome の 組み込み AI Gemini Nano を試してみる
        • ChatGPTプログラミングのすすめ

          ChatGPTなどの大規模言語モデル (Large Language Model; LLM) にプログラミングやリファクタリングをさせる場合、目的に合ったものが作られているかを何らかの方法で検証する必要がある。 プログラムの正しさを完全に保証する方法はないが、ある程度の正しさを継続して担保するための方法を探ってみたので以下にまとめた。 ポイントは、ChatGPTの生成したプログラムの検証にもやはりChatGPTの力を借りることである。 実行可能性と入出力のチェック プログラムを生成するタスクである場合、いつでも「実行できるか?」というチェックが可能である。これは自然言語の生成と大きく異なる点だろう。実行可能性を確かめることは最低限のチェック項目になる。 エラーが出力された場合、自力で修正するか、もしくは、エラーの内容をChatGPTに提示して修正を依頼し、再度実行可能かを確かめる。 入力・

            ChatGPTプログラミングのすすめ
          • Zodスキーマでプロンプト生成を行い構造化データを自由自在に扱えて、LLMプロダクト開発が圧倒的に効率化した話 - Algomatic Tech Blog

            最近はAIエンジニアを名乗ってるerukitiです。フロントエンドもバックエンドも、LLMを触るあれこれもやってるので、「AIエンジニア」くらいを名乗るとちょうどよさそうだなと思ってます。いずれLLM自体の開発なんかもやってるかもしれません。 LLMプロダクトを開発していると、構造化データを作りたいのに、Anthropic ClaudeのAPIにはJSONモードが無いことや、なんならJSONモードやfunction callingを使っても、データが正しい形式に従ってることは保証しがたい、みたいな自体に遭遇することがあります。 JSONが出力できたとしても、構造化データをうまく吐き出させるのは難しいものです。文字列を出力させたいけど、複数あるときは、配列なのか、それともカンマ区切りなのか?項目がオプショナルの場合はどうするか?項目が存在しない、空文字や 0 や undefined や nu

              Zodスキーマでプロンプト生成を行い構造化データを自由自在に扱えて、LLMプロダクト開発が圧倒的に効率化した話 - Algomatic Tech Blog
            • UIUXデザイナーが「GPT4o」を活用してウェブサイトをつくってみた

              デジタルプロダクション「factory4」でアプリやさまざまなIoTプロジェクトのUIUXデザインを手がける新谷友樹さんが、UIやUXにまつわるトピックについて解説する本連載。今回のテーマは「GPT4oを活用したウェブサイトづくり」です。 こんにちは!株式会社Cosmowayが組織するデジタルプロダクション「factory4」のUIUXデザイナー新谷です。 今回は先日OpenAIが発表した新たなAIモデル「GPT-4o」を使ってウェブサイト(LP)を作成してみました。GPT-4oのパフォーマンスを知ること、そしてデザイナーが生成AIとどう関わっていくべきかを探るきっかけにすることが、今回の目的です。 前提として「GPT-4o」がゼロベースでウェブページを作成することに向いているツールではないと思いますが、チュートリアルの要素と今後の可能性を知るためにあえて取り組んでみました。 GPT-4o

                UIUXデザイナーが「GPT4o」を活用してウェブサイトをつくってみた
              • プロンプトエンジニアリングを最適化する為のフレームワークSAMMOを実際に使ってみた - Taste of Tech Topics

                いつの間にか春も過ぎ去りすっかり夏模様の今日この頃皆さんいかがお過ごしでしょうか?菅野です。 生成AIの重要性が高まり、生成AIで利用できるテキスト量が長くなるにつれてにつれて、プロンプトエンジニアリングの重要性が高まってきました。 プロンプトエンジニアリングとは、そのプロンプトにどのような命令、事前情報等を入力すると、より適した応答が返ってくるかを設計する技術です。 そんなプロンプトエンジニアリングを最適化する為のPythonライブラリ、SAMMOがMicrosoft社から2024年4月18日にリリースされたので紹介していきます。 www.microsoft.com SAMMOとは? Structure-Aware Multi-objective Metaprompt Optimizationの頭文字をとったフレームワークです。 元来、プロンプトエンジニアリングでは、エンジニアが、様々な

                  プロンプトエンジニアリングを最適化する為のフレームワークSAMMOを実際に使ってみた - Taste of Tech Topics
                • AWS Infrastructure as Code の新機能を総まとめ! 2023.1-2024.5

                  2023年1月から2024年5月までの AWS Infrastructure as Code 関連のアップデートを解説しています。JAWS-UG CDK支部 #14 でお話させていただきました。 https://jawsug-cdk.connpass.com/event/317935/

                    AWS Infrastructure as Code の新機能を総まとめ! 2023.1-2024.5
                  • GPT から Claude 3 への移行ガイド - Gunosyデータ分析ブログ

                    こんにちは。Gunosy R&D チームの森田です。 GPT-4o が発表されたこのタイミングで!?という向きもあるかとおもいますが、LLMの世界は一ヶ月もすればまったく違う状況になっているのが常なので、いずれは GPT-4o を超えるモデルが発表される時も来るでしょう。 Claude 3 Opus は一時期 GPT-4 のスコアを超え、 Claude 3 Haiku では GPT-3.5-Turbo のトークン当たりで約半額とコストパフォーマンスに優れていますし、 AWS Bedrock 経由で安定して利用できることもあり、Claude 3 は乗り換え先の候補の一つです。 Claude 3 への乗り換えには、点々とつまづくポイントがあるので、引っかかった所と回避方法をご紹介します。 今回紹介する内容はClaude 3に限らないものもありますので、ローカルLLM や他のLLM への乗り換え

                      GPT から Claude 3 への移行ガイド - Gunosyデータ分析ブログ
                    • 最近は意図的にGitHub Copilotを無効にすることがある

                      別にみんなそうするべきとは全く思わないのだけど、僕は最近GitHub Copilotを意図的に無効にすることがあるので、そのへんについて雑に書いておく。 あらかじめ言っておくが、僕はGitHub Copilotを有効にすることもある。この記事もGitHub Copilotおよびそのユーザーを批判する意図は全くない。 GitHub Copilot が便利な場面 僕がGitHub Copilotを使い始めて少なくとも一年以上は経ってる。自分が書こうと思っているコードに近いものが簡単に生成されていくことに最初は感動したし、便利な場面がはたくさんある。 具体的に便利な場面を思い返してみる。 僕は仕事ではNext.jsでフロントエンドを書いたり、NestJSでバックエンドを書いたりしているのだが、その用途では便利だった。僕は自分が関わっているプロジェクトのReactやNode.jsの書き方はある程度

                        最近は意図的にGitHub Copilotを無効にすることがある
                      • Google Japanを訪問してGeminiについて色々教えてもらいました - karaage. [からあげ]

                        Google Japanにおじゃましてきました ご縁あって、Googleに行ってきました!Googleさんには、5年前に六本木のオフィスの勉強会に呼んでいただいて以来の訪問でした。渋谷のオフィスは初めての訪問になります。 色々お話をしました。なんとGeminiグッズをいただきました! やったー そして、噂のGoogleランチを楽しみました! Googleランチ ここは撮影大丈夫らしいです。 めちゃくちゃ眺めが良い場所にある食堂 景色がよいときは富士山が見えるらしいです おしゃれな壁 和室がある!茶道部があるらしいです ぜんぶ無料! カフェも楽しめます。 Geminiについて ちょうどGoogle I/O 2024直後ということもあり、LLM、Geminiの話で盛り上がりました。 Geminiといえば、発音が「ジェミニ」なのか「ジェミナイ」なのか問題があるのですが、中の人いわく、日本では「ジ

                          Google Japanを訪問してGeminiについて色々教えてもらいました - karaage. [からあげ]
                        • 【Phi-3-Medium】GPU2台構成でローカルLLMを動かす【Ubuntu24】

                          はじめに GMO NIKKOの吉岡です。 みなさん、生成AIは活用してますか? ChatGPTに始まり、Claude3やGeminiなど、実用的なAIがどんどん出てきてますね。 自分も使ってはきましたが、課金が気になってしまいます。 これではサービスに組み込むことは難しいですよね。 そのためローカルで動くLLMを追ってきましたが、今年に入って実用的な日本語を返すことができるモデルがいくつか出てきているので、サーバー構成からインストール方法、LLMの起動まで紹介しようと思います。 ローカルLLMを動かす上で一番重要なのはGPUのVRAMです。 LLMは7B、13B、70Bモデルが多いですが、量子化しない場合、必要なVRAM容量は動かすモデルの大体2倍なので、13Bモデルでは26GのVRAMが必要です。 NVIDIAのGPUを使ったCUDAが前提になっているのですが、一般向けでは24Gモデルが

                            【Phi-3-Medium】GPU2台構成でローカルLLMを動かす【Ubuntu24】
                          • プロンプトからREST APIを作るサービス『Hanabi.REST』の技術構成

                            Hanabi.REST AIにHonoJSのバックエンドを書かせて遊ぶ、Hanabi.RESTというサービスを一般公開します。それに際して、この記事では、Hanabiの紹介と簡単に技術スタックを解説していきます。 皆さんは、AIがプロンプトからUIを生成する、V0というサービスをご存じですか?僕はあれを見たときに、ある妄想が膨らみました。 「V0のAPI版があれば、プロンプトからWebアプリケーションを作れるやん!!」と。 当初はハッカソン用の小プロジェクトとして始めましたが、想定以上に面白い結果が得られたため、開発を継続することにしました。技術的な制約、様々な黒魔術による不安定な挙動、LLMの劣化など、数多くの壁を乗り越えながら、約半年をかけてようやくリリースに至りました!! 次のリンクから実際にAIが生成したTwitter風のAPIを試すことが出来ます! また、会員登録すれば誰でもAP

                              プロンプトからREST APIを作るサービス『Hanabi.REST』の技術構成
                            • LLMにまつわる"評価"を整理する

                              「LLMの評価」というフレーズを見て、どんなことを思い浮かべるでしょうか? おそらく大半はLLMモデル自体の評価のことを思い浮かべると思います。新しいモデルが出てきた時に𝕏で見かける「GPT-4o のMMLUベンチマークは89%!」みたいなアレ。 ですが、プロダクト開発にLLMを使っている人の間では、プロンプト等が十分な品質を出しているかの確認などにも評価という言葉を使っていることは多いのではないかと思います。 うまい具合に後者を区別するためにいい感じの呼び名を付与したい気持ちがあるのですが、英語圏での例を見てみるとシンプルに"Evals"と呼んでることもあれば Evaluating LLM System Evaluating LLM-based Applications などなど表現の仕方は様々になっています。 そしてそのプロダクト開発文脈での評価も、実態としてはオフライン評価やオンラ

                                LLMにまつわる"評価"を整理する
                              • AIによるコードレビュー "PR-Agent" を導入した効果と課題について

                                モノレポ環境にPR-Agentを導入した効果と課題について書いています。 導入結果としては、AIによるコードレビューが効果がある一方で、現時点では全てのレビューがAIに置き換えることはないことが分かりました。 この記事では、PR-Agentの具体的な効果、実際に感じた課題、課題に対する横断チームの対応策などを掘り下げています。

                                  AIによるコードレビュー "PR-Agent" を導入した効果と課題について
                                • 高効率のLLM学習手法ReFTを試してみる | 株式会社AI Shift

                                  こんにちは AIチームの戸田です 今回は先月スタンフォード大学が発表した新しいParameter-efficient fine-tuning(PEFT)のReFTを試してみたいと思います。 PEFT PEFTはLLMのような大規模な事前学習済みのニューラルネットワークのモデルを、効率的にfine-tuningする手法の総称です。モデル全体ではなく一部のパラメータだけを更新することで計算コストを大幅に削減できる上に、Full fine-tuning(モデル全体を学習)するのと同等の性能を達成することができると言われています。代表的なものにLow-Rank Adaptation(LoRA)が挙げられます。 ReFT Representation Finetuning (ReFT)は、LoRAとよく似たPEFT手法です。違いは、LoRAがモデルの重みを部分的に更新するのに対し、ReFTはモデルの

                                    高効率のLLM学習手法ReFTを試してみる | 株式会社AI Shift
                                  • RAGで文書を1トークンに圧縮する「xRAG」について

                                    株式会社ナレッジセンスは、生成AIやRAGを使ったプロダクトを、エンタープライズ向けに開発提供しているスタートアップです。 本記事では、「xRAG」という手法について、ざっくり理解します。xRAGとは、RAGシステムでLLMに投げるドキュメント(通常、数千文字ほどですよね。)を、1トークンに圧縮できるのでは?という手法です。 この記事は何 この記事は、RAGをする際にLLMに渡すドキュメントを1トークンまで圧縮できる手法「xRAG」の論文[1]について、日本語で簡単にまとめたものです。 今回も「そもそもRAGとは?」については、知っている前提で進みます。確認する場合は以下の記事もご参考下さい。 本題 ざっくりサマリー xRAGは、RAGで渡すコンテキストを極限まで圧縮する手法です。北京大学/Microsoftの研究者らによって2024年5月に提案されました。xRAGを使うメリットは、コンテ

                                      RAGで文書を1トークンに圧縮する「xRAG」について
                                    • RAGで人間の脳を再現。「HippoRAG」を理解する

                                      はじめまして。ナレッジセンスの門脇です。生成AIやRAGシステムを活用したサービスを開発しています。本記事では、RAGの性能を高める手法である「HippoRAG」について、ざっくり理解します。 この記事は何 この記事は、RAGの新手法として最近注目されている「HippoRAG」の論文[1]について、日本語で簡単にまとめたものです。 「そもそもRAGとは?」については、知っている前提で進みます。確認する場合は以下の記事もご参考下さい。 本題 ざっくりサマリー HippoRAGは、RAGの性能を高めるための新しい手法です。オハイオ州立大学の研究者らによって2024年5月に提案されました。HippoRAGを使うメリットは、複数の知識を組み合わせて回答する必要があるような、複雑な質問に強くなることです。HippoRAGが従来のRAGに比べて、複雑な質問に強い理由は、ナレッジグラフと、それを継続的に

                                        RAGで人間の脳を再現。「HippoRAG」を理解する
                                      • Stockmark-100b: ビジネスドメインに対応した1000億パラメータ規模の大規模言語モデルの事前学習 - Stockmark Tech Blog

                                        ストックマークは最近、ビジネスドメインに対応した1000億パラメータ規模の大規模言語モデルであるStockmark-100bの開発を行い、事前学習モデルと指示学習モデルをオープンソース(MITライセンス)として公開しました。この記事では事前学習における弊社の取り組みを紹介させていただきます。 プレスリリース: stockmark.co.jp 事前学習モデル: huggingface.co 指示学習モデル: huggingface.co 背景 2024年2月に国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)が実施する「ポスト5G情報通信システム基盤強化研究開発事業/ポスト5G情報通信システムの開発」に採択されました。これは、経済産業省の国内の生成AIの開発力強化を目的としたGENIACプロジェクトと連携して行われており、国内事業者に対して生成AIの開発に必要な計算資源の確保と利

                                          Stockmark-100b: ビジネスドメインに対応した1000億パラメータ規模の大規模言語モデルの事前学習 - Stockmark Tech Blog
                                        • LLMによるLLMの評価(LLM as a judge)の精度改善のための試行錯誤〜評価分割・モデル間比較

                                          LLM-as-a-Judgeとは LLMをアプリケーションに組み込んでいると、LLMの出力を評価する必要が出てきます。 LLMの「出力は確率的である(毎回異なる)」ためです。 また、LLMの出力はハルシネーションを含む可能性がありますし、間違いではないにしてもサービス提供者の意図とは違った出力をエンドユーザーに提示してしまうかもしれません。 LLMの出力を評価して、出力が適切でないことを判定できれば、ユーザーには表示しない、出力を再度行わせる(出力をLLMに修正させるのもよいでしょう)というようなことができるようになります。 ただし、LLMのすべての出力を人が評価していたのでは、手が回りません。 そこで、注目されているのが、LLM-as-a-Judgeと呼ばれるLLMにLLMの出力を評価させる手法(以後、単に評価と呼ぶ)です。 評価にLLMを使えば、出力をすぐに評価し、評価結果をアプリケー

                                            LLMによるLLMの評価(LLM as a judge)の精度改善のための試行錯誤〜評価分割・モデル間比較
                                          • ChatGPTに新しく搭載されたモデル:GPT-4oに、漫画とイラストのレビューをしてもらう話|Focus On The Interaction Magazine

                                            2024年5月13日、OpenAIが新しいモデルであるGPT-4oをリリースしました。 GPT-4oは、音声、視覚、テキストのリアルタイム処理が可能で、従来のモデルを大きく上回る性能を備えているとのこと。 発表したその日からChatGPT(有料版)で使えるようになっているということなので、早速自作の漫画やイラストのレビューをしてもらいました。 GPT-4oによる漫画のレビューそもそも漫画が読めるのかそもそも、GPT-4oは漫画が読めるのでしょうか。 試してみました。 拙著「光射すへや」よりこれはなんですか?GPT-4oの回答 この画像は漫画の一コマです。登場人物の会話が描かれています。以下にセリフを日本語で書き出します: 1. **最初のコマ** - 「たいしたもてなしができなくてごめんなさい」 - 「わたしこの街に出稼ぎに来ているの。ここは工場が用意してくれた部屋なのよ」 2. **二つ

                                              ChatGPTに新しく搭載されたモデル:GPT-4oに、漫画とイラストのレビューをしてもらう話|Focus On The Interaction Magazine
                                            • Gemini 1.5 Proを使って自分の強みを分析してみた - G-gen Tech Blog

                                              G-gen の神谷です。今回、Gemini 1.5 Pro を活用して、ビジネス心理テストであるストレングスファインダーで自身の強みを分析し、AI によるマネジメントやメンタリングが可能か、試してみました。本記事では、その取り組みの詳細をご紹介します。 ストレングスファインダーとは Strength Mentor Bot の作成 Gemini 1.5 Pro を使った実装 34の資質を JSON 形式で抽出 BigQuery への保存と分析 チームビルディングへの応用 ストレングスファインダーとは まず、ストレングスファインダーについて説明します。 ストレングスファインダーは、個人の強みを特定し、それを活かすための評価ツールです。クリフトンという心理学者によって開発され、現在はギャラップ社が提供しています。 34の資質(強み)を測定し、個人の弱みではなく強みに焦点を当てることで、より良いパ

                                                Gemini 1.5 Proを使って自分の強みを分析してみた - G-gen Tech Blog
                                              • 時系列基盤モデルの世界 / The World Of Time Series Foundation Models

                                                【LT大会#7】LLMの活用・機械学習・データ分析関係のいろいろな話題にふれようの資料です https://studyco.connpass.com/event/318107/

                                                  時系列基盤モデルの世界 / The World Of Time Series Foundation Models
                                                • 生成AI活用の取り組み - 日清食品ホールディングス

                                                  2024年3月14日 日清食品ホールディングス 執行役員 CIO グループ情報責任者 成田敏博 生成AI活用の取り組み 生成AI活用の発端 “NISSIN AI-chat powered by GPT-4 Turbo” 2 PC版 モバイル版 4月3日 クリエーターズ入社式(Web社内報抜粋) 3 4月3日(月) にホテルニューオータニ東京において「2023年度 日清食品グループクリエーターズ入社式・懇親会」を 執り行い、新入社員129名を新たに日清食品グループの仲間として迎え入れました。 入社式は、安藤宏基CEOからのメッセージで幕を開けました。 話題のChatGPTを用いて、「日清食品グループ入社式 ✕ 創業者精神 ✕ プロ経営者 ✕ コアスキル」のキーワード で生成したメッセージを披露いただき、テクノロジーを賢く駆使することで短期間に多くの学びを得てほしいと新入社員 を激励していただ

                                                  • ELYZA LLM for JP (デモ版)についての解説: (1) 70Bモデルの推論基盤

                                                    はじめに こんにちは。ELYZA のML Engineeringチームの堀江 (@eemon18)、村山 (@zakktakk)です。 本記事では、弊社が2024/03/11にリリースした下記のデモについて、どのように70Bという巨大なモデルをホスティングしているのかを解説します。 まだデモを直接触れたことがないという方はぜひ一度以下のURLからアクセスし、140GBを超えるバイナリファイルからなるモデルがどのくらい高速に動作するのかを確かめてみてください。 本記事ではまず弊社推論アーキテクチャについて説明し、その後70Bを運用する際の技術選定や高速化の工夫について解説します。 推論アーキテクチャ 弊社のLLMアプリケーションのアーキテクチャは、平易に表すと以下の図のように構成されています。LLMの推論処理には時間がかかるため、アプリケーションと推論インスタンスはメッセージキューを介して非

                                                      ELYZA LLM for JP (デモ版)についての解説: (1) 70Bモデルの推論基盤
                                                    • Microsoft、Windowsローカルで実行可能なSLM「Phi Silica」を全「Copilot+ PC」に搭載へ

                                                      米Microsoftは5月21日(現地時間)、開発者向け年次開発者会議「Microsoft Build 2024」の基調講演で、ローカルで実行可能なSLM(小規模言語モデル)「Phi Silica」(ファイシリカ)を発表した。前日発表した一連の「Copilot+ PC」に搭載していく。 Microsoftは「Phi-3」ファミリーでSLMを展開しているが、Phi SilicaはPhi-3の最小モデル「Phi-3-mini」(38億パラメータ)より小さい33億パラメータ。 Copilot+ PCのNPU(ニューラルプロセッシングユニット)に最適化されており、トークン生成はNPUのキャッシュを再利用してCPUで実行され、1秒当たり約27個のトークンを生成するという。これにより、閲覧中の画面を数秒ごとに保存しておき、後から横断検索できる「回顧」(Recall)機能などを高速に実行できる。 「回顧

                                                        Microsoft、Windowsローカルで実行可能なSLM「Phi Silica」を全「Copilot+ PC」に搭載へ
                                                      • Microsoft、マルチモーダルなSLM「Phi-3-vision」をプレビュー

                                                        米Microsoftは5月21日(現地時間)、開発者向け年次開発者会議「Microsoft Build 2024」の基調講演で、SLM(小規模言語モデル)「Phi-3」ファミリーの新メンバー「Phi-3-vision」(以下「vision」)を発表した。画像を解析するマルチモーダルなSLMだ。プレビュー版を利用可能。 SLMは単純なタスクで適切に実行できるように設計されており、リソースが限られる組織や端末上でローカルに実行する必要があるアプリに適した言語モデルだ。 visionは、描画はできないが、モバイル端末で利用可能なコンパクトさだ。42億パラメータモデルで、グラフや画像に関して質問すると、それについて説明してくれる。 Microsoftは「visionは画像とテキストを一緒に検討する必要があるタスクに最適だ」としている。多様なハードウェアで実行できるように最適化されており、開発者はモ

                                                          Microsoft、マルチモーダルなSLM「Phi-3-vision」をプレビュー
                                                        • LangGraphを用いたマルチエージェント

                                                          バリデーション付きフォームを宣言的に実装する / Declaratively Implementing a Form with Validation

                                                            LangGraphを用いたマルチエージェント
                                                          • PDFをLLMで解析する前処理のパーサーは何が良いのか?(pdfminer, PyMuPDF, pypdf, Unstructured) - Qiita

                                                            PDFをLLMで解析する前処理のパーサーは何が良いのか?(pdfminer, PyMuPDF, pypdf, Unstructured)PythonpdfminerPyMuPDFpyPDFUnstructured 現状の LLM は PDF ファイルを直接処理出来ない為、予めなんらかのプレーンテキスト形式に変換する必要があります。 (PDFを読める各チャットアプリも内部的には何らかの手段でプレーンテキスト形式に変換しているはずです) 変換を行ってくれるライブラリは複数存在する為、動作の違いを確認します。 抽出プログラム 抽出する対象のPDFファイルはBedrockユーザーガイドの日本語版を使います。

                                                              PDFをLLMで解析する前処理のパーサーは何が良いのか?(pdfminer, PyMuPDF, pypdf, Unstructured) - Qiita
                                                            • Gemini API で 動画の質問応答 を試す|npaka

                                                              「Gemini API」で動画の質問応答を試したので、まとめました。 1. Gemini 1.5 Pro の 動画データ入力「Gemini 1.5 Pro」で動画データでの入力が可能になりました。 サポートしているファイル形式は、次のとおりです。 ・MP4 : video/mp4 ・MPEG : video/mpeg ・MOV : video/mov ・AVI : video/avi ・FLV : video/x-flv ・MPG : video/mpg ・WebM : video/WebM ・WMV : video/WMV ・3GPP : video/3gpp 「File API」は動画を1フレーム/秒(FPS)でサンプリングしますが、最適な推論品質を提供するために変更される可能性があります。解像度や品質に関係なく、個々の画像は258トークンを使用します。 2. 動画の質問応答動画の質問

                                                                Gemini API で 動画の質問応答 を試す|npaka
                                                              • 【AI】ChatGPTとAPIを使って網羅的なPubMed検索できるGPT「PubMed Searcher」 | EARLの医学ノート

                                                                ■論文検索が可能なAIには,Consensus,Elicit,Perplexityなどがあり便利ではあるが,当然ながら完璧ではなく(漏れがでる),手動でのPubMed検索が一番網羅的で精度が高いことは変わらない.そこでPubMedというデータベースとその検索機能をChatGPTがダイレクトに操作してくれれば手動の精度を維持したまま網羅的検索を簡便に行える上に,その検索結果のファイル化,論文抽出,解説までChatGPTのユーザーインターフェース上で行うことができる. ■ChatGPTにはBingを用いたウェブアクセス機能が備わっているが,ChatGPTで論文検索を行う上では特定の論文検索エンジンを使用することをプロンプトで指示した方がよい.しかしながら,ChatGPTはPubMedのサイトをうまく読み込めず,以下のようなトラブルが発生しやすい.・PubMed検索結果を読み込めずハルシネーショ

                                                                  【AI】ChatGPTとAPIを使って網羅的なPubMed検索できるGPT「PubMed Searcher」 | EARLの医学ノート
                                                                • ローカルLLMの長文推論、メモリ使用量を節約する方法:KVキャッシュの量子化|AIサトシ

                                                                  大規模言語モデル(LLM)において、メモリ使用量の効率化は非常に重要です。特に長文処理を行う場合です。モデルに入力するコンテクストが長くなるほど、メモリ消費量も増加します。 プロンプトに入力する文字数(Token数)と必要メモリについて計算したメモ📝 精度との兼ね合いですが、長文扱うときは、mistral-v0.1圧倒的にコスパ良い pic.twitter.com/Nqn5SXDZ9u — AI𝕏サトシ⏩ (@AiXsatoshi) May 27, 2024 Mistral-7Bは、v0.1では、約4K tokensのSliding window attention(SWA)にて、コンテクスト長に消費されるメモリを低減しました。しかし、性能への影響からと考えますが、v0.2以降のアップデートで、SWAは排除されています。入力トークンを絞ることでメモリ容量を低減すれば、当然複雑性や表現力

                                                                    ローカルLLMの長文推論、メモリ使用量を節約する方法:KVキャッシュの量子化|AIサトシ
                                                                  • Chrome内蔵LLM Gemini Nanoを使ってみた

                                                                    はじめに Chrome 126からローカルで使えるLLM Gemini Nanoが使えるようになりました。 本記事では実際に使ってみようと思います。 前準備 まずはChrome Release ChannelsにてDev channelのChromeをインストールします。 インストールできたら下記機能を有効にします。 Enables optimization guide on device: Enabled BypassPerfRequirement Prompt API for Gemini Nano: Enabled 次に、LLMのダウンロードが必要のため、 chrome://components/にアクセスし、Optimization Guide On Device Modelのアップデート状況を確認します。 まだダウンロードされていない場合は、アップデートを確認ボタンでダウンロード

                                                                      Chrome内蔵LLM Gemini Nanoを使ってみた
                                                                    • LLM でブラウザを操作する WEB エージェントと周辺技術のざっくり紹介 - Algomatic Tech Blog

                                                                      こんにちは。Algomatic NEO(x) カンパニー機械学習エンジニアの宮脇(@catshun_)です。 本記事ではブラウザやモバイル画面を操作する LLM エージェントとその周辺技術について超ざっくりと紹介します。 社内に向けたキャッチアップ資料として作成しており、加筆修正する可能性がありますが、本記事を読んだ方の議論のネタ程度になってくれれば幸いです。 以前 AI ソフトウェアエンジニアについて紹介しているので、こちらもご覧いただけたら幸いです。 おことわり 本記事では対象とする研究棟の 詳細な解説は含みません。詳細は元の論文を参照ください。 不十分また不適切な言及内容がありましたらご指摘いただけますと幸いです。 プロダクト等の利用時は 必ずライセンスや利用規約を参照して下さい。 本記事の目次 Google I/O '24 での Gemini Nano × Android の発表

                                                                        LLM でブラウザを操作する WEB エージェントと周辺技術のざっくり紹介 - Algomatic Tech Blog
                                                                      • ChainlitとLangGraphを活用してAgentによる画像認識を実現する方法

                                                                        はじめに 5月13日にGPT-4oがOpenAIから発表されました。 この発表以降、Xでも多くの方がGPT-4oを試した感想を書いていました。 その中で画像認識の精度が上がって、かなり使える機能になってきているとの話があり、気になったのでまずはAPIから使えるようにしてみました。 OpenAIのモデルがVisionに対応したのはだいぶ前になりますが、 値段の割にあんまり精度が良くなさそうだったので、お恥ずかしながら今まで試したことがありませんでした。 なので今回は、 VisionのAPIドキュメントを一通り読む Chainlitのマルチモーダル機能の挙動を確認する 以前作成したChainlitとLangGraphのAgentアプリで画像認識をできるようにする という手順でやっていきたいと思います。 Vision APIのドキュメント確認 まずはVisionの使い方やコストについて、Open

                                                                          ChainlitとLangGraphを活用してAgentによる画像認識を実現する方法
                                                                        • ChatGPTをプログラミング言語開発に役立てる - kmizuの日記

                                                                          久し振りの更新です。巷では先日リリースされたばかりのGPT-4oの話題でもちきりですが、私も当日深夜2時のライブストリーミングを見てその後すぐにGPT-4oを試しています。性能に関する雑感としては 全般的にはGPT-4-Turboより頭が良い Claude 3 Opusと比較すると、お堅い & 無難な回答を返す傾向あり ただし、Opusよりハルシネーションは起きにくい印象 画像認識の性能が凄い 辺りでしょうか。特に最後の点は特筆すべきことで、GPT-4-Turboの画像認識よりだいぶ性能が向上したおかげで今までだとやりにくかったことも簡単にできるようになっています。その際たるものが先日バズった GPT-4oの画像認識力と理解力をもってすればいけるやろと思ってやってみたら実際いけた。 ペーパープロトタイピングから最初のHTML書き起こすのにかなり使えるのでは。 つーか指示そのものを画像の中に

                                                                            ChatGPTをプログラミング言語開発に役立てる - kmizuの日記
                                                                          • チーム立ち上げにAWSを活用したらClaudeさんに褒められた話

                                                                            2024年5月11日 JAWS-UG DE&IでのLT資料。

                                                                              チーム立ち上げにAWSを活用したらClaudeさんに褒められた話
                                                                            • GPT-4oを使って手書きの図からHTMLを出してもらった件

                                                                              驚異のGPT-4o はじめにこんにちは。ネクストビートでエンジニアをしている水島です。 今回は、5月14日(火)にOpenAI社によって発表された、新しいモデルGPT-4oについての紹介記事となります。 既にXなどをはじめ多方面でその驚くべき能力が知られ始めているGPT-4oですが、筆者も昨日に試してあまりの凄さに驚いてばかりです。ちなみに昨日意図せずバズったポストの著者でもあります。 GPT-4oはOpenAIが従来から提供してきたGPT-4-Turboの後継とも言えるモデルです。5月14日(火)のデモで発表された内容ではリアルタイムでの音声認識・応答などが目玉になっていましたが、こちらはまだ未公開です(数週間以内には提供されるようですが)。ですので、今回は即日リリースされたチャットボットとしてのGPT-4oの話になります。 GPT-4oについてはこの記事を読まれている皆さんも色々試され

                                                                                GPT-4oを使って手書きの図からHTMLを出してもらった件
                                                                              • RubyKaigi 2024 で RBS と LLM の話をしました

                                                                                Leaner 開発チームの黒曜(@kokuyouwind)です。 先日の RubyKaigi 2024で Let's use LLMs from Ruby 〜 Refine RBS types using LLM 〜 というタイトルで登壇させていただきました! 参加しての感想は別記事にするので、この記事では発表の概要や裏話などをまとめます。 動画アーカイブ 記事執筆時点では公開されてないので、公開されたら更新します。(去年はフルセッションの録画がアップロードされてるので、今年もそのうち出るはずです) 発表スライド 自分の発表資料は slides.com というサービスでスライドを作っています。 埋め込み表示ができませんが、上記リンクから開くと発表時のスライドがそのまま見られます。 一応 Speaker Deck にもアップロードしていますが、 PDF 出力時にフォントが化けてしまっているた

                                                                                  RubyKaigi 2024 で RBS と LLM の話をしました
                                                                                • CohereForAI/c4ai-command-r-plusを使ってうまくいったことが、量子化をしてぎりぎりローカルで動かせる規模のモデルでうまくいくのか試してみた - パソコン関連もろもろ

                                                                                  はじめにCohereForAI/c4ai-command-r-plusを使った記事はこちらです。 touch-sp.hatenablog.com HuggingChatを使って動かしました。 今回はいろいろなモデルをローカルで動かして同じことがうまくいくのか試してみました。 ローカルで動かせるモデルははるかに規模が小さく、また量子化されています。 Temperature, Repeat Penaltyなどのパラメーターは一切変更を加えていません。 モデルの実行はすべてOllama、検証はDifyを使いました。モデル〇がついているものがうまくいったもの。 ×がついているものがうまくいかなかったもの。〇 command-r:35b-v0.1 ollama pull command-r:35b-v0.1-q4_0 parameters: 35.0B quantization: Q4_0 mode