promptの人気記事 42件 - はてなブックマーク

1 - 40 件 / 42件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

promptの検索結果1 - 40 件 / 42件

GitHub Copilotと快適なユニットテストコード作成生活
- 137 users
- speakerdeck.com/bun913
- テクノロジー
- 2024/05/24
こちらで登壇させていただいた資料です。 https://trident-qa.connpass.com/event/314818/ ※ こちらは2024/05/23 時点の私の考えとなります。更新の予定はございませんのでご了承ください
ChatGPTの「メモリ（Memory）」機能の活用法 - Taste of Tech Topics
- 100 users
- acro-engineer.hatenablog.com
- テクノロジー
- 2024/06/07
こんにちは、暖かくなったと思ったら涼しくなったりと、なかなか洋服選びが難しい季節ですが皆さん体調お変わりないでしょうか。安部です。今回は、ChatGPTで少し前に一般公開された「メモリ（Memory）」機能をご紹介し、活用のためのTipsを共有できればと思います。機能の利用自体は何も意識せず簡単にできますが、意識的に活用しないと本領発揮してくれない機能だなという印象です。まずは、どのような機能なのか簡単に見ていきましょう。メモリ機能の概要メモリ機能が使えると何がうれしいのかメモリ機能の有効化実際に使ってみる活用Tips ショートカットコマンドの作成手順自動化前提知識の補完メモリの削除プライバシー/セキュリティについてまとめメモリ機能の概要「メモリ（Memory）」機能とは、文字通りChatGPTがこれまでやりとりした情報を記憶し、以降の応答時にそれらを踏まえた
- ChatGPT
- AI
- あとで読む
- 文章生成AI
- 人工知能
- OpenAI
- tips
Chrome の組み込み AI Gemini Nano を試してみる
- 83 users
- azukiazusa.dev
- テクノロジー
- 2024/06/11
インストールが完了したらアドレスバーに chrome://flags と入力して設定画面を開きます。以下の 2 つのフラグを設定します。 Enables optimization guide on device: Enabled BypassPerfRequirement Prompt API for Gemini Nano: Enabled また、あらかじめ Gemini Nano のモデルをダウンロードしておく必要があります。アドレスバーに chrome://components/ と入力して Optimization Guide On Device Model の「アップデートを確認」をクリックします。 Gemini Nano を使ってみるそれでは、Gemini Nano を使ってみましょう。以下のコードをコンソールに貼り付けて実行します。 const canCreate = aw
- AI
- あとで読む
- chrome
- browser
ChatGPTプログラミングのすすめ
- 78 users
- zenn.dev/nobucshirai
- テクノロジー
- 2024/06/10
ChatGPTなどの大規模言語モデル (Large Language Model; LLM) にプログラミングやリファクタリングをさせる場合、目的に合ったものが作られているかを何らかの方法で検証する必要がある。プログラムの正しさを完全に保証する方法はないが、ある程度の正しさを継続して担保するための方法を探ってみたので以下にまとめた。ポイントは、ChatGPTの生成したプログラムの検証にもやはりChatGPTの力を借りることである。実行可能性と入出力のチェックプログラムを生成するタスクである場合、いつでも「実行できるか？」というチェックが可能である。これは自然言語の生成と大きく異なる点だろう。実行可能性を確かめることは最低限のチェック項目になる。エラーが出力された場合、自力で修正するか、もしくは、エラーの内容をChatGPTに提示して修正を依頼し、再度実行可能かを確かめる。入力・
- ChatGPT
- あとで読む
- prompt
- プログラミング
- ai
- Python
- programming
Zodスキーマでプロンプト生成を行い構造化データを自由自在に扱えて、LLMプロダクト開発が圧倒的に効率化した話 - Algomatic Tech Blog
- 65 users
- tech.algomatic.jp
- テクノロジー
- 2024/05/23
最近はAIエンジニアを名乗ってるerukitiです。フロントエンドもバックエンドも、LLMを触るあれこれもやってるので、「AIエンジニア」くらいを名乗るとちょうどよさそうだなと思ってます。いずれLLM自体の開発なんかもやってるかもしれません。 LLMプロダクトを開発していると、構造化データを作りたいのに、Anthropic ClaudeのAPIにはJSONモードが無いことや、なんならJSONモードやfunction callingを使っても、データが正しい形式に従ってることは保証しがたい、みたいな自体に遭遇することがあります。 JSONが出力できたとしても、構造化データをうまく吐き出させるのは難しいものです。文字列を出力させたいけど、複数あるときは、配列なのか、それともカンマ区切りなのか？項目がオプショナルの場合はどうするか？項目が存在しない、空文字や 0 や undefined や nu
- LLM
- TypeScript
- JSON
- AI
- Prompt
- あとで読む
- 開発
UIUXデザイナーが「GPT4o」を活用してウェブサイトをつくってみた
- 62 users
- creatorzine.jp
- テクノロジー
- 2024/06/07
デジタルプロダクション「factory4」でアプリやさまざまなIoTプロジェクトのUIUXデザインを手がける新谷友樹さんが、UIやUXにまつわるトピックについて解説する本連載。今回のテーマは「GPT4oを活用したウェブサイトづくり」です。こんにちは！株式会社Cosmowayが組織するデジタルプロダクション「factory4」のUIUXデザイナー新谷です。今回は先日OpenAIが発表した新たなAIモデル「GPT-4o」を使ってウェブサイト（LP）を作成してみました。GPT-4oのパフォーマンスを知ること、そしてデザイナーが生成AIとどう関わっていくべきかを探るきっかけにすることが、今回の目的です。前提として「GPT-4o」がゼロベースでウェブページを作成することに向いているツールではないと思いますが、チュートリアルの要素と今後の可能性を知るためにあえて取り組んでみました。 GPT-4o
プロンプトエンジニアリングを最適化する為のフレームワークSAMMOを実際に使ってみた - Taste of Tech Topics
- 54 users
- acro-engineer.hatenablog.com
- テクノロジー
- 2024/05/21
いつの間にか春も過ぎ去りすっかり夏模様の今日この頃皆さんいかがお過ごしでしょうか？菅野です。生成AIの重要性が高まり、生成AIで利用できるテキスト量が長くなるにつれてにつれて、プロンプトエンジニアリングの重要性が高まってきました。プロンプトエンジニアリングとは、そのプロンプトにどのような命令、事前情報等を入力すると、より適した応答が返ってくるかを設計する技術です。そんなプロンプトエンジニアリングを最適化する為のPythonライブラリ、SAMMOがMicrosoft社から2024年4月18日にリリースされたので紹介していきます。 www.microsoft.com SAMMOとは？ Structure-Aware Multi-objective Metaprompt Optimizationの頭文字をとったフレームワークです。元来、プロンプトエンジニアリングでは、エンジニアが、様々な
- prompt
- 生成AI
- データ
- API
- python
- あとで読む
AWS Infrastructure as Code の新機能を総まとめ！ 2023.1-2024.5
- 49 users
- speakerdeck.com/konokenj
- テクノロジー
- 2024/05/23
2023年1月から2024年5月までの AWS Infrastructure as Code 関連のアップデートを解説しています。JAWS-UG CDK支部 #14 でお話させていただきました。 https://jawsug-cdk.connpass.com/event/317935/
- aws
- IaC
- あとで読む
- devops
GPT から Claude 3 への移行ガイド - Gunosyデータ分析ブログ
- 46 users
- data.gunosy.io
- テクノロジー
- 2024/05/27
こんにちは。Gunosy R&D チームの森田です。 GPT-4o が発表されたこのタイミングで！？という向きもあるかとおもいますが、LLMの世界は一ヶ月もすればまったく違う状況になっているのが常なので、いずれは GPT-4o を超えるモデルが発表される時も来るでしょう。 Claude 3 Opus は一時期 GPT-4 のスコアを超え、 Claude 3 Haiku では GPT-3.5-Turbo のトークン当たりで約半額とコストパフォーマンスに優れていますし、 AWS Bedrock 経由で安定して利用できることもあり、Claude 3 は乗り換え先の候補の一つです。 Claude 3 への乗り換えには、点々とつまづくポイントがあるので、引っかかった所と回避方法をご紹介します。今回紹介する内容はClaude 3に限らないものもありますので、ローカルLLM や他のLLM への乗り換え
- claude3
- LLM
最近は意図的にGitHub Copilotを無効にすることがある
- 44 users
- zenn.dev/sosukesuzuki
- テクノロジー
- 2024/05/27
別にみんなそうするべきとは全く思わないのだけど、僕は最近GitHub Copilotを意図的に無効にすることがあるので、そのへんについて雑に書いておく。あらかじめ言っておくが、僕はGitHub Copilotを有効にすることもある。この記事もGitHub Copilotおよびそのユーザーを批判する意図は全くない。 GitHub Copilot が便利な場面僕がGitHub Copilotを使い始めて少なくとも一年以上は経ってる。自分が書こうと思っているコードに近いものが簡単に生成されていくことに最初は感動したし、便利な場面がはたくさんある。具体的に便利な場面を思い返してみる。僕は仕事ではNext.jsでフロントエンドを書いたり、NestJSでバックエンドを書いたりしているのだが、その用途では便利だった。僕は自分が関わっているプロジェクトのReactやNode.jsの書き方はある程度
- oss
- プログラム
Google Japanを訪問してGeminiについて色々教えてもらいました - karaage. [からあげ]
- 33 users
- karaage.hatenadiary.jp
- テクノロジー
- 2024/05/22
Google Japanにおじゃましてきましたご縁あって、Googleに行ってきました！Googleさんには、5年前に六本木のオフィスの勉強会に呼んでいただいて以来の訪問でした。渋谷のオフィスは初めての訪問になります。色々お話をしました。なんとGeminiグッズをいただきました！やったーそして、噂のGoogleランチを楽しみました！ Googleランチここは撮影大丈夫らしいです。めちゃくちゃ眺めが良い場所にある食堂景色がよいときは富士山が見えるらしいですおしゃれな壁和室がある！茶道部があるらしいですぜんぶ無料！カフェも楽しめます。 GeminiについてちょうどGoogle I/O 2024直後ということもあり、LLM、Geminiの話で盛り上がりました。 Geminiといえば、発音が「ジェミニ」なのか「ジェミナイ」なのか問題があるのですが、中の人いわく、日本では「ジ
【Phi-3-Medium】GPU2台構成でローカルLLMを動かす【Ubuntu24】
- 31 users
- techblog.gmo-ap.jp
- テクノロジー
- 2024/06/07
はじめに GMO NIKKOの吉岡です。みなさん、生成AIは活用してますか？ ChatGPTに始まり、Claude3やGeminiなど、実用的なAIがどんどん出てきてますね。自分も使ってはきましたが、課金が気になってしまいます。これではサービスに組み込むことは難しいですよね。そのためローカルで動くLLMを追ってきましたが、今年に入って実用的な日本語を返すことができるモデルがいくつか出てきているので、サーバー構成からインストール方法、LLMの起動まで紹介しようと思います。ローカルLLMを動かす上で一番重要なのはGPUのVRAMです。 LLMは7B、13B、70Bモデルが多いですが、量子化しない場合、必要なVRAM容量は動かすモデルの大体2倍なので、13Bモデルでは26GのVRAMが必要です。 NVIDIAのGPUを使ったCUDAが前提になっているのですが、一般向けでは24Gモデルが
プロンプトからREST APIを作るサービス『Hanabi.REST』の技術構成
- 30 users
- zenn.dev/hanabi_rest
- テクノロジー
- 2024/05/28
Hanabi.REST AIにHonoJSのバックエンドを書かせて遊ぶ、Hanabi.RESTというサービスを一般公開します。それに際して、この記事では、Hanabiの紹介と簡単に技術スタックを解説していきます。皆さんは、AIがプロンプトからUIを生成する、V0というサービスをご存じですか？僕はあれを見たときに、ある妄想が膨らみました。「V0のAPI版があれば、プロンプトからWebアプリケーションを作れるやん！！」と。当初はハッカソン用の小プロジェクトとして始めましたが、想定以上に面白い結果が得られたため、開発を継続することにしました。技術的な制約、様々な黒魔術による不安定な挙動、LLMの劣化など、数多くの壁を乗り越えながら、約半年をかけてようやくリリースに至りました！！次のリンクから実際にAIが生成したTwitter風のAPIを試すことが出来ます！また、会員登録すれば誰でもAP
LLMにまつわる"評価"を整理する
- 30 users
- zenn.dev/seya
- テクノロジー
- 2024/06/06
「LLMの評価」というフレーズを見て、どんなことを思い浮かべるでしょうか？おそらく大半はLLMモデル自体の評価のことを思い浮かべると思います。新しいモデルが出てきた時に𝕏で見かける「GPT-4o のMMLUベンチマークは89%!」みたいなアレ。ですが、プロダクト開発にLLMを使っている人の間では、プロンプト等が十分な品質を出しているかの確認などにも評価という言葉を使っていることは多いのではないかと思います。うまい具合に後者を区別するためにいい感じの呼び名を付与したい気持ちがあるのですが、英語圏での例を見てみるとシンプルに"Evals"と呼んでることもあれば Evaluating LLM System Evaluating LLM-based Applications などなど表現の仕方は様々になっています。そしてそのプロダクト開発文脈での評価も、実態としてはオフライン評価やオンラ
AIによるコードレビュー "PR-Agent" を導入した効果と課題について
- 28 users
- inside.dmm.com
- テクノロジー
- 2024/05/29
モノレポ環境にPR-Agentを導入した効果と課題について書いています。導入結果としては、AIによるコードレビューが効果がある一方で、現時点では全てのレビューがAIに置き換えることはないことが分かりました。この記事では、PR-Agentの具体的な効果、実際に感じた課題、課題に対する横断チームの対応策などを掘り下げています。
- prompt
- 運用
- プログラム
- 機械学習
- あとで読む
- AI
高効率のLLM学習手法ReFTを試してみる | 株式会社AI Shift
- 26 users
- www.ai-shift.co.jp
- テクノロジー
- 2024/05/17
こんにちは AIチームの戸田です今回は先月スタンフォード大学が発表した新しいParameter-efficient fine-tuning（PEFT）のReFTを試してみたいと思います。 PEFT PEFTはLLMのような大規模な事前学習済みのニューラルネットワークのモデルを、効率的にfine-tuningする手法の総称です。モデル全体ではなく一部のパラメータだけを更新することで計算コストを大幅に削減できる上に、Full fine-tuning(モデル全体を学習)するのと同等の性能を達成することができると言われています。代表的なものにLow-Rank Adaptation（LoRA）が挙げられます。 ReFT Representation Finetuning (ReFT)は、LoRAとよく似たPEFT手法です。違いは、LoRAがモデルの重みを部分的に更新するのに対し、ReFTはモデルの
- あとで読む
RAGで文書を1トークンに圧縮する「xRAG」について
- 26 users
- zenn.dev/knowledgesense
- テクノロジー
- 2024/05/28
株式会社ナレッジセンスは、生成AIやRAGを使ったプロダクトを、エンタープライズ向けに開発提供しているスタートアップです。本記事では、「xRAG」という手法について、ざっくり理解します。xRAGとは、RAGシステムでLLMに投げるドキュメント（通常、数千文字ほどですよね。）を、1トークンに圧縮できるのでは？という手法です。この記事は何この記事は、RAGをする際にLLMに渡すドキュメントを1トークンまで圧縮できる手法「xRAG」の論文[1]について、日本語で簡単にまとめたものです。今回も「そもそもRAGとは？」については、知っている前提で進みます。確認する場合は以下の記事もご参考下さい。本題ざっくりサマリー xRAGは、RAGで渡すコンテキストを極限まで圧縮する手法です。北京大学/Microsoftの研究者らによって2024年5月に提案されました。xRAGを使うメリットは、コンテ
- 論文
- search
- AI
- あとで読む
RAGで人間の脳を再現。「HippoRAG」を理解する
- 18 users
- zenn.dev/knowledgesense
- テクノロジー
- 2024/06/12
はじめまして。ナレッジセンスの門脇です。生成AIやRAGシステムを活用したサービスを開発しています。本記事では、RAGの性能を高める手法である「HippoRAG」について、ざっくり理解します。この記事は何この記事は、RAGの新手法として最近注目されている「HippoRAG」の論文[1]について、日本語で簡単にまとめたものです。「そもそもRAGとは？」については、知っている前提で進みます。確認する場合は以下の記事もご参考下さい。本題ざっくりサマリー HippoRAGは、RAGの性能を高めるための新しい手法です。オハイオ州立大学の研究者らによって2024年5月に提案されました。HippoRAGを使うメリットは、複数の知識を組み合わせて回答する必要があるような、複雑な質問に強くなることです。HippoRAGが従来のRAGに比べて、複雑な質問に強い理由は、ナレッジグラフと、それを継続的に
Stockmark-100b: ビジネスドメインに対応した1000億パラメータ規模の大規模言語モデルの事前学習 - Stockmark Tech Blog
- 16 users
- stockmark-tech.hatenablog.com
- テクノロジー
- 2024/06/05
ストックマークは最近、ビジネスドメインに対応した1000億パラメータ規模の大規模言語モデルであるStockmark-100bの開発を行い、事前学習モデルと指示学習モデルをオープンソース（MITライセンス）として公開しました。この記事では事前学習における弊社の取り組みを紹介させていただきます。プレスリリース: stockmark.co.jp 事前学習モデル： huggingface.co 指示学習モデル： huggingface.co 背景 2024年2月に国立研究開発法人新エネルギー・産業技術総合開発機構（NEDO）が実施する「ポスト５Ｇ情報通信システム基盤強化研究開発事業／ポスト５Ｇ情報通信システムの開発」に採択されました。これは、経済産業省の国内の生成AIの開発力強化を目的としたGENIACプロジェクトと連携して行われており、国内事業者に対して生成AIの開発に必要な計算資源の確保と利
LLMによるLLMの評価（LLM as a judge）の精度改善のための試行錯誤〜評価分割・モデル間比較
- 16 users
- zenn.dev/pharmax
- テクノロジー
- 2024/06/06
LLM-as-a-Judgeとは LLMをアプリケーションに組み込んでいると、LLMの出力を評価する必要が出てきます。 LLMの「出力は確率的である（毎回異なる）」ためです。また、LLMの出力はハルシネーションを含む可能性がありますし、間違いではないにしてもサービス提供者の意図とは違った出力をエンドユーザーに提示してしまうかもしれません。 LLMの出力を評価して、出力が適切でないことを判定できれば、ユーザーには表示しない、出力を再度行わせる（出力をLLMに修正させるのもよいでしょう）というようなことができるようになります。ただし、LLMのすべての出力を人が評価していたのでは、手が回りません。そこで、注目されているのが、LLM-as-a-Judgeと呼ばれるLLMにLLMの出力を評価させる手法（以後、単に評価と呼ぶ）です。評価にLLMを使えば、出力をすぐに評価し、評価結果をアプリケー
- あとで読む
ChatGPTに新しく搭載されたモデル:GPT-4oに、漫画とイラストのレビューをしてもらう話｜Focus On The Interaction Magazine
- 12 users
- note.com/msfmnkns
- アニメとゲーム
- 2024/05/26
2024年5月13日、OpenAIが新しいモデルであるGPT-4oをリリースしました。 GPT-4oは、音声、視覚、テキストのリアルタイム処理が可能で、従来のモデルを大きく上回る性能を備えているとのこと。発表したその日からChatGPT(有料版)で使えるようになっているということなので、早速自作の漫画やイラストのレビューをしてもらいました。 GPT-4oによる漫画のレビューそもそも漫画が読めるのかそもそも、GPT-4oは漫画が読めるのでしょうか。試してみました。拙著「光射すへや」よりこれはなんですか？GPT-4oの回答この画像は漫画の一コマです。登場人物の会話が描かれています。以下にセリフを日本語で書き出します： 1. **最初のコマ** - 「たいしたもてなしができなくてごめんなさい」 - 「わたしこの街に出稼ぎに来ているの。ここは工場が用意してくれた部屋なのよ」 2. **二つ
Gemini 1.5 Proを使って自分の強みを分析してみた - G-gen Tech Blog
- 10 users
- blog.g-gen.co.jp
- テクノロジー
- 2024/05/29
G-gen の神谷です。今回、Gemini 1.5 Pro を活用して、ビジネス心理テストであるストレングスファインダーで自身の強みを分析し、AI によるマネジメントやメンタリングが可能か、試してみました。本記事では、その取り組みの詳細をご紹介します。ストレングスファインダーとは Strength Mentor Bot の作成 Gemini 1.5 Pro を使った実装 34の資質を JSON 形式で抽出 BigQuery への保存と分析チームビルディングへの応用ストレングスファインダーとはまず、ストレングスファインダーについて説明します。ストレングスファインダーは、個人の強みを特定し、それを活かすための評価ツールです。クリフトンという心理学者によって開発され、現在はギャラップ社が提供しています。 34の資質（強み）を測定し、個人の弱みではなく強みに焦点を当てることで、より良いパ
- python
- あとで読む
時系列基盤モデルの世界 / The World Of Time Series Foundation Models
- 10 users
- speakerdeck.com/rkaga
- テクノロジー
- 2024/06/06
【LT大会#7】LLMの活用・機械学習・データ分析関係のいろいろな話題にふれようの資料です https://studyco.connpass.com/event/318107/
生成AI活用の取り組み - 日清食品ホールディングス
- 9 users
- www.nissin.com
- テクノロジー
- 2024/05/31
2024年3月14日日清食品ホールディングス執行役員 CIO グループ情報責任者成田敏博生成AI活用の取り組み生成AI活用の発端 “NISSIN AI-chat powered by GPT-4 Turbo” 2 PC版モバイル版 4月3日クリエーターズ入社式（Web社内報抜粋） 3 4月3日(月) にホテルニューオータニ東京において「2023年度日清食品グループクリエーターズ入社式・懇親会」を執り行い、新入社員129名を新たに日清食品グループの仲間として迎え入れました。入社式は、安藤宏基CEOからのメッセージで幕を開けました。話題のChatGPTを用いて、「日清食品グループ入社式 ✕ 創業者精神 ✕ プロ経営者 ✕ コアスキル」のキーワードで生成したメッセージを披露いただき、テクノロジーを賢く駆使することで短期間に多くの学びを得てほしいと新入社員を激励していただ
- 暮らし
- マーケティング
ELYZA LLM for JP (デモ版)についての解説: (1) 70Bモデルの推論基盤
- 9 users
- zenn.dev/elyza
- テクノロジー
- 2024/05/30
はじめにこんにちは。ELYZA のML Engineeringチームの堀江 (@eemon18)、村山 (@zakktakk)です。本記事では、弊社が2024/03/11にリリースした下記のデモについて、どのように70Bという巨大なモデルをホスティングしているのかを解説します。まだデモを直接触れたことがないという方はぜひ一度以下のURLからアクセスし、140GBを超えるバイナリファイルからなるモデルがどのくらい高速に動作するのかを確かめてみてください。本記事ではまず弊社推論アーキテクチャについて説明し、その後70Bを運用する際の技術選定や高速化の工夫について解説します。推論アーキテクチャ弊社のLLMアプリケーションのアーキテクチャは、平易に表すと以下の図のように構成されています。LLMの推論処理には時間がかかるため、アプリケーションと推論インスタンスはメッセージキューを介して非
Microsoft、Windowsローカルで実行可能なSLM「Phi Silica」を全「Copilot+ PC」に搭載へ
- 9 users
- www.itmedia.co.jp
- テクノロジー
- 2024/05/22
米Microsoftは5月21日（現地時間）、開発者向け年次開発者会議「Microsoft Build 2024」の基調講演で、ローカルで実行可能なSLM（小規模言語モデル）「Phi Silica」（ファイシリカ）を発表した。前日発表した一連の「Copilot+ PC」に搭載していく。 Microsoftは「Phi-3」ファミリーでSLMを展開しているが、Phi SilicaはPhi-3の最小モデル「Phi-3-mini」（38億パラメータ）より小さい33億パラメータ。 Copilot+ PCのNPU（ニューラルプロセッシングユニット）に最適化されており、トークン生成はNPUのキャッシュを再利用してCPUで実行され、1秒当たり約27個のトークンを生成するという。これにより、閲覧中の画面を数秒ごとに保存しておき、後から横断検索できる「回顧」（Recall）機能などを高速に実行できる。「回顧
- AI
- あとで読む
Microsoft、マルチモーダルなSLM「Phi-3-vision」をプレビュー
- 8 users
- www.itmedia.co.jp
- テクノロジー
- 2024/05/22
米Microsoftは5月21日（現地時間）、開発者向け年次開発者会議「Microsoft Build 2024」の基調講演で、SLM（小規模言語モデル）「Phi-3」ファミリーの新メンバー「Phi-3-vision」（以下「vision」）を発表した。画像を解析するマルチモーダルなSLMだ。プレビュー版を利用可能。 SLMは単純なタスクで適切に実行できるように設計されており、リソースが限られる組織や端末上でローカルに実行する必要があるアプリに適した言語モデルだ。 visionは、描画はできないが、モバイル端末で利用可能なコンパクトさだ。42億パラメータモデルで、グラフや画像に関して質問すると、それについて説明してくれる。 Microsoftは「visionは画像とテキストを一緒に検討する必要があるタスクに最適だ」としている。多様なハードウェアで実行できるように最適化されており、開発者はモ
- Microsoft
LangGraphを用いたマルチエージェント
- 7 users
- speakerdeck.com/yuto2000
- テクノロジー
- 2024/06/07
バリデーション付きフォームを宣言的に実装する / Declaratively Implementing a Form with Validation
- 人工知能
- あとで読む
PDFをLLMで解析する前処理のパーサーは何が良いのか？（pdfminer, PyMuPDF, pypdf, Unstructured） - Qiita
- 6 users
- qiita.com/cyberBOSE
- テクノロジー
- 2024/05/27
PDFをLLMで解析する前処理のパーサーは何が良いのか？（pdfminer, PyMuPDF, pypdf, Unstructured）PythonpdfminerPyMuPDFpyPDFUnstructured 現状の LLM は PDF ファイルを直接処理出来ない為、予めなんらかのプレーンテキスト形式に変換する必要があります。（PDFを読める各チャットアプリも内部的には何らかの手段でプレーンテキスト形式に変換しているはずです）変換を行ってくれるライブラリは複数存在する為、動作の違いを確認します。抽出プログラム抽出する対象のPDFファイルはBedrockユーザーガイドの日本語版を使います。
- python
- あとで読む
Gemini API で動画の質問応答を試す｜npaka
- 6 users
- note.com/npaka
- テクノロジー
- 2024/05/27
「Gemini API」で動画の質問応答を試したので、まとめました。 1. Gemini 1.5 Pro の動画データ入力「Gemini 1.5 Pro」で動画データでの入力が可能になりました。サポートしているファイル形式は、次のとおりです。・MP4 : video/mp4 ・MPEG : video/mpeg ・MOV : video/mov ・AVI : video/avi ・FLV : video/x-flv ・MPG : video/mpg ・WebM : video/WebM ・WMV : video/WMV ・3GPP : video/3gpp 「File API」は動画を1フレーム/秒（FPS）でサンプリングしますが、最適な推論品質を提供するために変更される可能性があります。解像度や品質に関係なく、個々の画像は258トークンを使用します。 2. 動画の質問応答動画の質問
- 動画
- あとで読む
【AI】ChatGPTとAPIを使って網羅的なPubMed検索できるGPT「PubMed Searcher」 | EARLの医学ノート
- 5 users
- drmagician.exblog.jp
- テクノロジー
- 2024/05/18
■論文検索が可能なAIには，Consensus，Elicit，Perplexityなどがあり便利ではあるが，当然ながら完璧ではなく（漏れがでる），手動でのPubMed検索が一番網羅的で精度が高いことは変わらない．そこでPubMedというデータベースとその検索機能をChatGPTがダイレクトに操作してくれれば手動の精度を維持したまま網羅的検索を簡便に行える上に，その検索結果のファイル化，論文抽出，解説までChatGPTのユーザーインターフェース上で行うことができる． ■ChatGPTにはBingを用いたウェブアクセス機能が備わっているが，ChatGPTで論文検索を行う上では特定の論文検索エンジンを使用することをプロンプトで指示した方がよい．しかしながら，ChatGPTはPubMedのサイトをうまく読み込めず，以下のようなトラブルが発生しやすい．・PubMed検索結果を読み込めずハルシネーショ
- 研究
ローカルLLMの長文推論、メモリ使用量を節約する方法:KVキャッシュの量子化｜AIサトシ
- 5 users
- note.com/aisatoshi
- テクノロジー
- 2024/05/28
大規模言語モデル（LLM）において、メモリ使用量の効率化は非常に重要です。特に長文処理を行う場合です。モデルに入力するコンテクストが長くなるほど、メモリ消費量も増加します。プロンプトに入力する文字数（Token数）と必要メモリについて計算したメモ📝 精度との兼ね合いですが、長文扱うときは、mistral-v0.1圧倒的にコスパ良い pic.twitter.com/Nqn5SXDZ9u — AI𝕏サトシ⏩ (@AiXsatoshi) May 27, 2024 Mistral-7Bは、v0.1では、約4K tokensのSliding window attention(SWA)にて、コンテクスト長に消費されるメモリを低減しました。しかし、性能への影響からと考えますが、v0.2以降のアップデートで、SWAは排除されています。入力トークンを絞ることでメモリ容量を低減すれば、当然複雑性や表現力
- performance
Chrome内蔵LLM Gemini Nanoを使ってみた
- 5 users
- zenn.dev/the_exile
- テクノロジー
- 2024/06/09
はじめに Chrome 126からローカルで使えるLLM Gemini Nanoが使えるようになりました。本記事では実際に使ってみようと思います。前準備まずはChrome Release ChannelsにてDev channelのChromeをインストールします。インストールできたら下記機能を有効にします。 Enables optimization guide on device: Enabled BypassPerfRequirement Prompt API for Gemini Nano: Enabled 次に、LLMのダウンロードが必要のため、 chrome://components/にアクセスし、Optimization Guide On Device Modelのアップデート状況を確認します。まだダウンロードされていない場合は、アップデートを確認ボタンでダウンロード
- browser
LLM でブラウザを操作する WEB エージェントと周辺技術のざっくり紹介 - Algomatic Tech Blog
- 5 users
- tech.algomatic.jp
- テクノロジー
- 2024/05/28
こんにちは。Algomatic NEO(x) カンパニー機械学習エンジニアの宮脇（@catshun_）です。本記事ではブラウザやモバイル画面を操作する LLM エージェントとその周辺技術について超ざっくりと紹介します。社内に向けたキャッチアップ資料として作成しており、加筆修正する可能性がありますが、本記事を読んだ方の議論のネタ程度になってくれれば幸いです。以前 AI ソフトウェアエンジニアについて紹介しているので、こちらもご覧いただけたら幸いです。おことわり本記事では対象とする研究棟の詳細な解説は含みません。詳細は元の論文を参照ください。不十分また不適切な言及内容がありましたらご指摘いただけますと幸いです。プロダクト等の利用時は必ずライセンスや利用規約を参照して下さい。本記事の目次 Google I/O '24 での Gemini Nano × Android の発表
- browser
- mobile
ChainlitとLangGraphを活用してAgentによる画像認識を実現する方法
- 4 users
- zenn.dev/0msys
- テクノロジー
- 2024/05/28
はじめに 5月13日にGPT-4oがOpenAIから発表されました。この発表以降、Xでも多くの方がGPT-4oを試した感想を書いていました。その中で画像認識の精度が上がって、かなり使える機能になってきているとの話があり、気になったのでまずはAPIから使えるようにしてみました。 OpenAIのモデルがVisionに対応したのはだいぶ前になりますが、値段の割にあんまり精度が良くなさそうだったので、お恥ずかしながら今まで試したことがありませんでした。なので今回は、 VisionのAPIドキュメントを一通り読む Chainlitのマルチモーダル機能の挙動を確認する以前作成したChainlitとLangGraphのAgentアプリで画像認識をできるようにするという手順でやっていきたいと思います。 Vision APIのドキュメント確認まずはVisionの使い方やコストについて、Open
- Python
ChatGPTをプログラミング言語開発に役立てる - kmizuの日記
- 4 users
- kmizu.hatenablog.com
- テクノロジー
- 2024/05/17
久し振りの更新です。巷では先日リリースされたばかりのGPT-4oの話題でもちきりですが、私も当日深夜2時のライブストリーミングを見てその後すぐにGPT-4oを試しています。性能に関する雑感としては全般的にはGPT-4-Turboより頭が良い Claude 3 Opusと比較すると、お堅い & 無難な回答を返す傾向ありただし、Opusよりハルシネーションは起きにくい印象画像認識の性能が凄い辺りでしょうか。特に最後の点は特筆すべきことで、GPT-4-Turboの画像認識よりだいぶ性能が向上したおかげで今までだとやりにくかったことも簡単にできるようになっています。その際たるものが先日バズった GPT-4oの画像認識力と理解力をもってすればいけるやろと思ってやってみたら実際いけた。ペーパープロトタイピングから最初のHTML書き起こすのにかなり使えるのでは。つーか指示そのものを画像の中に
チーム立ち上げにAWSを活用したらClaudeさんに褒められた話
- 4 users
- speakerdeck.com/mkdev10
- テクノロジー
- 2024/05/13
2024年5月11日 JAWS-UG DE&IでのLT資料。
- aws
GPT-4oを使って手書きの図からHTMLを出してもらった件
- 3 users
- medium.com
- テクノロジー
- 2024/05/15
驚異のGPT-4o はじめにこんにちは。ネクストビートでエンジニアをしている水島です。今回は、5月14日（火）にOpenAI社によって発表された、新しいモデルGPT-4oについての紹介記事となります。既にXなどをはじめ多方面でその驚くべき能力が知られ始めているGPT-4oですが、筆者も昨日に試してあまりの凄さに驚いてばかりです。ちなみに昨日意図せずバズったポストの著者でもあります。 GPT-4oはOpenAIが従来から提供してきたGPT-4-Turboの後継とも言えるモデルです。5月14日（火）のデモで発表された内容ではリアルタイムでの音声認識・応答などが目玉になっていましたが、こちらはまだ未公開です（数週間以内には提供されるようですが）。ですので、今回は即日リリースされたチャットボットとしてのGPT-4oの話になります。 GPT-4oについてはこの記事を読まれている皆さんも色々試され
RubyKaigi 2024 で RBS と LLM の話をしました
- 3 users
- zenn.dev/leaner_dev
- テクノロジー
- 2024/05/21
Leaner 開発チームの黒曜(@kokuyouwind)です。先日の RubyKaigi 2024で Let's use LLMs from Ruby 〜 Refine RBS types using LLM 〜というタイトルで登壇させていただきました！参加しての感想は別記事にするので、この記事では発表の概要や裏話などをまとめます。動画アーカイブ記事執筆時点では公開されてないので、公開されたら更新します。(去年はフルセッションの録画がアップロードされてるので、今年もそのうち出るはずです) 発表スライド自分の発表資料は slides.com というサービスでスライドを作っています。埋め込み表示ができませんが、上記リンクから開くと発表時のスライドがそのまま見られます。一応 Speaker Deck にもアップロードしていますが、 PDF 出力時にフォントが化けてしまっているた
- Ruby
CohereForAI/c4ai-command-r-plusを使ってうまくいったことが、量子化をしてぎりぎりローカルで動かせる規模のモデルでうまくいくのか試してみた - パソコン関連もろもろ
- 3 users
- touch-sp.hatenablog.com
- テクノロジー
- 2024/05/25
はじめにCohereForAI/c4ai-command-r-plusを使った記事はこちらです。 touch-sp.hatenablog.com HuggingChatを使って動かしました。今回はいろいろなモデルをローカルで動かして同じことがうまくいくのか試してみました。ローカルで動かせるモデルははるかに規模が小さく、また量子化されています。 Temperature, Repeat Penaltyなどのパラメーターは一切変更を加えていません。モデルの実行はすべてOllama、検証はDifyを使いました。モデル〇がついているものがうまくいったもの。 ×がついているものがうまくいかなかったもの。〇 command-r:35b-v0.1 ollama pull command-r:35b-v0.1-q4_0 parameters: 35.0B quantization: Q4_0 mode