[B! *program][prompt] sh19910711のブックマーク

GitHub Copilotと快適なユニットテストコード作成生活

こちらで登壇させていただいた資料です。 https://trident-qa.connpass.com/event/314818/ ※ こちらは2024/05/23 時点の私の考えとなります。更新の予定はございませんのでご了承ください

sh19910711 2024/05/24

"GitHub Copilot: タブとして開いているファイルを元に提案 + コメントで指示を与えることでより意図した結果を得やすい / ファイルのトップレベルだけではなく、適宜「単一、具体的、短い」コメントがよりよい"

リンク

Zodスキーマでプロンプト生成を行い構造化データを自由自在に扱えて、LLMプロダクト開発が圧倒的に効率化した話 - Algomatic Tech Blog

最近はAI エンジニアを名乗ってるerukitiです。フロントエンドもバックエンドも、LLMを触るあれこれもやってるので、「AI エンジニア」くらいを名乗るとちょうどよさそうだなと思ってます。いずれLLM自体の開発なんかもやってるかもしれません。 LLMプロダクトを開発していると、構造化データを作りたいのに、Anthropic ClaudeのAPIにはJSONモードが無いことや、なんならJSONモードやfunction callingを使っても、データが正しい形式に従ってることは保証しがたい、みたいな自体に遭遇することがあります。 JSONが出力できたとしても、構造化データをうまく吐き出させるのは難しいものです。文字列を出力させたいけど、複数あるときは、配列なのか、それともカンマ区切りなのか？項目がオプショナルの場合はどうするか？項目が存在しない、空文字や 0 や undefined や nu

sh19910711 2024/05/24

"XMLでプロンプトを与えると良いという話 + Markdownで見出しを与えると良いとか / 構造化データをうまく吐き出させるのは難しい / 陳腐化: 不要になったプロンプトは逆に邪魔になる + 不要な指示を削った方がうまくいく傾向"

リンク

Google Japanを訪問してGeminiについて色々教えてもらいました - karaage. [からあげ]

Google Japanにおじゃましてきましたご縁あって、Googleに行ってきました！Googleさんには、5年前に六本木のオフィスの勉強会に呼んでいただいて以来の訪問でした。渋谷のオフィスは初めての訪問になります。色々お話をしました。なんとGeminiグッズをいただきました！やったーそして、噂のGoogle ランチを楽しみました！ Google ランチここは撮影大丈夫らしいです。めちゃくちゃ眺めが良い場所にある食堂景色がよいときは富士山が見えるらしいですおしゃれな壁和室がある！茶道部があるらしいですぜんぶ無料！カフェも楽しめます。 GeminiについてちょうどGoogle I/O 2024直後ということもあり、LLM、Geminiの話で盛り上がりました。 Geminiといえば、発音が「ジェミニ」なのか「ジェミナイ」なのか問題があるのですが、中の人いわく、日本では「ジ

sh19910711 2024/05/22

"Gemini: 発音が「ジェミニ」なのか「ジェミナイ」なのか問題 / 中の人いわく、日本では「ジェミニ」とのことでした。ただ、その後はずっとみなさん「ジェミナイ」と発音して"

リンク

RubyKaigi 2024 で RBS と LLM の話をしました

Leaner 開発チームの黒曜(@kokuyouwind)です。先日の RubyKaigi 2024で Let's use LLMs from Ruby 〜 Refine RBS types using LLM 〜というタイトルで登壇させていただきました！参加しての感想は別記事にするので、この記事では発表の概要や裏話などをまとめます。動画アーカイブ記事執筆時点では公開されてないので、公開されたら更新します。(去年はフルセッションの録画がアップロードされてるので、今年もそのうち出るはずです) 発表スライド自分の発表資料は slides.com というサービスでスライドを作っています。埋め込み表示ができませんが、上記リンクから開くと発表時のスライドがそのまま見られます。一応 Speaker Deck にもアップロードしていますが、 PDF 出力時にフォントが化けてしまっているた

sh19910711 2024/05/22

"RBS: 手で書くのは大変 + LLM でうまくやれないか / なまじ半端にそれっぽい型が出ているせいで型エラー原因の特定が難しく、正直なところまだ実用レベルとは言い難い"

リンク

Microsoft、マルチモーダルなSLM「Phi-3-vision」をプレビュー

米Microsoftは5月21日（現地時間）、開発者向け年次開発者会議「Microsoft Build 2024」の基調講演で、SLM（小規模言語モデル）「Phi-3」ファミリーの新メンバー「Phi-3-vision」（以下「vision」）を発表した。画像を解析するマルチモーダルなSLMだ。プレビュー版を利用可能。 SLMは単純なタスクで適切に実行できるように設計されており、リソースが限られる組織や端末上でローカルに実行する必要があるアプリに適した言語モデルだ。 visionは、描画はできないが、モバイル端末で利用可能なコンパクトさだ。42億パラメータモデルで、グラフや画像に関して質問すると、それについて説明してくれる。 Microsoftは「visionは画像とテキストを一緒に検討する必要があるタスクに最適だ」としている。多様なハードウェアで実行できるように最適化されており、開発者はモ

sh19910711 2024/05/22

"Phi-3-vision: 画像を解析するマルチモーダルなSLM + モバイル端末で利用可能なコンパクトさ + 4月発表のPhi-3-mini（38億パラメータ）の言語機能をベースに構築 / Phi-3: smallとmediumも同日からMicrosoft Azureで利用可能に"

リンク

ChatGPTをプログラミング言語開発に役立てる - kmizuの日記

久し振りの更新です。巷では先日リリースされたばかりのGPT-4oの話題でもちきりですが、私も当日深夜2時のライブストリーミングを見てその後すぐにGPT-4oを試しています。性能に関する雑感としては全般的にはGPT-4-Turboより頭が良い Claude 3 Opusと比較すると、お堅い & 無難な回答を返す傾向ありただし、Opusよりハルシネーションは起きにくい印象画像認識の性能が凄い辺りでしょうか。特に最後の点は特筆すべきことで、GPT-4-Turboの画像認識よりだいぶ性能が向上したおかげで今までだとやりにくかったことも簡単にできるようになっています。その際たるものが先日バズった GPT-4oの画像認識力と理解力をもってすればいけるやろと思ってやってみたら実際いけた。ペーパープロトタイピングから最初のHTML書き起こすのにかなり使えるのでは。つーか指示そのものを画像の中に

sh19910711 2024/05/22

"Scratch: 抽象構文木を割と素直に視覚化したプログラミング言語 / 一方でScratchである程度「プログラム」が書けるようになっても、そこから先のテキストベース言語に移行する際に大きなギャップ"

リンク

【GPT-4o, Gemini 1.5 Flash】LLMたちに競プロの問題解かせてみた【結果編】 - Qiita

はじめに OpenAIはgpt2としてテストされていたものをGPT-4oとして公開しましたね。この伏線回収には少し驚きました。また、googleもGemini 1.5 Proの新機能、Gemini 1.5 Flashの発表などここ数日LLM界隈？はかなり盛り上がってそうです。ここで、一つの疑問が生まれました。「これだけLLMが進化したなら青色くらいの実力があるのでは・・・？」この疑問を解決するため、気になったモデルたちで競プロの問題がどれだけ解けるか競いたいと思います。ルール解答方法対象コンテストの各問題をAから順に解いていくすべてのLLMで同一のプロンプトを使用する各問題に対して、解答を3回挑戦させる正誤失格判定 3回中1回でも正答できれば、問題を正答したとする 3回すべて間違えれば、誤答 2問誤答した時点で失格となる順位付け各コンテストについて問題の難しさ（Diffi

sh19910711 2024/05/22

"ABC346の問題CではGPT-4系列が誤答しているのに対し、Gemini 1.5 ProとClaude 3 Opusについては正答 / Gemini 1.5 FlashはABC344の問題Dが解けています / 得意な問題が違うなら両方のLLMで出力し比較させればよい"

リンク

[翻訳]LearnLMによる好奇心と理解の拡張｜Pogo / gmoriki

How generative AI expands curiosity and understanding with LearnLMの翻訳記事です。 Google I/Oで発表された教育・学習向けモデルGemini:LearnLMが紹介されています。教育に特化したLLMが初めて公開されたのではないでしょうか。 LearnLMは、教育と学習の経験をより能動的で個人的かつ魅力的にするため、教育研究に基づいて微調整された新しいモデルファミリーです。生成AIは、学習と教育へのアプローチを根本的に変えつつあり、教育者と学習者をサポートする強力な新しい方法を可能にしています。それは好奇心と理解を次のレベルに引き上げるものであり、学習を再構想するのにどのように役立つかは、まだ始まったばかりです。学習のための新しいモデルファミリーの構築今日、私たちはLearnLMを紹介します。これは、Geminiをベ

sh19910711 2024/05/21

"Gems: パーソナルな専門家として機能するGeminiのカスタムバージョン + 今後数ヶ月のうちに提供 / LearnLM: Google I/Oで発表 + 教育研究に基づいて微調整 / タイムリーなフィードバック + 認知負荷を管理 + 計画を立てモニタリング"

リンク

プロンプトエンジニアリングを最適化する為のフレームワークSAMMOを実際に使ってみた - Taste of Tech Topics

いつの間にか春も過ぎ去りすっかり夏模様の今日この頃皆さんいかがお過ごしでしょうか？菅野です。生成AIの重要性が高まり、生成AIで利用できるテキスト量が長くなるにつれてにつれて、プロンプトエンジニアリングの重要性が高まってきました。プロンプトエンジニアリングとは、そのプロンプトにどのような命令、事前情報等を入力すると、より適した応答が返ってくるかを設計する技術です。そんなプロンプトエンジニアリングを最適化する為のPythonライブラリ、SAMMOがMicrosoft社から2024年4月18日にリリースされたので紹介していきます。 www.microsoft.com SAMMOとは？ Structure-Aware Multi-objective Metaprompt Optimizationの頭文字をとったフレームワークです。元来、プロンプトエンジニアリングでは、エンジニアが、様々な

sh19910711 2024/05/21

"メタプロンプト: プロンプトはInstruction、Example, Outputなどといった構造 + これらの構造をクラスとして保持する / SAMMO: メタプロンプトの文章の最適化を行うことでより適したプロンプトを高速に模索"

リンク

LLMのプロンプトをCI/CDで評価する。promptfooを使って - Gunosy Tech Blog

こんにちは。 LLM事業部のUTです。概要 promptfoo の紹介起動 CI での評価 GitHub Action まとめ概要 OpenAI による ChatGPT 登場の衝撃から1年ほど経ちましたが、 LLM を活用する企業はものすごく増えました。 OpenAI だけでなく、大手クラウドや Hugging Face などを通して各企業も提供しています。遊びで使う分にはどの LLM を使うかは適当で良いかと思いますが、プロダクトとして提供する場合利用を想定しているシーンに対して、最適なモデルを選びたいと思うのは必然でしょう。また LLM を利用してレスポンスを受けるに当たり、最も重要なのがプロンプトです。様々な研究結果にもある通り、プロンプトの書き方一つで出力結果が大きく変わります。欲しいアウトプットを出すプロンプトを探すには、プロンプトを複数作り比較する必要があります。

sh19910711 2024/05/21

"欲しいアウトプットを出すプロンプトを探すには、プロンプトを複数作り比較する必要 / promptfoo: 評価したい LLM のアウトプットに対して、別の LLM との比較を実施する関数もあり (similar, llm-rubric)"

リンク

推しのプロンプト実験管理ツール「promptfoo」を解説｜にょす

最近、推したいプロンプト実験管理方法を見つけたので、そちらの紹介記事になります！これを見つけてから、めちゃ楽になりました！前提「ん？実験管理？」と思う方もいるかもなので、軽く背景のところから共有したいのですが、システムに組み込むプロンプト作りは、すごい難易度が高いなーと思ってます。何が大変かというと、求められる品質が高いからです！出力形式が期待通りでないとシステムエラーになってしまう。10回中9回成功しても、それはエラー率10%なので安定とは言えない。様々な要件がある。出力形式や文字数・レイテンシ・コストなど、ルールベースで判定できるものもあれば「ちゃんと指示に従っているか？」「魅力的なアウトプットか？」など定性的なものもある。これらの要件を満たすプロンプトを作る必要があるということで、上記の「多様的な要件を満たす出力」と「何回やっても期待する出力が出る安定性」を兼ね備えたプロン

sh19910711 2024/05/21

"promptfoo: 複数のプロンプト（あるいはLLM）を表形式で比較 + 多様な評価方法を実装いらずで利用できる / prompfooconfig.yaml というファイルで様々な設定 + プロンプトと利用するLLM（プロバイダー）、テストケースが記載"

リンク

【AI】ChatGPTとAPIを使って網羅的なPubMed検索できるGPT「PubMed Searcher」 | EARLの医学ノート

■論文検索が可能なAIには，Consensus，Elicit，Perplexityなどがあり便利ではあるが，当然ながら完璧ではなく（漏れがでる），手動でのPubMed検索が一番網羅的で精度が高いことは変わらない．そこでPubMedというデータベースとその検索機能をChatGPTがダイレクトに操作してくれれば手動の精度を維持したまま網羅的検索を簡便に行える上に，その検索結果のファイル化，論文抽出，解説までChatGPTのユーザーインターフェース上で行うことができる． ■ChatGPTにはBingを用いたウェブアクセス機能が備わっているが，ChatGPTで論文検索を行う上では特定の論文検索エンジンを使用することをプロンプトで指示した方がよい．しかしながら，ChatGPTはPubMedのサイトをうまく読み込めず，以下のようなトラブルが発生しやすい．・PubMed検索結果を読み込めずハルシネーショ

sh19910711 2024/05/21

"手動でのPubMed検索が一番網羅的で精度が高いことは変わらない / PMIDをもとに，各論文のより詳しい内容をESummaryやEFetchで取得 / NCBIにアカウントを作成した上で，自分だけのAPIキーを入手する"

リンク

GPT-4o のマルチモーダル機能をさっそく試す - Qiita

1. この記事の内容 OpanAI から 2024.5.15 に新しい大規模言語モデル「GPT-4o」が出たので、以前書いた「GPT-4V に入門してみる」記事と同様の検証をもう一回 GPT-4o でやってみて比較する記事となります結論から言うと「GPT-4oが圧倒的に強い」です。（わかり切った話ですみません） 2. GPT-4o とは？すでに大量のニュース記事が出ていますので細かく紹介しませんが、以下の公式サイトを貼っておきます。 2-1. 料金こちらのページを参照されたし 2-2. どのくらいの時点までの知識があるのか？勿論上にある通りオフィシャルには2023年10月までなのですが、実際どのくらい最近のことまで答えられるのか聞いてみました。最近の情報まで含めてめちゃくちゃ正確な回答です。いつの間にかWeb検索した情報を踏まえて回答するようになっていました。ハルシオン防止のため

sh19910711 2024/05/21

"現場猫の画像: シニカルな状態を表現したもの + GPT-4Vはこの絵を見て「ヘルメット」や「猫」や「笑顔」などのディティールは認識できるものの、全体としてこの絵が表している主題はまったく理解できませんでした"

リンク

高効率のLLM学習手法ReFTを試してみる | 株式会社AI Shift

こんにちは AIチームの戸田です今回は先月スタンフォード大学が発表した新しいParameter-efficient fine-tuning（PEFT）のReFTを試してみたいと思います。 PEFT PEFTはLLMのような大規模な事前学習済みのニューラルネットワークのモデルを、効率的にfine-tuningする手法の総称です。モデル全体ではなく一部のパラメータだけを更新することで計算コストを大幅に削減できる上に、Full fine-tuning(モデル全体を学習)するのと同等の性能を達成することができると言われています。代表的なものにLow-Rank Adaptation（LoRA）が挙げられます。 ReFT Representation Finetuning (ReFT)は、LoRAとよく似たPEFT手法です。違いは、LoRAがモデルの重みを部分的に更新するのに対し、ReFTはモデルの

sh19910711 2024/05/19

"ReFT; Representation Finetuning: LoRAがモデルの重みを部分的に更新するのに対し、ReFTはモデルの中間層の出力に介入 + LoRAと比べて非常に少ないパラメータの変更でモデルの挙動を制御"

リンク

OpenAI gpt-4o でzero shotで異常検知(Anomaly Detection)を試してみる｜スカイ

はじめにこんにちは、Caratの脇山です。先日 gpt-4o が発表リリースされました。性能、速度、料金などがアップデートされましたね。詳細は他の方の記事や公式のドキュメントにまとまっているので触れませんが、特にトークナイザの改善と音声モデルの処理が一つのニューラルネットで完結できる点に感動しました。具体的にはトークナイザ改善でより高速、高性能、低価格を実現できる点や音声が音声 -> テキスト -> 音声の3つのパイプラインを通って生成されるのではなく、1つのニューラルネットで周囲の音や感情といった情報も踏まえて生成される点がすごいと思っています。 gpt-4oを使った音声出力を試したかったのですが、近日公開ということなので、別の検証をしていきたいと思います。画像の読み取り精度がアップしたということで、どのくらいの改善がされたのだろうと思い、異常検知のデータセットを使って精

sh19910711 2024/05/19

"gpt-4o: 画像の読み取り精度がアップ + 異常検知のデータセットを使って精度を検証 / プロトタイプの機械学習モデルを作るのに最適 + 検証した結果を元に本格的な機械学習モデルを作るのが良い"

リンク

Amazon Q DeveloperがGAされたのでVisual Studio Codeから使ってみる - TECHSTEP

今回は2024年4月の終わりにGAとなったAmazon Q Developerを使ってみました。 aws.amazon.com 背景以前Amazon CodeWhispererからCloudFormationコードの開発を試しましたが、つい先日Amazon Q DeveloperがGAとなり、CodeWhispererもAmazon Q Developerの機能の一部として変更されました。なお今回は触れませんが、GAになって以下のような機能が追加されています。 AWSアカウント上のリソース情報の提供: S3バケットやLambda関数といったリソースの個数などをチャットから質問できます。 AWSコスト情報の提供: アカウント上で利用料金の大きいリソース種別などを質問できます。 Software development: /dev コマンドと自然言語を組み合わせて、コードを生成します（Co

sh19910711 2024/05/19

"Amazon Q DeveloperがGA + CodeWhispererもAmazon Q Developerの機能の一部として変更 / S3バケットやLambda関数といったリソースの個数 + アカウント上で利用料金の大きいリソース種別などを質問"

リンク

GPT-4oを使って手書きの図からHTMLを出してもらった件

驚異のGPT-4o はじめにこんにちは。ネクストビートでエンジニアをしている水島です。今回は、5月14日（火）にOpenAI社によって発表された、新しいモデルGPT-4oについての紹介記事となります。既にXなどをはじめ多方面でその驚くべき能力が知られ始めているGPT-4oですが、筆者も昨日に試してあまりの凄さに驚いてばかりです。ちなみに昨日意図せずバズったポストの著者でもあります。 GPT-4oはOpenAIが従来から提供してきたGPT-4-Turboの後継とも言えるモデルです。5月14日（火）のデモで発表された内容ではリアルタイムでの音声認識・応答などが目玉になっていましたが、こちらはまだ未公開です（数週間以内には提供されるようですが）。ですので、今回は即日リリースされたチャットボットとしてのGPT-4oの話になります。 GPT-4oについてはこの記事を読まれている皆さんも色々試され

sh19910711 2024/05/19

"現実世界に書いた「HTMLにして」というメッセージがAIに届いた / 指示をグシャグシャっとボールペンで取り消しした上で「↑Swing+Javaでよろしく」とカジュアルに書いた画像だけをChatGPTに投げてみました"

リンク

RAGを用いた社内情報検索システムを導入した話

はじめにこんにちは、助太刀バックエンドチームの市川です！助太刀では、2024 年 2 月に以下の生成 AI の活用した社内情報検索システムに関するプレスリリースを発信しました。助太刀、生成 AI を使った社内 Wiki を開発。生成 AI の活用により社内業務の効率化を強化今回は、その社内情報検索システムに関する LLM(大規模言語モデル)、RAG(Retrieval-Augmented Generation) を用いた検索システムの構築について紹介したいと思います。上記プレスリリースにも記載がありますが、主に社内業務効率化を目的とし開発・導入しました。 RAG とは RAG（Retrieval-augmented Generation）とは、質問やプロンプトに対して出力する答えを作る過程で、あらかじめ用意された外部データベース内の既存情報を参照（Retrieval）することで

sh19910711 2024/05/09

"社内ドキュメントの保存に基本的に Google Drive を利用 / Kendra Google Drive コネクタ: 動作が不安定 / 人事関連の迅速な情報アクセス: 結婚に伴う人事関連の手続き => 必要なフォームと詳細な申請プロセスが直ちに提供"

リンク

Slack経由でRAGにコードレビューを依頼するBotを作成〜 AWS SAM編 - Qiita

はじめに前回の記事では、リーダブルコードの原則に従ったコードレビューを自動化できないものか・・と考えた結果、『RAGにリーダブルコードの原則を取り込ませてコードレビューをしてもらおう！！』という検証をしてみました。検証環境の構築は AWSマネジメントコンソールを使用していましたが、今回は AWS SAM を使用して、より簡単に環境構築する方法の解説を行います。使用するリポジトリは以下になります。事前準備リージョン切り替え全ての手順は「東京リージョン」で実施することを前提としているため、AWSのマネジメントコンソールからリージョンを「東京」に変更してから手順を進めてください。 Cloud9 ローカルマシンの環境を汚さないために、Cloud9 を使用して環境構築を行います。Cloud9 には、今回の作業に必要な以下のツールが事前にインストールされているため、環境構築がスムーズに行

sh19910711 2024/05/09

"リーダブルコードの原則を取り込ませてコードレビューをしてもらおう / Cloud9: AMTCで付与された一時クレデンシャルの権限では IAMロールやIAMポリシーに対するアクセス権限が制限"

リンク

軽量LLMをGoogle ColabでPPO ファインチューニング - Qiita

超軽量LLMのflan-t5-baseをPPO(Proximal Policy Optimization)でファインチューニングしてみました。今回の目的はプログラムを動かすことなので訓練のハイパーパラメータやモデル改善度など基本的に見ていません。いずれ本格的に実行する時の足がかりに、と思ってやりました。 CPUでは実行できませんでしたが、Google Colabで無料でも使えるT4 GPUで実行できました。動かすことを目的としているので、精度などはあまり見ていません(時間制限を気にせず使えるようにColab Pro契約してます)。実行環境 2024/4/14時点のGoogle Colab で、Python3.10.12で、以下のパッケージを主に使っています。numpyなど少しだけ使っているやつは省略。 Package Version 備考

sh19910711 2024/05/09

"flan-t5-baseをPPOでファインチューニング + T4 GPUで実行できました / 30分ほど訓練 + RoBERTaのヘイトスピーチモデルを使ったToxicity判定で、0.022から0.012へとToxicityが低下 / PPOTrainerを作成。学習率など適当"

リンク

はてなブックマーク

タグ

関連タグで絞り込む (71)

*programとpromptに関するsh19910711のブックマーク (178)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス