こちらで登壇させていただいた資料です。 https://trident-qa.connpass.com/event/314818/ ※ こちらは2024/05/23 時点の私の考えとなります。更新の予定はございませんのでご了承ください
最近はAIエンジニアを名乗ってるerukitiです。フロントエンドもバックエンドも、LLMを触るあれこれもやってるので、「AIエンジニア」くらいを名乗るとちょうどよさそうだなと思ってます。いずれLLM自体の開発なんかもやってるかもしれません。 LLMプロダクトを開発していると、構造化データを作りたいのに、Anthropic ClaudeのAPIにはJSONモードが無いことや、なんならJSONモードやfunction callingを使っても、データが正しい形式に従ってることは保証しがたい、みたいな自体に遭遇することがあります。 JSONが出力できたとしても、構造化データをうまく吐き出させるのは難しいものです。文字列を出力させたいけど、複数あるときは、配列なのか、それともカンマ区切りなのか?項目がオプショナルの場合はどうするか?項目が存在しない、空文字や 0 や undefined や nu
Google Japanにおじゃましてきました ご縁あって、Googleに行ってきました!Googleさんには、5年前に六本木のオフィスの勉強会に呼んでいただいて以来の訪問でした。渋谷のオフィスは初めての訪問になります。 色々お話をしました。なんとGeminiグッズをいただきました! やったー そして、噂のGoogleランチを楽しみました! Googleランチ ここは撮影大丈夫らしいです。 めちゃくちゃ眺めが良い場所にある食堂 景色がよいときは富士山が見えるらしいです おしゃれな壁 和室がある!茶道部があるらしいです ぜんぶ無料! カフェも楽しめます。 Geminiについて ちょうどGoogle I/O 2024直後ということもあり、LLM、Geminiの話で盛り上がりました。 Geminiといえば、発音が「ジェミニ」なのか「ジェミナイ」なのか問題があるのですが、中の人いわく、日本では「ジ
Leaner 開発チームの黒曜(@kokuyouwind)です。 先日の RubyKaigi 2024で Let's use LLMs from Ruby 〜 Refine RBS types using LLM 〜 というタイトルで登壇させていただきました! 参加しての感想は別記事にするので、この記事では発表の概要や裏話などをまとめます。 動画アーカイブ 記事執筆時点では公開されてないので、公開されたら更新します。(去年はフルセッションの録画がアップロードされてるので、今年もそのうち出るはずです) 発表スライド 自分の発表資料は slides.com というサービスでスライドを作っています。 埋め込み表示ができませんが、上記リンクから開くと発表時のスライドがそのまま見られます。 一応 Speaker Deck にもアップロードしていますが、 PDF 出力時にフォントが化けてしまっているた
米Microsoftは5月21日(現地時間)、開発者向け年次開発者会議「Microsoft Build 2024」の基調講演で、SLM(小規模言語モデル)「Phi-3」ファミリーの新メンバー「Phi-3-vision」(以下「vision」)を発表した。画像を解析するマルチモーダルなSLMだ。プレビュー版を利用可能。 SLMは単純なタスクで適切に実行できるように設計されており、リソースが限られる組織や端末上でローカルに実行する必要があるアプリに適した言語モデルだ。 visionは、描画はできないが、モバイル端末で利用可能なコンパクトさだ。42億パラメータモデルで、グラフや画像に関して質問すると、それについて説明してくれる。 Microsoftは「visionは画像とテキストを一緒に検討する必要があるタスクに最適だ」としている。多様なハードウェアで実行できるように最適化されており、開発者はモ
久し振りの更新です。巷では先日リリースされたばかりのGPT-4oの話題でもちきりですが、私も当日深夜2時のライブストリーミングを見てその後すぐにGPT-4oを試しています。性能に関する雑感としては 全般的にはGPT-4-Turboより頭が良い Claude 3 Opusと比較すると、お堅い & 無難な回答を返す傾向あり ただし、Opusよりハルシネーションは起きにくい印象 画像認識の性能が凄い 辺りでしょうか。特に最後の点は特筆すべきことで、GPT-4-Turboの画像認識よりだいぶ性能が向上したおかげで今までだとやりにくかったことも簡単にできるようになっています。その際たるものが先日バズった GPT-4oの画像認識力と理解力をもってすればいけるやろと思ってやってみたら実際いけた。 ペーパープロトタイピングから最初のHTML書き起こすのにかなり使えるのでは。 つーか指示そのものを画像の中に
はじめに OpenAIはgpt2としてテストされていたものをGPT-4oとして公開しましたね。この伏線回収には少し驚きました。また、googleもGemini 1.5 Proの新機能、Gemini 1.5 Flashの発表などここ数日LLM界隈?はかなり盛り上がってそうです。 ここで、一つの疑問が生まれました。「これだけLLMが進化したなら青色くらいの実力があるのでは・・・?」この疑問を解決するため、気になったモデルたちで競プロの問題がどれだけ解けるか競いたいと思います。 ルール 解答方法 対象コンテストの各問題をAから順に解いていく すべてのLLMで同一のプロンプトを使用する 各問題に対して、解答を3回挑戦させる 正誤失格判定 3回中1回でも正答できれば、問題を正答したとする 3回すべて間違えれば、誤答 2問誤答した時点で失格となる 順位付け 各コンテストについて問題の難しさ(Diffi
How generative AI expands curiosity and understanding with LearnLMの翻訳記事です。 Google I/Oで発表された教育・学習向けモデルGemini:LearnLMが紹介されています。教育に特化したLLMが初めて公開されたのではないでしょうか。 LearnLMは、教育と学習の経験をより能動的で個人的かつ魅力的にするため、教育研究に基づいて微調整された新しいモデルファミリーです。 生成AIは、学習と教育へのアプローチを根本的に変えつつあり、教育者と学習者をサポートする強力な新しい方法を可能にしています。それは好奇心と理解を次のレベルに引き上げるものであり、学習を再構想するのにどのように役立つかは、まだ始まったばかりです。 学習のための新しいモデルファミリーの構築今日、私たちはLearnLMを紹介します。これは、Geminiをベ
いつの間にか春も過ぎ去りすっかり夏模様の今日この頃皆さんいかがお過ごしでしょうか?菅野です。 生成AIの重要性が高まり、生成AIで利用できるテキスト量が長くなるにつれてにつれて、プロンプトエンジニアリングの重要性が高まってきました。 プロンプトエンジニアリングとは、そのプロンプトにどのような命令、事前情報等を入力すると、より適した応答が返ってくるかを設計する技術です。 そんなプロンプトエンジニアリングを最適化する為のPythonライブラリ、SAMMOがMicrosoft社から2024年4月18日にリリースされたので紹介していきます。 www.microsoft.com SAMMOとは? Structure-Aware Multi-objective Metaprompt Optimizationの頭文字をとったフレームワークです。 元来、プロンプトエンジニアリングでは、エンジニアが、様々な
こんにちは。 LLM事業部のUTです。 概要 promptfoo の紹介 起動 CI での評価 GitHub Action まとめ 概要 OpenAI による ChatGPT 登場の衝撃から1年ほど経ちましたが、 LLM を活用する企業はものすごく増えました。 OpenAI だけでなく、大手クラウドや Hugging Face などを通して各企業も提供しています。 遊びで使う分にはどの LLM を使うかは適当で良いかと思いますが、プロダクトとして提供する場合利用を想定しているシーンに対して、最適なモデルを選びたいと思うのは必然でしょう。 また LLM を利用してレスポンスを受けるに当たり、最も重要なのがプロンプトです。 様々な研究結果にもある通り、プロンプトの書き方一つで出力結果が大きく変わります。 欲しいアウトプットを出すプロンプトを探すには、プロンプトを複数作り比較する必要があります。
最近、推したいプロンプト実験管理方法を見つけたので、そちらの紹介記事になります!これを見つけてから、めちゃ楽になりました! 前提「ん?実験管理?」と思う方もいるかもなので、軽く背景のところから共有したいのですが、システムに組み込むプロンプト作りは、すごい難易度が高いなーと思ってます。 何が大変かというと、求められる品質が高いからです! 出力形式が期待通りでないとシステムエラーになってしまう。10回中9回成功しても、それはエラー率10%なので安定とは言えない。 様々な要件がある。出力形式や文字数・レイテンシ・コストなど、ルールベースで判定できるものもあれば「ちゃんと指示に従っているか?」「魅力的なアウトプットか?」など定性的なものもある。これらの要件を満たすプロンプトを作る必要がある ということで、上記の「多様的な要件を満たす出力」と「何回やっても期待する出力が出る安定性」を兼ね備えたプロン
■論文検索が可能なAIには,Consensus,Elicit,Perplexityなどがあり便利ではあるが,当然ながら完璧ではなく(漏れがでる),手動でのPubMed検索が一番網羅的で精度が高いことは変わらない.そこでPubMedというデータベースとその検索機能をChatGPTがダイレクトに操作してくれれば手動の精度を維持したまま網羅的検索を簡便に行える上に,その検索結果のファイル化,論文抽出,解説までChatGPTのユーザーインターフェース上で行うことができる. ■ChatGPTにはBingを用いたウェブアクセス機能が備わっているが,ChatGPTで論文検索を行う上では特定の論文検索エンジンを使用することをプロンプトで指示した方がよい.しかしながら,ChatGPTはPubMedのサイトをうまく読み込めず,以下のようなトラブルが発生しやすい.・PubMed検索結果を読み込めずハルシネーショ
1. この記事の内容 OpanAI から 2024.5.15 に新しい大規模言語モデル「GPT-4o」が出たので、以前書いた「GPT-4V に入門してみる」記事と同様の検証をもう一回 GPT-4o でやってみて比較する記事となります 結論から言うと「GPT-4oが圧倒的に強い」です。(わかり切った話ですみません) 2. GPT-4o とは? すでに大量のニュース記事が出ていますので細かく紹介しませんが、以下の公式サイトを貼っておきます。 2-1. 料金 こちらのページを参照されたし 2-2. どのくらいの時点までの知識があるのか? 勿論上にある通りオフィシャルには2023年10月までなのですが、実際どのくらい最近のことまで答えられるのか聞いてみました。 最近の情報まで含めてめちゃくちゃ正確な回答です。いつの間にかWeb検索した情報を踏まえて回答するようになっていました。ハルシオン防止のため
こんにちは AIチームの戸田です 今回は先月スタンフォード大学が発表した新しいParameter-efficient fine-tuning(PEFT)のReFTを試してみたいと思います。 PEFT PEFTはLLMのような大規模な事前学習済みのニューラルネットワークのモデルを、効率的にfine-tuningする手法の総称です。モデル全体ではなく一部のパラメータだけを更新することで計算コストを大幅に削減できる上に、Full fine-tuning(モデル全体を学習)するのと同等の性能を達成することができると言われています。代表的なものにLow-Rank Adaptation(LoRA)が挙げられます。 ReFT Representation Finetuning (ReFT)は、LoRAとよく似たPEFT手法です。違いは、LoRAがモデルの重みを部分的に更新するのに対し、ReFTはモデルの
はじめにこんにちは、Caratの脇山です。 先日 gpt-4o が発表リリースされました。 性能、速度、料金などがアップデートされましたね。 詳細は他の方の記事や公式のドキュメントにまとまっているので触れませんが、特にトークナイザの改善と音声モデルの処理が一つのニューラルネットで完結できる点に感動しました。 具体的にはトークナイザ改善でより高速、高性能、低価格を実現できる点や 音声が 音声 -> テキスト -> 音声 の3つのパイプラインを通って生成されるのではなく、1つのニューラルネットで周囲の音や感情といった情報も踏まえて生成される点がすごいと思っています。 gpt-4oを使った音声出力を試したかったのですが、近日公開ということなので、別の検証をしていきたいと思います。 画像の読み取り精度がアップしたということで、どのくらいの改善がされたのだろうと思い、異常検知のデータセットを使って精
今回は2024年4月の終わりにGAとなったAmazon Q Developerを使ってみました。 aws.amazon.com 背景 以前Amazon CodeWhispererからCloudFormationコードの開発を試しましたが、つい先日Amazon Q DeveloperがGAとなり、CodeWhispererもAmazon Q Developerの機能の一部として変更されました。 なお今回は触れませんが、GAになって以下のような機能が追加されています。 AWSアカウント上のリソース情報の提供: S3バケットやLambda関数といったリソースの個数などをチャットから質問できます。 AWSコスト情報の提供: アカウント上で利用料金の大きいリソース種別などを質問できます。 Software development: /dev コマンドと自然言語を組み合わせて、コードを生成します(Co
驚異のGPT-4o はじめにこんにちは。ネクストビートでエンジニアをしている水島です。 今回は、5月14日(火)にOpenAI社によって発表された、新しいモデルGPT-4oについての紹介記事となります。 既にXなどをはじめ多方面でその驚くべき能力が知られ始めているGPT-4oですが、筆者も昨日に試してあまりの凄さに驚いてばかりです。ちなみに昨日意図せずバズったポストの著者でもあります。 GPT-4oはOpenAIが従来から提供してきたGPT-4-Turboの後継とも言えるモデルです。5月14日(火)のデモで発表された内容ではリアルタイムでの音声認識・応答などが目玉になっていましたが、こちらはまだ未公開です(数週間以内には提供されるようですが)。ですので、今回は即日リリースされたチャットボットとしてのGPT-4oの話になります。 GPT-4oについてはこの記事を読まれている皆さんも色々試され
はじめに こんにちは、助太刀バックエンドチームの市川です! 助太刀では、2024 年 2 月に以下の生成 AI の活用した社内情報検索システムに関するプレスリリースを発信しました。 助太刀、生成 AI を使った社内 Wiki を開発。生成 AI の活用により社内業務の効率化を強化 今回は、その社内情報検索システムに関する LLM(大規模言語モデル)、RAG(Retrieval-Augmented Generation) を用いた検索システムの構築について紹介したいと思います。 上記プレスリリースにも記載がありますが、主に社内業務効率化を目的とし開発・導入しました。 RAG とは RAG(Retrieval-augmented Generation) とは、質問やプロンプトに対して出力する答えを作る過程で、あらかじめ用意された外部データベース内の既存情報を参照(Retrieval)することで
はじめに 前回の記事では、リーダブルコードの原則に従ったコードレビューを自動化できないものか・・と考えた結果、『RAGにリーダブルコードの原則を取り込ませてコードレビューをしてもらおう!!』という検証をしてみました。 検証環境の構築は AWSマネジメントコンソール を使用していましたが、今回は AWS SAM を使用して、より簡単に環境構築する方法の解説を行います。 使用するリポジトリは以下になります。 事前準備 リージョン切り替え 全ての手順は「東京リージョン」で実施することを前提としているため、AWSのマネジメントコンソールからリージョンを「東京」に変更してから手順を進めてください。 Cloud9 ローカルマシンの環境を汚さないために、Cloud9 を使用して環境構築を行います。Cloud9 には、今回の作業に必要な以下のツールが事前にインストールされているため、環境構築がスムーズに行
超軽量LLMのflan-t5-baseをPPO(Proximal Policy Optimization)でファインチューニングしてみました。今回の目的はプログラムを動かすことなので訓練のハイパーパラメータやモデル改善度など基本的に見ていません。いずれ本格的に実行する時の足がかりに、と思ってやりました。 CPUでは実行できませんでしたが、Google Colabで無料でも使えるT4 GPUで実行できました。動かすことを目的としているので、精度などはあまり見ていません(時間制限を気にせず使えるようにColab Pro契約してます)。 実行環境 2024/4/14時点のGoogle Colab で、Python3.10.12で、以下のパッケージを主に使っています。numpyなど少しだけ使っているやつは省略。 Package Version 備考
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く