はじめに 5月13日にGPT-4oがOpenAIから発表されました。 この発表以降、Xでも多くの方がGPT-4oを試した感想を書いていました。 その中で画像認識の精度が上がって、かなり使える機能になってきているとの話があり、気になったのでまずはAPIから使えるようにしてみました。 OpenAIのモデルがVisionに対応したのはだいぶ前になりますが、 値段の割にあんまり精度が良くなさそうだったので、お恥ずかしながら今まで試したことがありませんでした。 なので今回は、 VisionのAPIドキュメントを一通り読む Chainlitのマルチモーダル機能の挙動を確認する 以前作成したChainlitとLangGraphのAgentアプリで画像認識をできるようにする という手順でやっていきたいと思います。 Vision APIのドキュメント確認 まずはVisionの使い方やコストについて、Open