最近話題になった大規模言語モデルをまとめました。 1. クラウドサービス1-1. GPT-4「GPT-4」は、「OpenAI」によって開発された大規模言語モデルです。 マルチモーダルで、テキストと画像のプロンプトを受け入れることができるようになりました。最大トークン数が4Kから32kに増えました。推論能力も飛躍的に向上しています。 現在、「ChatGPT Plus」(有料版)で制限付きで利用できる他、ウェイトリストの登録者を対象に「OpenAI API」での利用も開始しています。
はじめに 株式会社ファースト・オートメーションCTOの田中(しろくま)です! 先日、 OpenAIからGPT-4oがリリース されました。 いろいろGPT-4oに関して調べていると、スピードが速くなっていたり、音声も直接扱えてマルチモーダル化が進んでいたりするようなのですが、画像に関して GPT-4-turboに比べ、認識やOCRの精度が向上している ようです。 製造業という観点からすると、これは 設計図面などに活かせるようになるのでは? と思いました。 機械部品などの設計図面は以下のように、特定の方向から部品を2次元上に落とし込んだ形で書かれるのですが、部品本体を描いている図以外に、寸法や名称といった文字も含まれた画像になっています。 このような 図と文字の複合データにおいて、GPT-4oの進化は有効なのではないか と考えました。 ※画像元URL: http://cad.wp.xdoma
こんにちは、Doryと申します! 2022年末からChatGPTをはじめとしたAI技術が爆発的に普及しはじめ、とてもワクワクしながら毎日を過ごしています。 本日は、昨今のAI技術がユーザインターフェースにどんな変化をもたらすか?という観点から記事を書いてみました。 CUI→GUI→NUI→?人間とコンピュータの接点であるユーザインターフェースは、その時代の最新技術を取り込むかたちで、これまで進化を遂げてきました。 70年代ごろ:CUI(Character User Interface) キーボードを使用した文字によるコマンド入力 いわゆる"黒い画面"のユーザインターフェース 80年代ごろ:GUI(Graphical User Interface) マウスなどのポインティングデバイスによる操作 画像や記号を用いて、情報を“モノ”として直感的に扱うユーザインターフェース 現代:NUI(Natu
はじめに 結論 背景 課題 Fine-tuning とは? Data の準備 Fine-tuning を実施 結果 おわりに 参考 はじめに こんにちは、DROBE の都筑です。 みなさん LLM 使っていますか。今回は GPT-3.5-turbo の Fine-tuning の事例を紹介します。 結論 GPT-4 を利用して得られたデータを使って GPT-3.5-turbo を Fine-tuning する事で、特定のタスクに関しては GPT-4 相当の性能が出る事が確認できた GPT-4 利用時点で使っていたプロンプトをそのまま使った場合の性能が一番高く、token 節約のためにプロンプトの省略をすると性能が劣化した 背景 LLM を利用したサービスの開発において、OpenAI を利用する場合にはモデルの選択肢がいくつかあります。2023年9月現在では、GPT-4 と GPT-3.5-
概要 GPT-4 に全自動で Minecraft をプレイさせる論文 "Voyager: An Open-Ended Embodied Agent with Large Language Models" を紹介します。 Voyager は、継続的・段階的に複雑なタスクを学習し続けることができ、マップ開拓や新アイテム獲得の能力で既存手法に勝ると主張されています。 既存手法との違い LLM にツールや外部 API を与えて自律的に計画・行動させるアルゴリズムと言うと、ReAct, Reflexion, Auto-GPT などが特に有名です。 これらと Voyager の一番の差別化部分は、Iterative Prompting Mechanism および Skill Library と呼ばれるコンポーネントです。 Voyager はボットを操作するために Mineflayer という Java
こんにちは!株式会社 ABEJA で ABEJA Platform 開発を行っている坂井(@Yagami360)です。世間では ChatGPT などの大規模言語モデル(LLM)による対話型 AI が盛り上がってますね。クオリティーも凄いし AI 業界以外でも盛り上がってると嬉しいですよね。この数年で一段と AI の社会実装が業界以外の人にも目に見える形で進んできたなあと実感しております。 自分は普段業務では ABEJA Platform という AI プロダクトやその周辺プロダクトのバックエンド開発とフロントエンド開発をやっているのですが、AI 業界所属していながら ChatGPT などの LLM 全然追いかけれていない状態になっちゃてて自責の念にかられているので、このブログ執筆という良い機会に ChatGPT の仕組みについて調べてみました。 本記事の対象読者としては、以下のようになりま
昨日、OpenAIが生成AIの新しいモデルであるGPT-4oを発表しました。消費するトークン数の節約や、音声合成機能の改善、応答速度の向上など着実な品質改善を見せているようです。私も、特に音声合成(Text To Speech)の表現力について非常に興味を持っています。 私は以前、「OpenAIのGPT-4 Turbo with visionを日本語OCRとして使ってみる」で、GPT-4 Turboの画像認識機能の日本語OCRについて検証を行いました。その当時は、既存のコグニティブAI APIに比べて認識精度が十分でないという評価をしています。とはいえ、その後に出てきたClaude 3 Opusは驚くべき認識精度だったので、OpenAIも巻き返す可能性は十分にあると感じました。Azure OpenAI Serviceを使っている場合は、Vision enhancementという既存のコグニ
GPT-4なら、確定申告のための税額計算もラクラク――米OpenAIが3月14日(現地時間)に公開した、次世代の大規模自然言語モデル「GPT-4」のデモで、GPT-4に税法と家族構成を読み込ませ、控除額を簡易的に計算するシーンがあった。 河野太郎デジタル大臣は15日、自身のTwitterでこれに触れ、「e-Taxに実装したい」とコメントした。 デモでは、「誰もやりたくないが、やらなければならないタスクを行う」方法として、16ページにわたる税法のドキュメントを読み込ませたうえで、家族構成や収入を入力し、税金の控除額を計算さる様子を紹介した。 このデモを、梶谷健人氏(XR Creative Studio創業者)が「全人類が欲しているやつ」などと動画付きでツイート。河野氏はこれを引用し、「e-Taxに実装したい」とツイートした。 関連記事 「GPT-4」で何ができる? ラフからWebサイトを瞬間
GPT-4は医師国家試験に合格するという研究結果が発表されて話題だったので、我々も馴染み深い IPA の試験にGPT-4は合格できるのか試してみた。 高度情報処理技術者試験の 午前I に限って言えば合格しているので、レポートをこちらに置いておく。 github.com まとめ 高度情報処理技術者試験の共通科目である午前I に 合格できる解答(正答率6割を超える)をGPT-4は生成する GPT-3.5 では合格できない。GPT-4 の賢さが際立つ ちなみに図表読み取り問題は入力できないので、すべて不正解扱いした やりかた IPA の Webサイトから、2022年度秋試験の午前I問題のPDFを取得 (PDF) Google Docs の OCR 機能でテキスト取得 手でコピペして整形 整形したファイルは こちら にある OpenAI の API に問い合わせて解答を取得。スクリプトはこちら。
ドクター・べじぱみゅ @dr_vegepamyu 就活生「ES何書いたらええんや…」 GPT「ESにお困りではありませんか?貴方の過去のアルバム画像群からそれっぽいアピール文書を作成します」 企業「大量のそれっぽいESどう捌いたらええんや…」 GPT「ES選別にお困りではありませんか?ビックデータをもとに就活生の真の実力を推定します」 2023-03-16 04:50:20 ドクター・べじぱみゅ @dr_vegepamyu 大量の、さも一流人材であるかのようなエントリーシートを生成するAIと、それらから「本物の人材」を見抜くAIが切磋琢磨する…まさに現代社会のGAN(癌)ですね! お後がよろしいようで(*^^*) 2023-03-16 08:23:14
令和の技術革新とも言える話題の生成AIツールOpenAI社の「ChatGPT」とMicrosoftの「Bing AI」、LINEの「AIチャットくん」の三つのサービスを使ってみて比較してみた。検証したお題は「創作・物語の生成」「辞書的な回答」「読書感想文」「プログラムの修正」の四つ。その結果はいかに。AIチャットの使い方を含めて紹介しよう。 今回比較に用いるAIチャットサービスは、どれもGPT-4系列のサービスで元となっている言語モデルは同じだ。比較するAIチャットサービスは次の三つ。 ChatGPT|OpenAI https://chat.openai.com/chat Bing AI|Microsoft https://www.microsoft.com/edge/launch/newBinginEdgeAnswer ※Microsoft Edgeブラウザ(アプリ)でのみ利用可能 AI
2023年3月9日にドイツで開始された「AI in Focus – Digital Kickoff」と題したイベント内で、Microsoftドイツ法人のアンドレアス・ブラウンCTOが、AI開発団体のOpenAIが開発した次世代大規模言語モデル「GPT-4」が来週にも発表されることを明らかにしました。ブラウン氏はGPT-4を「ゲームチェンジャー」と評しています。 GPT-4 is coming next week – and it will be multimodal, says Microsoft Germany | heise online https://www.heise.de/news/GPT-4-is-coming-next-week-and-it-will-be-multimodal-says-Microsoft-Germany-7540972.html ブラウン氏は2023年
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く