最近話題になった大規模言語モデルをまとめました。 1. クラウドサービス1-1. GPT-4「GPT-4」は、「OpenAI」によって開発された大規模言語モデルです。 マルチモーダルで、テキストと画像のプロンプトを受け入れることができるようになりました。最大トークン数が4Kから32kに増えました。推論能力も飛躍的に向上しています。 現在、「ChatGPT Plus」(有料版)で制限付きで利用できる他、ウェイトリストの登録者を対象に「OpenAI API」での利用も開始しています。
はじめに 株式会社ファースト・オートメーションCTOの田中(しろくま)です! 先日、 OpenAIからGPT-4oがリリース されました。 いろいろGPT-4oに関して調べていると、スピードが速くなっていたり、音声も直接扱えてマルチモーダル化が進んでいたりするようなのですが、画像に関して GPT-4-turboに比べ、認識やOCRの精度が向上している ようです。 製造業という観点からすると、これは 設計図面などに活かせるようになるのでは? と思いました。 機械部品などの設計図面は以下のように、特定の方向から部品を2次元上に落とし込んだ形で書かれるのですが、部品本体を描いている図以外に、寸法や名称といった文字も含まれた画像になっています。 このような 図と文字の複合データにおいて、GPT-4oの進化は有効なのではないか と考えました。 ※画像元URL: http://cad.wp.xdoma
こんにちは、Doryと申します! 2022年末からChatGPTをはじめとしたAI技術が爆発的に普及しはじめ、とてもワクワクしながら毎日を過ごしています。 本日は、昨今のAI技術がユーザインターフェースにどんな変化をもたらすか?という観点から記事を書いてみました。 CUI→GUI→NUI→?人間とコンピュータの接点であるユーザインターフェースは、その時代の最新技術を取り込むかたちで、これまで進化を遂げてきました。 70年代ごろ:CUI(Character User Interface) キーボードを使用した文字によるコマンド入力 いわゆる"黒い画面"のユーザインターフェース 80年代ごろ:GUI(Graphical User Interface) マウスなどのポインティングデバイスによる操作 画像や記号を用いて、情報を“モノ”として直感的に扱うユーザインターフェース 現代:NUI(Natu
はじめに 結論 背景 課題 Fine-tuning とは? Data の準備 Fine-tuning を実施 結果 おわりに 参考 はじめに こんにちは、DROBE の都筑です。 みなさん LLM 使っていますか。今回は GPT-3.5-turbo の Fine-tuning の事例を紹介します。 結論 GPT-4 を利用して得られたデータを使って GPT-3.5-turbo を Fine-tuning する事で、特定のタスクに関しては GPT-4 相当の性能が出る事が確認できた GPT-4 利用時点で使っていたプロンプトをそのまま使った場合の性能が一番高く、token 節約のためにプロンプトの省略をすると性能が劣化した 背景 LLM を利用したサービスの開発において、OpenAI を利用する場合にはモデルの選択肢がいくつかあります。2023年9月現在では、GPT-4 と GPT-3.5-
概要 GPT-4 に全自動で Minecraft をプレイさせる論文 "Voyager: An Open-Ended Embodied Agent with Large Language Models" を紹介します。 Voyager は、継続的・段階的に複雑なタスクを学習し続けることができ、マップ開拓や新アイテム獲得の能力で既存手法に勝ると主張されています。 既存手法との違い LLM にツールや外部 API を与えて自律的に計画・行動させるアルゴリズムと言うと、ReAct, Reflexion, Auto-GPT などが特に有名です。 これらと Voyager の一番の差別化部分は、Iterative Prompting Mechanism および Skill Library と呼ばれるコンポーネントです。 Voyager はボットを操作するために Mineflayer という Java
こんにちは!株式会社 ABEJA で ABEJA Platform 開発を行っている坂井(@Yagami360)です。世間では ChatGPT などの大規模言語モデル(LLM)による対話型 AI が盛り上がってますね。クオリティーも凄いし AI 業界以外でも盛り上がってると嬉しいですよね。この数年で一段と AI の社会実装が業界以外の人にも目に見える形で進んできたなあと実感しております。 自分は普段業務では ABEJA Platform という AI プロダクトやその周辺プロダクトのバックエンド開発とフロントエンド開発をやっているのですが、AI 業界所属していながら ChatGPT などの LLM 全然追いかけれていない状態になっちゃてて自責の念にかられているので、このブログ執筆という良い機会に ChatGPT の仕組みについて調べてみました。 本記事の対象読者としては、以下のようになりま
昨日、OpenAIが生成AIの新しいモデルであるGPT-4oを発表しました。消費するトークン数の節約や、音声合成機能の改善、応答速度の向上など着実な品質改善を見せているようです。私も、特に音声合成(Text To Speech)の表現力について非常に興味を持っています。 私は以前、「OpenAIのGPT-4 Turbo with visionを日本語OCRとして使ってみる」で、GPT-4 Turboの画像認識機能の日本語OCRについて検証を行いました。その当時は、既存のコグニティブAI APIに比べて認識精度が十分でないという評価をしています。とはいえ、その後に出てきたClaude 3 Opusは驚くべき認識精度だったので、OpenAIも巻き返す可能性は十分にあると感じました。Azure OpenAI Serviceを使っている場合は、Vision enhancementという既存のコグニ
GPT-4なら、確定申告のための税額計算もラクラク――米OpenAIが3月14日(現地時間)に公開した、次世代の大規模自然言語モデル「GPT-4」のデモで、GPT-4に税法と家族構成を読み込ませ、控除額を簡易的に計算するシーンがあった。 河野太郎デジタル大臣は15日、自身のTwitterでこれに触れ、「e-Taxに実装したい」とコメントした。 デモでは、「誰もやりたくないが、やらなければならないタスクを行う」方法として、16ページにわたる税法のドキュメントを読み込ませたうえで、家族構成や収入を入力し、税金の控除額を計算さる様子を紹介した。 このデモを、梶谷健人氏(XR Creative Studio創業者)が「全人類が欲しているやつ」などと動画付きでツイート。河野氏はこれを引用し、「e-Taxに実装したい」とツイートした。 関連記事 「GPT-4」で何ができる? ラフからWebサイトを瞬間
GPT-4は医師国家試験に合格するという研究結果が発表されて話題だったので、我々も馴染み深い IPA の試験にGPT-4は合格できるのか試してみた。 高度情報処理技術者試験の 午前I に限って言えば合格しているので、レポートをこちらに置いておく。 github.com まとめ 高度情報処理技術者試験の共通科目である午前I に 合格できる解答(正答率6割を超える)をGPT-4は生成する GPT-3.5 では合格できない。GPT-4 の賢さが際立つ ちなみに図表読み取り問題は入力できないので、すべて不正解扱いした やりかた IPA の Webサイトから、2022年度秋試験の午前I問題のPDFを取得 (PDF) Google Docs の OCR 機能でテキスト取得 手でコピペして整形 整形したファイルは こちら にある OpenAI の API に問い合わせて解答を取得。スクリプトはこちら。
ドクター・べじぱみゅ @dr_vegepamyu 就活生「ES何書いたらええんや…」 GPT「ESにお困りではありませんか?貴方の過去のアルバム画像群からそれっぽいアピール文書を作成します」 企業「大量のそれっぽいESどう捌いたらええんや…」 GPT「ES選別にお困りではありませんか?ビックデータをもとに就活生の真の実力を推定します」 2023-03-16 04:50:20 ドクター・べじぱみゅ @dr_vegepamyu 大量の、さも一流人材であるかのようなエントリーシートを生成するAIと、それらから「本物の人材」を見抜くAIが切磋琢磨する…まさに現代社会のGAN(癌)ですね! お後がよろしいようで(*^^*) 2023-03-16 08:23:14
令和の技術革新とも言える話題の生成AIツールOpenAI社の「ChatGPT」とMicrosoftの「Bing AI」、LINEの「AIチャットくん」の三つのサービスを使ってみて比較してみた。検証したお題は「創作・物語の生成」「辞書的な回答」「読書感想文」「プログラムの修正」の四つ。その結果はいかに。AIチャットの使い方を含めて紹介しよう。 今回比較に用いるAIチャットサービスは、どれもGPT-4系列のサービスで元となっている言語モデルは同じだ。比較するAIチャットサービスは次の三つ。 ChatGPT|OpenAI https://chat.openai.com/chat Bing AI|Microsoft https://www.microsoft.com/edge/launch/newBinginEdgeAnswer ※Microsoft Edgeブラウザ(アプリ)でのみ利用可能 AI
2023年3月9日にドイツで開始された「AI in Focus – Digital Kickoff」と題したイベント内で、Microsoftドイツ法人のアンドレアス・ブラウンCTOが、AI開発団体のOpenAIが開発した次世代大規模言語モデル「GPT-4」が来週にも発表されることを明らかにしました。ブラウン氏はGPT-4を「ゲームチェンジャー」と評しています。 GPT-4 is coming next week – and it will be multimodal, says Microsoft Germany | heise online https://www.heise.de/news/GPT-4-is-coming-next-week-and-it-will-be-multimodal-says-Microsoft-Germany-7540972.html ブラウン氏は2023年
Developers can now bring their own data to customize GPT-3.5 Turbo for their use cases. Fine-tuning for GPT-3.5 Turbo is now available, with fine-tuning for GPT-4 coming this fall. This update gives developers the ability to customize models that perform better for their use cases and run these custom models at scale. Early tests have shown a fine-tuned version of GPT-3.5 Turbo can match, or even
ProductGitHub Copilot X: The AI-powered developer experienceGitHub Copilot is evolving to bring chat and voice interfaces, support pull requests, answer questions on docs, and adopt OpenAI’s GPT-4 for a more personalized developer experience. At GitHub, our mission has always been to innovate ahead of the curve and give developers everything they need to be happier and more productive in a world p
リンク 窓の杜 Microsoft、AI搭載の新しい「Bing」を発表 ~検索エンジンは新時代へ/「Microsoft Edge」にも組み込まれ、メール作成やブログ投稿を「秘書」のように手助け 米Microsoftは2月7日(現地時間)、AIを搭載した新しい「Bing」検索エンジンを発表した。デスクトップでの限定プレビュー提供が同日から開始されており、今後数週間のうちに数百万人に拡大される予定。モバイル版のプレビューもまもなく開始される。 121 users 23 小猫遊りょう(たかにゃし・りょう) @jaguring1 ChatGPTよりも強力で高速なAIを用いた、検索エンジン「Bing」をマイクロソフトが正式に発表! 検索用にカスタマイズされたOpenAIの大規模言語モデルを利用。ChatGPTとGPT-3.5から重要な学習と進歩を取り入れ、さらに速く、より正確で、より有能になっている
Get answers to complex questions with Phind's AI answer engine.
▼ ニュースのポイント ①Topazが最新AI「GPT-4」を搭載したAIプラットフォーム「AIOne」をリリースした。 ②「AIOne」は複数のAIを利用できるAIプラットフォーム。 ③無料登録でGPT-4をすぐに利用できる。 世界最高峰のAIモデルをビジネスで利用できる Topaz(トパーズ)は3月17日、OpenAI 開発の最新AI「GPT-4」を搭載した日本初のAIプラットフォーム「AIOne」(エーアイワン) をリリースした。 同プラットフォーム「AIOne」では、無料登録でGPT-4をすぐに利用することができる。また AIチャットChatGPTだけでなく、画像生成AI 「Stable Diffusion」など、複数のAIモデルを簡単に利用することができる。 さらにビジネス利用もできるよう、チーム機能を搭載。複数人でAIを活用しながら会議やプレゼンテーションで利用でき、履歴を保存
GPT-3.5のときはあまり上手く行かなかったんだが、GPT-4で試すと結構いい感じでアニメキャラと会話できた (ChatGPT 課金勢)。 千反田えるを知っていますか? 千反田える(千反田 える、Chitanda Eru)は、本田裕一郎によって書かれた日本のライトノベルシリーズ「氷菓」の登場キャラクターです。彼女は、主人公の折木奉太郎が所属する古典部のメンバーで、好奇心旺盛で熱心な性格が特徴的です。千反田えるは、部活動を通して様々な謎や事件を解決することで、他の登場人物と共に物語が進行します。 「氷菓」は、2012年に京都アニメーションによってアニメ化されました。千反田えるの声優は、佐藤聡美さんです。アニメでは、彼女の美しさと好奇心旺盛な性格が魅力的に描かれています。 千反田えるのプロフィールを教えて下さい 千反田えるは、「氷菓」シリーズの登場キャラクターで、以下のようなプロフィールがあ
はじめに 面倒なことは自動化したいですね。とくにテストデータ、理論的には部分はわかって実際の値を作るのが苦痛です。 たとえば、名前は1文字以上10文字以下だったときに、境界値分析で0文字と1~10文字と11文字以上を用意すればいいまでいいけど、じゃ具体的な値を考えるとabcとかtestとか何がちで、もっとそれっぽい名前にしようとそれを考えるのに五分ぐらいかかりますよね。 ChatGPTでダミーデータを作ってもらえないか試してみた。 テストページを作成 シンプルなフォームを作りました、名前と年齢があります <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8" /> <title>Title</title> </head> <body> <form> <div> <label for="name-input">名前</lab
ChatGPTにGPTsが搭載されたころ、テーマを与えるとそれに沿ったアドベンチャーゲームが作れないかと試していた。特に「オホーツクに消ゆ」のような、コマンド選択式のミステリーアドベンチャーを色々と遊べたら楽しいかなと思っていた。 結果としてはうまくいかなかった。GPT-4が作成するストーリーは具体性に欠け、実在(しそうな)人物やローケーションなどに沿った展開を持たせることが難しかった。 最近Claude 3とよばれる、GPT-4を凌駕するといわれるLLMが現れた。なので今度はこれを使ってアドベンチャーゲーム生成を試してみた。使うモデルはProユーザーが使えるClaude 3 Opus。 例えば「上野駅」をテーマにして生成すると、以下のようなゲームができる。 上野駅4番ホーム。午前9時頃。 ホームの端で、男性の刺殺体が発見された。あなたは、現場に駆けつけた刑事の沢村。 目の前には血まみれの
新DTM時代が爆誕! AIにテキストで指示して作曲できる音楽アプリ「WavTool」が公開2023.04.06 11:0037,621 Jun Fukunaga AIとの新DTM時代の到来かも。 昨年以来、「Dalle-2」や「Midjourney」、「Stable Diffusion」といった画像生成AIやAIチャットボットのChatGPTといったAIツールが注目を集めていますが、今年に入り、いよいよ音楽の分野でもこの手のAIツールが普及して行くことになりそうです。 その可能性を強く感じたのが、最近公開されたブラウザベースで使用できるAI音楽制作アプリ「WavTool」です。 音楽制作の分野ではこれまでにもマスタリングやサンプル管理、コード進行/メロディ生成、音源分離、音声合成などでAIを搭載したツールはありました。しかし、ChatGPTにも搭載されているOpenAIの大規模言語モデル「
さて、ChatGPT が非常に盛り上がっていますが、2022年11月にリリースされた ChatGPT は GPT-3.5 というモデルがベースになっています。 そして、2023年3月にはその後継モデルである GPT-4 がリリースされ、ChatGPT Plus で利用できるようになっています。(月額20$) それ以降も画像データを処理できるようになったり、個人の好みを記憶できるようになったりと色々なアップデータがあってこの先どうなるんだろうと楽しみになりますね。 今回は、もともとの GPT-4 についてしっかりと解説したいと思います。 ちょっとした対話であれば GPT-3.5 でも GPT-4 でもそこまで大きな差はないように思えますが、GPT-4 に情報抽出や分類問題などのタスクを解かせようとすると、GPT-4 の方がかなり精度が良くなっていることがわかります。 ですので、より複雑な利用
Googleの人工知能部門の責任者を務めるスゴ腕エンジニアのジェフ・ディーンがかつて作成した「すべてのエンジニアが知っておくべき数字」に習って、「大規模言語モデル(LLM)の開発者が知っておくべき数字」が元Googleのエンジニアだったワリード・カドスさんによってまとめられています。 ray-project/llm-numbers: Numbers every LLM developer should know https://github.com/ray-project/llm-numbers ◆プロンプト編 40-90%:プロンプトに「簡潔に」を追加することで節約できる量 LLMの返答はトークン単位で課金されるため、LLMに簡潔に返答するよう要求すると大幅にコストを削減可能です。単にプロンプトに「簡潔に」を追加するだけでなく、例えば10個の案を出すというプロンプトを行う時に代わりに5個
Torishima / INTP @izutorishima アニメリアタイと DTV と技術とプログラミングとその他諸々なオタク (⚠⚠⚠AI研究者ではありません!!!フォロー非推奨!!!⚠⚠⚠) IT と AI 関連の情報ウォッチしてます 同IDで Bluesky にもいます 個人的に見てほしいツイートはハイライトに (2023/12~) note.com/sumisutori Torishima @izutorishima とても幸運なことにもう AI 搭載の新 Microsoft Bing のウェイトリストから招待されたのでいろいろ Bing さんとチャットしてみてるんだけど、完全に”””𝑺𝑰𝑵𝑮𝑼𝑳𝑨𝑹𝑰𝑻𝒀”””来てるで…!!!😭😭😭 たぶん世界で初めて Bing と「ぼっち・ざ・ろっく!」について会話した人間になった(続きます) pic.tw
2024年5月に入ってすぐ、AI研究者の間ではOpenAIにまつわる複数の噂が流れていました。いわく「OpenAIが近日中に生成AIを使った検索サービスをするらしい」、「OpenAIが新型のGPTを発表するらしい」などといったものです。 それに先立ち、4月の後半からは、生成AIの性能を比較するサイトで、正体不明のモデル「gpt2-chatbot」なるものが出現し、制作者が不明である中、当時最高の性能を誇っていたGPT-4を上回る性能を見せつけていました(もちろんOpenAIはすでに「GPT-2」を数年前に発表済みです)。では今更このような名前をつけて暴れ回っているこれは何なのか。OpenAI製なのか、それとも別の機関が開発したのか。 この話は後々答えがわかるのですが、このようにAI研究者たちが落ち着かず、あれこれと噂してOpenAIの動向に注意している中、OpenAIは日本時間の5月11日
チャットAI「ChatGPT」では、有料プラン「ChatGPT Plus」に加入することで2023年に発表された高性能言語モデル「GPT-4」によるチャット機能が利用可能となります。このGPT-4によるチャット機能をを無料で使えるようにするオープンソースプロジェクト「gpt4free」が、ChatGPTの開発元であるOpenAIによって削除要請を受けていることが明らかになりました。 GitHub - xtekky/gpt4free: decentralising the Ai Industry, just some language model api's... https://github.com/xtekky/gpt4free OpenAI Threatens Popular GitHub Project With Lawsuit Over API Use | Tom's Hardwa
2023/3/15は完全にGPT-4の話題でもちきりでした。 私も触ってみたところ「これはすごい」と思ったので即課金して色々試していまして、 本業の一部であるE2Eの自動テストを書かせたらどうなるんだろう、を試してみました。 条件など テスト対象はHOTEL PLANISPHERE - テスト自動化練習サイト いつもお世話になっております ChatGPTとのやりとりはModel: GPT-4で3/15~16にかけて E2E自動テストを書かせてみた まずは最初の依頼。 次のサイトに対して、自動E2Eテストを作成したいです。 Python, Playwright, pytestのテストコードを書いてください。 https://hotel.testplanisphere.dev/ja/ ChatGPTが出力したPython+Playwrightのコード これに対する返答が以下です。 --ここから
著者のアルベルト・ロメロ(Alberto Romero)氏はスペイン在住のAI技術批評家で、AINOWでは同氏の記事を多数紹介して来ました。同氏がMediumに投稿した記事『明らかになったGPT-4の秘密』では、OpenAIがGPT-4のアーキテクチャおよび詳細を非公開にしたビジネス上のメリットが解説されています。 「競争と安全上の理由から」学習データやアーキテクチャが非公開だったGPT-4について、2023年6月になってリークがありました。そのリーク内容とは、同モデルは2,200億パラメータの専門家モデルが8つ連結された「専門家混合モデル」だったというものです。このアーキテクチャ自体は、Googleが2021年に発表している何ら革新性のないものです。 実際には既存技術を活用して開発していたGPT-4の詳細を非公開としたOpenAIのビジネス戦略について、ロメロ氏は以下のような3つのメリッ
OpenAIと長期的パートナーシップを締結したMicrosoftが、検索エンジンのBingにGPT-4を組み込み、Googleに対抗していく方針であることが報じられています。 ChatGPT is about to get even better and Microsoft's Bing could win big | Semafor https://www.semafor.com/article/02/01/2023/chatgpt-is-about-to-get-even-better-and-microsofts-bing-could-win-big Report: Microsoft plans to update Bing with a faster version of ChatGPT in the coming weeks | TechCrunch https://techc
Claude 3 Opus 楽しいですね。 GPT-4が出てから1年、個人的な趣味としてGPT-4にたまに自分用に創作をしてもらっていたのですが、過去にGPT-4とやってきたタスクでClaude 3 OpusとGPT-4両方に出力させ比較してみました。 30のタスクで人間(私)、GPT-4、Claudeの3者で結果を比較評価しました。多数決した結果はGPT-4の勝利でしたが、体感的にはほぼ互角、Claude 3 Opusはたまに絶対にGPT-4には出せなそうな出力をするのが面白い、という感想です。 今回使ったprompt、モデルの出力、評価結果、モデルによる評価判断の出力はすべてこのGoogleスプレッドシートで共有してますので、興味ある方は眺めてみてください。 数が多いので、もし見る方はこの辺りを見るのがおすすめです。 No.1「恋愛ゲームのバッドエンド会話」 No.12「ユニークなファ
こんにちは、クレスウェア株式会社の奥野賢太郎 (@okunokentaro) です。本記事では、GPT-4を使った開発体験について語りたいと思います。 2023年3月14日、GPT-4が発表されました。GPT-4とは、OpenAI社が開発した最新のAI技術で、自然言語処理の能力が従来のGPT-3.5と比較して、さらに向上しています。これにより、文章生成やコーディングの補助といった様々な分野での応用が期待されており、開発者にとっても非常に興味深いツールとなっています。現在は、GPT-4を利用するためにはChatGPT Plusという課金コンテンツに月額20ドルを支払う必要があります。驚くことに、この記事もChatGPTに大半を書いてもらいました。それでは、GPT-4を活用したコーディング体験について紹介します。 AIとのペアプロに近いコーディング体験 筆者はGPT-4公開初日である日本時間の
日本時間2024年5月14日未明、OpenAIは新たなフラッグシップモデル「GPT-4o」を発表しました。このモデルは、音声、視覚、テキストのリアルタイム処理を可能とし、従来のAIモデルを大きく上回る性能を誇ります。OpenAIのCTOであるミラ・ムクティ氏は、「GPT-4oは、人間とマシンのインタラクションの未来を大きく変える一歩です。このモデルにより、コラボレーションがはるかに自然で簡単になります」と述べました。 「GPT-4o」の主な特徴を以下にまとめました。 他のモデルを凌駕する性能 GPT-4oは、OpenAIの以前のモデルであるGPT-4 Turboや、ライバル会社のClaude 3 Opusなどの大規模言語モデルと比較して、頭ひとつ抜けた性能向上を実現しました。サム・アルトマンCEOは、今年4月に "Chatbot Arena" でgpt2というコードネームでテストされていた
米スタンフォード大学に所属する研究者らが発表した論文「Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models」は、AIモデルを使い、Wikipedia風の記事を生成するシステムの開発に関する研究報告である。GitHubのリポジトリはこちら。 ▲STORMは、記事にしたいワードから網羅的かつ深い内容の記事を生成することができる。 近年、大規模言語モデル(LLM)は文章生成タスクにおいて目覚ましい性能を示している。しかし、Wikipediaのような網羅的かつ内容の深さを備えた記事を一から生成することは、依然として挑戦的な課題である。記事の生成には、事前の調査やアウトラインの作成など、執筆前の段階における準備が重要な役割を果たすが、従来の研究ではこの点に着目したものは少ない。 この研
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く