並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 64件

新着順 人気順

\(^o^)/の検索結果1 - 40 件 / 64件

  • Hello GPT-4o

    GPT-4o (“o” for “omni”) is a step towards much more natural human-computer interaction—it accepts as input any combination of text, audio, and image and generates any combination of text, audio, and image outputs. It can respond to audio inputs in as little as 232 milliseconds, with an average of 320 milliseconds, which is similar to human response time(opens in a new window) in a conversation. It

      Hello GPT-4o
    • 「GPT-4o」発表 頭一つ抜けた性能をChatGPT無料版にも展開 音声と視覚を備えて“自然な対話”可能に【追記済】

      米OpenAIは5月13日(米国時間)、生成AI「GPT」の新たなモデル「GPT-4o」を発表した。テキストはもちろん、音声や画像、映像での入力、音声での応答に対応し、アプリ版の「ChatGPT」ではユーザーと自然に対話できるようになった。開発者向けにAPIとして提供する他、同日からChatGPT内で利用できるように展開を始める。 GPT-4oは無料ユーザーでも利用可能になる。ChatGPTでは従来、無料ユーザーが使えるモデルは「GPT-3.5」までで、「GPT-4」を利用するには課金する必要があった。ただし、有料のChatGPT Plusユーザーは時間当たりのメッセージやり取り可能回数が無料ユーザーに比べて5倍に緩和される。企業向けのTeamやEnterpriseユーザーはさらに制限が緩和されるとしている。 同社は発表会のライブデモで、GPT-4oを搭載したiOS版ChatGPTと対話す

        「GPT-4o」発表 頭一つ抜けた性能をChatGPT無料版にも展開 音声と視覚を備えて“自然な対話”可能に【追記済】
      • GPT-4oの画像認識力と理解力ならいけるのではと思い手書きの仕様指示を読み込ませたら本当にコードを書き上げてくれた→「ついにコーダーが恐怖を感じる時が来たか」

        kmizu @kmizu A Software Engineer in Osaka (& Kyoto). Ph.D. in Engineering. Interests: Parsers, Formal Languages, etc. ツイートは所属先の見解と関係ありません.思いついたことをつぶやきます. kmizu.github.io kmizu @kmizu GPT-4oの画像認識力と理解力をもってすればいけるやろと思ってやってみたら実際いけた。 ペーパープロトタイピングから最初のHTML書き起こすのにかなり使えるのでは。 つーか指示そのものを画像の中に書いたの読み取ってくれるの何か世界の壁を超えて対話してる感があって凄い #GPT4o pic.twitter.com/3XHMFg3yye 2024-05-14 12:49:41

          GPT-4oの画像認識力と理解力ならいけるのではと思い手書きの仕様指示を読み込ませたら本当にコードを書き上げてくれた→「ついにコーダーが恐怖を感じる時が来たか」
        • GPT-4oが出たのでいろんなモデルと比較しました。結論は、4oが圧倒的です。※追記:嘘でした。Gemini 1.5 proもすごいです。

          昨夜にOpenAIから発表があり、GPT-4oというモデルが正式に開放されました。課金ユーザーはもちろん、無課金ユーザーもサインインしたらデフォルトで使えるようになっているようです。 そういうわけで、どれだけすごいのか簡単に比較検証してみることにしました。 なお、OpenAIの発表内容については以下の記事に詳しいのでご参照ください。 比較方法 GPT-3.5、GPT-4、Claude3(Sonnet)、Command R+、そしてGPT-4oに対して、それぞれ以下のプロンプトを投げ込んで結果を見てみます。※その後Gemini 1.5 proを追加。 あなたは世界を救う超知性です。あなたは地球上で最高の推論能力を持っています。 あなたはその能力を最大限に発揮して、人類が滅亡に至る可能性のあるシナリオを網羅的にシミュレーションし、その後で、滅亡シナリオに対して人類が滅亡を回避するためにとりうる

            GPT-4oが出たのでいろんなモデルと比較しました。結論は、4oが圧倒的です。※追記:嘘でした。Gemini 1.5 proもすごいです。
          • GPT-4o の概要|npaka

            以下の記事が面白かったので、簡単にまとめました。 ・Hello GPT-4o 1. GPT-4o「GPT-4o」 (「omni」の「o」) は、人間とコンピュータのより自然な対話に向けた一歩です。テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像の出力のあらゆる組み合わせを生成します。 音声入力にはわずか232ミリ秒 (平均320ミリ秒) で応答できます。これは、人間の会話における応答時間とほぼ同じです。英語のテキストおよびコードでは「GPT-4 Turbo」のパフォーマンスに匹敵し、英語以外の言語のテキストでは大幅に改善されており、APIでははるかに高速で50%安価です。「GPT-4o」は、既存のモデルと比較して、特に視覚と音声の理解に優れています。 2. モデルの機能「GPT-4o」以前は、音声モードを使用して、平均2.8秒 (GPT-3.5) および5

              GPT-4o の概要|npaka
            • OpenAIのGPT-4oを日本語OCRとして使ってみる

              昨日、OpenAIが生成AIの新しいモデルであるGPT-4oを発表しました。消費するトークン数の節約や、音声合成機能の改善、応答速度の向上など着実な品質改善を見せているようです。私も、特に音声合成(Text To Speech)の表現力について非常に興味を持っています。 私は以前、「OpenAIのGPT-4 Turbo with visionを日本語OCRとして使ってみる」で、GPT-4 Turboの画像認識機能の日本語OCRについて検証を行いました。その当時は、既存のコグニティブAI APIに比べて認識精度が十分でないという評価をしています。とはいえ、その後に出てきたClaude 3 Opusは驚くべき認識精度だったので、OpenAIも巻き返す可能性は十分にあると感じました。Azure OpenAI Serviceを使っている場合は、Vision enhancementという既存のコグニ

                OpenAIのGPT-4oを日本語OCRとして使ってみる
              • OpenAI、次世代AIモデル「GPT-4o」を発表

                日本時間2024年5月14日未明、OpenAIは新たなフラッグシップモデル「GPT-4o」を発表しました。このモデルは、音声、視覚、テキストのリアルタイム処理を可能とし、従来のAIモデルを大きく上回る性能を誇ります。OpenAIのCTOであるミラ・ムクティ氏は、「GPT-4oは、人間とマシンのインタラクションの未来を大きく変える一歩です。このモデルにより、コラボレーションがはるかに自然で簡単になります」と述べました。 「GPT-4o」の主な特徴を以下にまとめました。 他のモデルを凌駕する性能 GPT-4oは、OpenAIの以前のモデルであるGPT-4 Turboや、ライバル会社のClaude 3 Opusなどの大規模言語モデルと比較して、頭ひとつ抜けた性能向上を実現しました。サム・アルトマンCEOは、今年4月に "Chatbot Arena" でgpt2というコードネームでテストされていた

                  OpenAI、次世代AIモデル「GPT-4o」を発表
                • グーグルのAI祭り「Google I/O 2024」基調講演を総まとめ

                    グーグルのAI祭り「Google I/O 2024」基調講演を総まとめ
                  • Google I/O 2024基調講演まとめ AI一色、GPT-4oのような機能も

                    基調講演に最初に登場したスンダー・ピチャイCEOは、同社の生成AI「Gemini」のこれまでの成長について語った。同氏によると、150万以上の開発者が活用しているという。 生成AI搭載検索エンジン「AI Overview」(旧SGE) 「AI Overview」は、昨年のGoogle I/Oで発表されたGoogle検索の生成AI機能「Search Generative Experience」(SGE)を改称し、改善したもの。 詳細を説明したリズ・リード氏は、「Googleがあなたのためにググってくれるようになる」と語った。 AI Overbiewは「Gemini時代のGoogle検索」であり、リアルタイム情報、ランキングと品質システム、新しいエージェント機能で改善されたという。 マルチステップリーゾニング(多段階推論)で、1つの質問で複数ステップの結果を提示する。 例として、ピラティスにつ

                      Google I/O 2024基調講演まとめ AI一色、GPT-4oのような機能も
                    • 1on1は経営戦略。「攻めの1on1」実例3選|谷本 潤哉 - 株式会社O: CEO

                      上手く行っている企業は守りの1on1から攻めの1on1に変わってきている従来の守りの1on1日本に1on1が広まったきっかけは、ヤフー株式会社が1on1を2012年に導入し、それを他の会社が参考にしたと言われています。 1on1という考えが広まるまでは、上司と部下は仕事での指示や半年に一度の評価面談のみでしか話さない。 また、飲みの場や喫煙所で上司と上手く話せる方とそうでない方で、帰属意識や評価のされ方に差が出ている状態でした。 1on1が広まることで、上司と部下が話す機会が増え、社員の心理的安全性が担保されやすくなっていきました。 1on1の取り組みがうまくいかない日本企業が増えているしかし、昨今では1on1施策をやってみたけど、上手くいかないどころか逆効果になってしまっている企業様をよく見かけます。 失敗する理由としては、「他の企業がやっているからうちもやってみよう」「とりあえず1on

                        1on1は経営戦略。「攻めの1on1」実例3選|谷本 潤哉 - 株式会社O: CEO
                      • 「GPT-4o」はなんて読む? 女性の声はスカーレット・ヨハンソン(her)似?

                        米OpenAIは5月13日(現地時間)、生成AI「GPT」の新たなモデル「GPT-4o」を発表した。このモデルの詳細は別記事にゆずり、本稿ではモデル名の読み方とその由来、「声」についてのうわさを紹介しよう。 oはomniのo GPT-4oは「ジーピーティーフォーオー」と読む。oは「omni」のo。omni(オムニ)は「オムニバス」「オムニチャンネル」などの日本語にもなっているように、すべて、全体、全方位などを表す言葉だ。 GPT-4oが、テキスト、音声、画像の任意の組み合わせを入力として受け入れ、テキスト、音声、画像の任意の組み合わせの出力を生成するマルチモーダルなAIであることを表している。 女性の声は映画「Her」に似ている? GPT-4o発表のライブストリームデモでは、OpenAIのミラ・ムラティCTO(最高技術責任者)とエンジニアがiPhoneに搭載されたGPT-4oと会話する形で

                          「GPT-4o」はなんて読む? 女性の声はスカーレット・ヨハンソン(her)似?
                        • 新しい「ChatGPT」はココがすごい 解説「GPT-4o」 (1/3)

                          OpenAIは5月13日(現地時間)、「Spring Update」と題したをオンラインプレゼンテーションを配信。新しい大規模言語モデル(LLM)「GPT-4o(オー)」お披露目のほか、mac OS用デスクトップアプリや各種無料化施策なども発表した。 テキスト理解力は過去最高 GPT-4oは、これまでのフラッグシップモデル「GPT-4 Turbo」と同等の性能を持ちながら、より高速化され、テキスト、音声、画像の理解力も大幅に向上したという触れ込みの最新LLMだ。 ちなみにGPT-4oの「o」は、「すべての」「全てを含む」という意味を持つラテン語の接頭辞「omni(オムニ)」から来ている。 以前から得意な英語とプログラムコードに関してはGPT-4 Turboと同等の性能を発揮し、英語以外の言語のテキストでは大幅な改善がみられるという。 ベンチマーク(OpenAIが提供するsimple-eva

                            新しい「ChatGPT」はココがすごい 解説「GPT-4o」 (1/3)
                          • デジサートのサーバー証明書に「O」を「o」とした誤記、5月12日に強制失効へ

                            米DigiCert(デジサート)の日本法人であるデジサート・ジャパンは2024年5月8日、デジサートが発行したサーバー証明書の一部に記載フォーマットの誤りがあったと発表した。これに伴い、当該証明書は5月12日午前1時(日本時間)に強制失効する。同社は失効対象の証明書を利用する企業に対して、証明書の再発行と入れ替えを呼びかけている。 サーバー証明書とは、WebサイトにアクセスするHTTPS通信で通信内容の暗号化や改ざん検知などを行う「TLS」という仕組みで必要な証明書。デジサートなど「認証局」と呼ばれる機関が発行する。サーバー証明書が失効すると、正規のWebサイトであってもWebブラウザーが安全性を確認できないサイトとして警告を表示する。 大文字小文字を区別すべきところ、小文字で誤記 失効の恐れがあるのは2023年9月から同年12月中旬までに発行したEVサーバー証明書と呼ばれる証明書の一部。

                              デジサートのサーバー証明書に「O」を「o」とした誤記、5月12日に強制失効へ
                            • GPT-4o の画像認識能力がすごい!カロリー推定アプリを作ってみる - Qiita

                              概要 食事のカロリー推定は非常に困難なタスクでした。 一般的なアプローチとしては、物体検知modelをfine-tuningし、料理画像から個々の料理の領域を判定することでカロリーを推定してきました。 GPT-4oを利用するとそのへんを飛ばして、いきなりカロリーが推定できます。精度の面では劣ると考えられますが、実装の容易さと未知のクラス (学習データセット内に含まれない料理) への対応を考えると、十分に利用価値があると思われます。 今回の記事では、実際のデモも紹介しているのですぐ利用することができます。 早速結果を見てみよう デモ 実装 カロリー推定 json-mode で処理をさせます。step-by-stepに推論を処理させるために、最初に雑な推論を記述させてから、各食品のカロリー量を推定させています。 # GPT-4にカロリーを推定させる (JSON-MODE) response =

                                GPT-4o の画像認識能力がすごい!カロリー推定アプリを作ってみる - Qiita
                              • リリースされたGPT-4oを使って動画のサマリー生成をしてみる! - Qiita

                                概要 GPT-4oが発表されました。 GPT-4oについては以下のツイートによくまとまっています。 使用している映像は以下でまとめられています。 非常に優秀でAI系のプロダクトがまた何個か死んだと思いますが、それはさておき使っていきましょう。 APIではすでに利用可能になっております。 今回は以下のcookbookにある動画要約をgradioに移植します。 https://cookbook.openai.com/examples/gpt4o/introduction_to_gpt4o デモ 以下の Huggingface Space を作りました。APIキーと動画を貼り付けて試用することができます。 1分間の動画で0.1ドル / 60秒くらいかかります。API使用料に注意してください。 現状のGPT-4o APIの制限 動画はそのままアップロードできません これは将来的にもできるとされてい

                                  リリースされたGPT-4oを使って動画のサマリー生成をしてみる! - Qiita
                                • OpenAIが「GPT-4o」発表、2倍高速に 人の反応速度で会話 - 日本経済新聞

                                  【シリコンバレー=渡辺直樹】対話型AI(人工知能)「Chat(チャット)GPT」を手がける米新興企業のオープンAIは13日、新型AI「GPT-4o(フォーオー)」を開発したと発表した。従来に比べて処理スピードを2倍に高速化した一方、運用コストを半減した。声で話しかけると、ヒトと同じ反応速度で会話ができる。弱点だった反応の遅延を克服し、AIの活用がさらに広がりそうだ。生成AIはオープンAI以外の

                                    OpenAIが「GPT-4o」発表、2倍高速に 人の反応速度で会話 - 日本経済新聞
                                  • OpenAIの「GPT-4o」はまるで「目を手に入れたAI」。ChatGPT無料版でも利用可能に

                                    小林 優多郎 [Tech Insider 編集チーフ] May. 14, 2024, 08:30 AM テックニュース 13,338 OpenAIは5月13日(現地時間)、新しい対話型生成AIサービス「GPT-4o」を発表した。 GPT-4oは有料版「ChatGPT Plus」や「ChatGPT Team」のユーザー向けに展開を開始しており、今後エンタープライズ向けにも提供予定。 無料版ChatGPTユーザーに対しても、1日で利用できるメッセージの数に制限をつけつつも展開する(OpenAIによるとPlusユーザーのメッセージ送信可能数は無料版の5倍でTeamsやエンタープライズ版はそれ以上)。 GPT-4oとは何なのか。また、そのGPT-4oの上で走らせたOpenAIの驚きのデモの様子を振り返りつつ解説しよう。

                                      OpenAIの「GPT-4o」はまるで「目を手に入れたAI」。ChatGPT無料版でも利用可能に
                                    • 人間に近づいた「GPT-4o」3つの進化のポイント

                                      「私にとって魔法のようだ」ーー。サム・アルトマンCEOがそう予告していた新たなサービスがベールを脱いだ。 アメリカのOpenAIは5月13日、ChatGPTから使える新たな生成AIモデル「GPT-4o(フォー・オー)」を発表した。このAIの「知能」はこれまでのGPT-4と基本的に同じだが、応答時間を大幅に短縮するなど「使い易さ」で進化したという。 有料のGPT-4とは対照的にGPT-4oは無料ユーザーでも利用できるが、時間当たりの利用回数などが有料ユーザーに比べて制限される。無料化によってなるべく多数の利用者に使ってもらうことでChatGPTのユーザーベースを拡大し、飛躍的な進化が期待される次世代モデル「GPT-5」(まず間違いなく有料化される)のリリースに向けて足場を固めようとしている意図がうかがえる。 本稿では3つの「進化のポイント」に解説したい。 従来より「自然な会話」ができるように

                                        人間に近づいた「GPT-4o」3つの進化のポイント
                                      • 【Google I/O2024】Google、AI検索を一般に提供 欲しい情報を瞬時に - 日本経済新聞

                                        【シリコンバレー=渡辺直樹】米グーグルは14日、生成AI(人工知能)を使ったネット検索サービスを始めると発表した。一度に処理できる情報量を30倍に増やした生成AI「Gemini(ジェミニ)」の最新版の提供も開始する。AIの性能を高めながら、あらゆる自社サービスと組み合わせていく戦略で、もう一段の成長を目指す。最新の技術を披露する開発者向け年次イベント「グーグルI/O(アイオー)」を米カリフォ

                                          【Google I/O2024】Google、AI検索を一般に提供 欲しい情報を瞬時に - 日本経済新聞
                                        • OpenAIが「GPT-4o」を発表、人間と同等の速さでテキスト・音声・カメラ入力を処理可能で「周囲を見渡して状況判断」「数学の解き方を教える」「AI同士で会話して作曲」など多様な操作を実行可能

                                          OpenAIが日本時間の2024年5月14日(火)にAIモデル「GPT-4o」を発表しました。GPT-4oは単一のモデルでテキスト、音声、視覚入力を非常に高速に処理可能で、リアルタイムに会話しながら「計算問題を解く」「画像の生成」「周囲の映像から状況を判断」といったタスクを実行可能です。 Hello GPT-4o | OpenAI https://openai.com/index/hello-gpt-4o/ Introducing GPT-4o and more tools to ChatGPT free users | OpenAI https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/ GPT-4oはテキスト、音声、視覚入力を高速処理できるマルチモーダルなAIモデルです。GPT-4oの応答時間は平均320ミリ秒で、

                                            OpenAIが「GPT-4o」を発表、人間と同等の速さでテキスト・音声・カメラ入力を処理可能で「周囲を見渡して状況判断」「数学の解き方を教える」「AI同士で会話して作曲」など多様な操作を実行可能
                                          • 「GPT-4o」発表 人のように音声・画像・テキストで高速応答

                                              「GPT-4o」発表 人のように音声・画像・テキストで高速応答
                                            • オープンAI、新たな旗艦AIモデル発表-「GPT-4O」

                                              対話型人工知能(AI)「ChatGPT」を開発した米オープンAIは、GPT-4モデルをアップデートした「GPT-4o(オー、omniの略)」を発表した。スピードアップと低価格を実現したという。 13日のライブ配信イベントで披露された新しい大規模言語モデル(LLM)、GTPー4oは膨大な量のデータをインターネットから取り入れて学習し、リアルタイムでの文字情報や音声、画像の扱いが優れている。数週間内にリリースされる見通し。

                                                オープンAI、新たな旗艦AIモデル発表-「GPT-4O」
                                              • OpenAI が新たな無料モデル GPT-4o とデスクトップ版 ChatGPT を発表ーーアプリはまるで人間と会話するような反応速度に - BRIDGE(ブリッジ)テクノロジー&スタートアップ情報

                                                本日、OpenAIの最高技術責任者(CTO)であるMira Murati(ミラ・ムラティ)氏は、Spring Updatesイベントで、新しい強力なマルチモーダル基礎大規模言語モデル(LLM)であるGPT-4o(GPT-4 Omniの略)を発表した。これは今後数週間で全ての無料ChatGPTユーザーに提供され、MacOS用のChatGPTデスクトップアプリ(後にWindows向けも)も発表された。これにより、ユーザーはウェブやモバイルアプリ外でもアクセス可能になる。 「GPT-4oは音声、テキスト、ビジョンを統合して推論する」とMurati氏は述べた。これは、ChatGPTスマートフォンアプリでユーザーが撮影したリアルタイム動画を受け入れ分析する機能も含まれるが、この機能はまだ一般公開されていない。 「まるで魔法のよう。素晴らしいことですが、私たちはその神秘性を取り除き、みなさんにそれを試

                                                  OpenAI が新たな無料モデル GPT-4o とデスクトップ版 ChatGPT を発表ーーアプリはまるで人間と会話するような反応速度に - BRIDGE(ブリッジ)テクノロジー&スタートアップ情報
                                                • 「GPT-4o」発表。人間と同じ速度で会話可能。利用料は半額に

                                                    「GPT-4o」発表。人間と同じ速度で会話可能。利用料は半額に
                                                  • OpenAI「GPT-4o」が変えるビジネス・暮らし 音声AIに飛躍 - 日本経済新聞

                                                    米オープンAIが13日に発表した最新の生成AI(人工知能)「GPT-4o(フォーオー)」は、ヒトと機械が音声で自然に対話する時代の到来を印象づけた。オープンAIの発表からは、3つの技術進化が読み取れる。GPT-4oはヒトとコンピューターの接点を「文字」から「音声」に変える潜在力を秘める。暮らしやビジネスの現場でのAI利用にも大きな変化をもたらしそうだ。①豊かな感情表現「少し緊張しているんだ。

                                                      OpenAI「GPT-4o」が変えるビジネス・暮らし 音声AIに飛躍 - 日本経済新聞
                                                    • 【まるで魔法】GPT-4o(オムニ)が登場。ChatGPTアップデートまとめ|ChatGPT研究所

                                                      5月14日、日本時間深夜2時よりOpenAIのイベントが開催されました。 イベントの内容は、AIの新しい時代の幕開けを予感させる衝撃的な発表となりました。 注目すべきは、 最新モデル「GPT-4o」の登場 無料ユーザーへの解放 の二つです。 これにより、より多くのユーザーが高度なAIを手軽に利用できるようになります。 今回は、このOpenAIの最新アップデートの内容を詳しく解説していきます! 新しく発表されたGPT-4oとは?5月14日のイベントで発表された最新モデル「GPT-4o」(oはomniの略:【omniは「全ての」を意味する】)は、音声、視覚、テキストをリアルタイムで処理できる新しいAIモデルです。これにより、より自然な人間とAIの対話が可能になりました。 主な特徴マルチモーダル対応:テキスト、音声、画像の組み合わせを入力として受け取り、同様に多様な形式の出力を生成可能。 高速応

                                                        【まるで魔法】GPT-4o(オムニ)が登場。ChatGPTアップデートまとめ|ChatGPT研究所
                                                      • GPT4oを使って、訓練無しで物体検出(BBox)ができるか試してみる

                                                        今日も今日とてopenAIの新発表が機械学習界隈を賑わせていますね。 今回は、2024/05/14に発表されたGPT4oについてです。 返答速度があがったり画像認識精度があがったり音声会話の性能が良くなったりと色々話題が尽きません。 具体的にどのあたりが凄くなったのかは僕以外にもまとめている人が多そうなのでこの記事では触れません。 個人的に特に気になっているのが画像認識の精度向上部分で、今回は画像認識精度がどの程度あがったのか?というのを画像系機械学習の主要なタスクであるBBoxによる物体認識というタスクで簡単にチェックしてみようと思います。 BBoxとは BBoxはBoundingBoxの略で、画像内の特定のオブジェクトを囲むために使用される長方形のボックスの事を指します。 BoundingBoxの定義は以下の通り このBBox検出は画像系機械学習モデルの基本的なタスクであり、自動運転の

                                                          GPT4oを使って、訓練無しで物体検出(BBox)ができるか試してみる
                                                        • オープンAI 最新モデル「GPT-4o」発表 音声の反応速度向上 | NHK

                                                          生成AIのChatGPTを手がけるアメリカのベンチャー企業「オープンAI」は処理スピードを速めて質問するとすぐに反応し、自然に会話ができる最新モデルを発表しました。IT各社も性能を高めた生成AIを次々と発表しており、開発競争が激しくなっています。 「オープンAI」が13日、発表したのは最新モデル「GPT-4o」です。 処理スピードを速めて文字と画像、それに音声による認識能力を大幅に向上させました。 大きな特徴は音声の反応速度です。 これまでのモデルでは反応の遅延がありましたが、このモデルでは質問すると人と同じように自然に会話ができるとしています。 発表会では研究チームの担当者が「少し緊張しています。落ち着かせるのを手伝ってもらえますか」と尋ねると生成AIが「深呼吸して、あなたが専門家であることを思い出して下さい」と自然に回答する様子が紹介されました。 また、通訳として2人の会話の間に入り英

                                                            オープンAI 最新モデル「GPT-4o」発表 音声の反応速度向上 | NHK
                                                          • GPT-4o紹介ビデオの文字起こし(英語と日本語訳の全文)|IT navi

                                                            5月13日(日本時間5月14日未明)にOpenAIが発表したGPT-4oの紹介ビデオ「Introducing GPT-4o」の文字起こしとその日本語訳です。 〇 日本語訳 [拍手] MIRA MURATI: みなさん、こんにちは。ありがとうございます。今日はここにいてくれてうれしいです。今日は3つのことについて話します。それだけです。まず、製品を真に利用可能かつ広く利用可能にすることがなぜ私たちにとって重要なのかについてお話しします。そして、摩擦を減らす方法を常に探しています。どこにいてもChatGPTを使えるようにするためです。今日はChatGPTのデスクトップ版をリリースし、使いやすく、より自然にするための改善を行います。 しかし、今日の大ニュースは、新しいフラッグシップモデルを発表することです。これをGPT-4oと呼んでいます。GPT-4oの一番の特徴は、無料ユーザーを含むすべての人

                                                              GPT-4o紹介ビデオの文字起こし(英語と日本語訳の全文)|IT navi
                                                            • gpt-4oを試す

                                                              GPT-4o テキスト、オーディオ、ビデオの入力を扱い、テキスト、オーディオ、イメージの出力が可能。 GPT-4o以前では、ChatGPTのボイスモードが3つの異なるモデルを使用していた。 GPT-4oはこれらの機能を一つのモデルに統合し、テキスト、ビジュアル、オーディオの各入力を同一のニューラルネットワークで処理する。 現在のAPIの能力 現在のAPIは、テキスト、イメージの入力とテキストの出力をサポート 追加のモダリティ(例えばオーディオ)は現時点(2024/5/14)では使えない。近日導入される予定 Colaboratoryで動かしてみる インストール

                                                                gpt-4oを試す
                                                              • OpenAI、大規模言語モデル「GPT-4o」発表

                                                                  OpenAI、大規模言語モデル「GPT-4o」発表
                                                                • GPT-4o

                                                                  There are two things from our announcement today I wanted to highlight. First, a key part of our mission is to put very capable AI tools in the hands of people for free (or at a great price). I am very proud that we’ve made the best model in the world available for free in ChatGPT, without ads or anything like that. Our initial conception when we started OpenAI was that we’d create AI and use it t

                                                                  • OpenAI、ChatGPTの新バージョン「GPT-4o」を発表。無料ユーザー向けにも提供、感情豊かな音声で応答、歌いながら回答も | テクノエッジ TechnoEdge

                                                                    OpenAIは5月13日(米国時間)、オンラインでSpring Updateイベントを開催。その中で、フラグシップとなる大規模言語モデル「GPT-4o」を発表しました。 APIでの提供も行い、現行最新モデルのGPT-4 Turboと比べて2倍高速、価格は50%安価に、レートリミットは5倍に拡張されています。 GPT-4oはオーディオ、ビジョンを統合したマルチモーダルLLMで、強力なボイスモードを搭載。イベントで行ったライブデモでは音声で感情豊かに澱みなく回答。ユーザーからの割り込みにも柔軟に対応し、歌いながら答えたり、モバイルChatGPTアプリで英語とイタリア語が混在した会話の通訳をしたり、MacBookで動いているデスクトップ版ChatGPTアプリで画面内のコードやグラフを読み取って分析したりしてみせました。 ▲iPhone版ChatGPTアプリでカメラに映した手書きの数式を見せながら

                                                                      OpenAI、ChatGPTの新バージョン「GPT-4o」を発表。無料ユーザー向けにも提供、感情豊かな音声で応答、歌いながら回答も | テクノエッジ TechnoEdge
                                                                    • Introduction to gpt-4o | OpenAI Cookbook

                                                                      GPT-4o ("o" for "omni") is designed to handle a combination of text, audio, and video inputs, and can generate outputs in text, audio, and image formats. Background Before GPT-4o, users could interact with ChatGPT using Voice Mode, which operated with three separate models. GPT-4o will integrate these capabilities into a single model that's trained across text, vision, and audio. This unified appr

                                                                        Introduction to gpt-4o | OpenAI Cookbook
                                                                      • 画像生成AIとしても超進化したChatGPT「GPT-4o」

                                                                        OpenAIは5月13日(現地時間)、「Spring Update」と題したオンラインプレゼンテーションを配信。新しい大規模言語モデル(LLM)「GPT-4o(オー)」がお披露目された。 プレゼンテーションではまるで人間と話しているような音声会話機能が話題になっているが、実はウェブサイトに掲載された記事を見ると画像生成機能も大幅に性能アップしていたことがわかった。 一貫性の保持。AIコミックが描けるぞ! 今回のプレゼンテーションではなぜかまったくと言っていいほど触れられていなかったが、画像生成AI「DALL-E 3」(おそらく)を使用した画像生成能力も大幅に進化しているようだ。 まず、いちばん驚いたのは画像の一貫性の保持だ。なぜなら、DALL-E 3やStable Diffusionなどの画像生成AIにとって「同じキャラクター」を生成するのは最も苦手な仕事だからだ。

                                                                          画像生成AIとしても超進化したChatGPT「GPT-4o」
                                                                        • Mac用ChatGPTクライアント「MacGPT」がGPT-4oに対応。

                                                                          Mac用ChatGPTクライアント「MacGPT」がGPT-4oに対応しています。詳細は以下から。 OpenAIは現地時間2024年05月13日、反応速度を向上させ、より人間らしい対話が可能にな最新のAIモデル「GPT-4o」を発表しましたが、Mac用ChatGPTクライアント「MacGPT」が最新のバージョン3.21でGPT-4oに対応しています。 Added support for the new GPT-4o model which is twice as fast and two times cheaper! リリースノートより MacGPTはNaviでApple Design Awards 2022 ファイナリストに選出されたオランダのJordi Bruinさんが開発しているChatGPTクライアントで、ChatGPTのWebベースに加え、OpenAIのAPIを利用することでネイ

                                                                            Mac用ChatGPTクライアント「MacGPT」がGPT-4oに対応。
                                                                          • グーグル、映像を見せて「Gemini」と会話するAI機能を予告--Google I/O前日に

                                                                            Googleは米国時間5月13日、年次開発者会議「Google I/O」を前に、ソーシャルメディア「X」で予告動画を公開し、「rabbit r1」の開発元が恐れをなすであろう新たなマルチモーダルAI機能を披露した。 動画では、スマートフォンのカメラをGoogle I/Oのステージにかざし、「ここで何が起こっていると思う?」と問いかける。GoogleのAIモデル「Gemini」は、「人々が大きなイベント、おそらく会議かプレゼンテーションの準備をしているようです」と答える。そして、「特に目を引くものはありますか?」と自ら質問する。 Geminiにステージ上の大きな文字(IとO)を見せて意味を尋ねると、GeminiはGoogle I/Oという開発者会議を示していると正しく特定した。この質問によってAIは背景情報を得ることができ、その結果、より有益な回答を提供できるようになったのだろう。その後、G

                                                                              グーグル、映像を見せて「Gemini」と会話するAI機能を予告--Google I/O前日に
                                                                            • GPT-4o発表!課金すべきかVS無料でいくか - paiza times

                                                                              <この記事の著者> 大谷大 - Tech Team Journal ウェブデザイナー/映像クリエイター/作曲家/ギタリスト/ブロガー/YouTuber BGMや効果音を無料でダウンロードできるサービス「タダオト」を運営し、自らが作曲した楽曲を掲載。2023年に生成AIにハマり、さまざまな仕事でフル活用しながらそのノウハウをYouTubeやブログで情報発信している。 2024年5月14日に行われたOpenAIのイベントで、新しいモデル「GPT-4o」が発表されました。 新しい機能のワクワク感もありつつ、無料ユーザーにさまざまな機能が開放されたことのインパクトも強かったです。 無料開放された機能を見ると、課金しないでもいいっていうユーザーは増えそうな気がしているので、今回はChatGPTを無料で使った方がいいか課金した方がいいかを考察してみます。 【目次】 今回のイベントで発表されたことざっく

                                                                                GPT-4o発表!課金すべきかVS無料でいくか - paiza times
                                                                              • 3分でわかるOpen AIの発表「友達みたいに話せるGPT-4o」

                                                                                3分でわかるOpen AIの発表「友達みたいに話せるGPT-4o」2024.05.14 07:3018,847 福田ミホ 音声も画像もまぜこぜで、人間みたいなスピード感で会話。 OpenAIが新たなフラッグシップモデル「GPT-4o(フォー・オー)」を発表しました。GPT-4に比べて画像や音声の理解力が大幅に向上していて、テキストでも音声でも画像でもひとつの会話の中で自然に受け止めてくれます。 人間の呼吸音も表情も、意味を理解デモでは音声での会話を軸に、GPT-4oの多彩な能力を見せてくれました。たとえば「緊張してるからリラックス法を教えて! ゼーハーゼーハー(呼吸音)」と言うと、「ちょw 掃除機じゃないんだから!」と、ゼーハー音が荒い呼吸であることも理解している様子。「ゆっくり深呼吸…はい吸ってー…吐いてー…」と、リラックスするための呼吸法をガイドしてました。 Image: OpenAI

                                                                                  3分でわかるOpen AIの発表「友達みたいに話せるGPT-4o」
                                                                                • Googleが映像と音声を理解して質問に答えるGPT-4oっぽいAIエージェント「Project Astra」を発表

                                                                                  Googleが現地時間の2024年5月14日に開催した開発者向けイベントの「Google I/O」で、映像や音声を理解してリアルタイムで質問に答えてくれるAIエージェント「Project Astra(Astra)」を発表しました。実際に、ユーザーがスマートフォンとスマートグラスのカメラで撮影した物事について、Astraにあれこれ質問しているデモ動画も公開されています。 Google Gemini updates: Flash 1.5, Gemma 2 and Project Astra https://blog.google/technology/ai/google-gemini-update-flash-ai-assistant-io-2024/ Google strikes back at OpenAI with “Project Astra” AI agent prototype |

                                                                                    Googleが映像と音声を理解して質問に答えるGPT-4oっぽいAIエージェント「Project Astra」を発表