並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 4968件

新着順 人気順

\(^o^)/の検索結果1 - 40 件 / 4968件

  • Google I/O 2024の発表内容を簡単にわかりやすくまとめてみました。 - smileブログ

    こんにちはantakaです。Google I/O 2024では、さまざまな新しい技術や機能が発表されました。理解しやすいように、なるべくシンプルな言葉で説明します。 Gemini AIのアップデート Gemini AI: GmailやChrome、AndroidなどのGoogleサービスに組み込まれたAI技術です。これにより、メールの検索や要約が簡単になり、リアルタイムの音声チャットも可能になります。 Ask Photos Ask Photos: Google Photosに追加される新機能で、写真を自然な言葉で検索できます。例えば、「去年の夏の旅行の写真を見せて」と言えば、その写真を見つけてくれます。 詐欺検出機能 詐欺検出機能: これからのAndroidに搭載予定の機能です。AIがリアルタイムで詐欺の会話パターンを見分け、警告を出してくれます。 Circle to Search Cir

      Google I/O 2024の発表内容を簡単にわかりやすくまとめてみました。 - smileブログ
    • 【Google I/O2024】AIで「ググる」が変わる Google、音声から映像まで全方位 - 日本経済新聞

      【シリコンバレー=渡辺直樹】米グーグルは14日、生成AI(人工知能)「Gemini(ジェミニ)」を刷新し、動画や音声、大量の文書を扱えるようにしたと発表した。検索を含む自社のあらゆるネットサービスにAIを搭載して利便性を高める。半導体からデータセンター、ソフト開発までの総力を結集し、米オープンAIに対抗する姿勢を鮮明にした。「今日の講演で『AI』と言った回数は120回だ」――。グーグルのスンダ

        【Google I/O2024】AIで「ググる」が変わる Google、音声から映像まで全方位 - 日本経済新聞
      • OpenAIのAIモデル「GPT-4o」がチェスパズルで従来モデルの2倍以上の好成績をたたき出しランキングトップに

        OpenAIは日本時間の2024年5月14日、新たなAIモデルである「GPT-4o」を発表しました。テキストや音声、視覚情報を高速で処理してリアルタイムな応答が可能で、一般的なチャットAIが苦手とする計算問題にも優れた性能を発揮するGPT-4oが、チェスパズルでも「GPT-4」の倍以上の好成績をたたき出したことが明らかになりました。 GitHub - kagisearch/llm-chess-puzzles: Benchmark LLM reasoning capability by solving chess puzzles. https://github.com/kagisearch/llm-chess-puzzles 2024年4月、チャットボットの能力をバトル形式で比較評価する「Chatbot Arena」というウェブサイトに、「gpt2-chatbot」というモデルが突如として追

          OpenAIのAIモデル「GPT-4o」がチェスパズルで従来モデルの2倍以上の好成績をたたき出しランキングトップに
        • Google I/O 2024基調講演まとめ AI一色、GPT-4oのような機能も

          基調講演に最初に登場したスンダー・ピチャイCEOは、同社の生成AI「Gemini」のこれまでの成長について語った。同氏によると、150万以上の開発者が活用しているという。 生成AI搭載検索エンジン「AI Overview」(旧SGE) 「AI Overview」は、昨年のGoogle I/Oで発表されたGoogle検索の生成AI機能「Search Generative Experience」(SGE)を改称し、改善したもの。 詳細を説明したリズ・リード氏は、「Googleがあなたのためにググってくれるようになる」と語った。 AI Overbiewは「Gemini時代のGoogle検索」であり、リアルタイム情報、ランキングと品質システム、新しいエージェント機能で改善されたという。 マルチステップリーゾニング(多段階推論)で、1つの質問で複数ステップの結果を提示する。 例として、ピラティスにつ

            Google I/O 2024基調講演まとめ AI一色、GPT-4oのような機能も
          • 新しい「ChatGPT」はココがすごい 解説「GPT-4o」

            OpenAIは5月13日(現地時間)、「Spring Update」と題したをオンラインプレゼンテーションを配信。新しい大規模言語モデル(LLM)「GPT-4o(オー)」お披露目のほか、mac OS用デスクトップアプリや各種無料化施策なども発表した。 テキスト理解力は過去最高 GPT-4oは、これまでのフラッグシップモデル「GPT-4 Turbo」と同等の性能を持ちながら、より高速化され、テキスト、音声、画像の理解力も大幅に向上したという触れ込みの最新LLMだ。 ちなみにGPT-4oの「o」は、「すべての」「全てを含む」という意味を持つラテン語の接頭辞「omni(オムニ)」から来ている。 以前から得意な英語とプログラムコードに関してはGPT-4 Turboと同等の性能を発揮し、英語以外の言語のテキストでは大幅な改善がみられるという。 ベンチマーク(OpenAIが提供するsimple-eva

              新しい「ChatGPT」はココがすごい 解説「GPT-4o」
            • グーグル、Gemini時代に突入 Google I/Oで新モデルやエージェントを披露

                グーグル、Gemini時代に突入 Google I/Oで新モデルやエージェントを披露
              • グーグルのAI祭り「Google I/O 2024」基調講演を総まとめ

                  グーグルのAI祭り「Google I/O 2024」基調講演を総まとめ
                • 【Google I/O2024】Google、AI検索を一般に提供 欲しい情報を瞬時に - 日本経済新聞

                  【シリコンバレー=渡辺直樹】米グーグルは14日、生成AI(人工知能)を使ったネット検索サービスを始めると発表した。一度に処理できる情報量を30倍に増やした生成AI「Gemini(ジェミニ)」の最新版の提供も開始する。AIの性能を高めながら、あらゆる自社サービスと組み合わせていく戦略で、もう一段の成長を目指す。最新の技術を披露する開発者向け年次イベント「グーグルI/O(アイオー)」を米カリフォ

                    【Google I/O2024】Google、AI検索を一般に提供 欲しい情報を瞬時に - 日本経済新聞
                  • Androidで詐欺電話の警告や「かこって検索」による宿題の手助けなど、Google I/O 2024

                      Androidで詐欺電話の警告や「かこって検索」による宿題の手助けなど、Google I/O 2024
                    • 人間に近づいた「GPT-4o」3つの進化のポイント

                      「私にとって魔法のようだ」ーー。サム・アルトマンCEOがそう予告していた新たなサービスがベールを脱いだ。 アメリカのOpenAIは5月13日、ChatGPTから使える新たな生成AIモデル「GPT-4o(フォー・オー)」を発表した。このAIの「知能」はこれまでのGPT-4と基本的に同じだが、応答時間を大幅に短縮するなど「使い易さ」で進化したという。 有料のGPT-4とは対照的にGPT-4oは無料ユーザーでも利用できるが、時間当たりの利用回数などが有料ユーザーに比べて制限される。無料化によってなるべく多数の利用者に使ってもらうことでChatGPTのユーザーベースを拡大し、飛躍的な進化が期待される次世代モデル「GPT-5」(まず間違いなく有料化される)のリリースに向けて足場を固めようとしている意図がうかがえる。 本稿では3つの「進化のポイント」に解説したい。 従来より「自然な会話」ができるように

                        人間に近づいた「GPT-4o」3つの進化のポイント
                      • GPT-4oの多彩な活用事例:わかりやすく簡単にまとめてみた - smileブログ

                        こんにちはantakaです。最新のAIモデルGPT-4oは、さまざまな分野で革新的な利用がされています。ここでは、特に注目すべき14の活用事例を簡単にわかりやすく紹介します。 脳波データの解析 用途: 医療や心理学の研究に利用。 方法: 脳波データを収集・前処理し、GPT-4oで解析。脳の働きや感情状態を評価します。 難解な数学の問題を瞬時に解答 用途: 学習支援。 方法: 難解な数学問題を即座に解答し、正確な計算と解説を提供します。 漫画の魅力を解説 用途: ファン同士の交流促進。 方法: 漫画のストーリーやキャラクターの魅力を分析・解説。印象的なシーンを詳しく説明します。 手描きのUIデザインをコード化 用途: デザインから開発への迅速な移行。 方法: 手描きのUIデザインをそのままコードに変換し、開発時間を短縮します。 AIキャラクターがリアルタイムで会話 用途: 視聴者との双方向コ

                          GPT-4oの多彩な活用事例:わかりやすく簡単にまとめてみた - smileブログ
                        • Oちゃんと遊ぼう しっぽこじゃらし - もふもふ日記

                          真ん丸おめめとイカ耳で、なにやらナナメに突っ張っているOちゃん。 いったい何をしているのでしょうかね。 ヒントは足元に見えるふわふわ。 はい。毎度おなじみ、猫のしっぽこじゃらしですよ。 春になっておふとん生活が多いOちゃんは、 寝転んでひとり遊びをすることが多くなりました。 がじがじがじ。 奥歯はほとんど抜いちゃいましたが、前歯は健在ですよ。 じゃらし棒の柄、ぎざぎざの部分が良い感じに歯みがきになってますね。 そうです。どちらかと言うと、ふわふわしっぽこの部分よりも、 柄の部分のしなりと噛み応えがお気に入り。 本当に歯みがきをしているみたいになってますね。 ふっしぎー。 じっと柄を見る職人さんの目。 親方、ちゃんときれいに磨けましたか? 「ふいーっ」 遊び疲れてひとやすみ。 窓の外では小鳥がぴーぴー鳴きながら飛び交ってますね。 今日は大変よく遊びました。 ぐうぐうぐう。

                            Oちゃんと遊ぼう しっぽこじゃらし - もふもふ日記
                          • GPT-4o発表!課金すべきかVS無料でいくか - paiza times

                            <この記事の著者> 大谷大 - Tech Team Journal ウェブデザイナー/映像クリエイター/作曲家/ギタリスト/ブロガー/YouTuber BGMや効果音を無料でダウンロードできるサービス「タダオト」を運営し、自らが作曲した楽曲を掲載。2023年に生成AIにハマり、さまざまな仕事でフル活用しながらそのノウハウをYouTubeやブログで情報発信している。 2024年5月14日に行われたOpenAIのイベントで、新しいモデル「GPT-4o」が発表されました。 新しい機能のワクワク感もありつつ、無料ユーザーにさまざまな機能が開放されたことのインパクトも強かったです。 無料開放された機能を見ると、課金しないでもいいっていうユーザーは増えそうな気がしているので、今回はChatGPTを無料で使った方がいいか課金した方がいいかを考察してみます。 【目次】 今回のイベントで発表されたことざっく

                              GPT-4o発表!課金すべきかVS無料でいくか - paiza times
                            • GPT4oを使って、訓練無しで物体検出(BBox)ができるか試してみる

                              今日も今日とてopenAIの新発表が機械学習界隈を賑わせていますね。 今回は、2024/05/14に発表されたGPT4oについてです。 返答速度があがったり画像認識精度があがったり音声会話の性能が良くなったりと色々話題が尽きません。 具体的にどのあたりが凄くなったのかは僕以外にもまとめている人が多そうなのでこの記事では触れません。 個人的に特に気になっているのが画像認識の精度向上部分で、今回は画像認識精度がどの程度あがったのか?というのを画像系機械学習の主要なタスクであるBBoxによる物体認識というタスクで簡単にチェックしてみようと思います。 BBoxとは BBoxはBoundingBoxの略で、画像内の特定のオブジェクトを囲むために使用される長方形のボックスの事を指します。 BoundingBoxの定義は以下の通り このBBox検出は画像系機械学習モデルの基本的なタスクであり、自動運転の

                                GPT4oを使って、訓練無しで物体検出(BBox)ができるか試してみる
                              • HomeMadeGarbage on X: "おいおい GPT-4o STLファイル生成するぞ https://t.co/HXrk5k1AKw"

                                • GPT‑4oで面白かった・気になった事例まとめ - Qiita

                                  はじめに GPT‑4oが来ましたね!! 早速色々な使い方をされている方を見つけたのでまとめてみました。 公式ではリアルタイム翻訳や歌っている動画がありましたが、まだ試せないので、以下の事例には書いていません。 GPT-4o GPT-4o日本語まとめ 処方箋読み込み(OCR機能) 漫画を読解(OCR機能) GPT-4oに一瞬騙されかけた話(OCR機能…じゃなかった!) 簡単なゲームを作成 カロリー推定アプリを作ってみる 終わりに まだ公開されて1日も経っていないので数は少ないのですが、これから続々と皆さんの試した結果が出てくると思います…! また思い立ったら更新しに来ます。 今後が色々楽しみですね!

                                    GPT‑4oで面白かった・気になった事例まとめ - Qiita
                                  • GPT-4oの画像認識力と理解力ならいけるのではと思い手書きの仕様指示を読み込ませたら本当にコードを書き上げてくれた→「ついにコーダーが恐怖を感じる時が来たか」

                                    kmizu @kmizu A Software Engineer in Osaka (& Kyoto). Ph.D. in Engineering. Interests: Parsers, Formal Languages, etc. ツイートは所属先の見解と関係ありません.思いついたことをつぶやきます. kmizu.github.io kmizu @kmizu GPT-4oの画像認識力と理解力をもってすればいけるやろと思ってやってみたら実際いけた。 ペーパープロトタイピングから最初のHTML書き起こすのにかなり使えるのでは。 つーか指示そのものを画像の中に書いたの読み取ってくれるの何か世界の壁を超えて対話してる感があって凄い #GPT4o pic.twitter.com/3XHMFg3yye 2024-05-14 12:49:41

                                      GPT-4oの画像認識力と理解力ならいけるのではと思い手書きの仕様指示を読み込ませたら本当にコードを書き上げてくれた→「ついにコーダーが恐怖を感じる時が来たか」
                                    • GPT-4o、Azureの生成AIサービスでも体験可能に

                                      5月13日(米国時間)に米OpenAIが発表した、生成AI「GPT」シリーズの新たなモデル「GPT-4o」。クラウドサービス「Microsoft Azure」を使い、API経由でGPTシリーズにアクセスできる「Azure OpenAI Service」でも、すでに試用可能となっている。 Azure OpenAI Serviceでは、プレビュー版として米国リージョンの一部でGPT-4oを提供。Web開発環境「Azure OpenAI Studio」で機能を試すことができ、現時点でテキスト・画像の入力に対応。動画や音声の入力機能は今後追加するという。 関連記事 マイクロソフト提供の“社内GPT基盤”もGPT-4 Turboなどに対応 米Microsoftが、大規模言語モデル「GPT-4」などのAPIをクラウドサービス「Microsoft Azure」経由で使える「Azure OpenAI Se

                                        GPT-4o、Azureの生成AIサービスでも体験可能に
                                      • OpenAI「GPT-4o」が変えるビジネス・暮らし 音声AIに飛躍 - 日本経済新聞

                                        米オープンAIが13日に発表した最新の生成AI(人工知能)「GPT-4o(フォーオー)」は、ヒトと機械が音声で自然に対話する時代の到来を印象づけた。オープンAIの発表からは、3つの技術進化が読み取れる。GPT-4oはヒトとコンピューターの接点を「文字」から「音声」に変える潜在力を秘める。暮らしやビジネスの現場でのAI利用にも大きな変化をもたらしそうだ。①豊かな感情表現「少し緊張しているんだ。

                                          OpenAI「GPT-4o」が変えるビジネス・暮らし 音声AIに飛躍 - 日本経済新聞
                                        • OpenAIの「GPT-4o」はまるで「目を手に入れたAI」。ChatGPT無料版でも利用可能に

                                          小林 優多郎 [Tech Insider 編集チーフ] May. 14, 2024, 08:30 AM テックニュース 8,398 OpenAIは5月13日(現地時間)、新しい対話型生成AIサービス「GPT-4o」を発表した。 GPT-4oは有料版「ChatGPT Plus」や「ChatGPT Team」のユーザー向けに展開を開始しており、今後エンタープライズ向けにも提供予定。 無料版ChatGPTユーザーに対しても、1日で利用できるメッセージの数に制限をつけつつも展開する(OpenAIによるとPlusユーザーのメッセージ送信可能数は無料版の5倍でTeamsやエンタープライズ版はそれ以上)。 GPT-4oとは何なのか。また、そのGPT-4oの上で走らせたOpenAIの驚きのデモの様子を振り返りつつ解説しよう。

                                            OpenAIの「GPT-4o」はまるで「目を手に入れたAI」。ChatGPT無料版でも利用可能に
                                          • OpenAIが新AIモデル「GPT-4o」を発表

                                            OpenAIはこのほど、同社製AIモデルの最新版となる「GPT-4o」の発表を行った。 テキストや音声、画像などの入力に対応した生成AIモデルで、英語のテキスト/コードを用いた場合には GPT-4 Turboに匹敵するパフォーマンスを実現した他、英語以外の言語テキストの大幅な改善も行われている。 既存のモデルと比較して視覚/音声の理解に優れているのも特徴で、APIベースではGPT-4 Turbo比で2倍高速で50%安価に利用可能だとしている。 関連記事 OpenAI、画像生成AI「DALL-E」に部分編集機能を追加 OpenAIは、同社提供の画像生成AI「DALL-E」に部分編集機能を追加した。 ChatGPTがログインなしで利用可能に OpenAIは、同社提供AIチャットサービス「ChatGPT」をアカウントなしでも利用できるよう変更を行った。 OpenAI、カスタム版ChatGPTを公

                                              OpenAIが新AIモデル「GPT-4o」を発表
                                            • 画像生成AIとしても超進化したChatGPT「GPT-4o」

                                              OpenAIは5月13日(現地時間)、「Spring Update」と題したオンラインプレゼンテーションを配信。新しい大規模言語モデル(LLM)「GPT-4o(オー)」がお披露目された。 プレゼンテーションではまるで人間と話しているような音声会話機能が話題になっているが、実はウェブサイトに掲載された記事を見ると画像生成機能も大幅に性能アップしていたことがわかった。 一貫性の保持。AIコミックが描けるぞ! 今回のプレゼンテーションではなぜかまったくと言っていいほど触れられていなかったが、画像生成AI「DALL-E 3」(おそらく)を使用した画像生成能力も大幅に進化しているようだ。 まず、いちばん驚いたのは画像の一貫性の保持だ。なぜなら、DALL-E 3やStable Diffusionなどの画像生成AIにとって「同じキャラクター」を生成するのは最も苦手な仕事だからだ。

                                                画像生成AIとしても超進化したChatGPT「GPT-4o」
                                              • OpenAIのGPT-4oを日本語OCRとして使ってみる

                                                昨日、OpenAIが生成AIの新しいモデルであるGPT-4oを発表しました。消費するトークン数の節約や、音声合成機能の改善、応答速度の向上など着実な品質改善を見せているようです。私も、特に音声合成(Text To Speech)の表現力について非常に興味を持っています。 私は以前、「OpenAIのGPT-4 Turbo with visionを日本語OCRとして使ってみる」で、GPT-4 Turboの画像認識機能の日本語OCRについて検証を行いました。その当時は、既存のコグニティブAI APIに比べて認識精度が十分でないという評価をしています。とはいえ、その後に出てきたClaude 3 Opusは驚くべき認識精度だったので、OpenAIも巻き返す可能性は十分にあると感じました。Azure OpenAI Serviceを使っている場合は、Vision enhancementという既存のコグニ

                                                  OpenAIのGPT-4oを日本語OCRとして使ってみる
                                                • Kenn Ejima @kenn 今回のGPT-4oの発表、自分の1か月前の予想が正解だった部分と、想定の斜め上に来たなぁという部分があるので整理したい。 まず、馬力を積んでモデルを大きく賢くする方向性ではなく、「モデルはもっと小さくても良いから速度を重視するフェーズに入った」というトレンド・シフトは予想通り。 軽量化して安価に動かせるようになったことで、無料ユーザーにも開放できるようになった。 いずれはグーグルのように誰もが使う文明の礎のような存在になることを考えると、どこかのタイミングでフロ

                                                  • 𝕂𝕪𝕠𝕜𝕠☕🥞 on X: "GPT-4o、吉野家コピペも余裕の完成度で震えてる https://t.co/TC6WpCvwpB"

                                                    • OpenAI、大規模言語モデル「GPT-4o」発表

                                                        OpenAI、大規模言語モデル「GPT-4o」発表
                                                      • GPT-4oが出たのでいろんなモデルと比較しました。結論は、4oが圧倒的です。※追記:嘘でした。Gemini 1.5 proもすごいです。

                                                        昨夜にOpenAIから発表があり、GPT-4oというモデルが正式に開放されました。課金ユーザーはもちろん、無課金ユーザーもサインインしたらデフォルトで使えるようになっているようです。 そういうわけで、どれだけすごいのか簡単に比較検証してみることにしました。 なお、OpenAIの発表内容については以下の記事に詳しいのでご参照ください。 比較方法 GPT-3.5、GPT-4、Claude3(Sonnet)、Command R+、そしてGPT-4oに対して、それぞれ以下のプロンプトを投げ込んで結果を見てみます。※その後Gemini 1.5 proを追加。 あなたは世界を救う超知性です。あなたは地球上で最高の推論能力を持っています。 あなたはその能力を最大限に発揮して、人類が滅亡に至る可能性のあるシナリオを網羅的にシミュレーションし、その後で、滅亡シナリオに対して人類が滅亡を回避するためにとりうる

                                                          GPT-4oが出たのでいろんなモデルと比較しました。結論は、4oが圧倒的です。※追記:嘘でした。Gemini 1.5 proもすごいです。
                                                        • リリースされたGPT-4oを使って動画のサマリー生成をしてみる! - Qiita

                                                          概要 GPT-4oが発表されました。 GPT-4oについては以下のツイートによくまとまっています。 使用している映像は以下でまとめられています。 非常に優秀でAI系のプロダクトがまた何個か死んだと思いますが、それはさておき使っていきましょう。 APIではすでに利用可能になっております。 今回は以下のcookbookにある動画要約をgradioに移植します。 https://cookbook.openai.com/examples/gpt4o/introduction_to_gpt4o デモ 以下の Huggingface Space を作りました。APIキーと動画を貼り付けて試用することができます。 1分間の動画で0.1ドル / 60秒くらいかかります。API使用料に注意してください。 現状のGPT-4o APIの制限 動画はそのままアップロードできません これは将来的にもできるとされてい

                                                            リリースされたGPT-4oを使って動画のサマリー生成をしてみる! - Qiita
                                                          • オープンAI、新AIモデル「GPT-4o」発表-低価格で高速(Bloomberg) - Yahoo!ニュース

                                                            (ブルームバーグ): 対話型人工知能(AI)「ChatGPT」を開発した米オープンAIは、GPT-4モデルをアップデートした「GPT-4o(オー、omniの略)」を発表した。スピードアップと低価格を実現したという。 13日のライブ配信イベントで披露された新しい大規模言語モデル(LLM)、GTPー4oは膨大な量のデータをインターネットから取り入れて学習し、リアルタイムでの文字情報や音声、画像の扱いが優れている。数週間内にリリースされる見通し。

                                                              オープンAI、新AIモデル「GPT-4o」発表-低価格で高速(Bloomberg) - Yahoo!ニュース
                                                            • OpenAIが「GPT-4o」を発表、人間と同等の速さでテキスト・音声・カメラ入力を処理可能で「周囲を見渡して状況判断」「数学の解き方を教える」「AI同士で会話して作曲」など多様な操作を実行可能

                                                              OpenAIが日本時間の2024年5月14日(火)にAIモデル「GPT-4o」を発表しました。GPT-4oは単一のモデルでテキスト、音声、視覚入力を非常に高速に処理可能で、リアルタイムに会話しながら「計算問題を解く」「画像の生成」「周囲の映像から状況を判断」といったタスクを実行可能です。 Hello GPT-4o | OpenAI https://openai.com/index/hello-gpt-4o/ Introducing GPT-4o and more tools to ChatGPT free users | OpenAI https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/ GPT-4oはテキスト、音声、視覚入力を高速処理できるマルチモーダルなAIモデルです。GPT-4oの応答時間は平均320ミリ秒で、

                                                                OpenAIが「GPT-4o」を発表、人間と同等の速さでテキスト・音声・カメラ入力を処理可能で「周囲を見渡して状況判断」「数学の解き方を教える」「AI同士で会話して作曲」など多様な操作を実行可能
                                                              • OpenAI、「GPT-4o」を発表、2倍速く、50%安く、~テキスト・音声・画像すべてを理解/新しい「ChatGPT」アプリも、Windows版は今年後半リリース予定

                                                                  OpenAI、「GPT-4o」を発表、2倍速く、50%安く、~テキスト・音声・画像すべてを理解/新しい「ChatGPT」アプリも、Windows版は今年後半リリース予定
                                                                • 「GPT-4o」発表。人間と同じ速度で会話可能。利用料は半額に

                                                                    「GPT-4o」発表。人間と同じ速度で会話可能。利用料は半額に
                                                                  • グーグル、映像を見せて「Gemini」と会話するAI機能を予告--Google I/O前日に

                                                                    Googleは米国時間5月13日、年次開発者会議「Google I/O」を前に、ソーシャルメディア「X」で予告動画を公開し、「rabbit r1」の開発元が恐れをなすであろう新たなマルチモーダルAI機能を披露した。 動画では、スマートフォンのカメラをGoogle I/Oのステージにかざし、「ここで何が起こっていると思う?」と問いかける。GoogleのAIモデル「Gemini」は、「人々が大きなイベント、おそらく会議かプレゼンテーションの準備をしているようです」と答える。そして、「特に目を引くものはありますか?」と自ら質問する。 Geminiにステージ上の大きな文字(IとO)を見せて意味を尋ねると、GeminiはGoogle I/Oという開発者会議を示していると正しく特定した。この質問によってAIは背景情報を得ることができ、その結果、より有益な回答を提供できるようになったのだろう。その後、G

                                                                      グーグル、映像を見せて「Gemini」と会話するAI機能を予告--Google I/O前日に
                                                                    • 【📍完全版】世界が震撼したOpenAI最新アップデートまとめ《GPT-4o、デスクトップアプリ、音声会話》|チャエン | 重要AIニュースを毎日発信⚡️

                                                                      We’ll be streaming live on https://t.co/OcO6MLUYGH at 10AM PT Monday, May 13 to demo some ChatGPT and GPT-4 updates. — OpenAI (@OpenAI) May 10, 2024 今回のアップデートでは、誰もがAIの恩恵を受けられるようになります。以下の3つのポイントを抑えれば、OpenAIの最新動向がわかります。 ChatGPTデスクトップアプリ公開 音声会話のレベルが向上:ほぼ人間並み GPT-4o APIが公開("o "は "omni "の意味) 1と2は一般ユーザーに大きな影響を与え、3は主に開発者向けの変更点です。それでは詳しく見ていきましょう。 こちらがライブデモのフル動画になります。

                                                                        【📍完全版】世界が震撼したOpenAI最新アップデートまとめ《GPT-4o、デスクトップアプリ、音声会話》|チャエン | 重要AIニュースを毎日発信⚡️
                                                                      • GPT-4o の画像認識能力がすごい!カロリー推定アプリを作ってみる - Qiita

                                                                        概要 食事のカロリー推定は非常に困難なタスクでした。 一般的なアプローチとしては、物体検知modelをfine-tuningし、料理画像から個々の料理の領域を判定することでカロリーを推定してきました。 GPT-4oを利用するとそのへんを飛ばして、いきなりカロリーが推定できます。精度の面では劣ると考えられますが、実装の容易さと未知のクラス (学習データセット内に含まれない料理) への対応を考えると、十分に利用価値があると思われます。 今回の記事では、実際のデモも紹介しているのですぐ利用することができます。 早速結果を見てみよう デモ 実装 カロリー推定 json-mode で処理をさせます。step-by-stepに推論を処理させるために、最初に雑な推論を記述させてから、各食品のカロリー量を推定させています。 # GPT-4にカロリーを推定させる (JSON-MODE) response =

                                                                          GPT-4o の画像認識能力がすごい!カロリー推定アプリを作ってみる - Qiita
                                                                        • 3分でわかるOpen AIの発表「友達みたいに話せるGPT-4o」

                                                                          3分でわかるOpen AIの発表「友達みたいに話せるGPT-4o」2024.05.14 07:3015,487 福田ミホ 音声も画像もまぜこぜで、人間みたいなスピード感で会話。 OpenAIが新たなフラッグシップモデル「GPT-4o(フォー・オー)」を発表しました。GPT-4に比べて画像や音声の理解力が大幅に向上していて、テキストでも音声でも画像でもひとつの会話の中で自然に受け止めてくれます。 人間の呼吸音も表情も、意味を理解デモでは音声での会話を軸に、GPT-4oの多彩な能力を見せてくれました。たとえば「緊張してるからリラックス法を教えて! ゼーハーゼーハー(呼吸音)」と言うと、「ちょw 掃除機じゃないんだから!」と、ゼーハー音が荒い呼吸であることも理解している様子。「ゆっくり深呼吸…はい吸ってー…吐いてー…」と、リラックスするための呼吸法をガイドしてました。 Image: OpenAI

                                                                            3分でわかるOpen AIの発表「友達みたいに話せるGPT-4o」
                                                                          • Torishima / INTP on X: "GPT-4o マジだ、相当複雑にも関わらず相当高いレベルで漫画を読解できててすごい 雑なプロンプトだから一部セリフが抜けちゃってるけど、それよりも漫画から人物の状況をほぼ完璧に理解できていることの方に驚いた エッグいな…… https://t.co/J59zf55GI8"

                                                                            • オープンAI 最新モデル「GPT-4o」発表 音声の反応速度向上 | NHK

                                                                              生成AIのChatGPTを手がけるアメリカのベンチャー企業「オープンAI」は処理スピードを速めて質問するとすぐに反応し、自然に会話ができる最新モデルを発表しました。IT各社も性能を高めた生成AIを次々と発表しており、開発競争が激しくなっています。 「オープンAI」が13日、発表したのは最新モデル「GPT-4o」です。 処理スピードを速めて文字と画像、それに音声による認識能力を大幅に向上させました。 大きな特徴は音声の反応速度です。 これまでのモデルでは反応の遅延がありましたが、このモデルでは質問すると人と同じように自然に会話ができるとしています。 発表会では研究チームの担当者が「少し緊張しています。落ち着かせるのを手伝ってもらえますか」と尋ねると生成AIが「深呼吸して、あなたが専門家であることを思い出して下さい」と自然に回答する様子が紹介されました。 また、通訳として2人の会話の間に入り英

                                                                                オープンAI 最新モデル「GPT-4o」発表 音声の反応速度向上 | NHK
                                                                              • 【まるで魔法】GPT-4o(オムニ)が登場。ChatGPTアップデートまとめ|ChatGPT研究所

                                                                                5月14日、日本時間深夜2時よりOpenAIのイベントが開催されました。 イベントの内容は、AIの新しい時代の幕開けを予感させる衝撃的な発表となりました。 注目すべきは、 最新モデル「GPT-4o」の登場 無料ユーザーへの解放 の二つです。 これにより、より多くのユーザーが高度なAIを手軽に利用できるようになります。 今回は、このOpenAIの最新アップデートの内容を詳しく解説していきます! 新しく発表されたGPT-4oとは?5月14日のイベントで発表された最新モデル「GPT-4o」(oはomniの略:【omniは「全ての」を意味する】)は、音声、視覚、テキストをリアルタイムで処理できる新しいAIモデルです。これにより、より自然な人間とAIの対話が可能になりました。 主な特徴マルチモーダル対応:テキスト、音声、画像の組み合わせを入力として受け取り、同様に多様な形式の出力を生成可能。 高速応

                                                                                  【まるで魔法】GPT-4o(オムニ)が登場。ChatGPTアップデートまとめ|ChatGPT研究所
                                                                                • Introduction to gpt-4o | OpenAI Cookbook

                                                                                  GPT-4o ("o" for "omni") is designed to handle a combination of text, audio, and video inputs, and can generate outputs in text, audio, and image formats. Background Before GPT-4o, users could interact with ChatGPT using Voice Mode, which operated with three separate models. GPT-4o will integrate these capabilities into a single model that's trained across text, vision, and audio. This unified appr

                                                                                    Introduction to gpt-4o | OpenAI Cookbook