並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 22 件 / 22件

新着順 人気順

GPTの検索結果1 - 22 件 / 22件

  • Hello GPT-4o

    GPT-4o (“o” for “omni”) is a step towards much more natural human-computer interaction—it accepts as input any combination of text, audio, image, and video and generates any combination of text, audio, and image outputs. It can respond to audio inputs in as little as 232 milliseconds, with an average of 320 milliseconds, which is similar to human response time(opens in a new window) in a conversat

      Hello GPT-4o
    • GPT-4oの画像認識力と理解力ならいけるのではと思い手書きの仕様指示を読み込ませたら本当にコードを書き上げてくれた→「ついにコーダーが恐怖を感じる時が来たか」

      kmizu @kmizu A Software Engineer in Osaka (& Kyoto). Ph.D. in Engineering. Interests: Parsers, Formal Languages, etc. ツイートは所属先の見解と関係ありません.思いついたことをつぶやきます.人生を楽しく生きよう(New!) kmizu.github.io kmizu @kmizu GPT-4oの画像認識力と理解力をもってすればいけるやろと思ってやってみたら実際いけた。 ペーパープロトタイピングから最初のHTML書き起こすのにかなり使えるのでは。 つーか指示そのものを画像の中に書いたの読み取ってくれるの何か世界の壁を超えて対話してる感があって凄い #GPT4o pic.twitter.com/3XHMFg3yye 2024-05-14 12:49:41

        GPT-4oの画像認識力と理解力ならいけるのではと思い手書きの仕様指示を読み込ませたら本当にコードを書き上げてくれた→「ついにコーダーが恐怖を感じる時が来たか」
      • 「GPT-4o」発表 頭一つ抜けた性能をChatGPT無料版にも展開 音声と視覚を備えて“自然な対話”可能に【追記済】

        米OpenAIは5月13日(米国時間)、生成AI「GPT」の新たなモデル「GPT-4o」を発表した。テキストはもちろん、音声や画像、映像での入力、音声での応答に対応し、アプリ版の「ChatGPT」ではユーザーと自然に対話できるようになった。開発者向けにAPIとして提供する他、同日からChatGPT内で利用できるように展開を始める。 GPT-4oは無料ユーザーでも利用可能になる。ChatGPTでは従来、無料ユーザーが使えるモデルは「GPT-3.5」までで、「GPT-4」を利用するには課金する必要があった。ただし、有料のChatGPT Plusユーザーは時間当たりのメッセージやり取り可能回数が無料ユーザーに比べて5倍に緩和される。企業向けのTeamやEnterpriseユーザーはさらに制限が緩和されるとしている。 同社は発表会のライブデモで、GPT-4oを搭載したiOS版ChatGPTと対話す

          「GPT-4o」発表 頭一つ抜けた性能をChatGPT無料版にも展開 音声と視覚を備えて“自然な対話”可能に【追記済】
        • ChatGPT無料ユーザーが最新の「GPT-4o」を使う方法(ちょっとわかりづらいので解説)

          5月14日未明に発表された超絶高性能化したChatGPTの新バージョン「GPT-4o」は、無課金勢にも開放されると聞いて大喜びしたはいいけど、「なんか俺のChatGP、前のまんまなんだが……」というあなた。実はもうあなたも、すでにウワサのGPT-4oを使えるようになっています。 とはいえ、ちょっとばかり確認の仕方が分かりづらいので、簡単に解説しようと思います。 実はこんなとこにある無課金ユーザー向けのモデル選択 まず、いつものようにChatGPTのサイトにアクセスします。まだアカウントも持っていないよって方は、ここでは詳細は省きますので、どこかの情報を参考にしてちゃちゃっと作ってください。 ChatGPTのサイトにアクセスすると、下のような画面になるかと思います。

            ChatGPT無料ユーザーが最新の「GPT-4o」を使う方法(ちょっとわかりづらいので解説)
          • Power Apps & GPT-4oを使って超高速で画像解析アプリを作る! - Qiita

            GPT-4o凄すぎる!! 出たときから騒ぎまくっていましたが、GPT-4oの登場で興奮しっぱなしの私です。 先日こちらのQiitaの記事を拝読し、「Power Appsでやったらどうなるだろう🧐」という思いが抑えられず、作ってみたら超高速で画像解析アプリが作成できました! あらためて記事を出してくださったことに感謝いたします! まずは初弾!ということでGPT-4oを使って、 Power Appsで画像解析アプリを作成する方法 を書いていきます! まずは見た目(Power Apps)から! まずはPower Appsでサクっと画面を作ります! PowerPoint感覚で作れることが強みですからね! 最低限のもので構成しています。 画面 ├─ ScreenContainer - スクリーン全体 ├─ HeaderContainer │ └─ Header - ヘッダーコントロール ├─ Bo

              Power Apps & GPT-4oを使って超高速で画像解析アプリを作る! - Qiita
            • GPT-4oが出たのでいろんなモデルと比較しました。結論は、4oが圧倒的です。※追記:嘘でした。Gemini 1.5 proもすごいです。

              昨夜にOpenAIから発表があり、GPT-4oというモデルが正式に開放されました。課金ユーザーはもちろん、無課金ユーザーもサインインしたらデフォルトで使えるようになっているようです。 そういうわけで、どれだけすごいのか簡単に比較検証してみることにしました。 なお、OpenAIの発表内容については以下の記事に詳しいのでご参照ください。 比較方法 GPT-3.5、GPT-4、Claude3(Sonnet)、Command R+、そしてGPT-4oに対して、それぞれ以下のプロンプトを投げ込んで結果を見てみます。※その後Gemini 1.5 proを追加。 あなたは世界を救う超知性です。あなたは地球上で最高の推論能力を持っています。 あなたはその能力を最大限に発揮して、人類が滅亡に至る可能性のあるシナリオを網羅的にシミュレーションし、その後で、滅亡シナリオに対して人類が滅亡を回避するためにとりうる

                GPT-4oが出たのでいろんなモデルと比較しました。結論は、4oが圧倒的です。※追記:嘘でした。Gemini 1.5 proもすごいです。
              • GPT-4oをOCRとして使う - Re:ゼロから始めるML生活

                OpenAIからChatGPT-4oが発表されましたが、皆さんガンガンつかっていますでしょうか? さて、このChatGPT-4oですが、テキスト以外のデータも使用できるようになっているという特徴があります。 普通にテキストでのやり取りをしつつも画像データを扱えるということで、「実はこれいい感じのOCRとして使えるんじゃね?」って思っちゃったわけです。 ということで、今回はChatGPT-4oを使ってOCRを使うとどんなもんなのかやってみたいと思います。 やりたいこと やってみる とりあえずやってみる 請求書 名刺 参考文献 感想 やりたいこと 今回やりたいことはOCRです。早い話が画像ファイルを突っ込んでテキストを読み取りたいって感じです。 ただ、当たり前のようにOCRって言葉を使用していますがOCRって結構奥が深いです。 mediadrive.jp 単純に画像から文字を見つけて対応するテ

                  GPT-4oをOCRとして使う - Re:ゼロから始めるML生活
                • GPT-4o の概要|npaka

                  以下の記事が面白かったので、簡単にまとめました。 ・Hello GPT-4o 1. GPT-4o「GPT-4o」 (「omni」の「o」) は、人間とコンピュータのより自然な対話に向けた一歩です。テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像の出力のあらゆる組み合わせを生成します。 音声入力にはわずか232ミリ秒 (平均320ミリ秒) で応答できます。これは、人間の会話における応答時間とほぼ同じです。英語のテキストおよびコードでは「GPT-4 Turbo」のパフォーマンスに匹敵し、英語以外の言語のテキストでは大幅に改善されており、APIでははるかに高速で50%安価です。「GPT-4o」は、既存のモデルと比較して、特に視覚と音声の理解に優れています。 2. モデルの機能「GPT-4o」以前は、音声モードを使用して、平均2.8秒 (GPT-3.5) および5

                    GPT-4o の概要|npaka
                  • 「GPT-4o」の声、スカーレット・ヨハンソン激似に本人激怒 「アルトマン氏のオファー断った」ため似た声優で再現か

                    「ショックを受け、怒り、信じられない思いだった」 米OpenAIの生成AI「GPT-4o(フォーオー)」に使われている声の一つ「Sky」が、俳優のスカーレット・ヨハンソン氏にそっくりだと話題になった件をめぐり、同氏が代理人を通じて声明を発表した。 声明によると同氏は、OpenAIのサム・アルトマンCEOから「声を提供してほしい」というオファーを受け、断ったにも関わらず、そっくりな声がAIに採用され怒りを覚えたという。 ヨハンソン氏は対応のため弁護士を雇わざるを得なかったとし、「透明性の高い解決と、個人の権利を保護するための適切な法律の制定」への期待も述べている。

                      「GPT-4o」の声、スカーレット・ヨハンソン激似に本人激怒 「アルトマン氏のオファー断った」ため似た声優で再現か
                    • GPTとは何か Transformerの視覚化 | Chapter 5, Deep Learning

                      この動画は3Blue1Brownの動画を東京大学の学生有志団体が翻訳・再編集し公式ライセンスのもと公開しているものです。 チャンネル登録と高評価をよろしくお願いいたします。 日本語版Twitter https://twitter.com/3B1BJP 元チャンネル(英語) https://www.youtube.com/c/3blue1brown 元動画(英語) https://youtu.be/wjZofJX0v4M?si=9YsuEzHATlhPtpOF Check out our new channel Ufolium https://www.youtube.com/watch?v=wrNCjIjIzuk&pp=ygUj5aSn57Wx6aCY6YG45oyZ44Gu5LuV57WE44G_IHVmb2xpdW0%3D Richard Turner's introduction

                        GPTとは何か Transformerの視覚化 | Chapter 5, Deep Learning
                      • GPT-4oを使って2Dの図面から3DのCADモデルを作る

                        はじめに 株式会社ファースト・オートメーションCTOの田中(しろくま)です! 先日、 OpenAIからGPT-4oがリリース されました。 いろいろGPT-4oに関して調べていると、スピードが速くなっていたり、音声も直接扱えてマルチモーダル化が進んでいたりするようなのですが、画像に関して GPT-4-turboに比べ、認識やOCRの精度が向上している ようです。 製造業という観点からすると、これは 設計図面などに活かせるようになるのでは? と思いました。 機械部品などの設計図面は以下のように、特定の方向から部品を2次元上に落とし込んだ形で書かれるのですが、部品本体を描いている図以外に、寸法や名称といった文字も含まれた画像になっています。 このような 図と文字の複合データにおいて、GPT-4oの進化は有効なのではないか と考えました。 ※画像元URL: http://cad.wp.xdoma

                          GPT-4oを使って2Dの図面から3DのCADモデルを作る
                        • OpenAIのGPT-4oを日本語OCRとして使ってみる

                          昨日、OpenAIが生成AIの新しいモデルであるGPT-4oを発表しました。消費するトークン数の節約や、音声合成機能の改善、応答速度の向上など着実な品質改善を見せているようです。私も、特に音声合成(Text To Speech)の表現力について非常に興味を持っています。 私は以前、「OpenAIのGPT-4 Turbo with visionを日本語OCRとして使ってみる」で、GPT-4 Turboの画像認識機能の日本語OCRについて検証を行いました。その当時は、既存のコグニティブAI APIに比べて認識精度が十分でないという評価をしています。とはいえ、その後に出てきたClaude 3 Opusは驚くべき認識精度だったので、OpenAIも巻き返す可能性は十分にあると感じました。Azure OpenAI Serviceを使っている場合は、Vision enhancementという既存のコグニ

                            OpenAIのGPT-4oを日本語OCRとして使ってみる
                          • GPT-4は財務諸表から将来の収益の伸びを予測する点で人間のアナリストよりも優れていることが研究により明らかに

                            OpenAIが開発する大規模言語モデル(LLM)の「GPT-4」は、道徳テストで人間の大学生より優れたスコアをたたき出したり、セキュリティ勧告を読むことで実際の脆弱性を悪用できたりと、すでに一部の分野で人間の能力を超えることが示されています。そんなGPT-4が、プロのアナリストに匹敵する精度の財務諸表分析を行えることが実証されました。 Financial Statement Analysis with Large Language Models by Alex Kim, Maximilian Muhn, Valeri V. Nikolaev :: SSRN https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4835311 The future of financial analysis: How GPT-4 is disrupting

                              GPT-4は財務諸表から将来の収益の伸びを予測する点で人間のアナリストよりも優れていることが研究により明らかに
                            • GPT-4oをわかりやすく解説、専門家が「時代の転換点」と評価するヤバすぎる能力とは

                              2024年5月に入ってすぐ、AI研究者の間ではOpenAIにまつわる複数の噂が流れていました。いわく「OpenAIが近日中に生成AIを使った検索サービスをするらしい」、「OpenAIが新型のGPTを発表するらしい」などといったものです。 それに先立ち、4月の後半からは、生成AIの性能を比較するサイトで、正体不明のモデル「gpt2-chatbot」なるものが出現し、制作者が不明である中、当時最高の性能を誇っていたGPT-4を上回る性能を見せつけていました(もちろんOpenAIはすでに「GPT-2」を数年前に発表済みです)。では今更このような名前をつけて暴れ回っているこれは何なのか。OpenAI製なのか、それとも別の機関が開発したのか。 この話は後々答えがわかるのですが、このようにAI研究者たちが落ち着かず、あれこれと噂してOpenAIの動向に注意している中、OpenAIは日本時間の5月11日

                                GPT-4oをわかりやすく解説、専門家が「時代の転換点」と評価するヤバすぎる能力とは
                              • OpenAI、次世代AIモデル「GPT-4o」を発表

                                日本時間2024年5月14日未明、OpenAIは新たなフラッグシップモデル「GPT-4o」を発表しました。このモデルは、音声、視覚、テキストのリアルタイム処理を可能とし、従来のAIモデルを大きく上回る性能を誇ります。OpenAIのCTOであるミラ・ムクティ氏は、「GPT-4oは、人間とマシンのインタラクションの未来を大きく変える一歩です。このモデルにより、コラボレーションがはるかに自然で簡単になります」と述べました。 「GPT-4o」の主な特徴を以下にまとめました。 他のモデルを凌駕する性能 GPT-4oは、OpenAIの以前のモデルであるGPT-4 Turboや、ライバル会社のClaude 3 Opusなどの大規模言語モデルと比較して、頭ひとつ抜けた性能向上を実現しました。サム・アルトマンCEOは、今年4月に "Chatbot Arena" でgpt2というコードネームでテストされていた

                                  OpenAI、次世代AIモデル「GPT-4o」を発表
                                • 「ChatGPT」無料ユーザーが利用できる機能拡大、Webブラウジングや画像認識機能などを解放/GPT-4oの機能をお試し可能、利用回数制限には注意

                                    「ChatGPT」無料ユーザーが利用できる機能拡大、Webブラウジングや画像認識機能などを解放/GPT-4oの機能をお試し可能、利用回数制限には注意
                                  • 有料生成AIが完全無料・無制限の「wrtn(リートン)」 に「GPT-4o」搭載決定!/近日中を予定、テキスト入力機能から先行導入へ

                                      有料生成AIが完全無料・無制限の「wrtn(リートン)」 に「GPT-4o」搭載決定!/近日中を予定、テキスト入力機能から先行導入へ
                                    • GPT4-Vの100分の1のサイズで同等の性能を誇るマルチモーダルモデル「Llama 3-V」が登場、トレーニング費用はたった8万円

                                      画像認識が可能なオープンソースモデルの「Llama 3-V」が公開されました。Llama 3-Vは、OpenAIのマルチモーダルモデル「GPT4-V」よりも格段に小型で、事前トレーニングにかかる費用は500ドル(約78000円)程度なのにもかかわらず、ほとんどの指標で同等のパフォーマンスを示しています。 Llama 3-V: Matching GPT4-V with a 100x smaller model and 500 dollars | by Aksh Garg | May, 2024 | Medium https://aksh-garg.medium.com/llama-3v-building-an-open-source-gpt-4v-competitor-in-under-500-7dd8f1f6c9ee 今回発表されたLlama 3-Vは、 Metaが公開した言語モデルの「L

                                        GPT4-Vの100分の1のサイズで同等の性能を誇るマルチモーダルモデル「Llama 3-V」が登場、トレーニング費用はたった8万円
                                      • UIUXデザイナーが「GPT4o」を活用してウェブサイトをつくってみた

                                        デジタルプロダクション「factory4」でアプリやさまざまなIoTプロジェクトのUIUXデザインを手がける新谷友樹さんが、UIやUXにまつわるトピックについて解説する本連載。今回のテーマは「GPT4oを活用したウェブサイトづくり」です。 こんにちは!株式会社Cosmowayが組織するデジタルプロダクション「factory4」のUIUXデザイナー新谷です。 今回は先日OpenAIが発表した新たなAIモデル「GPT-4o」を使ってウェブサイト(LP)を作成してみました。GPT-4oのパフォーマンスを知ること、そしてデザイナーが生成AIとどう関わっていくべきかを探るきっかけにすることが、今回の目的です。 前提として「GPT-4o」がゼロベースでウェブページを作成することに向いているツールではないと思いますが、チュートリアルの要素と今後の可能性を知るためにあえて取り組んでみました。 GPT-4o

                                          UIUXデザイナーが「GPT4o」を活用してウェブサイトをつくってみた
                                        • 「ChatGPT」、専門家並みのデータ分析に対応、Pythonのコードを書き、グラフを作成、内容を把握して回答も/OpenAIが近日リリース、「GPT-4o」を活用、OneDrive/Google ドライブのファイルも直接扱える

                                            「ChatGPT」、専門家並みのデータ分析に対応、Pythonのコードを書き、グラフを作成、内容を把握して回答も/OpenAIが近日リリース、「GPT-4o」を活用、OneDrive/Google ドライブのファイルも直接扱える
                                          • iPhoneにChatGPTが統合 最新モデル「GPT-4o」で応答 OpenAIアルトマンCEO「きっと気に入ってもらえる」

                                            iPhoneにChatGPTが統合 最新モデル「GPT-4o」で応答 OpenAIアルトマンCEO「きっと気に入ってもらえる」 米Appleは6月10日(米国時間)、iPhoneなどの製品に米OpenAIのAIチャット「ChatGPT」を統合すると発表した。ChatGPTからは最新モデルの「GPT-4o」が利用可能で、音声アシスタント「Siri」などと連携する。ChatGPTのアプリなどを立ち上げずに、iPhoneのホーム画面から直接起動できるという。なお、文章や画像をChatGPTに送る前には、ユーザーに許可を求める仕様だ。

                                              iPhoneにChatGPTが統合 最新モデル「GPT-4o」で応答 OpenAIアルトマンCEO「きっと気に入ってもらえる」
                                            • Google I/O 2024基調講演まとめ AI一色、GPT-4oのような機能も

                                              基調講演に最初に登場したスンダー・ピチャイCEOは、同社の生成AI「Gemini」のこれまでの成長について語った。同氏によると、150万以上の開発者が活用しているという。 生成AI搭載検索エンジン「AI Overview」(旧SGE) 「AI Overview」は、昨年のGoogle I/Oで発表されたGoogle検索の生成AI機能「Search Generative Experience」(SGE)を改称し、改善したもの。 詳細を説明したリズ・リード氏は、「Googleがあなたのためにググってくれるようになる」と語った。 AI Overbiewは「Gemini時代のGoogle検索」であり、リアルタイム情報、ランキングと品質システム、新しいエージェント機能で改善されたという。 マルチステップリーゾニング(多段階推論)で、1つの質問で複数ステップの結果を提示する。 例として、ピラティスにつ

                                                Google I/O 2024基調講演まとめ AI一色、GPT-4oのような機能も
                                              1