5月13日(現地時間)に米OpenAIが「GPT-4o」を発表したかと思えば、翌日のGoogle I/Oでは「Gemini 1.5 Pro」のアップデートと「Gemini 1.5 Flash」のリリースを発表するなど、AI業界がにわかに活気づいている。 その他生成AIでも画像、音楽、動画といった分野で次々に画期的な機能が実装され、多くの人がその恩恵に預かろうという直前まで来ている。 ただそれを横目に、AIの活用が十分になされていないのではないかと思われる分野が、「日本語入力」だ。OS標準の入力変換エンジン以外にも、Google日本語入力やATOKといった選択肢もあるが、AIの華々しい進化の恩恵にあずかっているようには思えない。「AIが自然な言葉で受け答え」も結構だが、まずは同音異義語の正しい選択や誤変換はどうにかならないのか。 まだ組み込まれるのはこれからだと思いたいが、AIが組み込まれた
米Microsoftは5月24日午後1時過ぎ(米東部時間)、前日早朝からアクセスできなくなっていたMicrosoft Copilotサービスが復旧したとXアカウントでポストした。 原因についての説明はない。「緩和策は完了しており、稼働状況監視により、すべてのCopilot機能が期待通り動作していることが確認されている」としている。 この障害は、主にアジアと欧州のユーザーに影響を与えた。Bing.comや、BingのAPIを使っているDuckDuckGoも使えなくなっていた。 Bing検索を採用している米OpenAIのChatGPTでも一時検索機能が使えなくなっていたが、ステータスページでは、24日の午後2時(米太平洋時間、東部時間では24日の午後5時)には「すべてのサービスが正常に動作している」となっている。 関連記事 MicrosoftのBingやCopilotが一時的にダウン Chat
GPT-4o凄すぎる!! 出たときから騒ぎまくっていましたが、GPT-4oの登場で興奮しっぱなしの私です。 先日こちらのQiitaの記事を拝読し、「Power Appsでやったらどうなるだろう🧐」という思いが抑えられず、作ってみたら超高速で画像解析アプリが作成できました! あらためて記事を出してくださったことに感謝いたします! まずは初弾!ということでGPT-4oを使って、 Power Appsで画像解析アプリを作成する方法 を書いていきます! まずは見た目(Power Apps)から! まずはPower Appsでサクっと画面を作ります! PowerPoint感覚で作れることが強みですからね! 最低限のもので構成しています。 画面 ├─ ScreenContainer - スクリーン全体 ├─ HeaderContainer │ └─ Header - ヘッダーコントロール ├─ Bo
入力してテキストに応じて高解像度の動画を出力する生成AI「Veo」を、Googleが「Google I/O 2024」で発表しました。 Google I/O 2024: Introducing Veo and Imagen 3 generative AI tools https://blog.google/technology/ai/google-generative-ai-veo-imagen-3/ 発表があったのは基調講演の33分53秒あたりから。Google DeepMindのデミス・ハサビス氏が解説しています。 Google Keynote (Google I/O ‘24) - YouTube Googleによれば、Veoは自然言語と視覚的な意味情報を深く理解することにより、たとえば「タイムラプス」や「空撮映像」といったプロンプトを入力すれば、それぞれ意図したような映像を作成してく
[速報]Google、Geminiベースの新WebIDE「Project IDX」をオープンベータで公開 Googleは同社の最新生成AIであるGeminiをベースとした新しいWeb IDE「Project IDX」をオープンベータとして公開しました。 Project IDXは、モバイルやデスクトップなどのマルチプラットフォームに対応したフルスタックのWebアプリケーションを、さまざまなフレームワークや生成的AIの支援などを活用して効率的に開発するための、Webブラウザから利用可能な統合開発環境です。 これまでその存在は発表されていましたが、招待されたユーザーのみが利用可能でした。 We want to make generative AI accessible to every developer on the planet. That’s why we’re making Gemini
以下の記事が面白かったので、簡単にまとめました。 ・Hello GPT-4o 1. GPT-4o「GPT-4o」 (「omni」の「o」) は、人間とコンピュータのより自然な対話に向けた一歩です。テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像の出力のあらゆる組み合わせを生成します。 音声入力にはわずか232ミリ秒 (平均320ミリ秒) で応答できます。これは、人間の会話における応答時間とほぼ同じです。英語のテキストおよびコードでは「GPT-4 Turbo」のパフォーマンスに匹敵し、英語以外の言語のテキストでは大幅に改善されており、APIでははるかに高速で50%安価です。「GPT-4o」は、既存のモデルと比較して、特に視覚と音声の理解に優れています。 2. モデルの機能「GPT-4o」以前は、音声モードを使用して、平均2.8秒 (GPT-3.5) および5
画像生成AI関連の著名な開発者、lllyasviel(イリヤスフィール)氏が5月7日、生成AI画像の照明を自在に操作できるツール「IC-Light(Imposing Consistent Light)」を公開した。 2種類のモデルを公開 IC-Lightは画像の照明を操作するプロジェクト。前景画像(人物やオブジェクトなど)を入力し、プロンプトにテキストや背景画像を指定するだけで、まるで別の環境で撮影したかのような画像を得ることができるという。 現在、「テキスト条件付きリライティングモデル(text-conditioned relighting model)」と「背景条件付きモデル(background-conditioned model)」の2種類がGitHubで公開されており自由に試すことができる。 なお、作者のlllyasviel氏は「Stable Diffusion」のWebUIであ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く