[B! google] masadreamのブックマーク

GoogleがGemini 1.5をリリース、最大100万トークンを処理できて1時間のムービーや70万語のテキストを扱うことが可能

Googleがテキスト・画像・ムービーをまとめて処理できるマルチモーダルAI「Gemini」の次世代モデルとして「Gemini 1.5」を発表しました。処理できるトークン数の上限が100万まで上昇したほか、従来の1.0モデルと比べて少ない計算で高い品質の結果を提供できるとのことです。 Google Japan Blog: 次世代モデル、 Gemini 1.5 を発表 https://japan.google blog.com/2024/02/gemini-15.html 従来モデルであるGemini 1.0は「GPT-4を超える性能のマルチモーダルAI」として2023年12月6日に登場しました。最上位モデルのGemini 1.0 Ultraを使用したハンズオンムービーではまるで人間かと思うような受け答えをしている様子が確認できます。文字・音声・画像を同時に処理して人間以上に自然なやりとりが

masadream 2024/02/20

リンク

Googleが超高品質な動画生成AI「Lumiere」を発表、フレーム同士のつながりが自然で「テキストや画像から動画生成」「写真の一部を動画化」「動画の一部分を指定して加工」などなど機能てんこもり

Googleの研究チームが動画生成AI「Lumiere」を2024年1月24日(水)に発表しました。Lumiereではフレーム同士が自然につながった違和感の少ない動画を生成可能で、テキストや画像を入力して動画を生成できるほか、動画の一部分を指定して別の動画に置き換えたり、写真の一部分だけを動かしたりといった操作も可能です。 Lumiere https://lumiere-video.github.io/ テキストや画像を入力して動画を生成できるAIは数多く存在していますが、それらのAIの多くは「フレームを複数枚生成し、フレーム同士を補間する」という手法で動画を生成しているため、フレーム同士のつながりが不自然になりがちです。一方で、Lumiereは「動画全体のフレームを一度に生成する」という手法を採用しており、フレーム同士のつながりが自然で違和感の少ない動画を生成可能。生成可能な動画のフレー

masadream 2024/02/18

Soraに完全にかき消されて早くも空気ですね…かわいそう…

リンク

オープンソースの生成AIが「GPT-4」に一歩及ばない理由

一方では、常に進化を続けるきら星のごときコントリビュータ―たちによって、数多くのオープンソースの大規模言語モデルが作られ続けている。その中でも特に有名なのが、Metaの「Llama 2」だ。一方、クローズドソースの大規模言語モデルの代表例は、商用モデルとして定評がある2つのモデルである、OpenAIの「GPT-4」と、ベンチャーキャピタルの支援を受けているスタートアップAnthropicの言語モデル「Claude 2」だろう。これらのモデルをテストして互いに比較する方法の1つに、特定の分野（例えば医療知識）の質問に回答させ、その善し悪しを比べるというやり方がある。権威のある医学論文誌を発行しているNew England Jounal of Medicineが創刊した新論文誌「NEJM AI」に最近掲載された、ペパーダイン大学、カリフォルニア大学ロサンゼルス校、カリフォルニア大学リバーサ

masadream 2024/02/17

クローズドデータを学習に使えることが性能向上差に繋がる。連合学習、モデル蒸留がギャップを埋めるアプローチになる。

リンク

Googleが「Gemini Ultra」提供開始、Bardを廃止しサービス名も「Gemini」に統一

GeminiとGemini AdvancedはWebブラウザーで提供するほか、Androidでは「Gemini」アプリを提供。iOSは既存の「Google」アプリに搭載する。「Duet AI」も「Gemini」へ「Duet AI」と呼称されていた生成AIサービスの一部も、名称をGeminiに統一する。「Gmail」や「ドキュメント」などのビジネスツールを生成AIで支援する「Duet AI for Workspace」は「Gemini for Workspace」にする。Google OneのAIプレミアムプランの加入者が使えるようになる。コード作成の支援機能などが利用できる「Duet AI in Google Cloud」は「Gemini in Google Cloud」となる。モデル名とサービス名を統一し、生成AIの主力ブランド・エコシステムの1つとしてGeminiを利用する格好

masadream 2024/02/17

リンク

BigQueryがDocument AIを統合。請求書など画像データの内容をSQLで検索可能に、AIが画像から項目や数値を自動抽出

BigQueryがDocument AIを統合。請求書など画像データの内容をSQLで検索可能に、AIが画像から項目や数値を自動抽出 Google Cloudは、大規模並列データ処理サービスのBigQueryに、画像データから自動的に内容を抽出するAI機能「Document AI」を統合したと発表しました。 Document AIは、請求書や領収書、パスポート、契約書といったドキュメントの画像データを与えると、その項目と内容を生成AIによって自動的に抽出する機能を提供します。 BigQueryがDocument AIを統合することで、BigQueryからSQL文を用いてドキュメントの画像データ群に対して問い合わせが可能になります。例えば、Google Cloud Storageに請求書の画像スキャンをまとめて保存しておき、BigQueryで今月の日付の請求書の合計金額をSQLで求める、など

masadream 2024/02/10

こういう機能を"Bigqueryに"統合するのがGoogleらしいというか。

リンク

グーグル・クラウド・ジャパン、AI基盤モデル「Gemini」などの特徴を解説

masadream 2024/02/10

リンク

Geminiの「常識を推論する能力」を網羅的に調査した結果　間違えやすいタイプの問題も明らかに | AIDB

★AI DB会員限定Discordを開設いたしました！会員登録／ログインの上、マイページをご覧ください。 Geminiは、テキストと画像を組み合わせたマルチモーダル推論に特化したLLMです。開発元であるGoogleは、Geminiは人間のような柔軟性と理解力を持つことを目指す存在だとしています。本記事では、様々な常識推論タスクを通じてGeminiの性能を評価した研究を紹介します。 Geminiは登場からまだ間もなく、実験結果は貴重なデータかもしれません。関連研究：Googleが「人間の専門家レベルを超える最初のモデル」とする『Gemini』発表、GPT-4を凌駕参照論文情報タイトル：Gemini in Reasoning: Unveiling Commonsense in Multimodal Large Language Models 著者：Yuqing Wang, Yun Zh

masadream 2024/01/04

リンク

新たな大規模言語モデル「Gemini」でGoogleが"ChatGPT超え"に本腰 | AI専門ニュースメディア AINOW

Googleは12月7日、新しい大規模言語モデル｢Gemini（ジェミニ）｣を発表した。 Geminiは今年5月に開催されたGoogleの開発者会議「Google I/O」で発表されており、当時は大規模言語モデルである「PaLM 2」の後継モデルとしての発表にとどまっていた。生成AI元年とも呼べる2023年も年末に差し掛かった中、Googleが満を持して「ChatGPT超え」を本格化させるべく打ち上げた号砲がこのGeminiだ。 Geminiがどんなものなのか見てみよう。マルチモーダルとオンデバイス Geminiを理解する上でのキーワードは「マルチモーダル」と「オンデバイス」だ。マルチモーダルとは、テキスト、画像、音声、動画、コードなど、さまざまな種類の情報をAIがシームレスに理解し、操れることといえる。Googleは、Geminiをマルチモーダルのために「ゼロから構築したモデル」と表

masadream 2023/12/27

リンク

Google、医療特化の大規模言語モデル「MedLM」の提供開始

米Googleは12月13日（現地時間）、医療業界向けの新しい大規模言語モデル（LLM）、「MedLM」を発表した。このLLMは医療関連の膨大なデータセットでトレーニングされており、医療研究、医療診断、医療文書作成など、多様な医療用途に使用できるとしている。まずは米国で、Google CloudのAI統合プラットフォームである「Vertex AI」を介して提供を開始した。 MedLMは、「PaLM 2」をベースにしており、医療文書の理解と生成に特化した複雑なタスク向けの大容量モデルと、医療データの分析と予測に特化した、タスク間のスケーリングに適した中程度のサイズで微調整が可能なモデルが用意されている。向こう数カ月中に、GeminiベースのモデルをMedLMスイートに導入する計画だ。米医療サービス大手のHCA Healthcareは、医師がハンズフリーデバイスで患者との会話から正確でタイ

masadream 2023/12/17

リンク

Google、テキスト→画像生成AIモデル「Imagen 2」をVertex AIでリリース　画質大幅アップ

顧客が生成した画像を安全に使うために、Google DeepMindの電子透かし「SynthID」を組み込む。また、潜在的に有害なコンテンツjの生成を防止するための「包括的な安全フィルター」が含まれているという。（GoogleはImagenのトレーニングデータについては開示していない。） Vertex AIでのImagenの利用可能範囲は以下の通り。関連記事 Google、企業と開発者向け「Gemini Pro」提供開始 Googleは、新しい生成AIモデル「Gemini」のミドルサイズ「Gemini Pro」を企業と開発者向けに提供開始した。「Vertex AI」と「Google AI Studio」で利用できる。まずは無料で提供し、将来的には“競争力のある価格”にする計画。 Google、「Vertex AI」での生成AIサポート一般提供開始　「PaLM 2」も使える Google

masadream 2023/12/17

リンク

GoogleのマルチモーダルAI「Gemini Pro」を開発者や企業がAPI経由で利用可能に、1分あたり60クエリまで無料

Googleは2023年12月6日、文字・音声・画像を同時に処理できるマルチモーダルAI「Gemini」を発表しました。現地時間の12月13日、Geminiのミドルモデルである「Gemini Pro」がAPIを介してアクセス可能となり、開発者や企業が独自のユースケース向けに構築できるようになりました。 Google Gemini API: New developer and enterprise AI products https://blog.google/techno logy/ai/gemini-api-developers-cloud/ Google: Gemini API, Imagen 2, Duet AI and more updates https://blog.google/techno logy/ai/google-gemini-pro-imagen-duet-ai-upd

masadream 2023/12/17

「開発者はGoogle AI Studioを通じてGemini ProとGemini Pro Visionに無料でアクセスでき、1分あたり最大60クエリが利用可能。2024年初頭の一般提供開始まではこのレート制限で無料試用可能」

リンク

Geminiの技術レポートを読み解く〜生成AIの最前線｜Ray | 旅する魔法使い

Google DeepMindから次世代のマルチモーダル生成AI「Gemini」が発表されました。「GPT-4を圧倒」や「人間の専門家を超えた」などの華々しい評価が発表され、驚くようなデモ動画も公開されました。断片的な情報が飛び交う中、しっかりと技術レポートを読み解いてみます。どんな生成AIモデル？定量的な評価は？具体例は？ Gemini - Technical Report はじめに革新的な技術が登場したとき、技術レポートや論文をしっかりと読むことが、急がば回れの近道です。華々しいデモ動画や断片的な二次情報の記事を読んでも、表層的な情報に踊らされて、技術の真の姿を読み解くことはできません。 Geminiに関しては、オープンソースではなく論文もありませんが、技術レポートが公開されています。しかし、60ページの大作であり、英語で書かれているため、多くの人が読むのをためらうでしょう。

masadream 2023/12/17

リンク

Google、論文・レポート作成を生成AIが支援「NotebookLM」公開、Geminiを導入

米Googleは12月8日（現地時間）、Googleラボが初期テスターに提供していたAIノートブック「NotebookLM」（実験製品）を、米国で18歳以上が利用できるようにした。これは今年5月に開発者カンファレンスにおいて、「Project Tailwind」という名称で紹介されたツールであり、オンラインノートに大規模言語モデル（LLM）によるAIアシスト機能が統合されている。新版では、PDFサポートやメモボードといった多数の新機能を追加し、またGoogleが12月6日に発表した最新のAIモデル「Genmini Pro」の使用を開始した（対応言語は英語）。 NotebookLMは、論文やレポート、小説、書籍執筆など長い文章を書く際の準備に役立つツールである。執筆プロジェクトごとにカスタマイズされたAIアシスタントが、ユーザーが収集した資料や情報、ユーザーが書いたメモやノートに基づいた、分

masadream 2023/12/11

リンク

AIモデル「Gemini Pro」で大幅強化されたBardが利用可能に、2024年にはGemini Ultra搭載の「Bard Advanced」も登場

Googleが、Google DeepMindによって発表されたAIモデル「Gemini」を、Googleの対話型AI「Bard」に導入すると発表しました。 Google Bard: How to try the new Gemini AI model https://blog.google/products/bard/google-bard-try-gemini-ai/ Google傘下のAI企業・Google DeepMindが2023年12月6日にリリースしたGeminiは、各種ベンチマークでGPT-4を超える性能を見せたマルチモーダルAIで、性能とサイズに応じて最上位モデルの「Gemini Ultra」、中間モデルの「Gemini Pro」、モバイル向けの「Gemini Nano」の3つが用意されています。具体的にどのようなAIモデルなのかは、以下の記事を読むとよくわかります。文

masadream 2023/12/11

リンク

Googleが突如発表した新しいAI、Geminiがすごい - orangeitems’s diary

Googleから新AI、Gemini登場 Googleが突如、新しいAIを発表しました。名前は「Gemini（ジェミナイ）」っていうようですが。 www.youtube.com ChatGPTが、（現時点で）トロトロ答えを返すのとは別世界で、かなり強い競争相手が現れましたね。まぁ、あの遅さもしばらくしたら速くなりそうなものですが。関連記事も紹介。 pc.watch.impress.co.jp Googleはこのほど、そのGeminiの凄さがよく分かる動画をYouTubeで公開した。約6分程度の動画だが、Geminiとの会話(やりとり)は音声で行なわれ、Geminiに対してカメラで手書きにの絵や物を見せたり、動画を見せたりし、それに対してGeminiが受け答えをしているシーンだ。つまり、動画を、日本語の字幕も付けて見たらびっくりされると思います。AIとのインターフェースが音声ってところ

masadream 2023/12/11

確かにローカルで動かすことを明確に謳ったLLMってまだ珍しいかもしれない。

リンク

Google、「Gemini」を公開——問題を抱える「Bard」を新AIモデルで挽回、OpenAIとの距離は縮まるか - BRIDGE（ブリッジ）テクノロジー＆スタートアップ情報

Image credit: Google 競合の OpenAI、Microsoft、Meta、Amazon に対抗する AI の覇権争いで重要な資産になると専門家たちが口を揃える、 Google の注目の新 AI モデル「Gemini」がついに公開された。 Gemini は、 Google の次なる大きな AI ブレイクスルーとして数ヶ月前から期待されていたもので、技術大手としてはこれまでで最大かつ最も野心的な AI モデルのリリースとなる。 CEO の Sundar Pichai（サンダー・ピチャイ）氏によると、Gemini は、人間のように世界を理解し、推論することができる多面的な AI アシスタントの実現に Google を大きく近づけるものだという。この新モデルは、テキスト、画像、音声、動画、その他のデータ形式を分析・生成できる企業向けAI製品に対する需要の高まりに対する Goo

masadream 2023/12/11

リンク

Googleの次世代AIモデル「Gemini」の実力、ほぼ全ての指標で「GPT-4」を凌駕

米Google（グーグル）は米国時間2023年12月6日、次世代AI（人工知能）モデル「Gemini」を発表した。テキストや画像、音声、動画、プログラムコードなど様々な種類の情報に対応できる「マルチモーダル」が特徴。主要な指標の多くで米OpenAI（オープンAI）の「GPT-4」を上回ったという。グーグルのスンダー・ピチャイCEO（最高経営責任者）は「Geminiはこれまでで最も高性能かつ汎用的なモデルだ」とコメントした。 Geminiでどんなことが可能になるのか。グーグルはオンライン記者説明会で、Geminiを使ったデモンストレーション動画を披露した。デモ動画では、カメラで机の上を撮影してGeminiに入力する様子を映している。「何が見えるか教えてほしい」と人間が音声で伝え、机上の紙に線を書くとGeminiは「テーブルの上に紙が見える。滑らかで流れるような線を書いている」と答えた。人間

masadream 2023/12/11

「MMLUとMMMUを含むほぼ全ての指標でGPT-4のパフォーマンスをGemini Ultraが上回った」ついにGoogleも本気モードに。

リンク

BigQuery Studio を発表 - データから AI へのワークフローを加速するコラボレーション指向の分析ワークスペース | Google Cloud 公式ブログ

BigQuery Studio を発表 - データから AI へのワークフローを加速するコラボレーション指向の分析ワークスペース ※この投稿は米国時間 2023 年 8 月 31 日に、Google Cloud blog に投稿されたものの抄訳です。最近の調査によると、データと AI を効果的に活用している組織は、競合他社よりも収益性が高く、さまざまなビジネス指標においてパフォーマンスが向上していることが報告されています。過去 2 年間にデータと分析への投資を増やした組織は 81% にも上ります。しかし、多くの組織が依然としてデータのビジネス価値を最大限に引き出すことに苦慮しており、40% 以上の組織が、分析ツールやデータソースが異なることや、データ品質が低いことを最大の課題として挙げています。統合された、インテリジェントでオープンな Google Cloud は、セキュアなデータおよ

masadream 2023/09/23

リンク

“ChatGPT超え” 生成AI「Gemini」Googleが秋公開へサイズ「巨大化」の今後占う | Ledge.ai

サインインした状態で「いいね」を押すと、マイページの「いいね履歴」に一覧として保存されていくので、再度読みたくなった時や、あとでじっくり読みたいときに便利です。

masadream 2023/09/23

リンク

Googleの無料AI｢Bard｣に大アプデ：画像認識、シェア機能、そして待望のメールアクセス

Googleの無料AI｢Bard｣に大アプデ：画像認識、シェア機能、そして待望のメールアクセス2023.09.19 20:3060,805 西谷茂リチャード加熱するAI開発レース。勝者はユーザー？ GoogleのAIツール｢Bard｣が大規模アップデートされ、かなり便利そうな新機能がいくつか備わりました。アップデートの概要をご紹介します。 Googleレンズで画像認識Bardとのやり取りを、画像からスタートできるようになりました。｢Google レンズ｣を使っていて、写っているものに関する詳しい情報やその説明文を求めるとき、Bardに分析を頼めます。たとえば花や建物をGoogle レンズで撮影して、Bardと掘り下げるといった使い方です。また、レンズを使っていないときのやり取りにも画像が入り込むようになりました。動物について聞いてみたら画像付きの説明が返ってくる、みたいなイメージにな

masadream 2023/09/23

リンク

はてなブックマーク

タグ

関連タグで絞り込む (55)

googleに関するmasadreamのブックマーク (431)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

今週のはてなブックマーク数ランキング（2024年4月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス