[B! 技術][Google] fashiのブックマーク

Googleが視覚とテキストから人間のように理解するロボット向け言語モデル「PaLM-E」を発表、「お菓子を持ってこい」などの複雑な命令も遂行可能

対話型AI「ChatGPT」などに使われる言語モデルは複雑なタスクを実行することが実証されていますが、これをロボットに応用する場合、状況にあった動作を行うために言語モデルはより詳しい情報を収集する必要があります。Googleとベルリン工科大学のAI研究者グループは、カメラで捉えた映像とテキストによる指示を理解できる新しい言語モデル「PaLM-E」を開発したことを明らかにしました。このモデルを使うことにより、「引き出しからお菓子を持ってきて」というような複雑な命令をロボットが処理できるようになります。 PaLM-E: An Embodied Multimodal Language Model https://palm-e.github.io/ Google’s PaLM-E is a generalist robot brain that takes commands | Ars Techn

fashi 2023/03/10

リンク

Google、文章から音楽を生成するAIツール「MusicLM」発表 | テクノエッジ TechnoEdge

ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他 Google Reseachが、入力されたテキストに応じて音楽を生成するツール「MusicLM」を発表しました。 MusicLMは、28万時間におよぶ音楽のデータセットを用いて学習したAIを使用し、Google Researchが言うところの「非常に複雑」なテキスト記述、たとえば「ディストーションの効いたギターリフのバッキングに乗る心地よいバイオリンの旋律」といったテキストから、忠実性の高い音楽を作り出せると説明されます。実際のところは、提示されている出力例を聴いても全体的に音楽としてきちんと編曲されたものができあがるわけではないようです。またその音質は「24kHzの音楽」と説明されているものの、生成された

fashi 2023/01/30

リンク

グーグル、人間の指示でロボットがコードを記述できる言語モデルを発表

Googleは、大規模言語モデル（LLM）利用に向けた新たな取り組みを発表した。ロボットが人間の指示に基づいて自分でコードを作成できる仕組みを示すものだという。最新の取り組みは、ロボットが人間の曖昧な指示を理解して論理的に思考し、確実に反応できるようにする、Googleの「PaLM-SayCan」モデルをベースにしている。OpenAIの「GPT-3」 LLMや、GitHubの「Copilot」のような自動コード補完関連の機能もベースになっている。「人間から指示が与えられた時に、ロボットが自分でコードを書いて世界とやりとりできたら、どうなるだろう」とGoogleの研究者は述べている。PaLMのような最新世代の言語モデルは、複雑な論理的思考が可能で、膨大なコードによって訓練されてきたという。「自然言語で指示を与えられると、最新の言語モデルは、汎用コードだけでなく、われわれが発見したように、

fashi 2022/11/08

リンク

「翻訳できるARスマートグラス」　Googleがプロトタイプを披露

米Googleは5月11日（現地時間）、同社の大型カンファレンス「Google I/O 2022」において、リアルタイム翻訳に対応したスマートグラスの試作機を公開した。詳細な仕様などは不明だが、視覚で翻訳結果を確認できるとしている。試作機のテストは動画で公開され、中国語を話す母親と英語を話す娘がお互いにコミュニケーションを取る様子などが収められている。デモ機にスクリーンが搭載されているか動画からは確認できないが、イメージ映像ではグラス内で相手の話す言葉がリアルタイムに翻訳されていく様子が分かる。関連記事「Pixel Watch」正式発表　Google初のスマートウォッチ　2022年秋に登場米Googleは、同社のテクノロジーカンファレンス「Google I/O 2022」において、Google初のスマートウォッチ「Pixel Watch」を発表した。 Google、「Pixel 7

fashi 2022/05/12

リンク

3kbpsという低いビットレートでも高音質を実現するコーデック「Lyra」をGoogleが開発

2021年2月25日、Googleが3kbpsという低いビットレートでも、元音声と遜色ないほどの音質を維持できるコーデック「Lyra」を開発したと発表しました。 Google AI Blog: Lyra: A New Very Low-Bitrate Codec for Speech Compression https://ai.google blog.com/2021/02/lyra-new-very-low-bitrate-codec-for.html ほとんどのコーデックでは音声信号をサンプルごとに圧縮して送信することで高音質を実現するモデルを使用していますが、このモデルでは低いビットレートで元の音質を再現することができません。しかしGoogleが新しく開発したモデルは、最小限のデータを使用して音声を再生成できるようになっているとのこと。低いビットレートでも元の音質を再現できるのは、

fashi 2021/03/03

そのうち音声認識してボカロやMIDIのようなテキスト+抑揚ピッチアクセント音域情報を送信先で合成とかになりそう

リンク

落書きを即3Dモデル化、つまんで動かし即アニメーションに　Googleなど「Monster Mash」開発

Innovative Tech：このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。チェコ工科大学、米Google Research、スイス・チューリッヒ工科大学による研究チームが開発した「Monster Mash」は、手描きスケッチでモデリングとアニメーションを手軽に行えるツールだ。落書きのように大ざっぱに描いた絵から3Dモデルを素早く展開し、キャラクターの一部をつまんで移動させるだけでリアルタイムにアニメーションを作成できる。

fashi 2020/11/02

リンク

Google、小説を全て処理できるAI翻訳「Reformer」発表 | AMP[アンプ] - ビジネスインスピレーションメディア

Googleが、従来のAI翻訳「Transf ormer」より、さらに長い文脈を理解できるAI翻訳「Reformer」を発表した。 Reformerは、現在機械翻訳において主流となっているAIモデルTransf ormerのシステムの課題であるメモリ消費と長文の翻訳精度の問題を解決し、100万ワードの文章を翻訳することが可能になった新しいAIモデル。また、従来通り、文章の翻訳だけではなく、音楽や画像の生成にも利用できるため、今回の機能向上により、画像に関しては、断片的な画像を復元することができるようになったとのことだ。断片画像からの復元例同モデルは、あらかじめワードにハッシュ値を割り当て、これに応じてセグメントを分類。同じ、または隣接するセグメント内のワードを比較する機能を実装することにより、計算負荷の低下を実現した。さらに、レイヤー移行におけるメモリ消費問題を解決するため、従来のよう

fashi 2020/01/24

リンク

Engadget | Technology News & Reviews

Parrots in captivity seem to enjoy video-chatting with their friends on Messenger

fashi 2019/12/18

リンク

Googleがスマホのカメラで手の動きを高精度でリアルタイムトラッキングする技術を開発

by rawpixel.com GoogleのAI開発チームは、コンピュータービジョンに関する国際会議のCVPR 2019において、リアルタイムで手の動きをトラッキングする機械学習システムを、Googleが提供するオープンソースフレームワークであるMediaPipeに実装すると発表しました。手や指の動きを追跡する既存のハンドトラッキングシステムは、高性能なデスクトップ環境に依存してきましたが、Googleは新たにスマートフォンのカメラでリアルタイムのトラッキングを可能にした上に、複数の手もトラッキングできると説明しています。 Google AI Blog: On-Device, Real-Time Hand Tracking with MediaPipe https://ai.google blog.com/2019/08/on-device-real-time-hand-tracking-

fashi 2019/08/21

リンク

Googleが音声翻訳で話者の声を保ったまま翻訳させる画期的なシステム「Translatotron」を発表

by rawpixel.com Googleが、人が話した内容を本人の声を保ったまま音声翻訳してくれる「Translatotron(トランスラトトロン)」について詳細を明かしました。従来モデルとは異なるエンドツーエンドモデルを採用した画期的なシステムとなっており、音声翻訳の未来を切り開くものと考えられています。 Google AI Blog: Introducing Translatotron: An End-to-End Speech-to-Speech Translation Model https://ai.google blog.com/2019/05/introducing-translatotron-end-to-end.html これまでの音声翻訳では、まず話者が話した内容が自動音声認識により文章として起こされ、そこから機械翻訳を通して音声出力を行うという形が採られていました。

fashi 2019/05/17

リンク

Engadget | Technology News & Reviews

Research indicates that carbon dioxide removal plans will not be enough to meet Paris treaty goals

fashi 2019/02/28

AI凄いな

リンク

Google、スマートフォン含むWebブラウザでリアルタイムに人間の姿勢推定を可能にする機械学習モデルPoseNet：TensorFlow.jsバーション発表

Google、スマートフォン含むWebブラウザでリアルタイムに人間の姿勢推定を可能にする機械学習モデルPoseNet：TensorFlow.jsバーション発表 2018-05-08 Googleは、Webブラウザでリアルタイムに人間の姿勢推定を可能にする機械学習モデル「PoseNet」TensorFlow.jsバーションを発表しました。 GitHub：tfjs-models/posenet at master · tensorflow/tfjs-models PoseNetは、映像中の人物から1つのポーズまたは複数のポーズを検出できる技術です。ToseorFlow.jsは、Webブラウザで実行できるオープンソースの機械学習ライブラリで、Googleがオープンソースとして公開している機械学習ライブラリ「TensorFlow」のJavaScript版です。今回、その2つを組み合わせたTose

fashi 2018/05/08

リンク

Engadget | Technology News & Reviews

Research indicates that carbon dioxide removal plans will not be enough to meet Paris treaty goals

fashi 2018/04/18

リンク

「複数の音が混ざった音声から特定の1人の声だけを抜き出す技術」をディープラーニングを用いてGoogleが開発

多くの人が集うパーティー会場のような、たくさんの人が談笑している中でも自分の名前や興味のある話を自然と聞き取ることができる現象は「カクテルパーティー効果」と呼ばれ、人間が持つ能力「選択的注意」の代表例とされています。Googleの研究者は、ディープラーニングを用いることでコンピューターに自動で混ざり合った音声を分離する技術を習得させて、コンピューターにカクテルパーティー効果を身に付けさせることに成功しました。 [1804.03619] Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation https://arxiv.org/abs/1804.03619 Research Blog: Looking to Listen: Audio-Vis

fashi 2018/04/12

顔が映ってないとだめなんか

リンク

より高い品質の翻訳を実現するGoogleの「Transformer」がRNNやCNNをしのぐレベルに

ニューラルネットワークの中でもリカレントニューラルネットワーク(RNN)は、言語モデリングや機械翻訳、質疑応答といった言語理解タスクに対する主要なアプローチ方法と見なされています。そんな中、GoogleがRNNよりも言語理解タスクに秀でた新しいニューラルネットワークアーキテクチャ「Transf ormer」を開発しています。 Research Blog: Transf ormer: A Novel Neural Network Architecture for Language Understanding https://research.google blog.com/2017/08/transf ormer-novel-neural-network.html Googleによる言語理解タスクに秀でたニューラルネットワークアーキテクチャの「Transf ormer」は、英語からドイツ語、英語からフ

fashi 2017/09/04

リンク

あなたの会社は本当に機械学習を導入すべきなのか？ - bohemia日記

こんにちは。ぼへみあです。こんな記事を読みました。 japan.zdnet.com よくあることだと思いますが、上から降ってきた機械学習プロジェクトは99%失敗し、導入したとしても技術的負債という形でエンジニアを苦しめることになるので、やらないほうがいいと思います。僕は普段から、ディープラーニング面白しれー、機械学習サイコーと世に広めてしまっているのですが、こちらの講演を聞き、機械学習をシステムに組み込んで運用する際に、普通のシステム以上に技術的負債が発生しやすく、どの企業でも気軽に導入を進めるべきでないと思いましたので、今の考えをまとめてみました。ディープラーニング、実サービスへの導入の実際〜niconicoにおけるレコメンド、コメント解析、画像解析〜 | Peatix 機械学習は技術的負債の高利子クレジットカード近年高い成果を上げ、ブームになっている機械学習を導入したいと考

fashi 2017/04/05

SFでよくあるAIを管理するAIが必要だな

リンク

［速報］Google、動画になにが映っているかを自動的に判断する「Video Intelligence API」発表。Google Cloud Next'17

［速報］Google、動画になにが映っているかを自動的に判断する「Video Intelligence API」発表。Google Cloud Next'17 Googleは米サンフランシスコでイベント「Google Cloud Next'17」を開催。1日目の基調講演で、動画を分析して、いつ、なにが映っているかを判断する「Video Intelligence API」を発表しました。動画になにが映っているかをコンピュータが自動的に判断する Googleのチーフサイエンティスト Fei-Fei Li博士によると、動画をコンピュータに理解させることはこれまで何年ものあいだ大きな課題で、実際、画像研究者にとって動画はデジタルな世界のダークマター（暗黒物質）だとされてきた、と。そうしたなかで、Googleは機械学習による新しいAPI「Video Intelligence API」を発表しまし

fashi 2017/03/09

解析時間は…わずか数秒ってどのスパンで数秒なんだろう

リンク

糖尿病による目の病気をGoogleのディープラーニング技術は専門医よりも正確に見抜く

ディープラーニング技術の急速な進歩によって画像認識処理の精度が非常に高まっています。Googleがディープラーニング技術を活用して、糖尿病にともなう眼疾患の早期発見において、専門医を上回る成果を見せています。 Accuracy of a Deep Learning Algorithm for Detection of Diabetic Retinopathy | Diabetic Retinopathy | JAMA | The JAMA Network http://jamanetwork.com/journals/jama/fullarticle/2588763 Research Blog: Deep Learning for Detection of Diabetic Eye Disease https://research.google blog.com/2016/11/deep-l

fashi 2016/12/01

リンク

Googleが低解像度画像を爆速で高画質化する機械学習を使った技術「RAISR」を発表

毎日ウェブ上では無数の写真がシェアされていますが、アップロードされる写真の解像度は撮影機材によってさまざまで、低解像度の画像は時に引き延ばされてジャギーまみれになることがあります。据え置き機・モバイル機ともに高解像度ディスプレイの普及が進む中で、「見やすい低解像度画像」が必要とされつつあるのですが、機械学習を用いた新技術「RAISR(Rapid and Accurate Image Super-Resolution)」によって、リアルタイムで「低解像度画像の高品質バージョン」を生成できるようになります。 Research Blog: Enhance! RAISR Sharp Images with Machine Learning https://research.google blog.com/2016/11/enhance-raisr-sharp-images-with-machine.