第57回 コンピュータビジョン勉強会@関東 https://kantocv.connpass.com/event/260132/ で読みました。CNNとViTの争いの現時点の情報をお届けしています。ただECCV 2022の論文を読んだのかと言われると怪しい…(ECCV2022の論文「も」読んだというのが正しい)
Discussion of this page on Hacker News, May 21, 2023. Training and running neural networks often requires hardware acceleration, and the most popular hardware accelerator is the venerable graphics processing unit, or GPU. We have assembled cloud GPU vendor pricing all into tables, sortable and filterable to your liking! We have split the vendor offerings into two classes: GPU Cloud Servers, which
OpenAIの音声認識モデルWhiper、いやー、まじですごすぎて感動しました。 配信中のpodcast番組 白金鉱業.FMを頑張って文字起こしするために、この記事とか、この記事とかでかなり真面目に既存文字起こしAPIの精度などを比較していましたが、もう今回は比べるまでもなく本当に雲泥の差です。ほぼ一言一句正確に文字起こしできます。GCP, AWS, Azureの文字起こしAPIは文字起こし精度が体感30~60%くらいでしたが、whisperは90%超えている印象です。もう笑うしかないです。 最初に結論 インストール 実行方法 結果 tinyモデルの結果 baseモデルの結果 smallモデルの結果 mediumモデルの結果 largeモデルの結果 まとめ 追記 カタカナ英語 完全制覇 whisperくん せんでんせんでん 最初に結論 whisperは異なるモデルサイズが5種が利用可能であ
Text2Light: Zero-Shot Text-Driven HDR Panorama Generation TOG 2022 (Proc. SIGGRAPH Asia) Abstract High-quality HDRIs (High Dynamic Range Images), typically HDR panoramas, are one of the most popular ways to create photorealistic lighting and 360-degree reflections of 3D scenes in graphics. Given the difficulty of capturing HDRIs, a versatile and controllable generative model is highly desired, whe
ジェイ・アラマールのブログより。 AIによる画像生成は、(私を含めて)人々の度肝をぬく最新のAIの能力です。テキストの説明から印象的なビジュアルを作り出す能力は、魔法のような品質を持ち、人間がアートを創造する方法の変化を明確に指し示しています。Stable Diffusionのリリースは、高性能(画質だけでなく、速度や比較的低いリソース/メモリ要件という意味での性能)なモデルを一般の人々に提供することになったのは、この開発における明確なマイルストーンです。 AI画像生成を試してみて、その仕組みが気になり始めた方も多いのではないでしょうか。 ここでは、Stable Diffusionの仕組みについて優しく紹介します。 Stable Diffusionは、様々な使い方ができる汎用性の高いものです。まず、テキストのみからの画像生成(text2img)に焦点を当てます。上の画像は、テキスト入力と生
| | AITemplate (AIT) is a Python framework that transforms deep neural networks into CUDA (NVIDIA GPU) / HIP (AMD GPU) C++ code for lightning-fast inference serving. AITemplate highlights include: High performance: close to roofline fp16 TensorCore (NVIDIA GPU) / MatrixCore (AMD GPU) performance on major models, including ResNet, MaskRCNN, BERT, VisionTransformer, Stable Diffusion, etc. Unified, o
概要DreamBoothとは追加学習することで、AI(StableDiffusion)で特定のキャラや物を描くためのモデル(データ)作るツールです。 例えば、ドラゴンクエスト10オンラインというゲームのアンルシアというキャラがいます。 ドラゴンクエスト10のアンルシア 公式サイトより引用 https://hiroba.dqx.jp/sc/election/queen2021/vote/confirm/1/nologinこのキャラの画像を18枚ほどAIに読み込ませ、追加学習し、AIに描かせた絵が以下の絵になります。 これ見ると、単なる髪型や顔が似ているレベルではなく、服の模様レベルまで再現できている事がわかります。 今までStableDiffusionの欠点として、同じキャラを安定して描くのが苦手というのがありましたが、DreamBoothを使うことで克服することが出来ます。 これにより、A
Metaがテキストから動画を生み出すAI「Make-A-Video」を発表2022.09.30 14:006,700 そうこ Metaが、テキストから高画質の動画を生成するAIシステム「Make-A-Video」を発表しました。Make-A-Videoのシステムは、画像を解説するテキストデータから世界の見え方を、動画から世界の動き方を学びます。クリエイターやアーティストの新しいツールとして、ユーザーが想像した世界をより簡単に形に表せるようにするのがMetaの目標。 Make-A-Videoのウェブサイトには、例として「スーパーヒーローの服で赤いマントで空を飛ぶ犬」とか「手にリモコンを持ってテレビを見る猫」とか「火星に着陸する超リアルな宇宙船」などが、サンプルとして公開されています。どれも非常に素晴らしい出来映えでびっくり! 1枚の画像から動画を作成することもできるまた、テキストから動画化す
Abstract Recent breakthroughs in text-to-image synthesis have been driven by diffusion models trained on billions of image-text pairs. Adapting this approach to 3D synthesis would require large-scale datasets of labeled 3D assets and efficient architectures for denoising 3D data, neither of which currently exist. In this work, we circumvent these limitations by using a pretrained 2D text-to-image
画像生成AI「DALL・E2」や文章生成AI「GPT-3」「InstructGPT」などを開発するAI研究団体のOpenAIが、2022年9月に高性能な文字起こしAI「Whisper」を発表しました。オープンソースのWhisperはリポジトリが一般公開されており、日本語にも対応しているとのことで、オンライン実行環境のGoogle Colaboratory(Google Colab)やローカルのWindows環境に導入して使ってみました。 Introducing Whisper https://openai.com/blog/whisper/ GitHub - openai/whisper https://github.com/openai/whisper ○目次 ◆Hugging Faceの体験版を使ってみる ◆Google Colabに導入して使ってみる ◆Windows環境に導入してみ
こんちには。 データアナリティクス事業本部 機械学習チームの中村です。 2022/09/22の夕方ごろ、OpenAIが音声認識ですごいものを出したらしいというニュースが社内のSlackをにぎわせていました。 個人的には、いくら認識が凄いって言っても、実際日本語は微妙なんじゃないかな…?と思っていたのですが… ですが… … … … おお!?(上記はGitHubにあるWER: Word Error Rateのグラフです) これは!? これは結構良さげな数値を出している!?(たぶん) ってことで元音声屋さんとしては、これは試すしかない!ということで動かしてみました!(投稿は翌日になってしまいましたが…) なお、本記事では論文内容の詳細などには触れませんのでご了承ください。(後日できたらがんばります) いますぐ使いたい人向け 今すぐ使いたい方は、Hugging Faceでブラウザから書き起こしを試
ディープラーニング技術者であるOllin Boer Bohan氏が、『ポケットモンスター』風のゲーム画面を生成するデモを構築。プレイヤーの操作まで検知して“それっぽい”映像を再現することに成功し、実際にブラウザ上で操作できるよう公開されている。 Ollin Boer Bohan氏によるデモより 『ポケットモンスター』(以下、ポケモン)は、任天堂の人気RPGシリーズだ。同作はポケモンを捕獲・育成してバトルに挑むシステムが特徴。また、初代『ポケモン 赤・緑』から、メインシリーズ作品は長らく見下ろし視点で親しまれていた。描画としては2Dモノクロから、世代を重ねるごとに色鮮やか・高精細になっていき3D表現に移ったものの、見下ろしスタイルが深く印象に残っているファンも多いだろう。 左がバーチャルコンソール版『ポケモン 赤』、右が『ポケモン ダイヤモンド・パール』 そんな馴染みある見下ろし視点の『ポケ
こんにちは、品川です。Vision Transformer入門という本の執筆に参加しました。いよいよ本格的な販売がはじまります。どんな本なのか注目してくださってる方もいらっしゃると思うので、著者陣の一人の視点から執筆の背景と書評を少しだけ書こうと思います。 gihyo.jp 執筆の背景 書評 第1章 TransformerからVision Transformerへの進化 第2章 Vision Transformerの基礎と実装 第3章 実験と可視化によるVision Transformerの探求 第4章 コンピュータビジョンタスクへの応用 第5章 Vision and Languageタスクへの応用 第6章 Vision Transformerの派生手法 第7章 Transformerの謎を読み解く 第8章 Vision Transformerの謎を読み解く 手薄になっている内容 執筆の背
日立製作所 研究開発グループ 自動運転研究部は、GPUによるCNN(Convolutional Neural Network:畳み込みニューラルネットワーク)処理において期待したような性能が出ない理由やその対処方法について、「DAシンポジウム2022 −システムとLSIの設計技術−」(情報処理学会 システムとLSIの設計技術研究会(SLDM)が2022年8月31日~9月2日に開催)で発表した。CNN処理は、ADAS(先進運転支援システム)や自動運転における画像認識でよく使われる演算である。 発表した日立の島村光太郎氏によれば、CNN処理をGPUで実行すると、その演算性能がGPUメーカー発表のピーク性能より桁違いに低い場合があるという(図1)。例えば、データセンターでの推論処理でよく使われている米NVIDIA(エヌビディア)のGPUカード「Tesla T4」の16ビット浮動小数点演算(FP1
AIスタートアップのAdeptが、デジタルツールを使用するように訓練された大規模なTransformerモデル「ACT-1」を発表しました。ACT-1はブラウザで何が起こっているかを監視し、クリック・入力・スクロールなどの特定アクションを実行できるChrome拡張機能に接続されており、操作を自動化できます。 ACT-1: Transformer for Actions https://www.adept.ai/act ACT-1は、ユーザーの高度な要求を受け止め、それを実行することができます。ユーザーはテキストボックスにコマンドを入力するだけで、あとはACT-1が実行します。 ACT-1への指示は、ブラウザ上に表示されるポップアップに英語で入力して行います。例えば「ヒューストンで4人家族が住む家を探してほしい、予算は60万ドル(約8400万円)」と入力します。 すると、物件の検索サイトでヒ
「Pokemon GO」(ポケモンGO)などのARゲームで知られる米Nianticは9月14日(現地時間)、iOS向け3Dスキャンアプリ「Scaniverse」がLiDARを持たないiPhoneにも対応すると発表した。iPhone XS以降の全てのiPhoneと過去4年間に発売されたほとんどのiPadで利用できるという。 LiDARに代わり、ニューラルネットワークを活用してカメラ画像から奥行きを推測する「ManyDepth」技術を搭載した。建物など大きな空間に適した「Areaモード」と人物やオブジェクトの細部を捉える「Detailモード」があり、DetailモードならScaniverseフォトグラメトリ処理を活用してLiDAR搭載デバイスと同等の高品位なスキャン結果が得られるとしている。 「LiDARを搭載していない端末でもScaniverseを利用したいという要望が多かった。(ManyD
脳がどのように時間を把握するのかという研究や選択的に恐怖やトラウマなどの記憶を消去する実験など、「脳がどのように機能して、脳のどこで何をするのか?」という疑問は依然として不明な点が多くなっています。そのような脳の働きについて、言語処理の深層学習モデルであるTransformerが、脳の機能を追跡する類似モデルとして役に立つことが示されました。 Quanta Magazine https://www.quantamagazine.org/how-ai-transformers-mimic-parts-of-the-brain-20220912/ Relating transformers to models and neural representations of the hippocampal formation | OpenReview https://openreview.net/f
高杉 光一🦋 @14:59 @kuronagirai Cry… 基本箱推し 画像生成AIで作った画像の供養先@AI_Rushia 生成した画像は商用利用と人が嫌がるようなこと以外の用途であれば好きに使って構いません syosetu.org/?mode=user&uid… 高杉 光一🦋 @kuronagirai 私が把握してる今のところの各画像生成AIの相関図 Stable Diffusionのオープンソース化は間違いなくターニングポイントの一つだけどWaifu Diffusionがどこまで影響を与えるかはこれ次第 Midjourneyも十分影響あったんだけど芸術や背景特化感否めない ERNIE-ViLGはどうなるんだろう…? mimicはうん… pic.twitter.com/ykyDSkltPE 2022-09-09 04:17:01 高杉 光一🦋 @kuronagirai 素人目
動機 AIを使って異常検知(製品の良品・不良品を見分ける等)を行いたいと考えたことがある人は多いのではないでしょうか?実際にAIが得意とする分野ではありますが、実際に取り組んでみると、不良画像のデータが十分に収集できない、異常判定の可視化が難しいなど、躓くポイントが多かったりします。 今回は、シンプルな実装かつ最小のリソースで異常検知を実現するための手法の一つとして「オートエンコーダ」と呼ばれるAIモデルを、実際のコードサンプルや動作例と共に紹介したいと思います。 オートエンコーダ(自己符号化器)1 オートエンコーダはニューラルネットワーク構造のパターンの一つで、入力データを一度低次元データに変換するパート(エンコーダ)と低次元データから画像を復元するパート(デコーダ)で構成されます。モデル全体の目的としては、入力データをなるべくそのままに出力することです。 入力データがそのまま出力データ
Stable Diffusionでseedを固定して同じ絵を生成できるのか問題 Stable Diffusionでseed値を固定すると同じ絵を生成できるのかが(私の中で)話題です。 きっかけは、shi3zさんとdrikinさんの動画のラストの1,2分。 Seedを固定すると同じ絵が出ると主張するdrikinさんと、そんなことはないんじゃないかといい、その場で実践して確かめるshi3zさん。 自分も、GPUを多用するディープラーニングの演算だと、seed固定しても経験的に完全再現できないことを体感していたのと、当時調べたら「GPUでは完全再現は難しい」という情報が多かったので、seed値を固定しても、結果は再現できないものとずっと思っていました。 でも、Stable Diffusionの実験して挙動みてると、同じpromptとseed値から同じ絵が再現できていそうなんですよね。 その後も繰
テキストから高クオリティの画像を生成できるAI・Stable Diffusionが話題になる様子を見て、「自分も何か画像を作らせてみたい!」と興味を持っている人は多いはず。Stable Diffusionで画像を生成する際に重要になるのが「どんなテキストを入力するのか」という点で、AIの動作を調べて有効だと判明した文字列は「呪文」とも呼ばれています。そんなStable Diffusionで使える呪文のような文字列を、実際に生成された画像から見つけることができるサービス「Lexica」が登場していたので、実際に使ってみました。 Lexica https://lexica.art/ Stable DiffusionはNVIDIA製GPUを搭載したマシンのローカル環境で実行できるほか、デモページからでも使用できます。しかし、NVIDIA製GPUを所有していない人やデモページの待ち時間が長すぎると
ソフトバンクグループは、投資戦略で重要な役割を担ってきたラジーブ・ミスラ副社長が31日付けで辞任したと発表しました。会社はことし6月までの3か月間の決算で3兆円を超える最終赤字を計上しましたが、ミスラ氏の辞任はグループの今後の戦略に影響を与える可能性もあります。 辞任したのは、ソフトバンクグループで2018年から副社長を務めてきたラジーブ・ミスラ氏です。 ドイツ銀行の債権部門の責任者などを経て、孫正義社長が迎え入れる形で投資戦略の立案など重要な役割を担ってきました。 在任中の2017年には、10兆円規模の投資ファンドの立ち上げにかかわり、孫社長を支えてきました。 関係者によりますと、ミスラ氏はみずからが新たな投資ファンドを立ち上げるということで、会社は「本人が新しいチャレンジに取り組む時間を確保するため、辞任することになった」と説明しています。 一方で、傘下の投資ファンド、「ビジョン・ファ
ホーム ブログ 人工知能(AI)、ビッグデータ法務 Midjourney、Stable Diffusion、mimicなどの画像自動生成AIと著作権|知… はじめに Midjourney、Stable Diffusion、mimicなど、コンテンツ(画像)自動生成AIに関する話題で持ちきりですね。それぞれのサービスの内容については今更言うまでもないのですがMidjourney、Stable Diffusionは「文章(呪文)を入力するとAIが自動で画像を生成してくれる画像自動生成AI」、mimicは「特定の描き手のイラストを学習させることで、描き手の個性が反映されたイラストを自動生成できるAIを作成できるサービス」です(サービスリリース後すぐ盛大に炎上してサービス停止しちゃいましたが)。 で、この手の画像自動生成AIのようなコンテンツ自動生成AIですが、著作権法的に問題になる論点は大体決ま
今から5年前にリリースされたアプリの「ハギングフェイス(Hugging Face)」は、一部のティーンエイジャーの間で人気を博したが、ほとんどお金にはならなかったという。しかし、2018年に創設者たちが、コードの断片をオンラインで無料公開すると、グーグルやマイクロソフトなどの研究者たちが、人工知能(AI)アプリの開発にそのリソースを使うようになった。 ハギング・フェイスのアプリは、もはやアップストアには存在しないが、同社のプラットフォームは機械学習モデルの中心的存在となり、1万以上の組織がAI搭載ツールの作成に用いている。 フォーブスが、AI分野の優れた企業50社を選出する「AI 50」リストの2022年版に初登場したハギング・フェイスは5月19日、評価額20億ドルで1億ドルの資金調達を行ったことを明らかにした。ブルックリンを拠点とする同社のシリーズCラウンドは、Lux Capitalが主
Stable Diffusion が公開されてからいろいろ動かして出力の傾向を見てみようとしたメモ。 やったこと 同じpromptを指定して、 縦長(512x768) 横長(768x512) 正方形(512x512) のサイズごとにそれぞれ200枚ずつ出力、それら画像の傾向を見て構図にどんな変化があるかを確認しようとした。ザッと見の印象、感触のみで評価し、定量評価はしない。 使用したプロンプト: a picture of robot and drill and girl greg manchess character concept art of an anime goddess of lust | | cute - fine - face, pretty face, realistic shaded perfect face, fine details by stanley artger
リンク ゆるおた学習帳 イラスト自動生成AI「Disco Diffusion」に絵を描いてもらった - ゆるおた学習帳 絵を描いてくれるAI「Midjourney」をきっかけに、この世にはオープンソースのイラスト生成AIがあることを知りました。早速自分も試したい!と思ったのですが、今回の「Disco Diffusion」はイラスト生成まで少し難しかったので自分用備忘録です。 参考にさせていただいた記事はコチラ↓Get Started With Disco Diffusion to Create AI Generated Art イラスト自動生成AI「Disco Diffusion」の使い方 「Disco Diffusion 2 users リンク note(ノート) 魔術として理解するお絵描きAI講座|深津 貴之 (fladdict)|note やればやるほど呪術化する、AI画像錬成につい
DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation Nataniel Ruiz Yuanzhen Li Varun Jampani Yael Pritch Michael Rubinstein Kfir Aberman Google Research It’s like a photo booth, but once the subject is captured, it can be synthesized wherever your dreams take you… [Paper] (new!) [Dataset] [BibTeX] Abstract Large text-to-image models achieved a remarkable leap in the
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く