並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 193件

新着順 人気順

CVの検索結果1 - 40 件 / 193件

CVに関するエントリは193件あります。 機械学習AI画像 などが関連タグです。 人気エントリには 『クリエイティブコーディングの教科書』などがあります。
  • クリエイティブコーディングの教科書

    ゲームエンジンや3Dソフトウェアを利用して高度な表現ができるこの時代でも、プリミティブな描画や動き、アルゴリズムから学べることは多い。それらをJavaScriptで書くクリエイティブコーディングという形で学べる手引書が本書となる。

      クリエイティブコーディングの教科書
    • Googleが「ガビガビの低解像度画像を高解像度画像に変換するAIモデル」の性能を改善、人間が判別できないレベルに

      GoogleのAI研究チームであるGoogle AIが、低解像度画像にあえてノイズを追加して「純粋なノイズ」になるまで加工し、そこから高解像度画像を生成する「diffusion model(拡散モデル)」という手法を改善する新たなアプローチを発表しました。「画質の悪い低解像度画像から高解像度画像を生成する技術」には、古い写真の復元から医療用画像の改善まで幅広い用途が想定され、機械学習の活躍が期待されているタスクの1つです。 Google AI Blog: High Fidelity Image Generation Using Diffusion Models https://ai.googleblog.com/2021/07/high-fidelity-image-generation-using.html Enhance! Google researchers detail new m

        Googleが「ガビガビの低解像度画像を高解像度画像に変換するAIモデル」の性能を改善、人間が判別できないレベルに
      • 距離センサ入門(ステレオカメラ、プロジェクション、LiDAR) - arutema47's blog

        Qiitaからのお引越し記事です。 目標 ステレオカメラ 概要 特徴 使用製品 パターンプロジェクションカメラ 概要 使用製品 iPhone ゾゾスーツ 工業製品(Ensenso, キーエンス) Time of Flight LiDAR Time of Flightの原理 特徴 スキャン型LiDAR フラッシュ型LiDAR 製品 Velodyne Series 追記 Livox Horizon iPhone iToF LiDAR 目標 通常のカメラは物体の明るさ、色を抽出するのに対し、距離センサは物体までの距離をセンシングします。そのため3DカメラやDepth Sensorなどと呼ばれたりします。 距離を知ることは多様なアプリケーションにおいて重要であり、例えば自動運転では前方車両までの正確な距離を知ることは必須です。またゲームなどのアプリケーションでは人の動作などを距離センサで抽出するK

          距離センサ入門(ステレオカメラ、プロジェクション、LiDAR) - arutema47's blog
        • Stable Diffusion を基礎から理解したい人向け論文攻略ガイド【無料記事】

            Stable Diffusion を基礎から理解したい人向け論文攻略ガイド【無料記事】
          • 図解Stable Diffusion

            ジェイ・アラマールのブログより。 AIによる画像生成は、(私を含めて)人々の度肝をぬく最新のAIの能力です。テキストの説明から印象的なビジュアルを作り出す能力は、魔法のような品質を持ち、人間がアートを創造する方法の変化を明確に指し示しています。Stable Diffusionのリリースは、高性能(画質だけでなく、速度や比較的低いリソース/メモリ要件という意味での性能)なモデルを一般の人々に提供することになったのは、この開発における明確なマイルストーンです。 AI画像生成を試してみて、その仕組みが気になり始めた方も多いのではないでしょうか。 ここでは、Stable Diffusionの仕組みについて優しく紹介します。 Stable Diffusionは、様々な使い方ができる汎用性の高いものです。まず、テキストのみからの画像生成(text2img)に焦点を当てます。上の画像は、テキスト入力と生

              図解Stable Diffusion
            • Sakana AI

              概要 Sakana AIは進化や集合知などの自然界の原理を応用して基盤モデルを開発することを目指しています。私達の目標は、モデルを自ら訓練し開発することだけではありません。基盤モデルの開発を効率化、高度化、自動化するための新たな手法を生み出すことに挑戦しています。この目標に向けた第一歩として、私たちはプレプリント「Evolutionary Optimization of Model Merging Recipes (モデルマージの進化的最適化)」を公開しました。 このリリースの要点は以下の通りです。 進化的モデルマージという手法を提案します。これは、多様な能力を持つ幅広いオープンソースモデルを融合(マージ)して新たな基盤モデルを構築するための方法を、進化的アルゴリズムを用いて発見する手法です。私たちの手法は、ユーザーが指定した能力に長けた新しい基盤モデルを自動的に作成することができます。既

                Sakana AI
              • 年末年始に振り返る 2021年の人工知能10大トレンドと必読論文

                  年末年始に振り返る 2021年の人工知能10大トレンドと必読論文
                • 世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説! - Qiita

                  追記: U-Netの中間層は常にSelf-Attentionとなります。ご指摘いただきました。ありがとうございます。(コード) オミータです。ツイッターで人工知能のことや他媒体の記事など を紹介しています。 @omiita_atiimoもご覧ください! 世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説! 未来都市にたたずむサンタクロース(Stable Diffusionで生成) 2022年8月、世界に大きな衝撃が走りました。それは、Stable Diffusionの公開です。Stable Diffusionは、テキストを受け取るとそれに沿った画像を出力してくれるモデルです1。Stable Diffsuionは10億個近いパラメータ数をもち、およそ20億個の画像とテキストのペア(LAION-2B)で学習されています。これにより、Stable Diffusionは入

                    世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説! - Qiita
                  • なぜGoogle Meetの背景ぼかしが最強なのか(一般公開版)

                    はじめに 最近ついに、Google Meet に背景ぼかし機能が利用可能になりましたよね。日本語だとインプレスのケータイ Watchの記事などで紹介されてます。確か 2020 年 9 月末前後で順次リリースされていたと記憶しています。 このときは「背景ぼかし」の機能しかなかったのですが、最近(私が気づいたのは 2020/10/30)更にアップデートされました。アップデートで「背景差し替え」機能が付いて、ぼかし機能もぼかし効果が強弱 2 つから選べるようになりました。まだ日本語のニュース記事は見てないですが、Googleによるアップデートの発表はちゃんとされています。 そして、Google AI Blog でBackground Features in Google Meet, Powered by Web MLという記事が公開され、実装についての解説がされました。 この記事はその解説記事を

                      なぜGoogle Meetの背景ぼかしが最強なのか(一般公開版)
                    • 画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説! - Qiita

                      0. 忙しい方へ 完全に畳み込みとさようならしてSoTA達成したよ Vision Transformerの重要なことは次の3つだよ 画像パッチを単語のように扱うよ アーキテクチャはTransformerのエンコーダー部分だよ 巨大なデータセットJFT-300Mで事前学習するよ SoTAを上回る性能を約$\frac{1}{15}$の計算コストで得られたよ 事前学習データセットとモデルをさらに大きくすることでまだまだ性能向上する余地があるよ 1. Vision Transformerの解説 Vision Transformer(=ViT)の重要な部分は次の3つです。 入力画像 アーキテクチャ 事前学習とファインチューニング それぞれについて見ていきましょう。 1.1 入力画像 まず入力画像についてです。ViTはTransformerをベースとしたモデル(というより一部を丸々使っている)ですが、

                        画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説! - Qiita
                      • ルールベース画像処理のススメ

                        データ分析LT会第二回で発表した際の資料です。 youtube: https://www.youtube.com/watch?v=jDZwX3jxhK4 conppass url: https://kaggle-friends.connpass.com/event/214854/ github repository: https://github.com/fkubota/bunseki_compe_LT_02

                          ルールベース画像処理のススメ
                        • カルマンフィルターが自動運転の自己位置推定で使われるまで - TIER IV Tech Blog

                          はじめまして、ティアフォー技術本部 Planning / Controlチームで開発を行っている堀部と申します。 今回は状態推定の王道技術「カルマンフィルター」が実際に自動運転で用いられるまでの道のりやノウハウなどを書いていこうと思います。 みなさんはカルマンフィルターという言葉を聞いたことがありますでしょうか。 カルマンフィルターとは「状態推定」と呼ばれる技術の一種であり、自動運転においては現在の走行状態、例えば車速や自分の位置を知るために用いられます。 非常に有名な手法で、簡単に使えて性能も高く、状態推定と言えばまずカルマンフィルターと言われるほど不動の地位を確立しており、幅広いアプリケーションで利用されています。 使い勝手に定評のあるカルマンフィルターですが、実際に自動運転のシステムとして実用レベルで動かすためには多くの地道な作業が必要になります。 この記事では、カルマンフィルターが

                            カルマンフィルターが自動運転の自己位置推定で使われるまで - TIER IV Tech Blog
                          • ランディングページ制作に役立つマニュアルと改善法(toCtoB)|相原 ゆうきfree web hope

                            こんにちは!株式会社free web hopeの相原です。 今回は当社でのランディングページの創り方をベースしにて、ランディングページ制作をする時に役立つフレームワークを公開します。当社の社内マニュアルにもなっているものです。お陰様で中々の高評価を頂いており、書いた甲斐がありましたtt これ読んだらめちゃめちゃやる気出た!! 何から始めたら良いのかわからず何も知らないままやろうとしていたからね、そりゃあ心も折れるはずだ👶 ランディングページ制作に役立つマニュアルと改善法(toCtoB)|相原 ゆうきfree web hope @fwh_aihara #note https://t.co/u5ACEAfePU — せりょ🌷@Travel×Shopify✈︎ (@seritulip) October 14, 2020 事業戦略から、LPへの落とし込み、tipsまで、半端ない。 めちゃくちゃ

                              ランディングページ制作に役立つマニュアルと改善法(toCtoB)|相原 ゆうきfree web hope
                            • TechCrunch | Startup and Technology News

                              This week, Worldcoin, an outfit that aims to serve as proof of personhood in a world where it’s harder by the day to distinguish a human from a bot, raised $115 million in Series C funding. Led

                                TechCrunch | Startup and Technology News
                              • 商用利用可能な最新モデル『chilled_remix』とは?導入方法を解説

                                chilled_remixとは? chilled_remixはStableDiffusionとよばれる画像生成AIで動作する生成モデルの一つで、リアルなアジア系美少女の生成を得意としています。以下の画像はchilled_remixを使用して私が作成した画像です。 リアルなアジア系美少女が得意なStableDiffusion生成モデルには、他に有名なものとしてChilloutMixやChilled_re_genericなどがあります。しかし、これらのモデルは現在商用利用ができません。 一方でchilled_remixは商用利用が可能なため、とても重宝されるモデルとして注目を集めています。 chilled_remixのライセンス表記 chilled_remixはChilled_re_genericのレシピ発案者として知られる鎖城郎郭様によって4/19に公開されました。生成した画像の販売だけでな

                                  商用利用可能な最新モデル『chilled_remix』とは?導入方法を解説
                                • OCR処理プログラム及び学習用データセットの公開について | NDLラボ

                                  2022年04月25日 NDLラボのGitHubから、次の2件を公開しました。ライセンスや詳細については、各リポジトリのREADMEをご参照ください。 NDLOCR 国立国会図書館(以下、「当館」とします。)が令和3年度に株式会社モルフォAIソリューションズに委託して実施したOCR処理プログラムの研究開発事業の成果である、日本語のOCR処理プログラムです。 このプログラムは、国立国会図書館がCC BY 4.0ライセンスで公開するものです。なお、既存のライブラリ等を利用している部分については寛容型オープンライセンスのものを採用しているため、商用非商用を問わず自由な改変、利用が可能です。 機能ごとに7つのリポジトリに分かれていますが、下記リポジトリの手順に従うことで、Dockerコンテナとして構築・利用することができます。 リポジトリ : https://github.com/ndl-lab/

                                  • GPT-4Vができることをまとめてみた - 電通総研 テックブログ

                                    こんにちは。ISID 金融ソリューション事業部の若本です。 先日、GPT-4から発展し、画像も扱うことができるGPT-4 with vision(GPT-4V)が発表されました。GPT-4Vは大規模マルチモーダルモデル(LMMs: Large multimodal models)と呼ばれるAIモデルの一種であり、GPT-4の入力として「画像」を拡張したものになります。 今日は Microsoft Researchの論文[1]を中心に、Open AIの発表したSystem Card[2]も踏まえ、GPT-4Vでできることや苦手とすること、そして実用上の制限について解説します。 GPT-4Vの特徴 ① 画像とテキストを入力にできる GPT-4Vでは、GPT-4のテキスト入力に加えて画像も入力することが可能になりました。 画像は複数枚入力することが可能であり、かつ、画像とテキストを任意に交互に組

                                      GPT-4Vができることをまとめてみた - 電通総研 テックブログ
                                    • DiffusionによるText2Imageの系譜と生成画像が動き出すまで

                                      2022年を境に爆発的な流行を見せはじめた AI 画像生成。コアとなる拡散モデルの基礎解説、研究領域で育てられた技術が一般層にまで羽撃いた変遷、その過程で生じた解決されるべき問題点、および日進月歩で増え続ける発展的な手法群について、網羅的に流れを追いかけるメタサーベイを作成しました。 明日にでも世界が一変しうる流動的な分野において、情報のまとめとは必然的に古くなっていくものです。そんな奔流の中にあっても、本資料が、これまでの歴史を俯瞰し、これからの成長を見据えるための礎として、幾許かでも皆様のお役に立てればと心より願い、ここに筆を置きます。

                                        DiffusionによるText2Imageの系譜と生成画像が動き出すまで
                                      • Stable Diffusion Public Release — Stability AI

                                        It is our pleasure to announce the public release of stable diffusion following our release for researchers [https://stability.ai/stablediffusion] Over the last few weeks, we all have been overwhelmed by the response and have been working hard to ensure a safe and ethical release, incorporating data from our beta model tests and community for the developers to act on. In cooperation with the tirel

                                          Stable Diffusion Public Release — Stability AI
                                        • OpenCVがWebカメラであなたの顔を画像として取得するまでの仕組み

                                          全体像 全体としてはこんな感じです。レンズを通して顔の像を作るところは光学の世界、センサ面に結像された像を読み取る電子の世界。そして、センサと PC の橋渡しを USB で行う通信の世界、受け取ったフレームを処理するソフトウエアの世界、という流れで説明していきます。 物理(光学)の世界~一眼とWebカメラ(とスマホ)の違い~ 一番大きな違いは設計思想そのものです。レンズとセンサの大きさ、撮影設定などの柔軟性などに現れています。 一眼レフ:でっかいレンズ × でっかいセンサ = つよい Web カメラ:写ってればいいでしょレベル~産業用レベル スマホ:目的ごとに複数のカメラモジュールを用意したりソフトで後処理したり。ともかく小さく薄く。 光学の世界で大事なことを一つだけ(機種選択の基準として) ピント合わせ の方式はどうなっているか? マニュアルフォーカス → 自分でリング回す:ピント合わせ

                                            OpenCVがWebカメラであなたの顔を画像として取得するまでの仕組み
                                          • 【Stable Diffusion】Mistoon_Animeの利用方法

                                            「テレビアニメのようなキャラ画像を生成したい」 「2次元のアニメ画像を生成したい」 このような場合には、Mistoon_Animeがオススメです。 この記事では、Mistoon_Animeについて解説しています。 本記事の内容 Mistoon_Animeとは?Mistoon_Animeの利用方法Mistoon_Animeの動作確認 それでは、上記に沿って解説していきます。

                                              【Stable Diffusion】Mistoon_Animeの利用方法
                                            • Hirokatsu Kataoka | 片岡裕雄 on Twitter: "深層学習が登場してからの、直近10年分のコンピュータビジョンを俯瞰するセッションです!分野の主要な流れを凝縮して「たったの」40分で解説していきます。 #NVIDIA #GTC22 https://t.co/QCH1o73T9x https://t.co/iHj3nbpxyc"

                                              深層学習が登場してからの、直近10年分のコンピュータビジョンを俯瞰するセッションです!分野の主要な流れを凝縮して「たったの」40分で解説していきます。 #NVIDIA #GTC22 https://t.co/QCH1o73T9x https://t.co/iHj3nbpxyc

                                                Hirokatsu Kataoka | 片岡裕雄 on Twitter: "深層学習が登場してからの、直近10年分のコンピュータビジョンを俯瞰するセッションです!分野の主要な流れを凝縮して「たったの」40分で解説していきます。 #NVIDIA #GTC22 https://t.co/QCH1o73T9x https://t.co/iHj3nbpxyc"
                                              • コンピュータビジョン今昔物語 - 深層学習がCVの世界をどう変えたか - (JPTA Tech Talk講演資料) - takminの書きっぱなし備忘録 @はてなブログ

                                                今回、CV勉強会に何度か参加&発表していただいたJin Yamanakaさんにお誘いいただき、JTPA (Japan Technology Professional Association)というところで、「コンピュータビジョン今昔物語 -深層学習がCVの世界をどう変えたか-」という大上段なタイトルで講演させていただきました。 www.meetup.com このJTPAのTech Talkでは、機械学習/深層学習の勉強会を開催してきたそうなのですが、私自身「これ」という深層学習の専門があるわけではないので、コンピュータビジョン全体の基礎的な技術の変遷を、深層学習と絡めて広く浅く網羅した話をさせていただきました。 ちなみにここで紹介した深層学習の技術は、「既存の技術を置き換えるために、深層学習は何をクリアしなくてはならないか?」という視点で、紹介するのが適当と思ったものを選んだつもりです。

                                                  コンピュータビジョン今昔物語 - 深層学習がCVの世界をどう変えたか - (JPTA Tech Talk講演資料) - takminの書きっぱなし備忘録 @はてなブログ
                                                • OpenCVでのデモの見栄えを工夫したまとめ(ディープラーニング系) - Qiita

                                                  この記事はOpenCV Advent Calendar 2020の12日目の記事です。 他の記事は目次にまとめられています。 対象者 以下みたいな作業依頼を受けることのある人。 つまり、デザインに予算はつかないけど、ある程度の工夫を求められるやつ。。。 上長「部内とかで見せるちょっとしたデモをパパッと作って欲しい」 高橋「デザインは○○さんか、△△社さんにお願いします?」 ※○○さん:デザイン会社から派遣で来ているデザイナーさん ※△△社:デザイン会社 上長「今回、デザインに出すお金は無い」 高橋「What?」 高橋「それじゃ、見た目は気にしな」 上長「偉い人も見る可能性あるからソレっぽくしといてもらわないと困る」 高橋「短い間ですが、お世話になりました」 Flaskとか立てて、UI作る人とデザイナーと役割分担出来るようなプロジェクトは対象外 はじめに OpenCVとかPillowで出来る

                                                    OpenCVでのデモの見栄えを工夫したまとめ(ディープラーニング系) - Qiita
                                                  • C++でOpenCV完全入門!

                                                    この記事は「自動運転システムをエッジデバイスに組み込むための技術」を3回に分けて紹介するTURINGのテックブログ連載の第1回の記事「C++でOpenCV完全入門!」です。 第2回の「OpenCVをNPPにした結果→10倍高速に!」、第3回の「詳解V4L2 (video for linux 2)」もぜひご覧ください! はじめに こんにちは。完全自動運転EVを開発するベンチャー企業、TURING株式会社でインターンをしている東大工学部3年の井上信多郎です。 我々人類は、車を運転するにあたって多くの情報を目から取り入れています。目から取り入れた情報を元に、アクセル・ブレーキ・ハンドルを操作しています。 自動運転の場合、その目に相当するセンサがカメラであり、カメラから得た情報を元に車を運転することになります。カメラから得る情報とは、ずばり画像です。画像の中から信号、標識、前方車両などの必要なもの

                                                      C++でOpenCV完全入門!
                                                    • Stable Diffusion から特定の概念を忘れさせる学習を行ってみる

                                                      TL;DR ESD の手法で LoRA を学習してみたらそれっぽい感じのことができたよ VRAM 8GB で余裕で学習できるようになったよ (元は20GB要求) LoRA として保存できるようになったので重みの取り回しが良くなったよ マイナス適用によって、概念を削除するだけでなく強調することもできたよ 一度でも画像生成 AI に触ったことがあると、より楽しんで読めると思います。 論文とかどうでもいいから学習方法知りたい! という方は 実際に学習してみる へどうぞ! 今回作成したもの コード: モデルなど: 前提 Stable Diffusion とは、Stability AI らが公開したオープンソースの画像生成 AI であり、テキストによる指示で様々な画像を生成することができる。 本来の Stable Diffusion は、実写画像や海外風のイラストを出力することが得意だが、アジア系の

                                                        Stable Diffusion から特定の概念を忘れさせる学習を行ってみる
                                                      • PythonとWinRT OCRで文字認識 - Qiita

                                                        import cv2 img = cv2.imread('test.jpg') (await winocr.recognize_cv2(img, 'ja')).text pip install jupyterlab jupyter_http_over_ws jupyter serverextension enable --py jupyter_http_over_ws jupyter notebook --NotebookApp.allow_origin='https://colab.research.google.com' --ip=0.0.0.0 --port=8888 --NotebookApp.port_retries=0

                                                          PythonとWinRT OCRで文字認識 - Qiita
                                                        • 最近のポケモンはデザインが複雑になったのか?【Python】【OpenCV】 - Qiita

                                                          はじめに 先日、ポケモンたかさおじさんこと、生㌔Pのブログにて次のような記事が投稿された。 ポケモンらしさ-2_意見分析 マスコット感検証 https://pkmnheight.blogspot.com/2020/04/2.html ざっくり引用すると、以前バズってた以下の海外の分析画像を、転載したTweetがあった。 ポケモンのデザインはどんどん生物的じゃなくなって行ってて、色んな部位が丸みを帯びてただの可愛いマスコットキャラクターと化してるっていう海外の分析画像が凄い pic.twitter.com/qHHVaHzEue — Χ十 ◤カイジュー◢(⃔ *`꒳´ * )⃕↝♡ (@KaijuXO) June 13, 2019 このTweetに対して、ポケモンたかさおじさんが 猛撃 していたというものである。 ざっっっくり要約すると、各世代ごとに幼虫・昆虫ごとに部位をピックアップし、 そう

                                                            最近のポケモンはデザインが複雑になったのか?【Python】【OpenCV】 - Qiita
                                                          • Stable Diffusion発! 画像生成ブームに見るジェネラティブAIの人・もの・お金事情 - NTT Communications Engineers' Blog

                                                            この記事は NTTコミュニケーションズ Advent Calendar 2022 18日目です…が、少々遅れてお届けします。 はじめに PS本 5G&IoTサービス部 増田です。Advent Calendar参加も(たぶん)3年目となりました。 「テキスト指示をもとに、AIがお好みの画像を生成する(Text-to-Image)」「今ある画像へ、テキスト指示で編集を加える(Image-to-Image)」 -- そんな画像生成AIが注目を集めています。2022年の上半期、Open AIによるDALL-E 2の公開、Midjourneyの登場と盛り上がりを見せました。2022年8月23日のStable Diffusion一般公開からは、使ってみた報告、従来研究との融合、商用プロダクト応用と、研究者、アーティスト、プログラマなど様々な人の参加により、界隈はさらに活気づいています。 画像生成AIの

                                                              Stable Diffusion発! 画像生成ブームに見るジェネラティブAIの人・もの・お金事情 - NTT Communications Engineers' Blog
                                                            • 【自動運転】信号機認識に挑む / 走行画像15,000枚のアノテーションとYOLOXモデルによる深層学習実践

                                                              こんにちは。TURING株式会社でインターンをしている、東京大学学部3年の三輪と九州大学修士1年の岩政です。 TURINGは完全自動運転EVの開発・販売を目指すスタートアップです。私たちの所属する自動運転MLチームでは完全自動運転の実現のため、AIモデルの開発や走行データパイプラインの整備を行っています。 完全自動運転を目指すうえで避けて通れない課題の一つに信号機の認識があります。AIが信号機の表示を正しく理解することは、自動運転が手動運転よりも安全な運転を達成するために欠かせません。信号機を確実に認識したうえで、周囲の状況を総合的に判断して車体を制御し、安全かつ快適な走行を実現する必要があります。 TURINGでは信号機の認識に取り組むため、15,000枚規模のデータセットを準備し、高精度なモデルのための調査・研究を開始しました。この記事ではデータセットの内製とその背景にフォーカスしつつ

                                                                【自動運転】信号機認識に挑む / 走行画像15,000枚のアノテーションとYOLOXモデルによる深層学習実践
                                                              • DALL·E 2 を早くも破る!超リアル画像生成モデル Imagen を解説

                                                                  DALL·E 2 を早くも破る!超リアル画像生成モデル Imagen を解説
                                                                • OpenCVをNPPにした結果→10倍高速に!

                                                                  この記事は「自動運転システムをエッジデバイスに組み込むための技術」を3回に分けて紹介するTURINGのテックブログ連載の第2回の記事「OpenCVをNPPにした結果→10倍高速に!」です。 第1回の「C++でOpenCV完全入門!」、第3回の「詳解V4L2 (video for linux 2)」もぜひご覧ください! はじめに TURINGで働いている木更津高専の越智です。TURINGでは「We Overtake Tesla」を目標に掲げて、完全自動運転EVの開発・製造を行っています。 TURINGでは、社内で使っている自動運転ソフトウェアにおいて、画像処理部分のライブラリをOpenCVからNVIDIA Performance Primitives(NPP)に変更するプロジェクトに取り組んでいました。これによって、CPUで動かしていた画像処理をGPUバックエンドで動かすことができるようにな

                                                                    OpenCVをNPPにした結果→10倍高速に!
                                                                  • Civitai: The Home of Open-Source Generative AI

                                                                    All sorts of cool pictures created by our community, from simple shapes to detailed landscapes or human faces. A virtual canvas where you can unleash your creativity or get inspired. All sorts of cool pictures created by our community, from simple shapes to detailed landscapes or human faces. A virtual canvas where you can unleash your creativity or get inspired.

                                                                    • DALL·E: Creating images from text

                                                                      We’ve trained a neural network called DALL·E that creates images from text captions for a wide range of concepts expressible in natural language. DALL·E is a 12-billion parameter version of GPT-3 trained to generate images from text descriptions, using a dataset of text–image pairs. We’ve found that it has a diverse set of capabilities, including creating anthropomorphized versions of animals and

                                                                        DALL·E: Creating images from text
                                                                      • 畳み込み+Attention=最強?最高性能を叩き出した画像認識モデル「CoAtNet」を解説! - Qiita

                                                                        1. CoAtNetの解説 1.1 畳み込みとSAの復習 コンピュータビジョンで用いられている大きな仕組みに畳み込みとSelf-Attention(=SA)があります。畳み込みではEfficientNet、SAではViTが有名ですね。EfficientNetについてはこちらの拙著記事、ViTについてはこちらの拙著記事をご参照ください。CoAtNetでは、この畳み込みとSAの良いとこ取りをしたブロックを作ることが一番の目的になっています。畳み込みとSAの式を復習しておきましょう。ここでは畳み込みの中でもDW(=Depthwise)畳み込みを取り扱います。そして、本論文では分かりやすさを優先しているのか、式の細かいところ(SAにおけるqkvの埋め込みなど)はあえて排除しているように見えるので、理解しやすいです。 1.1.1 畳み込みの式 本論文では、畳み込みの中でもDW(=Depthwise)

                                                                          畳み込み+Attention=最強?最高性能を叩き出した画像認識モデル「CoAtNet」を解説! - Qiita
                                                                        • Make-A-Video by Meta AI

                                                                          Make-A-Video is a state-of-the-art AI system that generates videos from text. Make-A-Video research builds on the recent progress made in text-to-image generation technology built to enable text-to-video generation. The system uses images with descriptions to learn what the world looks like and how it is often described. It also uses unlabeled videos to learn how the world moves. With this data, M

                                                                            Make-A-Video by Meta AI
                                                                          • AI×医用画像の現状と可能性_2022年版/AI×medical_imaging_in_japan_2022

                                                                            AI×医用画像の現状と可能性_2020年上半期版/AI×medical imaging in japan (first half of 2020)

                                                                              AI×医用画像の現状と可能性_2022年版/AI×medical_imaging_in_japan_2022
                                                                            • Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

                                                                              Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold Abstract Synthesizing visual content that meets users' needs often requires flexible and precise controllability of the pose, shape, expression, and layout of the generated objects. Existing approaches gain controllability of generative adversarial networks (GANs) via manually annotated training data or a prior 3D

                                                                              • GitHub - chenfei-wu/TaskMatrix

                                                                                Now TaskMatrix supports GroundingDINO and segment-anything! Thanks @jordddan for his efforts. For the image editing case, GroundingDINO is first used to locate bounding boxes guided by given text, then segment-anything is used to generate the related mask, and finally stable diffusion inpainting is used to edit image based on the mask. Firstly, run python visual_chatgpt.py --load "Text2Box_cuda:0,

                                                                                  GitHub - chenfei-wu/TaskMatrix
                                                                                • ブラウザで動くリアルタイム画像/音声処理アプリをStreamlitでサクッと作る

                                                                                  Overview 画像/音声処理をリアルタイムで行う、Webブラウザから利用できるアプリをStreamlitで作る方法を解説します。 StreamlitのおかげでPythonだけでwebアプリが作れます。さらに、一番簡単な例なら10行程度のPythonコードで、webカメラを入力にしてブラウザから利用できるリアルタイム画像処理アプリケーションになります。 Webベースなのでクラウドにデプロイでき、ユーザに簡単に共有して使ってもらえ、UIもイマドキで綺麗です。 人物・物体検知、スタイル変換、画像フィルタ、文字起こし、ビデオチャット、その他様々な画像・音声処理の実装アイディアをデモ・プロトタイピングするのになかなかハマる技術スタックではないでしょうか。 Webブラウザから利用できる物体検知デモの例。実行中に閾値をスライダーで変えられる。オンラインデモ🎈 同様にスタイル変換デモの例。実行中にモ

                                                                                    ブラウザで動くリアルタイム画像/音声処理アプリをStreamlitでサクッと作る

                                                                                  新着記事