CVの人気記事 193件 - はてなブックマーク

1 - 40 件 / 193件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

CVの検索結果1 - 40 件 / 193件

CVに関するエントリは193件あります。機械学習、 AI、画像などが関連タグです。人気エントリには『クリエイティブコーディングの教科書』などがあります。

クリエイティブコーディングの教科書
- 1653 users
- zenn.dev/baroqueengine
- テクノロジー
- 2021/11/21
ゲームエンジンや3Dソフトウェアを利用して高度な表現ができるこの時代でも、プリミティブな描画や動き、アルゴリズムから学べることは多い。それらをJavaScriptで書くクリエイティブコーディングという形で学べる手引書が本書となる。
Googleが「ガビガビの低解像度画像を高解像度画像に変換するAIモデル」の性能を改善、人間が判別できないレベルに
- 729 users
- gigazine.net
- テクノロジー
- 2021/08/31
GoogleのAI研究チームであるGoogle AIが、低解像度画像にあえてノイズを追加して「純粋なノイズ」になるまで加工し、そこから高解像度画像を生成する「diffusion model(拡散モデル)」という手法を改善する新たなアプローチを発表しました。「画質の悪い低解像度画像から高解像度画像を生成する技術」には、古い写真の復元から医療用画像の改善まで幅広い用途が想定され、機械学習の活躍が期待されているタスクの1つです。 Google AI Blog: High Fidelity Image Generation Using Diffusion Models https://ai.googleblog.com/2021/07/high-fidelity-image-generation-using.html Enhance! Google researchers detail new m
- AI
- google
- 画像
- あとで読む
- 技術
- GIGAZINE
- 機械学習
- 人工知能
- 画像処理
- 写真
距離センサ入門（ステレオカメラ、プロジェクション、LiDAR) - arutema47's blog
- 650 users
- aru47.hatenablog.com
- テクノロジー
- 2021/03/14
Qiitaからのお引越し記事です。目標ステレオカメラ概要特徴使用製品パターンプロジェクションカメラ概要使用製品 iPhone ゾゾスーツ工業製品(Ensenso, キーエンス) Time of Flight LiDAR Time of Flightの原理特徴スキャン型LiDAR フラッシュ型LiDAR 製品 Velodyne Series 追記 Livox Horizon iPhone iToF LiDAR 目標通常のカメラは物体の明るさ、色を抽出するのに対し、距離センサは物体までの距離をセンシングします。そのため3DカメラやDepth Sensorなどと呼ばれたりします。距離を知ることは多様なアプリケーションにおいて重要であり、例えば自動運転では前方車両までの正確な距離を知ることは必須です。またゲームなどのアプリケーションでは人の動作などを距離センサで抽出するK
- LiDAR
- あとで読む
- 技術
- カメラ
- ハードウェア
- センサー
- 開発
- iphone
- 画像処理
- Sensor
Stable Diffusion を基礎から理解したい人向け論文攻略ガイド【無料記事】
- 599 users
- ja.stateofaiguides.com
- テクノロジー
- 2022/10/11

図解Stable Diffusion
- 587 users
- okuranagaimo.blogspot.com
- テクノロジー
- 2022/10/09
ジェイ・アラマールのブログより。 AIによる画像生成は、(私を含めて)人々の度肝をぬく最新のAIの能力です。テキストの説明から印象的なビジュアルを作り出す能力は、魔法のような品質を持ち、人間がアートを創造する方法の変化を明確に指し示しています。Stable Diffusionのリリースは、高性能(画質だけでなく、速度や比較的低いリソース/メモリ要件という意味での性能)なモデルを一般の人々に提供することになったのは、この開発における明確なマイルストーンです。 AI画像生成を試してみて、その仕組みが気になり始めた方も多いのではないでしょうか。ここでは、Stable Diffusionの仕組みについて優しく紹介します。 Stable Diffusionは、様々な使い方ができる汎用性の高いものです。まず、テキストのみからの画像生成(text2img)に焦点を当てます。上の画像は、テキスト入力と生
- AI
- あとで読む
- 画像
- 機械学習
- Stable Diffusion
- 学習
- イラスト
- StableDiffusion
- 人工知能
- 勉強
Sakana AI
- 568 users
- sakana.ai
- テクノロジー
- 2024/03/21
概要 Sakana AIは進化や集合知などの自然界の原理を応用して基盤モデルを開発することを目指しています。私達の目標は、モデルを自ら訓練し開発することだけではありません。基盤モデルの開発を効率化、高度化、自動化するための新たな手法を生み出すことに挑戦しています。この目標に向けた第一歩として、私たちはプレプリント「Evolutionary Optimization of Model Merging Recipes （モデルマージの進化的最適化）」を公開しました。このリリースの要点は以下の通りです。進化的モデルマージという手法を提案します。これは、多様な能力を持つ幅広いオープンソースモデルを融合（マージ）して新たな基盤モデルを構築するための方法を、進化的アルゴリズムを用いて発見する手法です。私たちの手法は、ユーザーが指定した能力に長けた新しい基盤モデルを自動的に作成することができます。既
- AI
- あとで読む
- LLM
- アルゴリズム
- 人工知能
- 開発
- 日本語
- 機械学習
- deeplearning
- 学び
年末年始に振り返る 2021年の人工知能10大トレンドと必読論文
- 524 users
- ja.stateofaiguides.com
- テクノロジー
- 2021/12/30
世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説！ - Qiita
- 517 users
- qiita.com/omiita
- テクノロジー
- 2022/12/05
追記: U-Netの中間層は常にSelf-Attentionとなります。ご指摘いただきました。ありがとうございます。（コード）オミータです。ツイッターで人工知能のことや他媒体の記事などを紹介しています。 @omiita_atiimoもご覧ください！世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説！未来都市にたたずむサンタクロース（Stable Diffusionで生成） 2022年8月、世界に大きな衝撃が走りました。それは、Stable Diffusionの公開です。Stable Diffusionは、テキストを受け取るとそれに沿った画像を出力してくれるモデルです1。Stable Diffsuionは10億個近いパラメータ数をもち、およそ20億個の画像とテキストのペア（LAION-2B）で学習されています。これにより、Stable Diffusionは入
- AI
- あとで読む
- 機械学習
- Stable Diffusion
- StableDiffusion
- 画像
- 学習
- 勉強
- イラスト
- 人工知能
なぜGoogle Meetの背景ぼかしが最強なのか（一般公開版）
- 509 users
- zenn.dev/kounoike
- テクノロジー
- 2020/11/01
はじめに最近ついに、Google Meet に背景ぼかし機能が利用可能になりましたよね。日本語だとインプレスのケータイ Watchの記事などで紹介されてます。確か 2020 年 9 月末前後で順次リリースされていたと記憶しています。このときは「背景ぼかし」の機能しかなかったのですが、最近（私が気づいたのは 2020/10/30）更にアップデートされました。アップデートで「背景差し替え」機能が付いて、ぼかし機能もぼかし効果が強弱 2 つから選べるようになりました。まだ日本語のニュース記事は見てないですが、Googleによるアップデートの発表はちゃんとされています。そして、Google AI Blog でBackground Features in Google Meet, Powered by Web MLという記事が公開され、実装についての解説がされました。この記事はその解説記事を
画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説！ - Qiita
- 434 users
- qiita.com/omiita
- テクノロジー
- 2020/10/12
0. 忙しい方へ完全に畳み込みとさようならしてSoTA達成したよ Vision Transformerの重要なことは次の3つだよ画像パッチを単語のように扱うよアーキテクチャはTransformerのエンコーダー部分だよ巨大なデータセットJFT-300Mで事前学習するよ SoTAを上回る性能を約$\frac{1}{15}$の計算コストで得られたよ事前学習データセットとモデルをさらに大きくすることでまだまだ性能向上する余地があるよ 1. Vision Transformerの解説 Vision Transformer(=ViT)の重要な部分は次の3つです。入力画像アーキテクチャ事前学習とファインチューニングそれぞれについて見ていきましょう。 1.1 入力画像まず入力画像についてです。ViTはTransformerをベースとしたモデル(というより一部を丸々使っている)ですが、
- 機械学習
- AI
- あとで読む
- 画像
- 画像処理
- 画像認識
- Transformer
- 学習
- qiita
- Deep Learning
ルールベース画像処理のススメ
- 379 users
- speakerdeck.com/fkubota
- テクノロジー
- 2021/06/18
データ分析LT会第二回で発表した際の資料です。 youtube: https://www.youtube.com/watch?v=jDZwX3jxhK4 conppass url: https://kaggle-friends.connpass.com/event/214854/ github repository: https://github.com/fkubota/bunseki_compe_LT_02
カルマンフィルターが自動運転の自己位置推定で使われるまで - TIER IV Tech Blog
- 355 users
- tech.tier4.jp
- テクノロジー
- 2021/08/04
はじめまして、ティアフォー技術本部 Planning / Controlチームで開発を行っている堀部と申します。今回は状態推定の王道技術「カルマンフィルター」が実際に自動運転で用いられるまでの道のりやノウハウなどを書いていこうと思います。みなさんはカルマンフィルターという言葉を聞いたことがありますでしょうか。カルマンフィルターとは「状態推定」と呼ばれる技術の一種であり、自動運転においては現在の走行状態、例えば車速や自分の位置を知るために用いられます。非常に有名な手法で、簡単に使えて性能も高く、状態推定と言えばまずカルマンフィルターと言われるほど不動の地位を確立しており、幅広いアプリケーションで利用されています。使い勝手に定評のあるカルマンフィルターですが、実際に自動運転のシステムとして実用レベルで動かすためには多くの地道な作業が必要になります。この記事では、カルマンフィルターが
ランディングページ制作に役立つマニュアルと改善法(toCtoB)｜相原ゆうきfree web hope
- 344 users
- note.com/yukiaihara
- テクノロジー
- 2020/09/12
こんにちは！株式会社free web hopeの相原です。今回は当社でのランディングページの創り方をベースしにて、ランディングページ制作をする時に役立つフレームワークを公開します。当社の社内マニュアルにもなっているものです。お陰様で中々の高評価を頂いており、書いた甲斐がありましたtt これ読んだらめちゃめちゃやる気出た！！何から始めたら良いのかわからず何も知らないままやろうとしていたからね、そりゃあ心も折れるはずだ👶 ランディングページ制作に役立つマニュアルと改善法(toCtoB)｜相原ゆうきfree web hope @fwh_aihara #note https://t.co/u5ACEAfePU — せりょ🌷＠Travel×Shopify✈︎ (@seritulip) October 14, 2020 事業戦略から、LPへの落とし込み、tipsまで、半端ない。めちゃくちゃ
- LP
- あとで読む
- ランディングページ
- web制作
- 広告
- LPO
- Webデザイン
- web
- BtoB
- デザイン
TechCrunch | Startup and Technology News
- 335 users
- jp.techcrunch.com
- テクノロジー
- 2020/07/28
This week, Worldcoin, an outfit that aims to serve as proof of personhood in a world where it’s harder by the day to distinguish a human from a bot, raised $115 million in Series C funding. Led
- OpenCV
- あとで読む
- AI
- IoT
- RaspberryPi
- 開発
- gadget
- 画像処理
- Raspberry Pi
- 電子工作
商用利用可能な最新モデル『chilled_remix』とは？導入方法を解説
- 313 users
- codewizardry.net
- テクノロジー
- 2023/04/20
chilled_remixとは？ chilled_remixはStableDiffusionとよばれる画像生成AIで動作する生成モデルの一つで、リアルなアジア系美少女の生成を得意としています。以下の画像はchilled_remixを使用して私が作成した画像です。リアルなアジア系美少女が得意なStableDiffusion生成モデルには、他に有名なものとしてChilloutMixやChilled_re_genericなどがあります。しかし、これらのモデルは現在商用利用ができません。一方でchilled_remixは商用利用が可能なため、とても重宝されるモデルとして注目を集めています。 chilled_remixのライセンス表記 chilled_remixはChilled_re_genericのレシピ発案者として知られる鎖城郎郭様によって4/19に公開されました。生成した画像の販売だけでな
OCR処理プログラム及び学習用データセットの公開について | NDLラボ
- 309 users
- lab.ndl.go.jp
- テクノロジー
- 2022/04/25
2022年04月25日 NDLラボのGitHubから、次の2件を公開しました。ライセンスや詳細については、各リポジトリのREADMEをご参照ください。 NDLOCR 国立国会図書館（以下、「当館」とします。）が令和3年度に株式会社モルフォAIソリューションズに委託して実施したOCR処理プログラムの研究開発事業の成果である、日本語のOCR処理プログラムです。このプログラムは、国立国会図書館がCC BY 4.0ライセンスで公開するものです。なお、既存のライブラリ等を利用している部分については寛容型オープンライセンスのものを採用しているため、商用非商用を問わず自由な改変、利用が可能です。機能ごとに7つのリポジトリに分かれていますが、下記リポジトリの手順に従うことで、Dockerコンテナとして構築・利用することができます。リポジトリ : https://github.com/ndl-lab/
- OCR
- あとで読む
- github
- 勉強
- 学習
- 資料
- 機械学習
- 図書館
- python
- AI
GPT-4Vができることをまとめてみた - 電通総研テックブログ
- 259 users
- tech.dentsusoken.com
- テクノロジー
- 2023/10/12
こんにちは。ISID 金融ソリューション事業部の若本です。先日、GPT-4から発展し、画像も扱うことができるGPT-4 with vision（GPT-4V）が発表されました。GPT-4Vは大規模マルチモーダルモデル（LMMs: Large multimodal models）と呼ばれるAIモデルの一種であり、GPT-4の入力として「画像」を拡張したものになります。今日は Microsoft Researchの論文[1]を中心に、Open AIの発表したSystem Card[2]も踏まえ、GPT-4Vでできることや苦手とすること、そして実用上の制限について解説します。 GPT-4Vの特徴 ① 画像とテキストを入力にできる GPT-4Vでは、GPT-4のテキスト入力に加えて画像も入力することが可能になりました。画像は複数枚入力することが可能であり、かつ、画像とテキストを任意に交互に組
- ChatGPT
- あとで読む
- AI
- GPT
- 画像
- 自然言語処理
- 機械学習
- OpenAI
- LLM
DiffusionによるText2Imageの系譜と生成画像が動き出すまで
- 256 users
- speakerdeck.com/nhamanasu
- テクノロジー
- 2023/03/01
2022年を境に爆発的な流行を見せはじめた AI 画像生成。コアとなる拡散モデルの基礎解説、研究領域で育てられた技術が一般層にまで羽撃いた変遷、その過程で生じた解決されるべき問題点、および日進月歩で増え続ける発展的な手法群について、網羅的に流れを追いかけるメタサーベイを作成しました。明日にでも世界が一変しうる流動的な分野において、情報のまとめとは必然的に古くなっていくものです。そんな奔流の中にあっても、本資料が、これまでの歴史を俯瞰し、これからの成長を見据えるための礎として、幾許かでも皆様のお役に立てればと心より願い、ここに筆を置きます。
- AI
- あとで読む
- 機械学習
- 画像
- StableDiffusion
- deeplearning
- Stable Diffusion
- image
- cv
- technology
Stable Diffusion Public Release — Stability AI
- 249 users
- stability.ai
- テクノロジー
- 2022/08/23
It is our pleasure to announce the public release of stable diffusion following our release for researchers [https://stability.ai/stablediffusion] Over the last few weeks, we all have been overwhelmed by the response and have been working hard to ensure a safe and ethical release, incorporating data from our beta model tests and community for the developers to act on. In cooperation with the tirel
OpenCVがWebカメラであなたの顔を画像として取得するまでの仕組み
- 227 users
- zenn.dev/kounoike
- 暮らし
- 2020/12/11
全体像全体としてはこんな感じです。レンズを通して顔の像を作るところは光学の世界、センサ面に結像された像を読み取る電子の世界。そして、センサと PC の橋渡しを USB で行う通信の世界、受け取ったフレームを処理するソフトウエアの世界、という流れで説明していきます。物理（光学）の世界～一眼とWebカメラ（とスマホ）の違い～一番大きな違いは設計思想そのものです。レンズとセンサの大きさ、撮影設定などの柔軟性などに現れています。一眼レフ：でっかいレンズ × でっかいセンサ＝つよい Web カメラ：写ってればいいでしょレベル～産業用レベルスマホ：目的ごとに複数のカメラモジュールを用意したりソフトで後処理したり。ともかく小さく薄く。光学の世界で大事なことを一つだけ（機種選択の基準として）ピント合わせの方式はどうなっているか？マニュアルフォーカス　→　自分でリング回す：ピント合わせ
- opencv
- あとで読む
- WebRTC
- カメラ
- camera
- USB
- 画像
- Webカメラ
- web
- programming
【Stable Diffusion】Mistoon_Animeの利用方法
- 216 users
- self-development.info
- テクノロジー
- 2023/07/07
「テレビアニメのようなキャラ画像を生成したい」「2次元のアニメ画像を生成したい」このような場合には、Mistoon_Animeがオススメです。この記事では、Mistoon_Animeについて解説しています。本記事の内容 Mistoon_Animeとは？Mistoon_Animeの利用方法Mistoon_Animeの動作確認それでは、上記に沿って解説していきます。
Hirokatsu Kataoka | 片岡裕雄 on Twitter: "深層学習が登場してからの、直近１０年分のコンピュータビジョンを俯瞰するセッションです！分野の主要な流れを凝縮して「たったの」４０分で解説していきます。 #NVIDIA #GTC22 https://t.co/QCH1o73T9x https://t.co/iHj3nbpxyc"
- 200 users
- twitter.com/HirokatuKataoka
- テクノロジー
- 2022/03/11
深層学習が登場してからの、直近１０年分のコンピュータビジョンを俯瞰するセッションです！分野の主要な流れを凝縮して「たったの」４０分で解説していきます。 #NVIDIA #GTC22 https://t.co/QCH1o73T9x https://t.co/iHj3nbpxyc
- 機械学習
- あとで読む
- CV
- AI
- Deep Learning
- 技術
コンピュータビジョン今昔物語 - 深層学習がＣＶの世界をどう変えたか - (JPTA Tech Talk講演資料) - takminの書きっぱなし備忘録 @はてなブログ
- 186 users
- takmin.hatenablog.com
- テクノロジー
- 2020/09/10
今回、ＣＶ勉強会に何度か参加＆発表していただいたJin Yamanakaさんにお誘いいただき、JTPA (Japan Technology Professional Association)というところで、「コンピュータビジョン今昔物語 -深層学習がCVの世界をどう変えたか-」という大上段なタイトルで講演させていただきました。 www.meetup.com このJTPAのTech Talkでは、機械学習/深層学習の勉強会を開催してきたそうなのですが、私自身「これ」という深層学習の専門があるわけではないので、コンピュータビジョン全体の基礎的な技術の変遷を、深層学習と絡めて広く浅く網羅した話をさせていただきました。ちなみにここで紹介した深層学習の技術は、「既存の技術を置き換えるために、深層学習は何をクリアしなくてはならないか？」という視点で、紹介するのが適当と思ったものを選んだつもりです。
- 機械学習
- あとで読む
- CV
- 画像処理
- 技術
- 資料
- 歴史
- AI
- ディープラーニング
- deeplearning
OpenCVでのデモの見栄えを工夫したまとめ(ディープラーニング系) - Qiita
- 176 users
- qiita.com/Kazuhito
- テクノロジー
- 2020/12/12
この記事はOpenCV Advent Calendar 2020の12日目の記事です。他の記事は目次にまとめられています。対象者以下みたいな作業依頼を受けることのある人。つまり、デザインに予算はつかないけど、ある程度の工夫を求められるやつ。。。上長「部内とかで見せるちょっとしたデモをパパッと作って欲しい」高橋「デザインは○○さんか、△△社さんにお願いします？」 ※○○さん：デザイン会社から派遣で来ているデザイナーさん ※△△社：デザイン会社上長「今回、デザインに出すお金は無い」高橋「What？」高橋「それじゃ、見た目は気にしな」上長「偉い人も見る可能性あるからソレっぽくしといてもらわないと困る」高橋「短い間ですが、お世話になりました」 Flaskとか立てて、UI作る人とデザイナーと役割分担出来るようなプロジェクトは対象外はじめに OpenCVとかPillowで出来る
- OpenCV
- あとで読む
- 画像処理
- ディープラーニング
- python
- 機械学習
- CV
- 画像
- デモ
- qiita
C++でOpenCV完全入門！
- 170 users
- zenn.dev/turing_motors
- テクノロジー
- 2023/01/27
この記事は「自動運転システムをエッジデバイスに組み込むための技術」を3回に分けて紹介するTURINGのテックブログ連載の第1回の記事「C++でOpenCV完全入門！」です。第2回の「OpenCVをNPPにした結果→10倍高速に！」、第3回の「詳解V4L2 (video for linux 2)」もぜひご覧ください！はじめにこんにちは。完全自動運転EVを開発するベンチャー企業、TURING株式会社でインターンをしている東大工学部3年の井上信多郎です。我々人類は、車を運転するにあたって多くの情報を目から取り入れています。目から取り入れた情報を元に、アクセル・ブレーキ・ハンドルを操作しています。自動運転の場合、その目に相当するセンサがカメラであり、カメラから得た情報を元に車を運転することになります。カメラから得る情報とは、ずばり画像です。画像の中から信号、標識、前方車両などの必要なもの
- opencv
- c++
- あとで読む
- 画像
- C
- CV
- 入門
- techfeed
- カメラ
Stable Diffusion から特定の概念を忘れさせる学習を行ってみる
- 167 users
- zenn.dev/aics
- テクノロジー
- 2023/06/29
TL;DR ESD の手法で LoRA を学習してみたらそれっぽい感じのことができたよ VRAM 8GB で余裕で学習できるようになったよ (元は20GB要求) LoRA として保存できるようになったので重みの取り回しが良くなったよマイナス適用によって、概念を削除するだけでなく強調することもできたよ一度でも画像生成 AI に触ったことがあると、より楽しんで読めると思います。論文とかどうでもいいから学習方法知りたい！という方は実際に学習してみるへどうぞ！今回作成したものコード: モデルなど: 前提 Stable Diffusion とは、Stability AI らが公開したオープンソースの画像生成 AI であり、テキストによる指示で様々な画像を生成することができる。本来の Stable Diffusion は、実写画像や海外風のイラストを出力することが得意だが、アジア系の
PythonとWinRT OCRで文字認識 - Qiita
- 154 users
- qiita.com/relu
- テクノロジー
- 2021/06/05
import cv2 img = cv2.imread('test.jpg') (await winocr.recognize_cv2(img, 'ja')).text pip install jupyterlab jupyter_http_over_ws jupyter serverextension enable --py jupyter_http_over_ws jupyter notebook --NotebookApp.allow_origin='https://colab.research.google.com' --ip=0.0.0.0 --port=8888 --NotebookApp.port_retries=0
最近のポケモンはデザインが複雑になったのか？【Python】【OpenCV】 - Qiita
- 149 users
- qiita.com/mrok273
- アニメとゲーム
- 2020/04/22
はじめに先日、ポケモンたかさおじさんこと、生㌔Pのブログにて次のような記事が投稿された。ポケモンらしさ-2_意見分析　マスコット感検証 https://pkmnheight.blogspot.com/2020/04/2.html ざっくり引用すると、以前バズってた以下の海外の分析画像を、転載したTweetがあった。ポケモンのデザインはどんどん生物的じゃなくなって行ってて、色んな部位が丸みを帯びてただの可愛いマスコットキャラクターと化してるっていう海外の分析画像が凄い pic.twitter.com/qHHVaHzEue — Χ十 ◤カイジュー◢(⃔ *`꒳´ * )⃕↝♡ (@KaijuXO) June 13, 2019 このTweetに対して、ポケモンたかさおじさんが猛撃していたというものである。ざっっっくり要約すると、各世代ごとに幼虫・昆虫ごとに部位をピックアップし、そう
- ポケモン
- OpenCV
- python
- デザイン
- Pokemon
- ゲーム
- 分析
- Qiita
Stable Diffusion発! 画像生成ブームに見るジェネラティブAIの人・もの・お金事情 - NTT Communications Engineers' Blog
- 132 users
- engineers.ntt.com
- テクノロジー
- 2022/12/28
この記事は NTTコミュニケーションズ Advent Calendar 2022 18日目です…が、少々遅れてお届けします。はじめに PS本 5G&IoTサービス部　増田です。Advent Calendar参加も（たぶん）3年目となりました。「テキスト指示をもとに、AIがお好みの画像を生成する（Text-to-Image）」「今ある画像へ、テキスト指示で編集を加える（Image-to-Image）」 -- そんな画像生成AIが注目を集めています。2022年の上半期、Open AIによるDALL-E 2の公開、Midjourneyの登場と盛り上がりを見せました。2022年8月23日のStable Diffusion一般公開からは、使ってみた報告、従来研究との融合、商用プロダクト応用と、研究者、アーティスト、プログラマなど様々な人の参加により、界隈はさらに活気づいています。画像生成AIの
- AI
- あとで読む
- 人工知能
- 機械学習
- AdventCalender
- NTT Com
- NTT
- 画像
- techfeed
【自動運転】信号機認識に挑む / 走行画像15,000枚のアノテーションとYOLOXモデルによる深層学習実践
- 128 users
- zenn.dev/turing_motors
- テクノロジー
- 2023/01/06
こんにちは。TURING株式会社でインターンをしている、東京大学学部3年の三輪と九州大学修士1年の岩政です。 TURINGは完全自動運転EVの開発・販売を目指すスタートアップです。私たちの所属する自動運転MLチームでは完全自動運転の実現のため、AIモデルの開発や走行データパイプラインの整備を行っています。完全自動運転を目指すうえで避けて通れない課題の一つに信号機の認識があります。AIが信号機の表示を正しく理解することは、自動運転が手動運転よりも安全な運転を達成するために欠かせません。信号機を確実に認識したうえで、周囲の状況を総合的に判断して車体を制御し、安全かつ快適な走行を実現する必要があります。 TURINGでは信号機の認識に取り組むため、15,000枚規模のデータセットを準備し、高精度なモデルのための調査・研究を開始しました。この記事ではデータセットの内製とその背景にフォーカスしつつ
- AI
- あとで読む
- 機械学習
- 画像
- 深層学習
- 自動運転
- ロボット
- 交通
DALL·E 2 を早くも破る！超リアル画像生成モデル Imagen を解説
- 125 users
- ja.stateofaiguides.com
- テクノロジー
- 2022/06/09
OpenCVをNPPにした結果→10倍高速に！
- 123 users
- zenn.dev/turing_motors
- テクノロジー
- 2023/02/03
この記事は「自動運転システムをエッジデバイスに組み込むための技術」を3回に分けて紹介するTURINGのテックブログ連載の第2回の記事「OpenCVをNPPにした結果→10倍高速に！」です。第1回の「C++でOpenCV完全入門！」、第3回の「詳解V4L2 (video for linux 2)」もぜひご覧ください！はじめに TURINGで働いている木更津高専の越智です。TURINGでは「We Overtake Tesla」を目標に掲げて、完全自動運転EVの開発・製造を行っています。 TURINGでは、社内で使っている自動運転ソフトウェアにおいて、画像処理部分のライブラリをOpenCVからNVIDIA Performance Primitives(NPP)に変更するプロジェクトに取り組んでいました。これによって、CPUで動かしていた画像処理をGPUバックエンドで動かすことができるようにな
- OpenCV
- NPP
- あとで読む
- GPU
- 画像処理
- CPU
- 画像
- コンピュータ
- 研究
Civitai: The Home of Open-Source Generative AI
- 121 users
- civitai.com
- テクノロジー
- 2022/11/12
All sorts of cool pictures created by our community, from simple shapes to detailed landscapes or human faces. A virtual canvas where you can unleash your creativity or get inspired. All sorts of cool pictures created by our community, from simple shapes to detailed landscapes or human faces. A virtual canvas where you can unleash your creativity or get inspired.
DALL·E: Creating images from text
- 114 users
- openai.com
- テクノロジー
- 2021/01/06
We’ve trained a neural network called DALL·E that creates images from text captions for a wide range of concepts expressible in natural language. DALL·E is a 12-billion parameter version of GPT-3 trained to generate images from text descriptions, using a dataset of text–image pairs. We’ve found that it has a diverse set of capabilities, including creating anthropomorphized versions of animals and
- AI
- 機械学習
- 画像処理
- GPT-3
- image
- OpenAI
- technology
- deep learning
- DeepLearning
- あとで読む
畳み込み+Attention=最強？最高性能を叩き出した画像認識モデル「CoAtNet」を解説！ - Qiita
- 108 users
- qiita.com/omiita
- テクノロジー
- 2021/11/16
1. CoAtNetの解説 1.1 畳み込みとSAの復習コンピュータビジョンで用いられている大きな仕組みに畳み込みとSelf-Attention(=SA)があります。畳み込みではEfficientNet、SAではViTが有名ですね。EfficientNetについてはこちらの拙著記事、ViTについてはこちらの拙著記事をご参照ください。CoAtNetでは、この畳み込みとSAの良いとこ取りをしたブロックを作ることが一番の目的になっています。畳み込みとSAの式を復習しておきましょう。ここでは畳み込みの中でもDW(=Depthwise)畳み込みを取り扱います。そして、本論文では分かりやすさを優先しているのか、式の細かいところ(SAにおけるqkvの埋め込みなど)はあえて排除しているように見えるので、理解しやすいです。 1.1.1 畳み込みの式本論文では、畳み込みの中でもDW(=Depthwise)
- 機械学習
- あとで読む
- AI
- deeplearning
- Qiita
- 画像
Make-A-Video by Meta AI
- 103 users
- makeavideo.studio
- 学び
- 2022/09/29
Make-A-Video is a state-of-the-art AI system that generates videos from text. Make-A-Video research builds on the recent progress made in text-to-image generation technology built to enable text-to-video generation. The system uses images with descriptions to learn what the world looks like and how it is often described. It also uses unlabeled videos to learn how the world moves. With this data, M
- AI
- 人工知能
- 画像生成
- 動画
- あとで読む
- video
- 機械学習
- meta
- DeepLearning
AI×医用画像の現状と可能性_2022年版/AI×medical_imaging_in_japan_2022
- 100 users
- speakerdeck.com/tdys13
- テクノロジー
- 2022/12/29
AI×医用画像の現状と可能性_2020年上半期版/AI×medical imaging in japan (first half of 2020)
- AI
- あとで読む
- 画像
- 研究
- 機械学習
- 気になるよ
Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold
- 77 users
- vcai.mpi-inf.mpg.de
- テクノロジー
- 2023/05/19
Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold Abstract Synthesizing visual content that meets users' needs often requires flexible and precise controllability of the pose, shape, expression, and layout of the generated objects. Existing approaches gain controllability of generative adversarial networks (GANs) via manually annotated training data or a prior 3D
- AI
- GAN
- 画像生成
- 画像
- あとで読む
- generator
- 論文
GitHub - chenfei-wu/TaskMatrix
- 71 users
- github.com/chenfei-wu
- テクノロジー
- 2023/03/09
Now TaskMatrix supports GroundingDINO and segment-anything! Thanks @jordddan for his efforts. For the image editing case, GroundingDINO is first used to locate bounding boxes guided by given text, then segment-anything is used to generate the related mask, and finally stable diffusion inpainting is used to edit image based on the mask. Firstly, run python visual_chatgpt.py --load "Text2Box_cuda:0,
- chatgpt
- AI
- microsoft
- NLP
- image
- github
ブラウザで動くリアルタイム画像/音声処理アプリをStreamlitでサクッと作る
- 67 users
- zenn.dev/whitphx
- テクノロジー
- 2021/12/09
Overview 画像/音声処理をリアルタイムで行う、Webブラウザから利用できるアプリをStreamlitで作る方法を解説します。 StreamlitのおかげでPythonだけでwebアプリが作れます。さらに、一番簡単な例なら10行程度のPythonコードで、webカメラを入力にしてブラウザから利用できるリアルタイム画像処理アプリケーションになります。 Webベースなのでクラウドにデプロイでき、ユーザに簡単に共有して使ってもらえ、UIもイマドキで綺麗です。人物・物体検知、スタイル変換、画像フィルタ、文字起こし、ビデオチャット、その他様々な画像・音声処理の実装アイディアをデモ・プロトタイピングするのになかなかハマる技術スタックではないでしょうか。 Webブラウザから利用できる物体検知デモの例。実行中に閾値をスライダーで変えられる。オンラインデモ🎈 同様にスタイル変換デモの例。実行中にモ
- Streamlit
- python
- あとで読む
- 画像処理
- ブラウザ
- webサービス
- web
- 画像