タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。
画像生成AIのStable Diffusionは「潜在拡散モデル」と呼ばれるAIで、テキストを入力するだけで高精度な画像を生成することが可能です。このStable Diffusionに使われている「VAE」に致命的な欠陥があるという報告が、オンライン掲示板サイトのRedditに投稿されています。 The VAE used for Stable Diffusion 1.x/2.x and other models (KL-F8) has a critical flaw, probably due to bad training, that is holding back all models that use it (almost certainly including DALL-E 3). : StableDiffusion https://old.reddit.com/r/StableD
以前の記事でオートエンコーダによる異常検知は古い!と書いてしまいましたが、 最近は進化しているようです。 今回ご紹介する論文は、損失関数を工夫することで通常のオートエンコーダよりも 異常検知能力を上げる手法です。 ※本稿の図は論文(Improving Unsupervised Defect Segmentation by Applying Structural Similarity To Autoencoders)より引用しています。 論文の概要 通常のオートエンコーダによる異常検知は、微小な異常は捉えられない。 そこで、一枚の画像に対し小さな枠を用意して「輝度」、「コントラスト」、「構造情報」の類似度を計算して異常検知を行う。 本手法を使うことで、通常のオートエンコーダやVAEの異常検知と比べて、AUCで大幅な向上が見られた。 異常部分の可視化についても、通常のオートエンコーダよりも優れ
本記事はDMMグループ Advent Calendar 2019の1日目の投稿です。 どうもこんにちは。DMMで動画の配信基盤を作っているチームでプロダクトオーナーをやっているyanoshiです。 数日前に見たらアドベントカレンダーの1日目が開いてるじゃないですか!ってことで確保した1日目です。私なんかが1日目で良かったのだろうか。 どんな話を書こうかなと思ったのですが、メモ書き程度にちょっと調べたいことがあったのでそれについて書きたいと思います。 動画コーデックの話です。 注意(お約束): 本記事の内容は所属する組織との関係は一切ありません。全て筆者の個人による調査/私的見解であり個人利用の範疇による技術的検証となっています。 また本稿の内容を実施して発生したあらゆる損害を筆者は一切保証しません。 概要 本稿ではAWSの c4.8xlarge インスタンスを用意し、下記のエンコーダーそれ
ウェブブラウザ「Google Chrome」の最新安定版であるバージョン90がリリースされました。WebRTCにAV1エンコーダーが採用されたことで、ビデオ会議を行う際に使用する帯域の量が減少しています。 New in Chrome 90 - Chrome Developers https://developer.chrome.com/blog/new-in-chrome-90/ New in Chrome 90: Overflow Clip, Permissions Policy, the Declarative Shadow DOM, and more! - YouTube ◆AV1エンコーダー搭載 圧縮率が高く、少ない帯域で高画質の映像を送受信できる「AV1」エンコーダーが搭載され、WebRTCを用いたビデオ会議の品質が向上しています。 ◆はみ出した要素の表示方法の指定に「clip」
変分オートエンコーダを用いた気象データ画像の生成 Generating Weather Data Images Using Variational AutoencoderDeepLearningKerasAutoencoder生成モデル気象データ 1. はじめに 画像生成の分野などで変分オートエンコーダ(Variational Autoencoder)が用いられる場合があります。 Variational Autoencoder(以下、VAE)については既に多くの解説がなされています。 理論的なところは下記を参考にさせて頂きました。 Variational Autoencoder徹底解説 この手法をいくつかの気象データに適用してみました。 2. 手法 2.1 ネットワーク 下記のサイトのソースをほぼ流用させて頂きました。 【Python】Keras で VAE 入門 ネットワークは入力画像か
はじめに この記事は キーボード #3 Advent Calendar 2021 の1日目の記事です。 キーボード #1 Advent Calendar 2021 の13日目と KEEB_PD Advent Calendar 2021 の15日目 にも記事を書きましたので、よければ御覧ください。 cyberdeckarsenal.hatenablog.com cyberdeckarsenal.hatenablog.com キースイッチ以外の入力部品について、自分用のメモを兼ねて簡単な紹介・入手先・採用実績などをまとめた記事となります。 採用実績として紹介したキーボードは参考になればと思い基盤データが公開されているものを中心にピックアップ。 ポインティング・スティックなど他にも紹介できる部品はあるのですが、今回は自分が調べきれてないものありそこら辺は割愛。 前提としてPro Micro・QM
ImageOptimプロジェクトから生まれた高画質なGIFエンコーダ「gifski」を採用したmacOS用アプリ「Gifski」がトリミングやUIを刷新したv2.0へアップデートしています。詳細は以下から。 Gifskiは元GoogleのエンジニアSindre Sorhusさんが2018年02月に公開したオープンソースのGIFエンコーダアプリで、エンコードエンジンにはイギリスのKornelさんがMac用画像圧縮アプリ「ImageOptim」のサイドプロジェクトとして開発した高画質GIFエンジン「gifski」を採用していますが、このGifskiがバージョン2.0へメジャーアップデートしています。 Gifski2 You are no longer asked where to save the GIF right away. Gifski will now convert the vide
初めに AutoEncoder(自己符号器)というのは機械学習の中でも、教師無し学習の一種です。応用例としては異常検知が知られています。 今回はCNN(畳込ニューラルネットワーク)を使用してmnistに対するAutoEncoedrを試してみたいと思います。 何番煎じかわからないですが、Pytorchを勉強した備忘録です。 今回参考にしたのはこちら AutoEncoderについて 大雑把なAutoEncoderの理解は以下になります。 入力データと出力データの内容がイコールになるように、エンコーダとデコーダを調整します。 入力データが普段と異なるデータの場合、うまく入力データとイコールになる出力データを作ることができません。 そのため、入力データと出力データの差が多い場合、異常と判断することができる(らしいです)。 実践 環境は python ver3.6.9 pytorch ver1.3.
YouTubeが、サポートされているエンコーダーを使うことでHDRムービーをライブ配信できるようになったことを2020年12月8日に発表しました。Mirillisが開発するソフトウェアエンコーダー「Action!」が互換性のあるエンコーダーとして公式に紹介されていたので、実際にAction!でHDRムービーをそのままライブ配信できるのかを確かめてみました。 Action! - スクリーン&ゲームプレイ録画ソフトウェア https://mirillis.com/ja/products/action.html YouTubeのライブ配信がHDRに対応したことについては、以下の記事で報じています。 YouTubeでHDR映像のライブ配信が可能に - GIGAZINE なお、YouTubeでAction!を使ってHDRムービーをライブ配信するには、「NVIDIA GeForce GTX 10シリー
この1年で一気に拡大したライブ配信。エンコーダの選択・設定ゆえの事故や、みていてもっと画質が向上できるのではと思う配信もまだまだあります。新規参入したライブ配信プラットフォームでは、推奨されるエンコーダの設定などの情報が不足していたり、そもそもプラットフォーム側の担当者、技術者もよく理解していないケースも存在します。 いろんな配信現場で、「エンコーダって何がいいんですか?」と訊かれることも多く、また技術的な裏付けなく“なんとなく”配信管理をしているケースも散見されるため、基本に立ち返って、ライブ配信におけるエンコーダについて、まとめてみたいと思います。 筆者もすべてのエンコーダを触ったことがあるわけでもないですし、たまにレンタルでいじるくらいの機材もあるので、ここでは「これを使って、こう設定すれば間違いない」というような話ではなく、あくまでエンコーダ選択や設定の背景となる基本的な知識や、ト
LEDアレイとタッチディスプレイ搭載のロータリーエンコーダー「Rotary」がKickstarterに登場し、わずか15分で目標額の調達に成功している。 Rotaryは、32RGB LEDアレイと1.28インチのLCDタッチディスプレイを搭載した、オープンソースのロータリーエンコーダーだ。直感的なユーザーインターフェースやビジュアルエフェクトの作成、GPIOを使った機能の拡張などができる。 ESP32ベース、Raspberry Pi Pico Wベース、Raspberry Pi HATベースの3タイプを提供し、それぞれのエコシステムに対応する。LEDアレイとタッチディスプレイをプログラミングすることで、メニューのナビゲートや設定の調整、パラメーターのコントロールを正確に実行できる。 LEDアレイは目を引くビジュアルエフェクトやアニメーションを、タッチディスプレイはユーザーフレンドリーなイン
Intel、ARC AシリーズGPUを発表 - Mobile向けDiscrete GPU、なんとAV1エンコーダ搭載 Intelは米国時間の3月30日、モバイル向けのDiscrete GPUとしてIntel ARC Aシリーズ5製品を発表した。この内容を簡単にご紹介したい。 元々IntelはTwitterのIntelGraphicsアカウントで3月15日にこんなMentionを出しており、3月30日に何かしらが出る事はアナウンスされていたのだが、少なからぬユーザーが期待していたと思われるDesktop向けのGPUではなく、Mobile向けが先行する事になった。 さてそのMobile向けであるが、CPUと同じようにArc 3/5/7の3種類のSKUが用意されることになった(Photo01)。具体的なSKU一覧がこちら(Photo02)。まずA350MとA370Mが本日出荷開始となっており、よ
最近は Polars が気に入っていて、主にプライベートで使っている。 ただ、エコシステムという観点では Pandas に比べて発展途上の段階にあると思う。 そこで、今回は発展の一助として「Shirokumas」というライブラリを作ってみた。 github.com どんなライブラリかというと、現時点の機能では Pandas の category_encoders 1 のサブセットに相当する。 より具体的には、scikit-learn のスタイルで書かれた特徴量抽出をするための基本的なエンコーダを実装してある。 特徴としては、同じ処理を完了するまでにかかる時間が短いこと。 Pandas のエコシステムで使われるフレームワークとパフォーマンスを比較したグラフを以下に示す。 グラフから、比較対象の概ね 1/10 以下の時間で処理を完了できることが分かる。 詳細については、このエントリの後半に記述
パソコン関連の日常トラブルや問題の解決をしながらついでに通販で購入した物の紹介などもしていきます!(各種設定は自己責任) OBS Studioでは主に3つのエンコーダを選択することが出来るので各エンコーダの特性とおすすめの録画設定を解説します。 エンコーダの解説の前にレート制御の解説、レート制御にも色々種類があって、各自の使い方に適したものを選ぶことで高画質かと高圧縮化が出来る。 CBR 固定ビットレート方式(値が高いほど高画質) メリット:ビットレートを高めの値に設定しておくことで高画質の動画を撮影出来ることと、再生負荷が軽いこと。それと編集ソフトでの音ズレが比較的起きづらい。 デメリット:常に同じビットレートを消費し続けるので動きの少ないシーンでは無駄に容量を消費する。 ABR 平均ビットレート方式(値が高いほど高画質) メリット:後述するVBRとCBRのいいとこ取りをしたような仕様で
NVIDIA Jetson Xavier NX System-on-Module2160p30 が 2 ストリームつまりですね、 VP9 で 4K@30 が 2 本配信できるんですこの Jetson Xavier NX さん … 。これ革命的ですよ本当に。 VP9 で 4K はビットレートを VP8 や H.264 よりも約 50% 抑えられると言われています。さらになにより VP9 はブラウザで見れます。H.265 は見れません。 もうなんというか NVIDIA Jetson Xavier NX は WebRTC + VP9 にとって夢のような端末です。価格も 399 ドル (大量発注時)という感じで現実的です。 Jetson Xavier NX は Nano とサイズとピンが互換ありというのも素晴らしいです。つまり Jetson Nano を今は使っておけば、今後 Jetson Xav
Mac用GIFアニメ・エンコーダー「Gifski」のWindows GUI版がリリースされています。詳細は以下から。 Gifskiシリーズはイギリスで画像処理アルゴリズムを研究し、Mac用・画像圧縮ツールImageOptimなどを公開しているKornel Lesińskiさんがオープンソースで開発しているGIFアニメーション作成ツールですが、このGifskiのWindowsアプリがリリースされています。 Experimental GUI for Windows. it’s very basic and unpolished. It only supports PNG frames, no video. No refunds! リリースノートより Gifskiはlibimagequant (pngquant)をベースに高品質のGIFアニメが作成できるため、YouTubeを埋め込めないGitH
この記事の賞味期限は切れています。掲載内容や情報が古い可能性があります。 LDACに続くAOSP寄贈 Android Open Source Project (AOSP) にはすでにSONYが開発したLDACコーデックのエンコーダーが寄贈されており、Android搭載スマホは特に理由がない限りすべてLDACコーデック対応となっています。 LDACに続き、今回QualcommのaptX・aptX HDエンコーダーもさらなるオープンソース化が進められていることが判明しました。 現時点でライセンスは不明です。 2259745 Add encoder for aptX and encoder for aptX HD source code.にて、Qualcommのモバイルオープンソースプラットフォームにフォーカスした完全子会社「Qualcomm Innovation Center(QuIC)」によ
.app 1 .dev 1 #11WeeksOfAndroid 13 #11WeeksOfAndroid Android TV 1 #Android11 3 #DevFest16 1 #DevFest17 1 #DevFest18 1 #DevFest19 1 #DevFest20 1 #DevFest21 1 #DevFest22 1 #DevFest23 1 #hack4jp 3 11 weeks of Android 2 A MESSAGE FROM OUR CEO 1 A/B Testing 1 A4A 4 Accelerator 6 Accessibility 1 accuracy 1 Actions on Google 16 Activation Atlas 1 address validation API 1 Addy Osmani 1 ADK 2 AdMob 32 Ads
上記の内容でプログラムを作ってみました。 //ライブラリ読み込み #include <MsTimer2.h> //タイマー割込み用ライブラリ #include <Encoder.h> //ロータリーエンコーダ用ライブラリ //ロータリーエンコーダのA相とB相を接続するピン番号を設定 const int pinA = 2; const int pinB = 3; Encoder myEnc(pinA, pinB); //ロータリーエンコーダの現在位置と前回位置を保持する変数 volatile long oldPosition = 0; volatile long newPosition = 0; //LEDを接続するピン番号を設定 const int ledPin = 9; // LEDの明るさ(PWM値)を保持する変数 volatile int brightness = 0; //ロータリ
CPUよりも7倍以上速いことも!?RadeonのGPUエンコーダーでアドビソフトの動画エンコード速度を検証 RadeonのGPUエンコーダーで Premiere ProやMedia Encoderの出力時間が激減するって本当? 動画編集を行なう者にとって、処理時間の短縮はかなり重要な要素だ。とりわけ最終成果物を得るためのエンコード作業は、作品の尺が長く、画質を求めるほどに長くなる。動画編集をするならある程度コア数の多いCPUが必須なことを考えると、最近であれば多コアでコスパに優れるAMDのRyzenやRyzen Threadripperを選ぶのはごく自然の流れだ。 しかし、こと動画エンコードの処理速度でいえば、CPUよりもGPUの方がずっと高速に処理できる。今時のGPUに搭載されているハードウェアエンコード機能は、ゲーム画面をCPUパワーをほとんど使わずに、高画質エンコードする機能を備えて
近年発売されたNVIDIA製GPUの多くは、ハードウェアエンコーダー「NVENC」が利用できます。これは、動画のエンコードをGPU内蔵の専用ハードウェアを用いて行うもので、CPUで処理を実行するソフトウェアエンコーダーより高速にエンコードが実行できます。 このNVENCは、「GeForce RTX 20シリーズ」および「GeForce GTX 16シリーズ」が採用したGPUアーキテクチャ「Turing」世代にて、H.265形式でのBフレームをサポートしました。これにより、CPUを圧倒するエンコード速度に加え、圧縮率も向上したことでNVENCの実用性がさらに高まっています。 Bフレームとは、差分情報だけを保持したフレームで、再生時には手前のフレームと合成することで画像として成立します。これにより、各フレームに画像としての完全な情報を保持するよりも情報量を減らせるため、同じ画質ならより低容量、
忘備録みたいなもの
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く